Google員工對Bard進行單條式的評估、修正訓練 確保給出高質量答案


2月25日消息,不久前,谷歌在內部發起代號為“鬥狗”的活動,要求公司所有員工每周用兩到四個小時幫助測試和改進其新的人工智能搜索聊天機器人Bard。就在Bard發佈前不久,微軟也剛剛發佈采用ChatGPT聊天機器人背後技術的新版必應搜索引擎,它允許用戶就幾乎任何話題進行多輪對話。

然而,在Bard被發現提供一個錯誤的答案後,對於谷歌的質疑也逐漸浮現。同樣,隨著越來越多的人測試新必應,他們的聊天機器人也遇到問題,比如其傾向於好鬥的行為。

像Bard和ChatGPT這樣的AI聊天機器人,可以通過接受人類編寫的文本訓練來模仿人類對話,這就解釋為什麼必應的回復有時候看起來有些情緒化和不可預測。畢竟,被訓練得像人一樣的機器人也很容易犯下人類的錯誤。

這些聊天機器人最初通過攝取大量的訓練數據來完成大部分學習。此外,Bard項目的產品主管傑克·克勞奇克(Jack Krawczyk)在一份備忘錄中告訴員工,谷歌的研究發現,為用戶查詢添加高質量的響應“顯著”提高其AI模型的質量。

據多位AI專傢透露,谷歌員工可能會為Bard編寫高質量的答復以改進其模型。這些專傢已經在AI和大型語言模型領域完成廣泛的研究。

克勞奇克讓員工向Bard詢問他們擅長的領域,比如最喜歡的興趣愛好。然後,他們被要求評估Bard的答案,以確保這些答案符合人們的期望,長度和結構也都要合理。如果某個答案過於人性化、存在事實錯誤或者沒有任何意義,員工可以重寫答案並提交給Bard的模型訓練。

英屬哥倫比亞大學計算機科學助理教授韋德·施瓦茨(ved Shwartz)表示,要想持續改進Bard,谷歌可以采取監督式學習和強化學習相結合的方式。

其中,監督式學習是第一步,研究人員可以向聊天機器人輸入人類編寫的查詢和答案,直到它學會如何像人類那樣回復。在此基礎上,谷歌可以構建一個強化學習模型,用谷歌員工寫的答案來訓練它,以幫助它理解該公司希望Bard的答案展現哪些價值觀,包括在結構、語氣以及其他方面加以改進。

這個強化學習模型會查看Bard給出的答案,剔除其中不合適的答案,並驗證合格的答案,直到聊天機器人明白它應該如何行事。基本上,來自谷歌員工的“正確”答案將幫助該模型改進。

強化學習模型還可以教會Bard在不談論情感或以其他方式假裝人類的情況下提供信息。第一種模型主要學習基本的寫作技巧,而第二種模型將引導機器按照預期的方向回答問題。

哥倫比亞大學計算機科學教授周宇(音譯)說,有足夠好的答案進行分析,強化學習模型就能知道哪些是合適的答案,哪些是不合適的答案。

確保事實準確性

谷歌始終對推出聊天機器人持謹慎態度,可能是因為其可能對搜索業務利潤產生短期影響,並擔心準確性。谷歌要求員工拒絕回答Bard試圖就金融或健康等敏感話題向用戶提供建議的問題,因為回答錯誤的風險很高。

AI領域始終在努力解決事實準確性問題,OpenAI在1月份發佈更新,以提高ChatGPT在各種話題上對話的準確性。本月在舊金山舉行的一場關於聊天機器人和AI的會議上,Anthropic首席執行官達裡奧·阿莫代(Dario Amodei)表示,他相信隨著模型的改進,聊天機器人將不再編造事實。

雖然訓練有助於提高聊天機器人所生成答案的質量,但施瓦茨表示,她不認為這能夠徹底解決事實準確性的問題。Bard和ChatGPT都有所謂的“幻覺”傾向,這是該行業用來形容聊天機器人編造事實的術語。它們會從網頁上提取內容,有時不可避免地會錯誤地總結這些內容。(小小)


相關推薦

2023-03-22

繼OpenAI發佈ChatGPT、百度發佈文心一言後,終於,Google宣佈將其自傢的對話式AI服務Bard開放內測!Bard是一個獨立的網頁,尚處在實驗階段,官網左上角標註有“Experiment”,目前僅對美國和英國地區開放測試,並將逐步擴展到更多

2023-03-22

面對OpenAI和微軟的步步緊逼,Google終於不再坐以待斃。今日,Google宣佈正式開放旗下ChatGPT競爭對手Bard的公測,首先將面向美國和英國地區啟動。目前這兩個國傢的用戶都可以在bard.google.com上進行排隊等候,隨著測試的推進Bard也

2023-04-05

4月5日消息,谷歌近日推出聊天機器人Bard,並呼籲公司員工進行內部測試,同時也委托許多外部承包商進行評估。然而,一些承包商爆料稱,他們根本沒有足夠的時間來驗證Bard的答案是否正確,最終隻能憑借猜測。在OpenAI聊天

2023-03-22

AIGPT-4發佈、微軟將GPT-4接入Office全傢桶這樣一波碾壓後,Google也有新的動作!剛剛,Google宣佈正式公開發佈其聊天機器人產品Bard。Google表示此舉是為廣泛獲得來自用戶的反饋,以支持其在對話式生成模型賽道上與微軟競爭。據Go

2023-12-07

時代變?迄今為止規模最大,能力最強的Google大模型來。當地時間12月6日,GoogleCEO桑達爾・皮查伊官宣Gemini1.0版正式上線。這次發佈的 Gemini 大模型是原生多模態大模型現在,Google的類 ChatGPT 應用 Bard 已經升級到 Gemini Pro 版本,

2023-05-11

在跟Google矽谷總部一街之隔的ShorelineAmphitheatre露天劇場上,開發者和媒體參會者們早早地聚集於此。相較於過去這兩年人文氣息偏重、重磅產品較少的IO大會,已經拉響紅色警報的Google今年顯然卯足勁,無論還是AI更新還是全新

2023-05-11

Bard全面增強、所有人可用……可以看出,這屆I/O大會,Google是真的憋出不少大招。GoogleI/O2023大會,仿佛又給Google的支持者們打一針強心劑。此前,因為微軟和OpenAI的優異表現,Google已經被唱衰很久。但是,畢竟是做出眾多奠基

2024-04-19

主要平臺上可用,包括雲服務商、API 提供商等。從AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 將無處不在。它也得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平臺支持

2024-04-18

4生成相應的回復。而對於由GPT-4生成的回復,研究團隊還進行人工審核、優化與篩選,並最終獲得240對(指令,響應)樣本。使用這240對樣本訓練過的Yi-34B大模型,在Belle-Eval測試集上錄得高分。Ruozhiba來源的數據集訓練效果遙遙

2023-03-31

Google有大麻煩!外媒爆料說,Bard的訓練數據部分來自ChatGPT。Google可能跳到黃河裡也洗不清。3月29日,外媒TheInformation曝出一個驚天大瓜!Google的離職員工、已跳槽OpenAI的頂級研究員竟然曝出——Bard竟是用ChatGPT的數據訓練的!如

2023-04-14

支持背景。研究人員希望通過這種技術,教會模型使用像Google這樣的外部搜索引擎,“像人類研究人員那樣在他們的答案中引用可靠的來源,並減少對模型訓練期間學到的不可靠的事實性知識的依賴。”Bing Chat 和 Google Bard 已經

2024-04-19

顯示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等測試的得分遠超 Google Gemma 7B 以及 Mistral 7B Instruct。用紮克伯格的話來說,最小的 Llama 3 基本上與最大的 Llama 2 一樣強大。Llama 3 70B 則躋身於頂尖 AI 模型的行列,整體表現全面碾壓 Claude 3 大

2023-02-09

微軟與Google圍繞ChatGPT的這場龍爭虎鬥,以出人意料的方式揭開第一季的結局。北京時間2月8日晚間,Google在巴黎舉行AI發佈會,向外界正式披露聊天機器人產品Bard。作為ChatGPT最重要的挑戰者,Google過去兩周沒少為這場發佈造勢

2023-02-09

微軟與Google圍繞ChatGPT的這場龍爭虎鬥,以出人意料的方式揭開第一季的結局。北京時間2月8日晚間,Google在巴黎舉行AI發佈會,向外界正式披露聊天機器人產品Bard。作為ChatGPT最重要的挑戰者,Google過去兩周沒少為這場發佈造勢