DeepMind為人工智能聊天機器人開發"事實核查器"以治愈幻覺

2024-04-01 發表於業界精選

人工智能聊天機器人最受人詬病的行為之一就是所謂的幻覺，即人工智能在令人信服地回答問題的同時，卻向你提供與事實不符的信息。簡單地說，就是人工智能為滿足用戶的需求而胡編亂造。

在使用生成式人工智能創建圖片或視頻的工具中，這就不是一個問題。最後，最近才從 OpenAI 離職的知名專傢安德烈-卡爾帕西（Andrej Karpathy）竟然說，產生幻覺的現象是生成式人工智能的底層技術--大型語言模型（LLM）的最大特點。

但是，在以文本為重點、基於 LLM 的聊天機器人中，用戶希望所提供的信息與事實相符，因此幻覺是絕對不允許出現的。

防止人工智能產生幻覺是一項技術挑戰，而且並非易事。不過，據Marktechpost報道，Google DeepMind 和斯坦福大學似乎找到某種變通辦法。

研究人員提出一種基於 LLM 的系統--"搜索增強事實性評估器"（Search-Augmented Factuality Evaluator，簡稱 SAFE），它可以對人工智能聊天機器人生成的長格式回復進行事實檢查。他們的研究成果連同所有實驗代碼和數據集已作為預印本發表在 arXiv 上。

系統通過四個步驟對答案進行分析、處理和評估，以驗證其準確性和真實性。首先，SAFE 將答案分割成單個事實，對其進行修改，並與Google搜索結果進行比較。系統還會檢查各個事實與原始問題的相關性。

圖片.png

為評估 SAFE 的性能，研究人員創建一個包含約 16,000 個事實的數據集 LongFact。然後，他們在四個不同系列（Claude、Gemini、GPT、PaLM-2）的 13 個 LLM 中測試該系統。在 72% 的情況下，SAFE 提供與人類註釋者相同的結果。在存在分歧的情況下，SAFE 的正確率為 76%。

此外，研究人員還聲稱，使用 SAFE 的成本比人工註釋員或事實檢查員低 20 倍，因此提供一個經濟可行的解決方案，而且可以大規模應用。

DeepMind為人工智能聊天機器人開發"事實核查器"以治愈幻覺

相關推薦

谷歌與兄弟公司DeepMind拋開恩怨聯手追趕OpenAI

Snapchat+上線由OpenAI開發的GPT聊天機器人名為My AI

OpenAI競爭對手Anthropic升級Claude聊天機器人使其更加實用

DeepMind CEO：AI未來也許會擁有自我意識

GPT-4下周王者登基必應日活破億

蘋果的"Ask"項目可能不僅僅是一個AI輔助支持工具

谷歌在最新一輪科技裁員潮中削減1.2萬個職位

xAI將於本周六向少數用戶展示其聊天機器人

Google以"聲譽風險"為理由不推出ChatGPT的類似聊天機器人產品

AI大賽中谷歌追趕微軟背後：內部員工因倫理擔憂曾試圖阻止

另起爐灶？馬斯克怒批ChatGPT 欲開發替代品

全球最大律所引入法律聊天機器Harvey

馬斯克擬打造xAI “算力超級工廠” 以支持下代聊天機器人Grok

Google正在測試人工智能聊天機器人以回擊ChatGPT挑戰