DeepMind為人工智能聊天機器人開發"事實核查器"以治愈幻覺


人工智能聊天機器人最受人詬病的行為之一就是所謂的幻覺,即人工智能在令人信服地回答問題的同時,卻向你提供與事實不符的信息。簡單地說,就是人工智能為滿足用戶的需求而胡編亂造。

1.png2.png

在使用生成式人工智能創建圖片或視頻的工具中,這就不是一個問題。最後,最近才從 OpenAI 離職的知名專傢安德烈-卡爾帕西(Andrej Karpathy)竟然說,產生幻覺的現象是生成式人工智能的底層技術--大型語言模型(LLM)的最大特點。

但是,在以文本為重點、基於 LLM 的聊天機器人中,用戶希望所提供的信息與事實相符,因此幻覺是絕對不允許出現的。

防止人工智能產生幻覺是一項技術挑戰,而且並非易事。不過,據Marktechpost報道,Google DeepMind 和斯坦福大學似乎找到某種變通辦法。

研究人員提出一種基於 LLM 的系統--"搜索增強事實性評估器"(Search-Augmented Factuality Evaluator,簡稱 SAFE),它可以對人工智能聊天機器人生成的長格式回復進行事實檢查。他們的研究成果連同所有實驗代碼和數據集已作為預印本發表在 arXiv 上。

系統通過四個步驟對答案進行分析、處理和評估,以驗證其準確性和真實性。首先,SAFE 將答案分割成單個事實,對其進行修改,並與Google搜索結果進行比較。系統還會檢查各個事實與原始問題的相關性。

圖片.png

為評估 SAFE 的性能,研究人員創建一個包含約 16,000 個事實的數據集 LongFact。然後,他們在四個不同系列(Claude、Gemini、GPT、PaLM-2)的 13 個 LLM 中測試該系統。在 72% 的情況下,SAFE 提供與人類註釋者相同的結果。在存在分歧的情況下,SAFE 的正確率為 76%。

此外,研究人員還聲稱,使用 SAFE 的成本比人工註釋員或事實檢查員低 20 倍,因此提供一個經濟可行的解決方案,而且可以大規模應用。


相關推薦

2023-03-30

據報道,OpenAI不僅憑借人工智能聊天機器人成功超越谷歌,還意外促成另外一件原本幾乎不可能發生的事情:這迫使Alphabet旗下谷歌以及DeepMind的兩大人工智能研究團隊暫時擱置多年的恩怨,決定聯手追趕OpenAI。知情人士透露,

2023-02-28

pchat宣佈自己的聊天機器人MyAI,從而進入這一趨勢。這個人工智能伴侶是Snapchat+服務用戶的一項實驗性功能。目前註冊費用為每月3.99美元。My AI可以為你的閨蜜推薦生日禮物,為長周末的徒步旅行做計劃,為晚餐推薦食譜,甚至

2023-11-22

pic推出一款新的聊天機器人。Anthropic是一傢由Google支持的人工智能初創公司,由OpenAI的前工程師創立。Anthropic宣佈,其聊天機器人Claude2.1的最新版本可以為Pro級別用戶一次性消化多達20萬個詞元,相當於500多頁的資料。該公司還

2023-04-18

據報道,谷歌母公司Alphabet旗下AI實驗室DeepMind的CEO戴密斯·哈薩比斯(DemisHassabis)近日在接受采訪時表示,未來有一天也許AI能擁有自我意識。哈薩比斯認為:“意識到底是什麼?至今哲學傢並沒有給出明確的定義,如果指的是

2023-03-10

的東西對翻譯工具也會有很大的幫助。Braun將GPT-4描述為人工智能領域的遊戲規則改變者,它將向著擁有人類的解釋能力這一目標更進一步。顯然,網友對GPT-4的發佈充滿期待。有網友還做一張GPT-4和GPT-3參數對比圖。OpenAI創始人Sa

2024-02-28

透露,該項目不僅僅是一個簡單的語言學習模型或生成式人工智能工具。2月23日,有關蘋果員工正在測試的一款名為"Ask"的新工具的少量細節浮出水面。此後,我們獲得更多有關該項目的信息。這位泄密者聲

2023-01-20

人才和資本用於我們的最高優先事項。"這位CEO指出,人工智能將是未來的一個關鍵領域。Google通過2014年收購專註於研究的人工智能實驗室DeepMind等投資,在人工智能領域取得重要的早期領先優勢。但最近幾個月,該公司被Ope

2023-11-04

witter)宣佈,該公司將於本周六向少數用戶推出其生成式人工智能聊天機器人。我們將不得不等待更多具體細節,因為馬斯克隻透露非常籠統的描述:"在某些重要方面,(該人工智能)是目前最好的"。早在

2022-12-14

ChatGPT的推出促使一些人猜測,人工智能聊天機器人可能很快取代傳統的搜索引擎。但Google的高管們表示,這項技術仍然太不成熟,不能過早到達用戶面前,問題包括聊天機器人的偏見、內容毒性,以及它們簡單地編造信息的傾

2023-04-11

監管機構已經準備對AI技術進行幹預。歐盟提議立法監管人工智能,意大利上周暫時禁止ChatGPT。在美國,白宮和國會也在尋求對AI更強有力的監管。更令外界擔憂的是,上個月底,微軟、Meta、Google、亞馬遜和Twitter等公司都裁減

2023-02-28

克在重回世界首富寶座後有新行動,據悉其近幾周正在與人工智能研究人員接洽,商討成立新的研究實驗室,開發ChatGPT的替代品。ChatGPT是初創公司OpenAI開發的聊天機器人,近期備受市場矚目,馬斯克曾是OpenAI創始人之一,但是

2023-02-20

近日,全球最大律所Allen&Overy宣佈與美國人工智能初創公司Harvey公司合作,引入其對話式人工智能聊天機器人,將一些法律文件的起草和客戶案例研究自動化,用於法律服務。據悉,Allen&Overy律師事務所是英國第一個

2024-05-26

之後的規模,將至少是目前最大GPU 集群的4倍。英偉達在人工智能數據中心芯片市場占據主導地位,但由於需求量大,很難獲得。馬斯克希望在2025年秋天之前讓這臺計劃中的超級計算機開始運行,並補充說,xAI可能與甲骨文合作

2023-02-03

據CNBC本周報道,Google已經開始測試一種名為ApprenticeBard的人工智能聊天機器人,它與ChatGPT類似,後者是一項在線服務,在許多方面比Google搜索更有用。ChatGPT使用被稱為大型語言模型的人工智能技術,在互聯網上的大量數據中進