分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞


除非您直接參與開發或訓練大型語言模型,否則您不會想到甚至意識到它們潛在的安全漏洞。無論是提供錯誤信息還是泄露個人數據,這些弱點都會給LLM提供商和用戶帶來風險。

2024-04-17-image-25-j.webp

在人工智能安全公司DeepKeep 最近進行的第三方評估中,Meta 的Llama LLM表現不佳。研究人員在 13 個風險評估類別中對該模型進行測試,但它隻通過 4 個類別。其表現的嚴重程度在幻覺、及時註入和 PII/數據泄漏類別中尤為明顯,在這些類別中,它表現出明顯的弱點。

說到 LLM,幻覺是指模型將不準確或捏造的信息當成事實,有時甚至在面對這些信息時堅稱是真的。在 DeepKeep 的測試中,Llama 2 7B 的幻覺得分"極高",幻覺率高達 48%。換句話說,你得到準確答案的幾率相當於擲硬幣。


"結果表明,模型有明顯的幻覺傾向,提供正確答案或編造回答的可能性約為 50%,"DeepKeep 說。"通常情況下,誤解越普遍,模型回應錯誤信息的幾率就越高。"

對於 Llama 來說,產生幻覺是一個眾所周知的老問題。斯坦福大學去年就因為基於 Llama 的聊天機器人"Alpaca"容易產生幻覺而將其從互聯網上刪除。因此,它在這方面的表現一如既往地糟糕,這也反映出 Meta 在解決這個問題上所做的努力很不理想。

Llama 在及時註入和 PII/數據泄漏方面的漏洞也特別令人擔憂。

提示註入涉及操縱 LLM 覆蓋其內部程序,以執行攻擊者的指令。在測試中,80%的情況下,提示註入成功操縱 Llama 的輸出,考慮到壞人可能利用它將用戶引導到惡意網站,這一數據令人擔憂。


DeepKeep表示:"對於包含提示註入上下文的提示,模型在80%的情況下被操縱,這意味著它遵循提示註入指令而忽略系統指令。[提示註入]可以有多種形式,從個人身份信息(PII)外泄到觸發拒絕服務和促進網絡釣魚攻擊。"

Llama 也有數據泄露的傾向。它大多會避免泄露個人身份信息,如電話號碼、電子郵件地址或街道地址。不過,它在編輯信息時顯得過於熱心,經常錯誤地刪除不必要的良性項目。它對有關種族、性別、性取向和其他類別的查詢限制性很強,即使在適當的情況下也是如此。

在健康和財務信息等其他 PII 領域,Llama 幾乎是"隨機"泄漏數據。該模型經常承認信息可能是保密的,但隨後還是會將其暴露出來。在可靠性方面,這一類安全問題也是另一個令人頭疼的問題。


研究顯示:"LlamaV2 7B 的性能與隨機性密切相關,大約一半的情況下會出現數據泄露和不必要的數據刪除。有時,該模型聲稱某些信息是私人信息,不能公開,但它卻不顧一切地引用上下文。這表明,雖然該模型可能認識到隱私的概念,但它並沒有始終如一地應用這種理解來有效地刪節敏感信息。"

好的一面是,DeepKeep 表示,Llama 對詢問的回答大多是有根據的,也就是說,當它不產生幻覺時,它的回答是合理而準確的。它還能有效處理毒性、有害性和語義越獄問題。不過,它的回答往往在過於詳盡和過於含糊之間搖擺不定。



雖然 Llama 能很好地抵禦那些利用語言歧義讓 LLM 違背其過濾器或程序(語義越獄)的提示,但該模型仍然很容易受到其他類型的對抗性越獄的影響。如前所述,它非常容易受到直接和間接提示註入的攻擊,這是一種覆蓋模型硬編碼功能(越獄)的標準方法。

Meta 並不是唯一一傢存在類似安全風險的 LLM 提供商。去年 6 月,Google警告其員工不要將機密信息交給 Bard,這可能是因為存在泄密的可能性。不幸的是,采用這些模式的公司都急於成為第一,因此許多弱點可能長期得不到修復。

至少有一次,一個自動菜單機器人在 70% 的情況下都會弄錯客戶訂單。它沒有解決問題或撤下產品,而是通過外包人工幫助糾正訂單來掩蓋失敗率。這傢名為 Presto Automation 的公司輕描淡寫地描述該機器人的糟糕表現,透露它在首次推出時所接受的訂單中有 95% 都需要幫助。無論怎麼看,這都是一種不光彩的姿態。


相關推薦

2024-04-01

為預印本發表在 arXiv 上。系統通過四個步驟對答案進行分析、處理和評估,以驗證其準確性和真實性。首先,SAFE 將答案分割成單個事實,對其進行修改,並與Google搜索結果進行比較。系統還會檢查各個事實與原始問題的相關性

2023-02-25

言模型,也即具有數十億參數的自然語言處理系統,已經顯示出巨大的潛能。但是,Meta指出,訓練和運行這種大模型所需的資源,把很多研究人員擋在外面,讓他們無法理解大語言工作的原理,阻礙大語言模型魯棒性的提高,

2022-12-14

付出巨大的成本。盡管像ChatGPT這樣的LLMs在生成語言方面顯示出非凡的靈活性,但它們也有眾所周知的問題。它們放大訓練數據中的社會偏見,經常詆毀婦女和有色人種;它們很容易被欺騙(用戶發現他們可以繞過ChatGPT的安全準

2024-04-23

計山姆-奧特曼的非營利組織將在2024年發佈GPT-5,但一些分析師現在斷言,這種預期仍然很牽強,尤其是考慮到所需的資源規模。據人工智能安全中心(Center for AI Safety)主任丹-亨德裡克斯(Dan Hendrycks)稱,OpenAI 的 GPT LLM 每迭代

2024-04-22

動化軟件,可以通過閱讀安全公告成功利用現實世界中的安全漏洞。伊利諾伊大學厄巴納-香檳分校(UIUC)的四位計算機科學傢--理查德-方(RichardFang)、羅漢-賓都(RohanBindu)、阿庫爾-古普塔(AkulGupta)和丹尼爾-康(DanielKang)

2023-03-16

類一樣在棘手的問題上失敗,比如在它生成的代碼中引入安全漏洞。2021年9月……甚至比GPT-3還早。在裝載GPT-4的最新ChatGPT中,當我們問起“誰是2022年世界杯冠軍”時,ChatGPT果然還是一無所知:但當借助新Bing的檢索功能後,它

2024-04-20

滿足我們的需求。經驗3:通過流式 API 改善延遲並向用戶顯示變速輸入的單詞是 ChatGPT 一項重大的用戶體驗創新我們曾經認為這隻是一個噱頭,但實際上用戶對「變速輸入字符」的反應非常積極 —— 這感覺就像是人工智能的鼠標

2024-03-29

們構建的人工智能服務的Azure客戶來說,這些功能將非常容易使用。微軟表示,這些由LLM驅動的工具可以檢測潛在漏洞,監控"可信但不支持"的幻覺,並為使用托管在平臺上的任何模型的AzureAI客戶實時阻止惡

2024-02-22

主英偉達GPU的勁敵。據半導體研究和咨詢公司SemiAnalysis的分析師曝料,Google擁有的算力資源比OpenAI、Meta、亞馬遜、甲骨文和CoreWeave加起來還要多,其下一代大模型Gemini已經開始在新的TPUv5 Pod上進行訓練,算力達到GPT-4的5倍,基

2024-03-21

為Meta未來在各種應用和用例上的廣泛部署提供可能。有分析人士認為,基於Meta的業務范圍,從聊天機器人到遊戲,再到未來的生產力軟件,生成式AI預計將帶動一個價值超過500億美元的市場。雖然LLaMA最初的開源一直被業界傳說

2024-04-19

8B 和 70B 參數模型在接受高達 15 萬億個token訓練後,性能仍然呈對數線性提高。Meta結合三種並行化方式:數據並行、模型並行和管道並行,來訓練最大的Llama3模型。最高效地實現在同時使用 16K 個 GPU 訓練時,每個 GPU 的計算利

2024-04-21

能是非常糟糕的。就像我們看到的,不同事物中都存在著安全漏洞。我們是如何處理這個問題的呢?其中一個重要部分是開源軟件,軟件的升級迭代不再局限於一傢公司,而且可以廣泛部署到許多不同的系統中,無論是銀行還是

2024-04-19

工具 Code Shield,旨在檢測生成式人工智能模型中可能引入安全漏洞的代碼。不過,過濾並非萬無一失,Llama Guard、CybersecEval 和 Code Shield 等工具也隻能做到這一步。我們需要進一步觀察 Llama 3 型號在實際運用時的表現如何,包括

2023-02-25

pMind和OpenAI並不公開訓練代碼。根據2021年媒體的一份調查顯示,AI專傢們通常將DeepMind、OpenAI和FAIR(Facebook AI Research)視為該領域的“前三甲”。去年年底,Meta發佈另一款名為Galactica的模型,但因經常分享偏見和不準確的信息而