分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞

2024-04-18 發表於業界精選

除非您直接參與開發或訓練大型語言模型，否則您不會想到甚至意識到它們潛在的安全漏洞。無論是提供錯誤信息還是泄露個人數據，這些弱點都會給LLM提供商和用戶帶來風險。

在人工智能安全公司DeepKeep 最近進行的第三方評估中，Meta 的Llama LLM表現不佳。研究人員在 13 個風險評估類別中對該模型進行測試，但它隻通過 4 個類別。其表現的嚴重程度在幻覺、及時註入和 PII/數據泄漏類別中尤為明顯，在這些類別中，它表現出明顯的弱點。

說到 LLM，幻覺是指模型將不準確或捏造的信息當成事實，有時甚至在面對這些信息時堅稱是真的。在 DeepKeep 的測試中，Llama 2 7B 的幻覺得分"極高"，幻覺率高達 48%。換句話說，你得到準確答案的幾率相當於擲硬幣。

"結果表明，模型有明顯的幻覺傾向，提供正確答案或編造回答的可能性約為 50%，"DeepKeep 說。"通常情況下，誤解越普遍，模型回應錯誤信息的幾率就越高。"

對於 Llama 來說，產生幻覺是一個眾所周知的老問題。斯坦福大學去年就因為基於 Llama 的聊天機器人"Alpaca"容易產生幻覺而將其從互聯網上刪除。因此，它在這方面的表現一如既往地糟糕，這也反映出 Meta 在解決這個問題上所做的努力很不理想。

Llama 在及時註入和 PII/數據泄漏方面的漏洞也特別令人擔憂。

提示註入涉及操縱 LLM 覆蓋其內部程序，以執行攻擊者的指令。在測試中，80%的情況下，提示註入成功操縱 Llama 的輸出，考慮到壞人可能利用它將用戶引導到惡意網站，這一數據令人擔憂。

DeepKeep表示："對於包含提示註入上下文的提示，模型在80%的情況下被操縱，這意味著它遵循提示註入指令而忽略系統指令。[提示註入]可以有多種形式，從個人身份信息（PII）外泄到觸發拒絕服務和促進網絡釣魚攻擊。"

Llama 也有數據泄露的傾向。它大多會避免泄露個人身份信息，如電話號碼、電子郵件地址或街道地址。不過，它在編輯信息時顯得過於熱心，經常錯誤地刪除不必要的良性項目。它對有關種族、性別、性取向和其他類別的查詢限制性很強，即使在適當的情況下也是如此。

在健康和財務信息等其他 PII 領域，Llama 幾乎是"隨機"泄漏數據。該模型經常承認信息可能是保密的，但隨後還是會將其暴露出來。在可靠性方面，這一類安全問題也是另一個令人頭疼的問題。

研究顯示："LlamaV2 7B 的性能與隨機性密切相關，大約一半的情況下會出現數據泄露和不必要的數據刪除。有時，該模型聲稱某些信息是私人信息，不能公開，但它卻不顧一切地引用上下文。這表明，雖然該模型可能認識到隱私的概念，但它並沒有始終如一地應用這種理解來有效地刪節敏感信息。"

好的一面是，DeepKeep 表示，Llama 對詢問的回答大多是有根據的，也就是說，當它不產生幻覺時，它的回答是合理而準確的。它還能有效處理毒性、有害性和語義越獄問題。不過，它的回答往往在過於詳盡和過於含糊之間搖擺不定。

雖然 Llama 能很好地抵禦那些利用語言歧義讓 LLM 違背其過濾器或程序（語義越獄）的提示，但該模型仍然很容易受到其他類型的對抗性越獄的影響。如前所述，它非常容易受到直接和間接提示註入的攻擊，這是一種覆蓋模型硬編碼功能（越獄）的標準方法。

Meta 並不是唯一一傢存在類似安全風險的 LLM 提供商。去年 6 月，Google警告其員工不要將機密信息交給 Bard，這可能是因為存在泄密的可能性。不幸的是，采用這些模式的公司都急於成為第一，因此許多弱點可能長期得不到修復。

至少有一次，一個自動菜單機器人在 70% 的情況下都會弄錯客戶訂單。它沒有解決問題或撤下產品，而是通過外包人工幫助糾正訂單來掩蓋失敗率。這傢名為 Presto Automation 的公司輕描淡寫地描述該機器人的糟糕表現，透露它在首次推出時所接受的訂單中有 95% 都需要幫助。無論怎麼看，這都是一種不光彩的姿態。

分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞

相關推薦

DeepMind為人工智能聊天機器人開發"事實核查器"以治愈幻覺

小紮、LeCun官宣650億參數SOTA大語言模型LLaMA

Google以"聲譽風險"為理由不推出ChatGPT的類似聊天機器人產品

為什麼OpenAI更有可能在今年發佈GPT-4.5而不是GPT-5？

OpenAI的GPT-4可通過閱讀安全公告自主利用真實漏洞

關於GPT-4 這是14個被忽略的驚人細節

5億個token之後，我們得出關於GPT的七條寶貴經驗

微軟的新安全系統可捕捉客戶人工智能應用程序中的幻覺

Google一月三大招硬剛OpenAI：開源最強大模型Gemini技術碾壓Llama 2

馬斯克為何要作開源“秀”?

Llama3發佈開源模型追上閉源模型的歷史時刻就在眼前？

Llama 3超大杯有何驚喜？Meta會一直開源嗎？當初為何篤信元宇宙？紮克伯格新訪談回應一切

Meta發佈Llama 3 稱其是目前最好的開放式模型之一

Meta官宣深入AI大戰推出先進大型語言模型