谷歌Gemini生圖功能緊急關閉，口碑一夜塌房 Yann LeCun：我早就知道

2024-02-24 來自機器之心發表於業界精選

Gemini好像終於被玩壞。去年年底，GoogleGemini震撼業界，它是Google“最大、最有能力和最通用”的AI系統，號稱第一個原生多模態大模型，能力超越GPT-4，也被認為是Google反擊微軟和OpenAI的強大工具。

對此，在 2 月 8 日，Google還把自傢對標 ChatGPT 的服務 Bard 更名為 Gemini，以著重體現新使命 —— 旨在提供對“最強模型系列”的訪問。上周Google還火速更新 Gemini Pro 1.5 版。

結果，推出不到一個月，這個 Gemini 就翻車。

多離譜呢，作為一個多模態的生成大模型，Gemini 生成的伊隆・馬斯克是這樣的：

臉型神態都很傳神，隻是有個大問題：怎麼成黑人？

又有人嘗試讓 Gemini 畫一幅“1940 年代德國領導人”的圖，結果 AI 給出這麼一張：

社交網絡上的眾多網友們還提供一些 Gemini 生成維京人、教皇的圖片樣本。我們可以看到有一名身著教皇服裝的亞洲女性，但歷史上所有教皇都是男性擔任的。

總之，眾多用戶在使用人像生成服務時發現，Gemini 似乎拒絕在圖像中描繪白人，以至於生成不少違背基本事實（性別、種族、宗教等）的圖片。

以往的圖像生成模型大多被詬病生成人物圖像以“白人”為主，而 Gemini 矯枉過正？

在 reddit 的鬥圖區，網友們也開始玩起梗，比如讓 Gemini 生成個“鋼鐵俠”小羅伯特唐尼：

你就說是不是一視同仁吧。

然而，Gemini 也不是一直都這麼偏心，有時它生成的圖像中的人物就成白人。例如克拉倫斯・托馬斯（Clarence Thomas），美國最高法院大法官，Gemini 生成的結果是這樣的：

然而，他實際上是個非裔。

Clarence Thomas 本人的照片。

怎麼一到法官這種特殊職業，Gemini 的偏見就調轉 180 度呢？

這些圖片有真有假，像病毒一樣在社交媒體上迅速傳播，馬斯克本人的關註進一步擴大事件影響。他措辭嚴厲表示，Google在文生圖上“玩過頭”。

隨著節奏越來越大，很多 AI 專傢也紛紛開始發表自己的看法。圖靈獎獲得者 Yann LeCun 今天就表示他早有預料。

他表示，早在四年前，自己對 GAN 肖像超分辨率的評論就受到眾人的激烈反對。但一個明顯的事實是，圖像重建任務會受到訓練數據集統計的嚴重偏差影響。

LeCun 還援引 AI 頂會 ECCV 2022 的一篇研究《Studying Bias in GANs through the Lens of Race》，其指出生成圖像模型的性能會受到訓練數據集中種族組成的影響。

該研究表明，生成圖像的種族成分成功繼承訓練數據的種族成分，而且生成圖像的種族和質量也有所不同——註釋者始終更喜歡 AI 生成的白人圖像。

LeCun 轉推的帖子來自 Perplexity AI 首席執行官 Aravind Srinivas。後者表示，數據偏差讓模型的輸出出現問題，Google在相反的方向上走得太遠，以至於他們在 Gemini 中釀成大錯。

Google：我們錯，承諾改進

在重壓之下，Google在本周四承認 Gemini 圖像生成的問題。

以下是Google知識與信息高級副總裁 Prabhakar Raghavan 針對 Gemini 圖像生成“翻車”給出的最新回應：

三周前，我們為 Gemini 對話應用程序（以前稱為 Bard）推出新的圖像生成功能，其中包括創建人物圖像的功能。

很明顯，這個功能沒有達到預期。生成的一些圖像不準確甚至具有攻擊性。我們感謝用戶的反饋，並對功能未能正常運行感到抱歉。

我們已經承認這個錯誤，並暫停 Gemini 的人物圖像生成功能，同時我們正在開發改進版本。

Google表示，Gemini 對話應用程序是一款獨立於Google的搜索、底層人工智能模型和其他產品的特定產品。其圖像生成功能建立在人工智能模型 Imagen 2 的基礎上。

在為 Gemini 構建圖像生成功能時，Google對其進行調整，以確保它不會落入我們過去在圖像生成技術中看到的一些陷阱，例如創建暴力或露骨的圖像，或對現實生活中存在的真人的描繪。

由於 Google 用戶來自世界各地，公司希望 Gemini 能為每個人提供良好的服務。在生成人物圖像時，用戶可能不僅僅隻想生成一種種族（或任何其他特征）的人物圖像。

如果你提示 Gemini 特定類型的人物圖像 - 例如“教室裡的黑人老師”、“帶著狗的白人獸醫”或特定文化、歷史背景下的人，用戶絕對應該得到一個準確反映人類要求的答復。

那麼 Gemini 到底出什麼問題呢？

簡而言之，有兩件事。首先，Google為確保 Gemini 顯示一系列人物而進行的調整未能考慮到顯然不應該顯示的范圍。其次，隨著時間的推移，該模型變得比開發者預期的更加謹慎，拒絕回答某些提示——會錯誤地將一些提示解釋為敏感提示。

這兩件事導致模型在某些情況下過度輸出，而在另一些情況下過度保守，從而導致 Gemini 的圖像生成功能出現一些錯誤。

Google表示，“這不是我們的初衷。我們不希望 Gemini 拒絕創造任何特定群體的形象。我們不希望它創造出不準確的歷史圖像或任何其他圖像。因此，我們關閉人物圖像生成功能，並將在重新打開它之前努力改進，這個過程將包括廣泛的測試。”

需要記住的一件事是，Gemini 是一種創造力和生產力工具，它或許並不總是可靠的，特別是在生成有關時事、不斷發展的新聞或熱門話題的圖像或文本時，它可能會犯錯。眾做周知，幻覺是所有大語言模型（LLM）都會面臨的挑戰，這需要不斷的努力改進。

我們不能保證 Gemini 不會偶爾產生令人尷尬、不準確或令人反感的結果，但我們可以保證，隻要發現問題，我們就將采取行動。人工智能是一項新興技術，在很多方面都有幫助，具有巨大的潛力，我們正在盡最大努力安全、負責任地推動它發展。

雖然伴隨著“Demo 加特技”、訓練數據抄百度文心一言等各種詬病指責，Gemini 仍然一直被Google寄予厚望，不過此次生成內容上的問題讓人們產生非常不好的觀感，不知如何才能補救。

另一方面，這或許也體現 OpenAI 一直強調安全性，及其建立 Red Teaming Network 的先見之明。

Gemini 這樣的大體量模型，能否很快彌補此種缺陷？

谷歌Gemini生圖功能緊急關閉，口碑一夜塌房 Yann LeCun：我早就知道

相關推薦

Yann LeCun：生成模型不適合處理視頻，AI得在抽象空間中進行預測

谷歌被曝翻車內幕：內部群龍無首生圖機制過分“多元化”

ChatGPT爆火 LeCun心態崩稱大語言模型是邪路

Gemini AI人物成像新功能“離大譜”擬下線幾周谷歌股價盤中跌超4%

洛杉磯聯合學區再次因勒索軟件攻擊威脅而緊急關閉系統

圖靈獎得主LeCun：ChatGPT局限巨大自回歸模型壽命不超5年

谷歌Bard被曝剽竊ChatGPT？BERT一作跳槽OpenAI揭驚天內幕

加拿大YouTuber Linus頻道被黑客入侵上傳馬斯克詐騙視頻

開源AI拯救Meta一夜飆升1960億刀 39歲小紮爬出元宇宙深坑

谷歌Gemini離譜翻車馬斯克被大黑特黑

谷歌CEO皮查伊深度解析谷歌史上最強大模型Gemini及即將到來的人工智能時代

矽谷這場AI大戰中 Meta徹底掉隊

LeCun哈佛演講PPT放出：唱衰自回歸LLM 指明下一代AI方向

Sam Altman劍橋演講遭抵制 MIT學者驚曝Llama 2開源能造毀滅人類病毒