谷歌AI看不懂網友評論 會錯意高達30%


給你兩句話,來品一下它們所蘊含的情感:“我真的會謝。”“聽我說謝謝你,因為有你,溫暖四季……”或許你會說,這很簡單啊,不就是最近經常被玩的梗嗎?但如果問問長輩,他們可能就是一副“地鐵老人看手機”的模樣。


不過與流行文化之間有代溝這事,可不僅限於長輩們,還有 AI。這不,一位博主最近就 po 出一篇分析Google數據集的文章,發現它對 Reddit 評論的情緒判別中,錯誤率竟高達 30%


就比如這個例子:

我要向朋友怒表達對他的愛意。

Google數據集把它判斷為“生氣”。

還有下面這條評論:

你 TM 差點嚇壞我。

Google數據集將其判別為“困惑”。


網友直呼:你不懂我的梗。

人工智能秒變人工智障,這麼離譜的錯誤它是怎麼犯的?

斷章取義它最“拿手”

這就得從他判別的方式入手。Google數據集在給評論貼標簽時,是把文字單拎出來判斷的。我們可以看看下面這張圖,Google數據集都把文字中的情緒錯誤地判斷為憤怒。


不如我們由此來推測一下Google數據集判別錯誤的原因,就拿上面的例子來說,這四條評論中均有一些“臟話”。

Google數據集把這些“臟話”拿來作為判斷的依據,但如果仔細讀完整個評論,就會發現這個所謂的“依據”隻是用來增強整個句子的語氣,並沒有實際的意義。

網友們的發表的評論往往都不是孤立存在的,它所跟的帖子、發佈的平臺等因素都可能導致整個語義發生變化。

比如單看這條評論:

his traps hide the fucking sun.

單單依靠這個很難判斷其中的情緒元素。但如果知道他是來自一個肌肉網站的評論,或許就不難猜出,(他隻是想稱贊一下這個人的肌肉)。


忽略評論的帖子本身,或者將其中某個情感色彩強烈的詞語單拎出來判斷其情緒元素都是不合理的。一個句子並不是孤立存在的,它有其特定的語境,其含義也會隨著語境的變化而變化。

將評論放入完整的語境中去判斷其情緒色彩,或許會大大提升判別的準確率。但造成 30% 這麼高的失誤率可不僅僅隻是“斷章取義”,其中還有更深層次的原因。

“我們的梗 AI 不懂”

除語境會幹擾數據集判別之外,文化背景也是一個非常重要的因素。

大到國傢地區,小到網站社群都會有其內部專屬的文化符號,這種文化符號圈層之外的人很難解讀,這就造成一個棘手的問題:若想更準確地判斷某一社區評論的情緒,就得針對性地對其社區進行一些數據訓練,深入解整個社區的文化基因。

在 Reddit 網站上,網友評論指出“所有的評分者都是以英語為母語的印度人”


這就導致會對一些很常見的習語、語氣詞及一些特定的“梗”造成誤解。說這麼多,數據集判別失誤率這麼高的原因也就顯而易見。

但與此同時,提高 AI 判別情緒的精確度也有清晰的方向。例如博主也在這篇文章中就給出幾條建議:

首先,在對評論貼標簽時,得對他所處的文化背景有深刻地理解。以 Reddit 為例,要判斷其評論的情緒色彩,要對美國的一些文化、政治理解透徹,並且還要能夠迅速 get 到專屬網站的“梗”;

其次,要測試標簽對一些諷刺、習語、梗的判別是否正確,確保模型能夠整整理解文本的意思;

最後,核查模型判斷與我們真實判別,以做出反饋,更好地訓練模型。

One More Thing

AI 大牛吳恩達曾發起過一項以數據為中心的人工智能運動。


將人工智能從業者的重點從模型 / 算法開發轉移到他們用於訓練模型的數據質量上。吳恩達曾說:

數據是人工智能的食物。

用於訓練數據的好壞對於一個模型也至關重要,在新興的以數據為中心的 AI 方法中,數據的一致性至關重要。為獲得正確的結果,需要固定模型或代碼並迭代地提高數據質量。

……

最後,你覺得在提高語言 AI 判別情緒這件事上,還有什麼方法呢?

歡迎在留言區討論~

參考鏈接:

  • [1]https://www.reddit.com/r/MachineLearning/comments/vye69k/30_of_googles_reddit_emotions_dataset_is/

  • [2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

  • [3]https://mitsloan.mit.edu/ideas-made-to-matter/why-its-time-data-centric-artificial-intelligence


相關推薦

2023-08-31

是東京奧運會開幕式上的一段畫面,配著英文字幕:當年看不懂的東京開幕式原來是2023年8月24日的預告片。據悉,投屏畫面選自東京奧運會開幕式特別節目《wassai》,有網友評價這舞蹈看起來驚悚”,還有網友說這樣的開幕式

2023-11-07

中國網購商品的便利性和多樣性吸引眾多俄羅斯朋友。有網友評論稱,不愧是戰鬥民族,他們不會錯過任何一場戰爭,包括雙 11 電商大戰。還有網友表示,這讓人看到中國的快遞業有多發達,確實是一件令人自豪的事情。事實

2023-06-18

,豆瓣被一星評論淹沒,幾乎都是醫學生在吐槽。網友也看不下去表示:這部劇和中醫放在一起,是對中醫最大的侮辱”希望涉及中醫的內容謹慎考究,不要誤導人”越看越離譜”。

2023-04-01

“最煩登網站時各種奇奇怪怪(甚至變態)的驗證碼。”現在,有一個好消息和一個壞消息。好消息就是:AI可以幫你代勞這件事。不信你瞧,以下是三張識別難度依次遞增的真實案例:而這些是一個名為“Pix2Struct”的模型給出

2023-01-28

如今的很多熱搜話題,著實令人看不懂,有的是花錢推的,有的則看不到什麼意義。比如這個女子幫媽媽燒鍋把美甲燒化”的話題。網上的一則視頻顯示,1月25日初六,安徽阜陽,一女子回老傢幫媽媽燒鍋,沒想到把剛做的美甲

2023-07-24

大爺大媽的操作讓人看不懂,聚水庫放生”礦泉水,這樣的行為已經不是第一次。近日,有網友發視頻稱,有大爺大媽圍聚水庫,搬運礦泉水往水庫裡傾倒。有網友稱不理解這種行為吃飽撐的,有網友表示放生礦泉水是愚昧的行

2024-05-08

文字沒有相匹配的 App 或功能,小微助手就會調出百度、谷歌、 GitHub 的快捷搜索。點一下,就能在網頁裡打開搜索結果。除對話功能,小微助手還有一些額外工具,比如微信翻譯、剪貼板、閃念膠囊。想觸發這些工具,可以用

2024-05-08

文字沒有相匹配的 App 或功能,小微助手就會調出百度、谷歌、 GitHub 的快捷搜索。點一下,就能在網頁裡打開搜索結果。除對話功能,小微助手還有一些額外工具,比如微信翻譯、剪貼板、閃念膠囊。想觸發這些工具,可以用

2023-02-27

中央電視臺、騰訊視頻、三體宇宙等出品的《三體》電視劇於1月15日開啟全網首播,上線CCTV-8、騰訊視頻等平臺,由楊磊執導,張魯一、於和偉、陳瑾、王子文、林永健、李小冉領銜主演。《三體》電視劇播出後獲得不少好評,

2022-07-19

,突然在國外的Gen-Z/00後群體裡火得一塌糊塗,讓人直呼看不懂。它是一個匿名問答產品,名字叫做 NGL。用法非常簡單:答主生成一個自己的鏈接,發到 TikTok/IG/Twitter 上,其它網友點進去就可以進行匿名提問,用戶在 NGL 的 app

2024-03-05

屈,甚至把能讓app連接藍牙都拿來當作論點,哪個開發者看不覺得可笑。這不是我印象中 Apple 的體面形象。”同時也有很多網友認為,蘋果所列舉的工作絕大部分是作為廠商的應盡義務,本來就是蘋果應該做的工作,其成本也

2023-11-06

色更亮”的題,一個沒做對,讀圖片中隱藏信息的也傻傻看不出,怎麼問都說“沒有啊”:但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:以及這樣的錯位圖,它對又沒完全對。。(GPT-4V直接看出來頭盔是位於男的大腿

2023-12-20

悉,該款手機從眾多競品中脫穎而出,並最終擊敗蘋果和谷歌的最新旗艦產品。盡管谷歌旗下Pixel 7 Pro曾在去年獲得最佳智能手機稱號,但今年三星S23 Ultra再次榮膺這一榮譽。據解,在此次評選中,共有32款手機參與投票,其中

2023-11-07

色更亮”的題,一個沒做對,讀圖片中隱藏信息的也傻傻看不出,怎麼問都說“沒有啊”:但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:以及這樣的錯位圖,它對又沒完全對。。(GPT-4V直接看出來頭盔是位於男的大腿