生成式AI帶來的全面革命:最快5年內破譯第一種動物語言


ChatGPT用它自己的方式來理解世界,類似的技術是否也能用來學習動物的語言?所羅門能夠與動物交流並不是因為他擁有魔法物品,而是因為他有觀察的天賦。——康拉德・勞倫茲《所羅門王的指環》在《獅子王》、《瘋狂動物城》等以動物為中心的作品中,作者經常會將角色擬人化,用人類的思考和交流方式來推進劇情。

不過,這類作品也會導致認知失調,當我們與動物進行交流時,可能會把自己的想法和偏見投射到動物身上,例如“羊羔跪乳”與感恩、孝道無關,而是因為羊特殊的胃部構造,但人類會把自身投射到羊羔的行為上。


傳統的動物認知工作主要是建立一個詞匯表,但比如“水”、“喝”、“幹燥”等概念在水生生物的世界中可能不存在或沒有意義,在動物交流中也就不存在和人類概念之間的對應;並且動物之間的交流也並不一定通過發聲,還包括手勢、動作序列或皮膚紋理的變化等。

從理論上講,機器學習模型要比人類要更擅長總結出詞匯之間松散的相關性,神經網絡的輸入不對輸入數據的性質做任何假設,隻要某種模式頻繁出現,就有可能發現動物交流中蘊含的信息。

由紐約城市大學、、UC伯克利、MIT、哈佛、Google研究院和《國傢地理》等研究機構發起的鯨語翻譯計劃(Cetacean Translation Initiative, CETI),使用自然語言處理系統分析海量抹香鯨數據,並計劃未來與野外抹香鯨直接對話。


Aza Raskin等人聯合創立的地球物種項目(Earth Species Project,ESP)開源首個動物發聲基準BEANS,可以測量機器學習算法在生物聲學數據上的性能;還開發首個用於動物發聲的基礎模型AVES,可用於如信號檢測和分類等各種任務。

隨著生成式AI技術的進步,或許某天我們真有可能揭開動物交流背後的真正含義。

復雜的動物王國

1974年,哲學傢托馬斯·內格爾發表一篇開創性的論文,名為《當蝙蝠是什麼感覺?》(What Is It Like to Be a Bat?”),他認為,蝙蝠的生活與人類的生活有著非常大的差異,以至於人類可能永遠無法真正知道這個問題的答案。

我們對世界的理解是由人類的概念塑造的,想要知道蝙蝠是什麼樣子的唯一方法就是成為蝙蝠,並擁有蝙蝠的概念。

不過,我們還是可以推測出蝙蝠的部分思維方式,比如蝙蝠生活在高處,可能上下的概念是顛倒的,通過回聲定位等,但我們無法擁有蝙蝠的生活體驗。

如果獅子會說話,我們也無法理解它,因為人類的大腦無法共情獅子語言中所傳達的感受和概念。——Ludwig Wittgenstein


但並非所有動物的思維都與人類迥然不同,從心理上講,人類與其他靈長類動物的共同點比章魚和魷魚更多:人類與黑猩猩的最後一個共同祖先生活在600萬到800萬年前,而與章魚的最後一個共同祖先生活在大約6億年前的前寒武紀海洋中。

經過教導後,黑猩猩可以學會人類的手語,甚至能夠理解復雜的人類指令,並使用鍵盤符號進行交流,但也正如開頭所說的,我們可能也過度擬人化地理解猩猩的行為。

對於與人類關系更遠的物種,理解他們的交流方式則變得更困難,例如蜜蜂和一些鳥類可以看到可見光譜中的紫外線,蝙蝠、海豚、狗和貓能聽到超聲波等,每個物種都有其獨特性。

用AI理解動物

地球物種項目(Earth Species Project)的計算機科學傢Britt Selvitelle表示,他們正在努力破譯第一種非人類語言,並且有可能在五到十年內實現。

在動物語言領域,雖然研究人員數十年來已經積累大量知識,但世界上還並不存在一塊能夠翻譯人類語言和動物語言的“羅塞塔石碑”,也就不存在“動物語言”的標註金標準。

從根本上說,人工智能是一種數據驅動的工具,預訓練語言模型可以通過海量數據,以無監督的形式學習到數據的內部表征。

從ChatGPT強大的表現來看,生成式AI技術可能有自己獨特的內部表征方法,而非套用人類的概念,所以研究人員開始轉向AI技術來分析數據,獲取對動物有意義的術語。


在地球物種項目中,收集的數據形式包括聲音、運動和視頻,涵蓋野外或圈養環境中的動物,數據中還附有生物學傢對動物當時在做什麼和在什麼背景下做什麼的註釋。

隨著物聯網的成熟,將廉價可靠的記錄設備(如麥克風或生物記錄儀)放在野外動物身上也越來越容易,可以提供大量數據供人工智能工具進行組織和分析,以幫助發現數據背後的意義,然後使用生成式方法進行測試,最終實現重新創建動物的聲音,進行雙向交流。

動物聲音基準BEANS

在生物聲學領域,基於機器學習技術的成功應用需要在特定任務上精心策劃出一組高質量數據,但在此之前還不存在一個涵蓋多任務、多物種的公共基準,無法以受控和標準化的方式測量機器學習技術的性能並將新提出的技術與現有技術進行基準測試。


論文鏈接:https://arxiv.org/pdf/2210.12300.pdf

數據鏈接:https://github.com/earthspecies/beans

BEANS((the BEnchmark of ANimal Sounds,動物聲音的基準)是一個生物聲學任務和公共數據集的集合,專門用於測量生物聲學領域機器學習算法的性能,包括生物聲學中的兩個常見任務:分類和檢測。

BEANS中包括12個數據集,涵蓋多個物種,包括鳥類、陸地和海洋哺乳動物、無尾兩棲動物和昆蟲。

除數據集,文中還提出一組標準機器學習方法的性能作為任務性能的基線。


基準和基線代碼都已開源公開,研究人員希望BEANS可以為基於機器學習的生物聲學研究建立一個新的標準數據集。

動物發聲大模型AVES

在生物聲學領域,由於缺乏標註好的訓練數據,極大阻礙該領域以有監督方式訓練的大規模神經網絡模型的使用。

為利用大量未標註的音頻數據,研究人員提出AVES(Animal Vocalization Encoder based on Self-Supervision,基於自我監督的動物發聲編碼器),一種自監督的、基於Transformer模型的音頻表征模型,可用於編碼動物發聲。


論文鏈接:https://arxiv.org/pdf/2210.14493.pdf

模型鏈接:https://github.com/earthspecies/aves

研究人員在一組不同的無標註音頻數據集上對AVES模型進行預訓練,並針對下遊生物聲學任務對模型進行微調。

分類和檢測任務的綜合實驗表明,AVES優於所有強基線,甚至優於在帶註釋的音頻分類數據集上訓練的有監督topline模型。

實驗結果還表明,精心設計出一個與下遊任務相關的小訓練子集是訓練高質量音頻表示模型的有效方法。

倫理問題

1970年代,當西方社會第一次發現鯨魚的歌聲後,人類社會暫停對深海鯨魚的捕殺,並促成環境保護局(Environmental Protection Agency)的成立。


隨著地球物種項目技術路線圖的推進,我們可以更解周圍的生物,進行更多的數據收集,開發新的基準和基礎模型,從而可以更好地保護這顆藍色星球。

Raskin認為,在未來12-36個月內,團隊就可以實現與動物交流,比如做出一個人造鯨魚或烏鴉,能以一種無法分辨的方式與鯨魚或烏鴉交談,不過關鍵點在於,我們也需要理解模型在說什麼,才能進一步對話。

Raskin團隊也在討論如何負責任地使用這些人工智能方法,目前已經規定在任何測試中都要準備好這些方法,技術路線中指出潛在的風險,如幹擾狩獵和覓食或交配,也可能發送錯誤給動物。

人類是在10萬到30萬年前才學會如何用聲音說話和交流的,而鯨魚和海豚用聲音來傳承文化和歌曲已經有3400萬年歷史。

如果隨意在鯨群中發送AI音頻,可能會對3400萬年的文化造成破壞。

這就是為什麼到目前為止,地球物種項目中的大部分工作都是在收集數據和創建基礎,即推動未來進步的基準和基礎模型,與世界各地的公司和組織每天利用人工智能和機器學習所做的事情沒有什麼不同,隻是規模更宏大。

如果人工智能可以幫助我們理解動物在說什麼,那麼我們使用人工智能的能力的限制是什麼?

如果人工智能可以幫助我們解動物,那麼它會教我們關於人類的什麼?


Raskin 和Zacarian希望動物語言的最終翻譯成為世界歷史上的轉折點之一,就像鯨魚的歌聲首次被發現或1990年藍點(A Pale Blue Dot)的照片一樣,這些時刻改變我們對世界的看法和理解。


相關推薦

2023-04-12

音頻和視頻的處理服務,從而能夠準確地分析各種材料,生成連貫的上下文,翻譯多種文本以及總結摘要。這將改變我們與內容的交互和消費方式,並且能夠橫跨各種媒體格式。多模態模型在圖像方面和類似Stable Diffusion等的圖

2024-04-30

過多開墾的藍海。市場調研機構Counterpoint發佈數據顯示,生成式人工智能手機(AI手機)出貨量將在2023至2027年間迅速增長,預計2024年出貨量占比為11%,到2027年將達到5.5億部,占比43%,年均復合增長率為49%。機構預計到2027年,

2024-04-08

4月8日消息,雖然生成式人工智能如ChatGPT等正迅猛發展並已積累大量用戶,但許多企業對采用此技術仍持謹慎態度,不願輕率行事。以美國煙草公司雷諾茲(ReynoldsAmerican)為例,其正采取緩慢的步驟,投入有限的人力物力來測

2023-11-29

是一種動物。Marcus認為,未來的人工智能研究很可能會將生成式AI和符號式人工智能結合起來,就像人類同時使用直覺思維和分析思維一樣。實際上,在 Marcus 看來,阻礙人們實現未來願景的主要障礙可能是另一個古老的問題:

2023-11-30

佈AI聊天機器人ChatGPT,科技界、投資界開始瘋狂追捧這類生成式AI——“AI的iPhone時刻”“互聯網的誕生”“新一輪工業革命”。但不到一年時間,OpenAI內部就因AI進步過快而陷入巨大的分歧,甚至還引發“宮鬥”大戲。而普通人

2023-02-11

花多少錢?ChatGPT爆火之後,誰是最後贏傢?一、ChatGPT,生成式AI的王炸剛剛過去的2022年,從矽谷到國內的科技公司,上上下下都蔓延著一股“寒氣”。但是,AI行業卻完全是另一番熱鬧的景象。這一年,通過輸入文本描述就能

2023-04-11

的感受類似,自從2022年11月30日ChatGPT發佈以來,許多人對生成式AI所帶來的沖擊感到焦慮,擔心自己的工作被取代。的確,與人類相比,生成式AI可以更高效地處理和分析大量數據,能更快速準確地回答復雜問題,同時,具備很

2024-05-28

務。公司正在為員工研發一款可以進行供應鏈預測分析的生成型AI助手。我迫不及待地想知道我們的員工接下來還會有什麼創新。阿明·納賽爾(Amin H. Nasser)沙特阿美首席執行官500強排名:2公司營業收入:6036.51億美元沙特阿美首

2023-03-22

的最關鍵設備光刻機是如何運作的。‘重點’毫無疑問是生成式AI。老黃對OpenAI的ChatGPT贊不絕口,誇它“震驚世界”,代表著“嶄新的計算平臺已經誕生,AI的‘iPhone時刻’已經到來”。據英偉達透露,OpenAI將在微軟Azure超級計

2023-02-09

回答事實問題,為用戶提供各種鏈接。還能夠為用戶即時生成各種個性化的規劃、建議、分析等,解決更復雜的搜索問題。另外,微軟還計劃推出移動版Bing。全天候科技在操作中發現,新版Bing的聊天模式需要在登錄後才會出現

2024-04-17

處在一種‘FOMO’狀態,既興奮、又害怕錯過。”面對在生成式AI浪潮中正被徹底改變的開發者群體,4月16日對外演講中,李彥宏率先談起他們所遭遇的選擇迷茫問題。部分大模型頭部創企開始走上 “雙輪驅動”路線——既做模

2024-02-13

的遊戲創造是將成為遊戲界的新浪潮,如在Roblox這類用戶生成內容( UGC )平臺上進行遊戲創作,可能使得遊戲內容爆炸式增長,Roblox  已在全球提供超過 4.7 億次體驗,是 PC、遊戲機和移動應用遊戲總數的 52 倍。5.AI+硬件時

2023-03-09

究人員開發,於2022年公開發佈,與其他文本到圖像的AI“生成”模型類似,都是在接受與文本描述相關的數十億張圖像訓練後,從文本提示中生成新圖像。在這項新研究中,研究團隊為“穩定擴散”增加額外訓練,即將關於數千

2024-03-06

、數據標註服務、付費承包商提供的數據以及Anthropic內部生成的數據,並采用幾種數據清洗和過濾的方法。Anthropic強調自傢爬蟲系統是“透明的”,不會訪問受密碼保護的頁面或登錄頁面,也不會繞過CAPTCHA控制,並會對使用的