MIT研究人員發明可以用聲音模擬世界的人工智能系統


計算機視覺是一個在過去幾十年中被研究得相當多的領域,主要是因為它在建造自動駕駛汽車和其他可以像人類一樣"看"世界的工具方面有著直接和明顯的應用。然而,直到最近才看到這種水平的研究的一個領域是使用聲音而不是視覺來模擬環境。現在,麻省理工學院(MIT)的研究人員已經撰寫一篇研究論文,涉及在這一領域訓練的機器學習(ML)模型的構建。

麻省理工學院新聞網站上的一篇博文介紹說,MIT-IBM沃森人工智能實驗室合作建立一個ML模型,利用空間聲學來觀察和模擬環境。簡單地說,這個模型通過弄清聽眾如何聽到從某一點發出的聲音並傳播到不同的位置,實現環境的映射。

這種技術有許多好處,因為它可以隻用聲音來確定環境物體的基本三維幾何形狀。然後,它可以呈現準確的視覺效果來重建環境。潛在的應用包括虛擬和增強現實,以及增強人工智能代理,使其能夠利用聲音和視覺來更好地可視化其環境。例如,與計算機視覺相比,水下探索機器人可以利用聲學來更好地確定某些物體的位置。

圖形顯示的是房間的3D模型,下面是帶有聲音的熱視圖類型的概念

研究人員強調,建立這種基於聲音的ML模型要比基於計算機視覺的模型復雜得多。這是因為計算機視覺模型利用一種叫做光度一致性的屬性,這意味著一個物體從不同角度看時看起來大致相同。這不適用於聲音,因為根據聆聽方的位置和其他障礙物,從一個源頭聽到的東西可能非常不一樣。

為解決這個問題,研究人員使用另外兩個特征,即互易性和局部幾何學。前者基本上意味著,即使交換說話者和聽眾的位置,聲音也會完全相同。同時,局部幾何映射涉及在神經聲場(NAF)中結合互易性來捕捉物體和其他建築組件。

為讓ML模型在測試環境中工作,需要向它輸入一些視覺信息和光譜圖,其中包含基於發端者和聽眾的指定位置的音頻聽起來會是什麼樣子。根據這些輸入,該模型可以準確地確定當聽眾在環境中移動時,聲音將如何變化。

該研究論文的主要作者Andrew Luo指出:“如果你想象自己站在一個門口附近,對你聽到的聲音影響最強烈的是那個門口的存在,而不一定是房間另一邊離你很遠的幾何特征,我們發現這些信息比簡單的全連接網絡能更好地概括。”

展望未來,研究人員希望進一步加強該模型,使其能夠將更大、更復雜的環境可視化,如一棟建築甚至整個城市。

您可以在這裡閱讀他們的研究論文:

https://arxiv.org/pdf/2204.00628.pdf


相關推薦

2023-03-03

麻省理工學院的研究人員發明一種增強現實頭顯,可以給人類提供X射線視覺。這項發明被稱為X-AR,它將無線傳感與計算機視覺相結合,使用戶能夠看到隱藏的物品。X-AR可以幫助用戶找到丟失的物品,並引導他們走向這些物品進

2022-08-24

易或最理想的再現。考慮到這一點,來自MIT計算機科學和人工智能實驗室(CSAIL)的科學傢創建“VISTA 2.0”--這是一個數據驅動的模擬引擎,車輛可以在現實世界中學習駕駛並從幾乎崩潰的情況下恢復。更重要的是,所有的代碼正在

2022-07-06

些骨感 —— 這些復雜模型動輒涉及數百萬個參數,而 AI 研究人員幾乎不可能完全解其運作機理。研究配圖 - 2:神經網絡黑箱模型模擬此外科學傢有時也會通過創建預測的簡單近似模型來簡化解釋,但這些易於理解的近似值,

2024-07-04

學講座、生活技能和職業培訓。葉泓霆用耳朵感知世界,用聲音溫暖他人,希望成為更多人生命中的光。他感激南京殘聯的支持,並希望用愛心回饋社會。

2022-07-25

研究。這項發表在《Nature Human Behaviour》上的研究表明,人工智能系統可能真的能夠理解高度復雜的詞義。研究人員還發現一種獲得這種復雜信息的簡單方法。他們發現,他們所研究的人工智能系統以一種跟人類判斷非常相似的

2023-11-13

,也就不存在“動物語言”的標註金標準。從根本上說,人工智能是一種數據驅動的工具,預訓練語言模型可以通過海量數據,以無監督的形式學習到數據的內部表征。從ChatGPT強大的表現來看,生成式AI技術可能有自己獨特的內

2024-03-03

以獨自跨出傢門。復旦大學自然語言實驗室張奇教授說,人工智能發展日新月異,科技應該要改變更多人的生活,希望“眸思”能夠幫助視障人士走出傢門,讓他們可以嘗試更多工作,為人生書寫更多可能。”項目落地背後,是

2023-08-10

後來成為一名音樂傢,將科幻元素融入作品中。在生成式人工智能導致AI歌曲泛濫後,她主動提出,歡迎任何人使用她的聲音用AI生成音樂。如今,格雷姆斯希望超越音樂界,涉足教育、人工智能和著書。她和馬斯克育有兩個孩

2023-05-16

與Stripe首席執行官帕特裡克·克裡森(PatrickCollison),就人工智能的未來展開精彩對話。圖自youtube要說山姆,許多人可能不陌生。作為人工智能研究公司OpenAI的首席執行官,他隨著聊天機器人ChatGPT的爆火而聲名鵲起。而帕特裡

2023-05-16

與Stripe首席執行官帕特裡克·克裡森(PatrickCollison),就人工智能的未來展開精彩對話。圖自youtube要說山姆,許多人可能不陌生。作為人工智能研究公司OpenAI的首席執行官,他隨著聊天機器人ChatGPT的爆火而聲名鵲起。而帕特裡

2022-08-29

小巧、動作靈活,就算完全倒地,也能夠自行爬起,甚至可以在被側踢時保持平衡。Mini Cheetah還是首個實現後空翻的四足機器人,偶爾還能開心地來一個後空翻!萌萌噠外形,以後擼貓可以改成擼機器人。•Mini Cheetah主要通過模

2023-03-28

的監護恒溫箱在新生兒生命的開始階段發揮關鍵作用,但研究人員發現,它們也可能使嬰兒暴露在更大的共鳴聲中,增加損害其敏感聽力的風險。雖然新生兒重癥監護室(NICU)的噪音及其對脆弱病人的影響已經成為許多研究的

2024-03-04

麻省理工學院的一組研究人員利用人工智能來緩解交通擁堵,他們將這一領域的想法應用於解決倉庫中多個機器人的問題。通過將難以解決的問題分解成更小的塊,一種深度學習技術確定倉庫中疏導流量的最佳區域。在一個巨大

2024-02-16

Meta公司的人工智能研究人員發佈一個新模型,該模型的訓練方式與當今的大型語言模型類似,但它不是從書面文本中學習,而是從視頻中學習。LLM通常在數千個句子或短語中進行訓練,其中一些詞語被屏蔽,迫使模型尋找最佳