計算機視覺是一個在過去幾十年中被研究得相當多的領域,主要是因為它在建造自動駕駛汽車和其他可以像人類一樣"看"世界的工具方面有著直接和明顯的應用。然而,直到最近才看到這種水平的研究的一個領域是使用聲音而不是視覺來模擬環境。現在,麻省理工學院(MIT)的研究人員已經撰寫一篇研究論文,涉及在這一領域訓練的機器學習(ML)模型的構建。
麻省理工學院新聞網站上的一篇博文介紹說,MIT-IBM沃森人工智能實驗室合作建立一個ML模型,利用空間聲學來觀察和模擬環境。簡單地說,這個模型通過弄清聽眾如何聽到從某一點發出的聲音並傳播到不同的位置,實現環境的映射。
這種技術有許多好處,因為它可以隻用聲音來確定環境物體的基本三維幾何形狀。然後,它可以呈現準確的視覺效果來重建環境。潛在的應用包括虛擬和增強現實,以及增強人工智能代理,使其能夠利用聲音和視覺來更好地可視化其環境。例如,與計算機視覺相比,水下探索機器人可以利用聲學來更好地確定某些物體的位置。
圖形顯示的是房間的3D模型,下面是帶有聲音的熱視圖類型的概念
研究人員強調,建立這種基於聲音的ML模型要比基於計算機視覺的模型復雜得多。這是因為計算機視覺模型利用一種叫做光度一致性的屬性,這意味著一個物體從不同角度看時看起來大致相同。這不適用於聲音,因為根據聆聽方的位置和其他障礙物,從一個源頭聽到的東西可能非常不一樣。
為解決這個問題,研究人員使用另外兩個特征,即互易性和局部幾何學。前者基本上意味著,即使交換說話者和聽眾的位置,聲音也會完全相同。同時,局部幾何映射涉及在神經聲場(NAF)中結合互易性來捕捉物體和其他建築組件。
為讓ML模型在測試環境中工作,需要向它輸入一些視覺信息和光譜圖,其中包含基於發端者和聽眾的指定位置的音頻聽起來會是什麼樣子。根據這些輸入,該模型可以準確地確定當聽眾在環境中移動時,聲音將如何變化。
該研究論文的主要作者Andrew Luo指出:“如果你想象自己站在一個門口附近,對你聽到的聲音影響最強烈的是那個門口的存在,而不一定是房間另一邊離你很遠的幾何特征,我們發現這些信息比簡單的全連接網絡能更好地概括。”
展望未來,研究人員希望進一步加強該模型,使其能夠將更大、更復雜的環境可視化,如一棟建築甚至整個城市。
您可以在這裡閱讀他們的研究論文:
https://arxiv.org/pdf/2204.00628.pdf