Meta AI 發佈 MMCSG數據集:使用 Project Aria 捕獲的 25 小時以上的雙向對話


劃重點:

- 💡 CHiME-8MMCSG 任務專註於通過智能眼鏡錄制的對話轉錄挑戰,旨在幫助研究人員解決活動檢測和說話者分離等問題。

- 💡 提出的模型利用多模態數據集 MSCSG 數據集,包括音頻、視頻和 IMU 信號,以提高轉錄準確性。

- 💡 通過整合各種技術來改善實時對話的轉錄準確性,包括目標說話者識別 / 定位、說話者活動檢測、語音增強、語音識別和對話。

站長之傢(ChinaZ.com) 3月2日 消息:Meta AI 最近發佈 MMCSG 數據集,該數據集包含使用 Project Aria 錄制的25小時以上的雙向對話。CHiME-8MMCSG 任務的重點是轉錄使用智能眼鏡錄制的對話,這些眼鏡配備多個傳感器,包括麥克風、攝像頭和慣性測量單元(IMUs)。該數據集旨在幫助研究人員解決問題,如活動檢測和說話者分離。該模型的目標是在實時轉錄中準確記錄自然對話的兩個方面,考慮到說話者識別、語音識別、對話和多模態信號的整合。

傳統的對話轉錄方法通常僅依賴於音頻輸入,可能隻捕獲一些相關信息,尤其是在使用智能眼鏡錄制的對話等動態環境中。提出的模型利用多模態數據集 MSCSG 數據集,包括音頻、視頻和 IMU 信號,以增強轉錄準確性。

該方法整合各種技術,以提高實時對話的轉錄準確性,包括目標說話者識別 / 定位、說話者活動檢測、語音增強、語音識別和對話。通過整合來自多種模態的信號,如音頻、視頻、加速度計和陀螺儀,系統旨在提高傳統音頻系統的性能。此外,在智能眼鏡上使用非靜態麥克風陣列引入與音頻和視頻數據中的運動模糊相關的挑戰,該系統通過先進的信號處理和機器學習技術解決這些挑戰。Meta 發佈的 MMCSG 數據集為研究人員提供實際數據,用於訓練和評估其系統,促進自動語音識別和活動檢測等領域的進展。

CHiME-8MMCSG 任務解決使用智能眼鏡錄制的對話的準確實時轉錄的需求。通過利用多模態數據和先進的信號處理技術,研究人員旨在提高轉錄準確性,並解決說話者識別和降噪等挑戰。MMCSG 數據集的提供為在動態現實環境中開發和評估轉錄系統提供寶貴資源。

論文網址:https://ai.meta.com/datasets/mmcsg-dataset/?utm_source=twitter&utm_medium=organic_social&utm_campaign=research&utm_content=image


相關推薦

2023-04-07

社”(ID:alphastartups),作者:許四清,授權站長之傢轉載發佈。2023冬季YC Demo Day的項目出來,27個AIGC項目格外引人註意。與國內不同,在大廠如林的美國,YC並沒有追逐大語言模型,相反,越來越集中在中間層及應用層。恰好印

2023-11-13

對話。Aza Raskin等人聯合創立的地球物種項目(Earth Species Project,ESP)開源首個動物發聲基準BEANS,可以測量機器學習算法在生物聲學數據上的性能;還開發首個用於動物發聲的基礎模型AVES,可用於如信號檢測和分類等各種任務

2024-03-21

,並將成本和能耗降低25倍。在AI應用方面,英偉達推出Project GR00T機器人基礎模型及Isaac機器人平臺的重要更新。英偉達展示其AI芯片的算力在過去8年裡實現1000倍的增長,這代表AI時代的摩爾定律(算力快速增長,算力成本快速

2022-08-08

解現實的本質。不過LeCun謙虛表示,這隻是訓練它的文本數據的原因而已。好吧,這隻是表明,在給BlenderBot3訓練的文本數據中(這是媒體和公眾意見的反映)。“精分”AI機器人?8月5日,Meta一推出“史上最強聊天機器人”Blende

2024-05-07

論文濃縮成簡短的摘要,通常隻需一屏即可看完。本周一發佈的這項新功能可以幫助用戶快速理解一個主題並找出重要細節。要使用該功能,請訪問任何基於文本的網頁,然後點擊 Opera Android 瀏覽器右上角的三個點,選擇 Aria 圖

2024-04-19

邁上一個新的臺階。得益於預訓練和後訓練的改進,本次發佈的預訓練和指令微調模型是當今 8B 和 70B 參數規模中的最強大的模型。同時後訓練流程的優化顯著降低模型的出錯率,增強模型的一致性,並豐富響應的多樣性。紮克

2023-12-04

的一些研究包括一種軟件,可以幫助人們在戴著該公司的Project Aria增強現實眼鏡時更好地打網球,這種眼鏡將數字圖形融入現實世界。高管們展示一個演示,一個戴著AR眼鏡打網球的人能夠看到視覺提示,教他們如何正確地握住

2023-05-12

的AI產品:med-PaLM 2、Vertex AI、sec-PaLM, Gemini、Project Tailwind、Codey、Chirp、Duet AI for Google Workspace和Duet AI,諸如此類不勝枚舉。(新的PaLM2模型顯著提升Bard性能)新版Bard重裝上陣昨天谷歌到底發佈

2022-08-06

來的。換句話說,BlenderBot 3可以引用其來源。通過向公眾發佈聊天機器人,Meta希望收集關於大型語言模型面臨的各種問題的反饋。與BlenderBot聊天的用戶將能夠從系統中標記出任何可疑的回應,Meta公司說它已經努力 盡量減少機

2024-03-14

igure 共同合作推進人形機器人領域的前沿,到這個視頻的發佈,隻有短短的十三天。此次 Figure 人形機器人背後的智能,來自端到端的大語言-視覺模型,這是具身智能領域目前非常前沿的領域。去年極客公園報道過Google在類似領

2024-03-14

個矽谷都在投資的“機器人界OpenAI”、明星初創公司Figure發佈自己第一個OpenAI大模型加持的機器人demo。僅僅是一個視頻,就驚艷全球科技界。而更讓人驚嘆的是,此時距離Figure宣佈和OpenAI在AI人形機器人領域合作才剛剛過去13天

2024-01-25

司在人工智能領域一直與政府合作。在人工智能行政命令發佈之前,拜登政府與Meta、谷歌和開放AI等公司達成自願、非約束性的協議,以安全地發展人工智能系統。然而,政府與主要科技公司之間的密切合作引發監管俘獲的擔憂

2024-04-19

今天AI圈又迎來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和

2022-08-02

究美國經濟不平等問題的研究項目的一部分,該公司公開發佈210億條Facebook好友關系的信息。除對美國的金錢和友誼的交叉點有新的認識外,Meta和研究人員之間的合作讓人們再次看到Facebook願意與誰分享數據--以及為什麼。研究