Google研發的AI模型可以從文本甚至圖像中生成高保真音樂

2023-01-27 發表於業界精選

來自Google的研究人員發表一篇論文，稱他們創建一個從文本描述中生成高保真音樂的模型。它被稱為MusicLM，根據人工智能科學傢KeunwooChoi的說法，這個模型的整體結構是基於其他模型的，它結合MuLan+AudioLM和MuLan+w2b-Bert+Soundstream。

Choi解釋一下這些模型各自的工作原理：

MuLan是一個文本-音樂聯合嵌入模型，支持對比性訓練和來自YouTube的44M音樂音頻-文本描述對。

AudioLM使用一個來自語音預訓練模型的中間層來獲取語義信息。

w2v-BERT是一個來自Transformers的雙向編碼器表表達法，這是一個最初用於語音的深度學習工具，這次用於音頻。

SoundStream是一個神經音頻編解碼器。

Google將所有這些結合起來，產生從文本中生成音樂的AI模型，以下是研究人員對MusicLM的解釋。

MusicLM是一個從文本描述中生成高保真音樂的模型，如"平靜的小提琴旋律伴著扭曲的吉他旋律"。MusicLM將有條件的音樂生成過程作為一個層次化的序列到序列的建模任務，它生成的音樂頻率為24KHz，時長可以達到幾分鐘。實驗表明，MusicLM在音頻質量和對文本描述的遵守方面都優於以前的系統。此外，還可以證明MusicLM可以以文本和旋律為條件，因為它可以根據文本說明中描述的風格來轉換口哨和哼唱的旋律。為支持未來的研究，我們公開發佈MusicCaps，這是一個由5500首音樂-文本對組成的數據集，其中有人類專傢提供的豐富文本描述。

相對而言，想想ChatGPT能夠完成的事情就很有意思。艱難的考試，分析復雜的代碼，為國會寫決議，甚至創造詩歌、音樂歌詞等。在這種情況下，MusicLM更是超越前者，把文字意圖、一個故事甚至一幅繪畫轉化為歌曲。看到薩爾瓦多-達利的《記憶的持久性》被轉化為旋律，這很吸引人。

不幸的是，該公司並不打算向公眾發佈這種模型，但您仍然可以在這裡看看-和聽聽-這個人工智能模型如何從文本中生成音樂：

https://google-research.github.io/seanet/musiclm/examples/

Google研發的AI模型可以從文本甚至圖像中生成高保真音樂

相關推薦

四大模型橫評：GPT-4在高達44%的提示中生成受版權保護的內容

夢境可以刻錄？AI讀取大腦重現你所見

當AI開始畫畫和“攝影”：不僅娛樂人，還會愚弄人

真盜夢空間！AI能將夢境轉換成視頻：85%準確率

僅需7張照片任何人都能在這個世界上“無中生你”

谷歌深夜放復仇殺器Gemini：最強原生多模態史詩級碾壓GPT-4 語言理解首超人類

出現人種多樣性錯誤後 Google暫停Gemini AI生成人物圖像的功能

沒有秘密！AI或能夠讀取大腦重現夢境

Google AI武器升級大模型PaLM 2可用百種語言

Sora“炸場” 中美AI差距有多大？

OpenAI Sora核心技術被曝縫合自DeepMind和謝賽寧論文？

谷歌新AI火瞭：世界最長單詞都能畫：Pneumonoultramicroscopicsilicovolcanoconiosis

全球首個類Sora開源復現方案來全面公開所有訓練細節和模型權重

谷歌Gemini 1.5上線多模態硬剛GPT-5 MoE首破100萬極限上下文紀錄