Google研發的AI模型可以從文本甚至圖像中生成高保真音樂


來自Google的研究人員發表一篇論文,稱他們創建一個從文本描述中生成高保真音樂的模型。它被稱為MusicLM,根據人工智能科學傢KeunwooChoi的說法,這個模型的整體結構是基於其他模型的,它結合MuLan+AudioLM和MuLan+w2b-Bert+Soundstream。

Choi解釋一下這些模型各自的工作原理:

MuLan是一個文本-音樂聯合嵌入模型,支持對比性訓練和來自YouTube的44M音樂音頻-文本描述對。

AudioLM使用一個來自語音預訓練模型的中間層來獲取語義信息。

w2v-BERT是一個來自Transformers的雙向編碼器表表達法,這是一個最初用於語音的深度學習工具,這次用於音頻。

SoundStream是一個神經音頻編解碼器。

Google將所有這些結合起來,產生從文本中生成音樂的AI模型,以下是研究人員對MusicLM的解釋。

MusicLM是一個從文本描述中生成高保真音樂的模型,如"平靜的小提琴旋律伴著扭曲的吉他旋律"。MusicLM將有條件的音樂生成過程作為一個層次化的序列到序列的建模任務,它生成的音樂頻率為24KHz,時長可以達到幾分鐘。實驗表明,MusicLM在音頻質量和對文本描述的遵守方面都優於以前的系統。此外,還可以證明MusicLM可以以文本和旋律為條件,因為它可以根據文本說明中描述的風格來轉換口哨和哼唱的旋律。為支持未來的研究,我們公開發佈MusicCaps,這是一個由5500首音樂-文本對組成的數據集,其中有人類專傢提供的豐富文本描述。

google-music-from-text-bgr.webp

相對而言,想想ChatGPT能夠完成的事情就很有意思。艱難的考試,分析復雜的代碼,為國會寫決議,甚至創造詩歌、音樂歌詞等。在這種情況下,MusicLM更是超越前者,把文字意圖、一個故事甚至一幅繪畫轉化為歌曲。看到薩爾瓦多-達利的《記憶的持久性》被轉化為旋律,這很吸引人。

不幸的是,該公司並不打算向公眾發佈這種模型,但您仍然可以在這裡看看-和聽聽-這個人工智能模型如何從文本中生成音樂:

https://google-research.github.io/seanet/musiclm/examples/


相關推薦

2024-03-09

3月6日,美國AI模型評估公司PatronusAI推出一款版權檢測工具CopyrightCatcher,用來檢測大語言模型生成內容潛在的版權侵權行為。基於這一工具,PatronusAI研究人員在對抗性版權測試中發現,GPT-4、Claude2.1、Mixtral8x7B、Llama2等市面上頂

2023-03-09

人臉、風景圖像。而這項新研究首次將“穩定擴散”這一模型成功應用於上述圖像重建過程。“穩定擴散”由德國研究人員開發,於2022年公開發佈,與其他文本到圖像的AI“生成”模型類似,都是在接受與文本描述相關的數十億

2023-03-23

人工智能勢不可擋。本周,包括微軟、Google、英偉達、Adobe在內的全球多傢科技巨頭公司都不約而同地發佈或開放生成式AI新技術,其中微軟和Adobe發佈與圖像生成相關的新應用。然而,AI不僅可以幫助人類,也會被利用來戲弄人

2023-05-27

坡國立大學和中國香港中文大學的聯合研究團隊稱,他們研發出通過腦部掃描紀錄大腦活動並生成視頻的技術。該團隊利用一種名為心視模型的技術實現高質量的視頻。這種技術旨在減小圖像和視頻大腦解碼之間的差距,在圖像

2022-12-21

選取7張含有John的圖片,再使用近期大火的Stable Diffusion和Google研究院發佈的Dreambooth兩個AIGC工具,接著就在社交媒體上生成不同版本、讓人真假難辨的John。在這些照片裡,John從一位普通的、喜歡分享日常生活的英文老師,一會

2023-12-07

的Gemini,終於在今天深夜上線!‘原生多模態’架構,是Google的史詩級創舉,Gemini也如願在多個領域超越GPT-4。這場仗,Google必不能輸。Google的復仇大殺器Gemini,深夜忽然上線!被ChatGPT壓著打整整一年,Google選擇在12月的這一天

2024-02-22

Google表示,在發現"Gemini"人工智能生成不準確的歷史圖像後,它將暫停該工具生成人物圖像的功能。此前"Gemini"一直在生成不同的美國開國元勛和納粹時期德國士兵的圖像,這似乎是在試圖

2023-03-10

到的人臉、風景圖像。而這項研究首次將穩定擴散”這一模型成功應用於上述圖像重建過程。據解,穩定擴散”是由德國研究人員開發,與其他文本到圖像的AI生成”模型類似,都是在接受與文本描述相關的數十億張圖像訓練後

2024-02-26

後,Sora可以渲染出與《我的世界》遊戲極其相似的HUD、高保真度渲染世界及遊戲動態,同時還能控制玩傢角色。值得一提的是,去年8月,OpenAI官宣有史以來第一次收購,收購對象為制作開源版《我的世界》的初創公司Global illumi

2023-05-11

5月10日周三舉行的Google年度開發者大會GoogleI/O2023上,Google亮出人工智能(AI)領域開發的最新成果。和此前媒體曝光的消息一致,本次Google正式發佈新的通用大語言模型PaLM2。PaLM2是驅動AI機器人Bard的模型的升級版,可以生成多

2024-02-18

允許模型從龐大的數據集中更有效地學習,提高模型生成高保真視頻的能力,同時降低與現有建模架構相比所需的計算量。讓物理世界栩栩如生:Sora對3D和連續性的掌握3D空間和物體的一致性,是Sora演示中的關鍵亮點。通過對各

2022-06-30

上。漫畫書插圖。谷歌“自己卷自己”在這項研究來自 Google Research,團隊中的華人居多。研究核心工作人員包括 Yuanzhong Xu、Thang Luong 等,目前均就職於谷歌從事 AI 相關研究工作。(Thang Luong 在谷歌學術上的引用量高達 20000+)

2024-03-18

頻生成從短到長、從低分辨率到高分辨率、從低保真度到高保真度的高效擴展。值得一提的是,Colossal-AI還詳細透露每階段的資源使用情況。在Open-Sora的復現流程中,他們使用64塊H800進行訓練。第二階段的訓練量一共是 2808 GPU hou

2024-02-16

剛剛,我們經歷LLM劃時代的一夜。Google又在深夜發炸彈,GeminiUltra發佈還沒幾天,Gemini1.5就來。卯足勁和OpenAI微軟一較高下的Google,開始進入高產模式。自傢最強的Gemini1.0Ultra才發佈沒幾天,Google又放大招。就在剛剛,GoogleDeepMind