著名大模型開源平臺StabilityAI發佈音頻生成模型StableAudio2.0,現在允許用戶上傳自己的音頻樣本,然後通過提示轉換音頻樣本並免費創造AI生成的歌曲。StableAudio的第一版在2023年9月發佈時,僅為一些付費用戶提供最多90秒的音頻,這意味著用戶隻能制作短音頻片段來實驗。
而Stable Audio 2.0提供完整的三分鐘音頻片段,這個長度的歌曲大多數適合電臺播放,而所有上傳的音頻必須是無版權的。
據解,與OpenAI的音頻生成模型Voice Engine隻向一小部分用戶開放不同,Stability AI通過其網站免費向公眾提供Stable Audio,未來將很快提供API接口。
Stability AI表示,Stable Audio 2.0與其早期版本的一個主要區別在於,它能夠創建與真實歌曲相似的歌曲結構,包括有序幕、進展和尾聲。
不過,已經試玩Stable Audio 2.0的媒體表示,這個水平的AI歌曲距離幫助用戶用音樂表達想法,差距依然比較大。例如,有用戶用“帶有美國風格的民謠流行歌曲”(美國鄉村音樂)作為提示,Stable Audio生成的歌曲在某些部分聽起來有山谷清晨的氛圍,並且疑似加入人聲。
理論上,Stable Audio 2.0的新功能允許用戶調整生成的AI音頻作品,使作品更符合用戶的聽歌風格。例如可以調整遵循提示程度,或設置轉換所上傳音頻的哪一部分,用戶還可以添加像人群的吼聲或鍵盤敲擊等音效。
然而,這種AI歌曲最大的問題在於,讓人感覺毫無靈魂。但這並不令人感到驚訝,因為這和其他大廠的AI音頻問題一樣。例如,如Meta和Google也一直在嘗試AI音頻生成,但兩傢公司都沒有公開發佈他們的模型,因為他們仍在收集開發者的反饋,來解決AI歌曲無靈魂的問題。
Stability AI在一份新聞稿中說,Stable Audio是在AudioSparx的數據上訓練的,後者擁有超過800,000個音頻文件的庫。
不過,這些音頻可能出現版權糾紛。Stability AI表示,作品被納入AudioSparx的藝術傢可以選擇退出,以避免他們的作品用於訓練模型。其實,使用版權音頻訓練模型是Stability AI的前音頻副總裁Ed Newton-Rex在Stable Audio發佈後不久就離開公司的原因之一。對於2.0版本,Stability AI說它與Audible Magic合作,使用其內容識別技術來追蹤和阻止版權音頻進入平臺。
總之,Stable Audio 2.0的確讓AI歌曲比之前更像真正的歌曲,但還是沒有完全達到這個目標。媒體表示,如果Stable Audio 2.0模型堅持添加某種人聲,也許下一個版本的AI音頻作品會出現更能令人分辨的語言。