Meta AI驅動的音頻編解碼器比MP3壓縮率高10倍

2022-11-03 發表於業界精選

上周，Meta公司宣佈一種名為&quot;EnCodec&quot;的人工智能驅動的音頻壓縮方法，據說可以將音頻壓縮到比MP3格式小10倍的64kbps而且具有同等的質量。Meta公司表示，這種技術可以極大地改善低帶寬連接上的語音質量，例如在服務不完善的地區進行電話通話。該技術也適用於音樂。

Meta公司於10月25日在一篇題為"高保真神經音頻壓縮"的論文中首次介紹這項技術，論文作者是Meta公司的人工智能研究員Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta公司還在其專門介紹EnCodec的博客上總結這項研究。

Meta公司將其方法描述為一個由三部分組成的系統，經過訓練可將音頻壓縮到所需的目標大小。首先，編碼器將未壓縮的數據轉換為較低幀率的"潛空間"表示。然後，"量化器"將該表示法壓縮到目標大小，同時跟蹤最重要的信息，這些信息隨後將被用於重建原始信號。(這個壓縮信號將通過網絡發送或保存在磁盤上）。最後，解碼器使用一個神經網絡在單個CPU上將壓縮的數據實時地轉變成音頻。

一個方框圖說明Meta的EnCodec壓縮是如何工作的

Meta對鑒別器的使用被證明是創造一種盡可能多地壓縮音頻的方法的關鍵，同時又不失去信號的關鍵元素，使其與眾不同並可被識別。

"有損壓縮的關鍵是識別人類無法察覺的變化，因為在低比特率下不可能實現完美的重建。為做到這一點，我們使用鑒別器來提高生成的樣本的感知質量。這就形成一個貓捉老鼠的遊戲，鑒別器的工作就是區分真實的樣本和重建的樣本。壓縮模型試圖通過推動重建的樣本與原始樣本在感知上更加相似來生成樣本以欺騙鑒別器"。

值得註意的是，使用神經網絡進行音頻壓縮和解壓遠非新鮮事，特別是用於語音壓縮時，但Meta公司的研究人員聲稱他們是第一個將該技術應用於48kHz立體聲音頻（比CD的44.1kHz采樣率略好）的工作小組，這是在互聯網上傳播的最典型的音樂文件。

至於應用方面，Meta公司表示，這種由人工智能驅動的"超壓縮音頻"可以在惡劣的網絡條件下支持"更快、更優質的通話"。當然，作為Meta公司，研究人員還提到EnCodec的元數據影響，說該技術最終可以提供"豐富的元數據體驗，而不需要大幅提高帶寬"。

除此之外，也許有一天我們還能從它那裡得到更小的音樂音頻文件。目前，Meta公司的新技術仍處於研究階段，但它指向一個高質量音頻可以使用更少帶寬的未來，這對流媒體造成網絡負擔過重的移動寬帶供應商來說是個好消息。

Meta AI驅動的音頻編解碼器比MP3壓縮率高10倍

相關推薦

Meta公佈全新開源AI語音壓縮技術：號稱比MP3壓縮率高10倍

Google發佈Lyra V2超低比特率語音編解碼器

騰訊又立功主導AVS3語音編碼新進展：網絡不佳通話依舊流暢

Wi-Fi還是藍牙？無線Hi-Fi迎來轉點

騰訊披露自研芯片“滄海”最新進展已在業務場景中投用數萬片

完爆H.265！優酷用上H.266編解碼：最便宜手機放視頻也絲般順滑

藍牙LE音頻可以帶給下一代AirPods Pro的五大好處

iPhone 14和AirPods Pro2均支持藍牙5.3 尚不清楚是否支持LE Audio

中國AVS3視頻、音頻標準雄起！首次全覆蓋8K/4K/移動端

高通的aptX和aptX HD編解碼器現已成為AOSP開源項目的一部分

Google希望通過新的開放媒體格式來挑戰杜比公司

AOMedia 發佈免版稅 IAMF 音頻容器規范

Google的Jpegli編碼庫可將高質量JPEG壓縮率提高約35%

新固件讓AirPods Max支持LC3藍牙解碼 AirPods Pro 2或也裝備