上周,Meta公司宣佈一種名為"EnCodec"的人工智能驅動的音頻壓縮方法,據說可以將音頻壓縮到比MP3格式小10倍的64kbps而且具有同等的質量。Meta公司表示,這種技術可以極大地改善低帶寬連接上的語音質量,例如在服務不完善的地區進行電話通話。該技術也適用於音樂。
Meta公司於10月25日在一篇題為"高保真神經音頻壓縮"的論文中首次介紹這項技術,論文作者是Meta公司的人工智能研究員Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta公司還在其專門介紹EnCodec的博客上總結這項研究。
Meta公司將其方法描述為一個由三部分組成的系統,經過訓練可將音頻壓縮到所需的目標大小。首先,編碼器將未壓縮的數據轉換為較低幀率的"潛空間"表示。然後,"量化器"將該表示法壓縮到目標大小,同時跟蹤最重要的信息,這些信息隨後將被用於重建原始信號。(這個壓縮信號將通過網絡發送或保存在磁盤上)。最後,解碼器使用一個神經網絡在單個CPU上將壓縮的數據實時地轉變成音頻。
一個方框圖說明Meta的EnCodec壓縮是如何工作的
Meta對鑒別器的使用被證明是創造一種盡可能多地壓縮音頻的方法的關鍵,同時又不失去信號的關鍵元素,使其與眾不同並可被識別。
"有損壓縮的關鍵是識別人類無法察覺的變化,因為在低比特率下不可能實現完美的重建。為做到這一點,我們使用鑒別器來提高生成的樣本的感知質量。這就形成一個貓捉老鼠的遊戲,鑒別器的工作就是區分真實的樣本和重建的樣本。壓縮模型試圖通過推動重建的樣本與原始樣本在感知上更加相似來生成樣本以欺騙鑒別器"。
值得註意的是,使用神經網絡進行音頻壓縮和解壓遠非新鮮事,特別是用於語音壓縮時,但Meta公司的研究人員聲稱他們是第一個將該技術應用於48kHz立體聲音頻(比CD的44.1kHz采樣率略好)的工作小組,這是在互聯網上傳播的最典型的音樂文件。
至於應用方面,Meta公司表示,這種由人工智能驅動的"超壓縮音頻"可以在惡劣的網絡條件下支持"更快、更優質的通話"。當然,作為Meta公司,研究人員還提到EnCodec的元數據影響,說該技術最終可以提供"豐富的元數據體驗,而不需要大幅提高帶寬"。
除此之外,也許有一天我們還能從它那裡得到更小的音樂音頻文件。目前,Meta公司的新技術仍處於研究階段,但它指向一個高質量音頻可以使用更少帶寬的未來,這對流媒體造成網絡負擔過重的移動寬帶供應商來說是個好消息。