Meta AI驅動的音頻編解碼器比MP3壓縮率高10倍


上周,Meta公司宣佈一種名為"EnCodec"的人工智能驅動的音頻壓縮方法,據說可以將音頻壓縮到比MP3格式小10倍的64kbps而且具有同等的質量。Meta公司表示,這種技術可以極大地改善低帶寬連接上的語音質量,例如在服務不完善的地區進行電話通話。該技術也適用於音樂。

hypercompression_graph_2.jpg

Meta公司於10月25日在一篇題為"高保真神經音頻壓縮"的論文中首次介紹這項技術,論文作者是Meta公司的人工智能研究員Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta公司還在其專門介紹EnCodec的博客上總結這項研究。

Meta公司將其方法描述為一個由三部分組成的系統,經過訓練可將音頻壓縮到所需的目標大小。首先,編碼器將未壓縮的數據轉換為較低幀率的"潛空間"表示。然後,"量化器"將該表示法壓縮到目標大小,同時跟蹤最重要的信息,這些信息隨後將被用於重建原始信號。(這個壓縮信號將通過網絡發送或保存在磁盤上)。最後,解碼器使用一個神經網絡在單個CPU上將壓縮的數據實時地轉變成音頻。

meta_audio_process.jpg

一個方框圖說明Meta的EnCodec壓縮是如何工作的

Meta對鑒別器的使用被證明是創造一種盡可能多地壓縮音頻的方法的關鍵,同時又不失去信號的關鍵元素,使其與眾不同並可被識別。

"有損壓縮的關鍵是識別人類無法察覺的變化,因為在低比特率下不可能實現完美的重建。為做到這一點,我們使用鑒別器來提高生成的樣本的感知質量。這就形成一個貓捉老鼠的遊戲,鑒別器的工作就是區分真實的樣本和重建的樣本。壓縮模型試圖通過推動重建的樣本與原始樣本在感知上更加相似來生成樣本以欺騙鑒別器"。

值得註意的是,使用神經網絡進行音頻壓縮和解壓遠非新鮮事,特別是用於語音壓縮時,但Meta公司的研究人員聲稱他們是第一個將該技術應用於48kHz立體聲音頻(比CD的44.1kHz采樣率略好)的工作小組,這是在互聯網上傳播的最典型的音樂文件。

至於應用方面,Meta公司表示,這種由人工智能驅動的"超壓縮音頻"可以在惡劣的網絡條件下支持"更快、更優質的通話"。當然,作為Meta公司,研究人員還提到EnCodec的元數據影響,說該技術最終可以提供"豐富的元數據體驗,而不需要大幅提高帶寬"。

除此之外,也許有一天我們還能從它那裡得到更小的音樂音頻文件。目前,Meta公司的新技術仍處於研究階段,但它指向一個高質量音頻可以使用更少帶寬的未來,這對流媒體造成網絡負擔過重的移動寬帶供應商來說是個好消息。


相關推薦

2022-11-06

縮技術,該技術號稱可以64kbps的速度壓縮比MP3格式小10倍的音頻,同時還能保證不會損失質量。Meta指出,壓縮技術對目前互聯網十分重要,借助於此用戶可以十分容易的發送高畫質圖片、語音信息等。不過,發送這些多媒體信息

2022-10-01

可擴展的比特率能力,具有更好的性能,並產生更高質量的音頻。"Lyra V2利用SoundStream端到端神經音頻編解碼器,繼續顯示出比Opus音頻編解碼器好得多的性能,改善音頻質量,以及更多。Lyra V2的開源代碼今天已經可以使用。

2023-09-01

場景下,能夠實現極低碼率下的高質量通話,向實現AVS3音頻標準落地更近一步!本次AVS會議,騰訊側提交的技術方案,來自於騰訊首款自研神經網絡語音編解碼器Penguins。傳統的語音編解碼器,包括AVS、ITU-T等標準語音編碼器,

2023-04-20

玩傢眼裡無線與有線之間的差距仍然非常巨大,無線耳機的音質是拍馬都追不上有線的。從硬件角度分析,無線耳機除傳統耳機必備的音頻單元、換能器等模塊外,還需要將無線音頻解碼器、電池等模塊塞進耳機的腔體中,這些

2023-04-17

的計算單元,從而疊加大量處理任務;為滄海芯片內置視頻編碼加速專用功能模塊,讓流水控制邏輯更純粹,減少重復計算和分支判斷,帶來更低的功耗和成本。滄海芯片的編碼器設計中完整實現高精度運動搜索、全率失真優化

2023-03-03

量消耗,同時不卡頓。實際上,這背後的核心技術就是視頻編解碼標準。據阿裡技術介紹,優酷從2022年年初上線Ali266,成為業內首個應用國際最新H.266/VVC視頻編解碼標準的視頻平臺。運行顯示,在Ali266加持下,同等畫面清晰度

2022-09-04

典的SBC編解碼器相比,即使比特率降低50%,也能提供更好的音頻質量。更長的電池續航。有低功耗的LC3音頻編解碼器,未來的AirPods Pro在音頻播放方面將有更長的電池壽命。多音頻流支持。LE音頻將使iPhone或Mac等源設備與AirPods Pro

2022-09-08

帶來的五個好處,特別是如果 Apple 支持該規范:● 改進的音頻質量根據藍牙 SIG 的說法,LE Audio 包括一個名為 LC3 的新型低功耗音頻編解碼器,與經典的 SBC 編解碼器相比,它提供改進的音頻質量,即使比特率降低 50%。● 更長

2022-11-28

的我國自主研發的三維聲技術,也是全球首個基於AI技術的音頻編解碼標準,曾同時用於2022年央視中秋晚會,又出現在2022年卡塔爾世界杯。本屆世界杯,AVS產業聯盟、中國移動咪咕、當虹科技、博雅睿視等單位,將AVS3視頻、音

2023-03-20

TWS和任何其他類型的無線耳機最大的問題之一是對各種音頻編解碼器的支持有限,許多人依賴不那麼好的SBC編解碼器或AAC,僅僅是因為這兩個代碼被耳機連接的大多數設備所支持。當涉及到智能手機時,高通公司是迄今為止最大

2022-09-23

體格式,在一個新的消費者認可的品牌下提供HDR視頻和3D音頻,而不需要硬件制造商目前必須向杜比支付許可費。Google在今年早些時候與硬件制造商的一次閉門會議上分享媒體格式的計劃,這些格式在內部被稱為“魚子醬”項目

2023-11-13

解碼器無關的容器規范,支持所有設備的空間音頻、靈活的音頻傳輸,並且對創作者友好。有關 IAMF 音頻容器規范的更多詳情,請訪問 AOMedia.org:https://aomedia.org/press%20releases/AOMedia-Advances-the-Audio-Innovation-Era/除最終確定的規范,AO

2024-04-04

理軟件等)兼容。據Google統計,Jpegli 可以比傳統的 JPEG 編解碼器多壓縮 35% 的高質量圖像。目前,Jpegli 的代碼存在於 libjxl(JPEG-XL 庫)資源庫中。

2022-06-24

比特率進行傳輸,而不會降低我們目前使用藍牙標準看到的音頻質量。在這種情況下,正如 Twitter 用戶所展示的那樣,LC3 編解碼器將改善音頻通話,讓它們聽起來更好,但這項技術的真正潛力將需要藍牙 5.2 和新一代 AirPods 硬件