從一項技術,到一代標準!
作者:本站編輯
發布時間:2025-09-09
瀏覽人次:728
以前線上開會、打語音電話時,多多少少經歷過這種尷尬:
~坐高鐵過隧道的時候,信號總容易斷
~每次走進電梯,聲音免不了會卡住一小會
…
自上線以來,騰訊會議就決定了和隧道、停車場、電梯等弱網環境硬磕到底,并推出了騰訊首款自研神經網絡語音編解碼器Penguins AI語音引擎,提升弱網環境下的通話質量。

如今,這項經過億級用戶穩定使用驗證的前沿技術,也走出了“廠門”,為行業技術迭代貢獻一份力量:騰訊主導的新一代實時語音編碼行業標準AVS3P10完成定稿,即將正式對外發布。此次AVS音頻組AVS3P10標準采納的騰訊側方案,就是以騰訊會議Penguins AI語音引擎為原型。

▲ AVS官方報道
作為全球首個系統性引入人工智能并實現真正意義上的低碼率下高質量語音編碼標準,表現達到國際一流水準。僅需1/3的編碼碼率,就能實現和現有主流標準同等清晰的音質。經過多輪交叉驗證,AVS項目組得出結論:AVS3P10代表了目前AI Codec的最高水平。
讀起來有點神秘?
簡單來說:即使網絡卡如2G,也能順暢開會!
01
你開會時說的每句話,在傳輸時都要經歷這些環節:①語音轉化為數字信號→②在發送端“編碼”→③傳輸過去→④到接收端“解碼”→⑤將數字信號轉換成聲波。
想要能隨時隨地能聽歌、打語音、看視頻,起到“壓縮”作用的編解碼是其中關鍵。如果不經“壓縮”就直接傳輸,音頻體積很大,傳輸時擁塞是難免的。
現在,評價一項編解碼技術是否足夠牛,重點就看壓縮率和質量保障:把音頻體積壓縮數十倍后,看音頻質量有沒有損傷、會不會影響理解。
02
過去幾十年,行業奔著極致效果不斷突破,也形成了一系列編解碼標準。
然而,它們仍然會受到物理世界的基本限制:根據香農定律,當碼率降到一定水平時,同一種編解碼技術無論如何優化,都難以在保持信號質量的同時進一步壓縮數據。
當碼率降到10kbps以下,即使是當前行業最主流的編解碼標準,也難以把關鍵細節恢復出來。
如果不能進一步提升壓縮率,到了類2G的的弱網環境:比如隧道、電梯、地庫里,仍然會卡頓、聽不清。
03
雖然,「卡」的原因不在騰訊會議——
但相比起被動接受,我們選擇主動壓縮自己。
從2020年起,我的工程師同事們就在向著這個難題發起沖擊:如何讓編解碼效率再上一個臺階,網絡再差也能流暢開會?
為了解決這件事,騰訊會議天籟實驗室和騰訊AI Lab自研了音頻編解碼器Penguins。它的本質,是一套能更高效捕捉核心特征以及重建語音信號的算法。

通過引入AI深度學習網絡,在發送端,將語音信號建模,只編碼核心特征參數;到接收端,通過AI預測和還原,重建高質量的語音信號,恢復出同等清晰的最終波形。
有了Penguins編解碼器,僅需1/3的數據量,就能傳輸同等質量的聲音,大幅降低對網絡的要求。主觀質量對標傳統編碼的中高碼率情況下,編碼效率提升200-300%。
這幾年,Penguins逐步落地到騰訊會議的駕駛模式、弱網模式中,也被QQ等更多鵝廠自研產品pick,至今已服務億級用戶。
04
實際上,弱網環境下的通話挑戰,除了線上會議場景,在更多音頻傳輸的場景中也存在。
我們希望,讓好技術走出去,服務于行業,共同成長。
從去年3月起,騰訊會議天籟實驗室聯合騰訊知識產權部在AVS音頻組主動提議并參與標準制定,即AVS3P10實時語音編碼標準。隨后,騰訊提交基于Penguins候選技術,經過AVS音頻組交叉驗證后采納。本月,AVS3P10實時語音編碼標準已正式完成標準化工作。
以Penguins為原型的新一代實時語音編碼行業標準AVS3P10,得到的評價是:標準制定速度最快,標準交付質量最高,測試非常充分。
AVS是國內多媒體領域最重要的標準化組織。2002年6月,國家原信息產業部科學技術司批準成立了數字音視頻編解碼技術標準工作組(AVS),面向我國的信息產業需求,聯合國內企業和科研機構,制(修)訂數字音視頻的壓縮、解壓縮、處理和表示等共性技術標準。經過多年發展,AVS對推動技術創新、推動行業生態建設做出了卓越貢獻。
其中,AVS音頻組負責組織制定音頻編碼技術標準。當前,AVS標準已經演進到第三代。
編解碼技術、音頻降噪算法、語音增強技術…過去這些年,騰訊會議天籟實驗室持續打磨一場會背后的每個 技術細節,已經形成了一套全球領先的實時音頻通信端到端解決方案。
我們希望,這些更好的技術不僅能服務每一位騰訊會議的用戶,也為更多場景帶來改變。