智東西
作者 | 陳駿達
編輯 | 漠影
今年,字節跳動旗下AI應用豆包的交互方式迎來多次升級,從春節期間的實時語音通話,再到5月份新增的視頻通話功能,如今,豆包已經能像真人一樣通過多模態交互實現無縫溝通。
我們先來看幾個例子:
打開視頻通話功能,隨手對準一個歐洲小國的國旗,豆包便能結合音視頻信息,瞬間給出正確答案。
通話過程中,用戶可以隨意地停頓、思考、改變話題,豆包能準確地把握回復的時機;而在豆包說話時,可以隨時打斷,向它提出新的要求。
在地鐵站、電梯、地下車庫等較為復雜的網絡環境下,豆包的實時交互能力也不會大打折扣。下方案例中,豆包的響應速度沒有出現明顯的問題,給出的回答也正確、清晰。
要實現這種近乎直覺性的體驗,并在一款國民級AI應用中穩定提供實時音視頻交互,豆包需要攻克不少挑戰。
除了提升模型能力之外,實時音視頻交互要如何將攝像頭捕捉的畫面高清呈現,如何將AI的視覺推理和搜索反饋同步,又如何在瘋狂丟包的弱網環境中依舊維持高質量通信?
豆包最終選擇的方案,是火山引擎的RTC(Real Time Communication,實時音視頻)技術。目前,真人用戶間的音視頻通話幾乎都依賴RTC技術,火山引擎智能交互產品負責人楊若揚向智東西透露,他認為,未來的人機音視頻通話也必將全面進入RTC時代。
一、實時交互技術路徑分野,RTC憑借什么勝出?
RTC是一項專門為低延遲互動設計的技術,能降低通信延遲、確保實時性和質量,讓用戶與用戶、用戶與系統間實現近乎“面對面”般的無縫音視頻交互體驗。
這項技術涉及多個模塊,比如音視頻的采集與編解碼、網絡傳輸、網絡自適應等,這些模塊協同工作,保證了用戶從攝像頭、麥克風采集的數據能清晰流暢的傳送至接收方,而用戶也能及時收到對方的音視頻反饋。
雖然RTC并不是目前業內唯一的實時交互方案,但與基于TCP協議實現的另一大主流方案WebSocket相比,RTC擁有顯著的優勢。
協議方面,RTC底層采用UDP傳輸,避免了傳統TCP必須完整接收再傳給應用層的機制。RTC允許一定程度丟包但保證速度,因此延遲非常低,特別適合實時音視頻通話和互動。
理想情況下,RTC和WebSocket的語音延遲差異不大。但現實世界的網絡情況復雜多變,WebSocket對丟包比較敏感,網絡波動時延遲明顯升高,不如RTC流暢。
RTC技術具有較強的抗弱網能力。線上實測數據清晰印證,在20%丟包環境下,WebSocket方案已出現嚴重卡頓、斷連,并且線上已有高達15%的用戶不可用;而RTC即使在80%極端丟包下,不可用率也僅為1%,體驗稍有滯后(延時4.6s)。
在視頻場景,RTC技術還可以利用其帶寬估計、前向糾錯(FEC)和丟包重傳等抗擁塞能力與端到端傳輸優化,有效降低移動網絡或擁擠WiFi下畫面花屏與卡頓的風險。
火山引擎的RTC技術于2021年隨品牌發布上線,但其研發始于2017年,用于滿足抖音直播連麥等需求。此后,這一技術陸續在字節內部的音視頻通話、社交娛樂、游戲、在線會議等場景落地。
2021年火山引擎成立后,其RTC技術逐漸產品化,承載能力也不斷提升。而生成式AI的爆發,給RTC技術帶來了新的發展機遇,2024年初,火山引擎推出了基于RTC的對話式AI技術方案,這便是豆包交互體驗升級背后的重要支撐。
二、豆包交互體驗再升級,揭秘背后核心技術棧
我們已在文章開頭的案例中,看到了RTC支持下豆包語音交互、視頻電話的流暢、即時性體驗。在智東西與火山引擎智能交互產品負責人楊若揚的溝通中,我們了解到了這一效果背后的具體實現。
豆包首先充分利用了火山引擎RTC方案的既有優勢,實現了低延遲、高質量和抗弱網的音視頻交互體驗。
在網絡層面,火山引擎擁有覆蓋全球的邊緣節點和骨干網絡,這能有效縮短數據傳輸物理路徑,減少中間節點,降低延遲和丟包風險。同時,智能路由技術可實時感知鏈路狀態和擁塞情況,動態選擇最優路徑,確保數據傳輸高效流暢。
在算法層面,火山引擎RTC技術擁有網絡、音頻和視頻多類算法。網絡側通過動態帶寬、自適應傳輸、前向糾錯、智能重傳等機制提升弱網適應能力;音視頻側結合神經網絡編解碼、分層和感知內容編碼等技術,動態優化編碼參數,有效緩解“最后一公里”網絡不確定性,保障用戶端音視頻傳輸的清晰度與穩定性。
楊若揚認為,在豆包這樣的“對話式AI”場景,RTC技術所服務的對象已從人和人之間的交流,轉變為人與機器的交流。火山引擎RTC技術針對新場景的特點,在音視頻處理層面做了針對性的升級和優化。
視頻流與大模型在輸入輸出形式上存在明顯差異:視頻由一幀幀圖片組成,而當前的多模態大模型以理解單張圖片為主,這要求模型能分析幀間聯系與時序,保證語義連續,因此必須不斷優化視頻理解與關鍵幀提取算法,以提升模型對動態場景的感知與處理能力。
在人與AI的對話中,AI如何準確斷句,選擇接話、插話的時機也是一大挑戰。人類能憑語境判斷對方話語結束時間,并憑音色識別說話者、濾除無關噪聲,而大部分AI系統僅依賴停頓時長判斷,往往不夠準確,這就需要引入智能語義判停與聲紋降噪算法。
智能語義判停技術可以根據語義判斷用戶話語是否完整,讓模型不會過早回復。下方案例中,用戶可以停頓,思考,而不會被豆包插話。
而聲紋降噪算法能在嘈雜環境中聚焦目標說話者,屏蔽環境人聲及噪聲干擾,將誤打斷率降低15%-20%。
這些改進讓AI在音視頻通話中展現出更接近人類的特征,也讓用戶在與豆包對話時能獲得更加流暢、自然、貼近真實互動的使用感受。
三、智能音視頻交互需求井噴,RTC有望提供堅實底座
隨著大模型與AI應用的日漸成熟,音視頻已成為新一代AI交互中不可或缺的一部分,這些模態所提供的沉浸式體驗對用戶天然有吸引力和親近性。
在虛擬陪伴、智能玩具、智能家居、智能教育等廣闊場景中,用戶對于低延時、高質量、自然流暢的人機對話需求與日俱增,而火山引擎RTC這樣能夠支撐復雜場景實時音視頻交互的底層傳輸技術正是保障用戶體驗的關鍵。
在多Agent、多人場景中,RTC技術還展現出較好的可擴展性,相較傳統WebSocket實現語音方案,RTC在網絡層和算法層都更為成熟,原生支持房間管理、多流控制、音視頻混音與優先級策略,可應用于多人娛樂、企業辦公等場景。
火山引擎基于RTC的對話式AI技術,不僅僅是“豆包專屬”,而是能為所有AI時代的產品提供重要價值。作為火山引擎的核心音視頻技術之一,RTC 已廣泛應用于字節各大業務場景,在真實用戶環境中反復打磨與優化。
同時,火山引擎提供的RTC服務與其內部業務完全同源,換句話說,企業通過火山引擎接入RTC,使用的就是與抖音、飛書、豆包同款的算法、架構與策略。
當然,RTC技術也存在行業共性難題:一方面,自建集成方案門檻較高,需要專門的網絡傳輸與音視頻處理能力,另一方面,云服務資源消耗也不可小覷,此外深度音頻算法調優也需大量投入。
楊若揚觀察到,上述難題導致許多企業不得不選擇實現成本相對低廉、門檻較低的WebSocket,一定程度上犧牲用戶體驗,等待用戶規模擴展后再考慮換用更成熟方案,這無形中限制了產品的成長與競爭力。
針對這些痛點,火山引擎對話式AI一站式方案提供了低門檻、高質量的接入途徑。開發者無需從零開始搭建復雜架構,即可實現用戶與AI的實時音視頻互動,構建契合業務場景的AI實時對話能力。
火山引擎對話式AI官網:
https://www.volcengine.com/product/veRTC/ConversationalAI
火山引擎還為開發者提供了每月10000分鐘的免費額度,進一步降低了開發者的前期驗證與迭代成本。
結語:從難點到標配,RTC成對話式AI首選項
在對話式AI場景中,RTC正在成為企業的優選方案,這種整合方案讓企業能更加專注業務創新,以更低成本、更快速度落地語音與音視頻能力,從一開始就為用戶帶來高品質的交互體驗,為下一代智能應用贏得先機與口碑。
火山引擎的對話式AI一站式方案,讓實時音視頻從“難點”變成“標配”,為各類AI應用與智能體生態拓展廣闊空間,讓未來的人機互動更加順暢、高效、有溫度。
楊若揚稱,在多模態音視頻技術上,火山引擎希望讓人和AI之間的對話越來越接近人與人之間的真實溝通,這也是他們未來持續努力的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.