網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從 “可用” 邁向 “好用”：詳解火山引擎智能視頻云的三層架構(gòu)升級(jí)｜甲子光年

2025-06-17 19:48:20　來(lái)源: 甲子光年

北京舉報(bào)

分享至

未來(lái)10個(gè)AI應(yīng)用場(chǎng)景中，至少7個(gè)與多媒體深度綁定。

作者｜田思奇

編輯｜栗子

在AI技術(shù)演進(jìn)的過(guò)程中，每個(gè)階段都有一個(gè)關(guān)鍵場(chǎng)景，成為撬動(dòng)產(chǎn)業(yè)升級(jí)的 “阿基米德支點(diǎn)”。

2023年，這一角色屬于生成式AI模型的爆發(fā)，人類(lèi)第一次感受到了AI“能說(shuō)會(huì)畫(huà)”的能力；

到了2024年，AI不再僅靠指令執(zhí)行，而是開(kāi)始理解看到的和聽(tīng)到的。多模態(tài)對(duì)齊與語(yǔ)義統(tǒng)一成為關(guān)鍵路徑。

2025年，AI技術(shù)版圖上的支點(diǎn)，無(wú)疑落在了多媒體領(lǐng)域。

人類(lèi)感知世界的方式，本質(zhì)上是一場(chǎng)視聽(tīng)盛宴的狂歡。超過(guò)80%的信息獲取，都來(lái)自視覺(jué)與聽(tīng)覺(jué)的協(xié)同運(yùn)作。從清晨喚醒人們的智能語(yǔ)音助手，到通勤路上刷到的短視頻，再到工作時(shí)查閱的視頻會(huì)議資料，圖像、視頻、語(yǔ)音等多模態(tài)交互，早已編織成理解世界的 “元代碼”。

近年來(lái)，AI的算法創(chuàng)新層出不窮。然而，單純的參數(shù)規(guī)模比拼已不再是決勝關(guān)鍵。能否以人類(lèi)熟悉的方式理解世界，才是決定其商業(yè)價(jià)值與社會(huì)價(jià)值的核心要素。

而多媒體內(nèi)容，正是AI實(shí)現(xiàn)這一要素的最佳舞臺(tái)。

6月11日，「甲子光年」來(lái)到2025春季Force原動(dòng)力大會(huì)現(xiàn)場(chǎng)，見(jiàn)證了火山引擎智能視頻云賦能行業(yè)變革的無(wú)限可能。

1.突破瓶頸：智能多媒體面臨的三大挑戰(zhàn)

智能多媒體時(shí)代的核心特點(diǎn)是，生產(chǎn)正在從被動(dòng)響應(yīng)，轉(zhuǎn)向主動(dòng)創(chuàng)造價(jià)值。

傳統(tǒng)的多媒體處理，遵循線性邏輯。而大模型時(shí)代智能系統(tǒng)可以通過(guò)時(shí)空數(shù)據(jù)融合實(shí)現(xiàn)了 “需求預(yù)判”，形成了 “遠(yuǎn)端決策近場(chǎng)執(zhí)行” 的快速響應(yīng)，能更加有前置性的預(yù)測(cè)到用戶(hù)需求，并滿足這些需求。

這種從 “中心被動(dòng)響應(yīng)” 到“邊緣主動(dòng)預(yù)判”的生產(chǎn)模式升維，是智能多媒體內(nèi)容落地過(guò)程中的變革之一。

此外，交互方式發(fā)生改變，從 “單一模態(tài)指令” 轉(zhuǎn)變?yōu)椤岸喔泄賲f(xié)同理解”。這是智能多媒體時(shí)代的第二個(gè)變革。AI正從 “聽(tīng)指令” 的工具，進(jìn)化為 “能看、能聽(tīng)、能理解” 的智能伙伴。

第三個(gè)變革在于，AI多媒體系統(tǒng)，正經(jīng)歷從單點(diǎn)工具向系統(tǒng)智能體網(wǎng)絡(luò)的結(jié)構(gòu)性躍遷。當(dāng)AI Agent滲透到醫(yī)療、教育、工業(yè)等領(lǐng)域，傳統(tǒng)單一工具由于各自獨(dú)立而不能滿足復(fù)雜需要，取而代之的是跨領(lǐng)域協(xié)作的智能體協(xié)作。

火山引擎數(shù)據(jù)顯示，智能多媒體在垂直領(lǐng)域領(lǐng)域的滲透率已達(dá)40%，預(yù)計(jì)2028年將突破75%。

盡管趨勢(shì)清晰、潛力巨大，但據(jù)字節(jié)跳動(dòng)視頻與邊緣負(fù)責(zé)人王悅在Force原動(dòng)力大會(huì)介紹，智能多媒體在行業(yè)落地中，依然面臨三個(gè)方向的關(guān)鍵挑戰(zhàn)。

首先是計(jì)算效能問(wèn)題。隨著大模型從 “中心輻射式” 部署多 “毛細(xì)血管級(jí)” 滲透，人-AI-機(jī)器的實(shí)時(shí)交互對(duì)計(jì)算提出了隱私安全、實(shí)時(shí)響應(yīng)、全局優(yōu)化等需求和挑戰(zhàn)，傳統(tǒng)集中式架構(gòu)已經(jīng)非常難以滿足分布式智能計(jì)算的需求。

其次，多模態(tài)數(shù)據(jù)以年均超60%的速度爆發(fā)增長(zhǎng)，但也帶來(lái)了復(fù)雜度劇增。用戶(hù)的極致體驗(yàn)需求等挑戰(zhàn)出現(xiàn)了“數(shù)據(jù)越豐富，體驗(yàn)越卡頓”的怪圈，需要架構(gòu)級(jí)創(chuàng)新和突破。

第三，以往大模型的訓(xùn)練周期以“月”為單位，如今則以“周”甚至“小時(shí)”計(jì)。當(dāng)技術(shù)創(chuàng)新速度與成本要求出現(xiàn)矛盾時(shí)，如何實(shí)現(xiàn) “高效率的創(chuàng)新” 成為亟待解決的問(wèn)題。

因此，要從傳統(tǒng)的視頻云進(jìn)化到智能視頻云，亟需一套系統(tǒng)性的架構(gòu)升級(jí)來(lái)破解當(dāng)前困局。火山引擎提出的“智能視頻云”三層架構(gòu)升級(jí)，正是為應(yīng)對(duì)這一挑戰(zhàn)而生。

2.三層架構(gòu)全面升級(jí)，智能多媒體真正從“可用”到“好用”

整體來(lái)看，火山引擎通過(guò)“基建 + 平臺(tái) + 應(yīng)用”的三層架構(gòu)，實(shí)現(xiàn)了從“視頻云”到“智能視頻云”的底座升級(jí)。

首先升級(jí)的是基建層。

隨著AI應(yīng)用由“后臺(tái)生成”深入“前臺(tái)交互”，多媒體內(nèi)容的實(shí)時(shí)傳輸與就近處理需求激增。為此，火山引擎構(gòu)建了“全球一張網(wǎng)”，形成覆蓋全球5000+節(jié)點(diǎn)、具備280Tbps超大帶寬的分布式云網(wǎng)基礎(chǔ)設(shè)施。

該設(shè)施依托全球一體化多媒體基建，具備超大規(guī)模、超低時(shí)延、云邊端一體以及分布式安全防護(hù)等能力，目標(biāo)在讓智能應(yīng)用能就近上云，讓用戶(hù)更便捷、高效、安全地享用 AI 服務(wù)。

這個(gè)扎實(shí)的基建層，為火山引擎的智能多媒體提供了堅(jiān)實(shí)的技術(shù)底座。

但這還不夠。除了框架的升級(jí)外，火山引擎也實(shí)現(xiàn)了平臺(tái)層的升級(jí)——把分布式的BMF和底層的平臺(tái)做了深度的融合，構(gòu)建了新一代多媒體智能處理平臺(tái)MIPP。它的核心目標(biāo)是使開(kāi)發(fā)者以小時(shí)級(jí)的速度構(gòu)建一個(gè)大規(guī)模、低成本、高性能、高穩(wěn)定性的多媒體應(yīng)用。

MIPP的核心突破，首先在于其革命性的靈活編排能力。它徹底打破了傳統(tǒng)平臺(tái)僅支持文件級(jí)別處理的局限，構(gòu)建起涵蓋文件級(jí)、幀級(jí)乃至事件級(jí)的多粒度編排系統(tǒng)，全面覆蓋多媒體在離線場(chǎng)景。

其次，MIPP實(shí)現(xiàn)了深度的原子能力聚合。平臺(tái)不再是功能的簡(jiǎn)單堆疊，而是構(gòu)建了一個(gè)結(jié)構(gòu)清晰、協(xié)同高效的能力原子庫(kù)，系統(tǒng)整合了通用音視頻處理、圖像識(shí)別、語(yǔ)音分析、多模態(tài)摘要、流媒體分發(fā)、大模型接入以及媒資管理等關(guān)鍵模塊。每個(gè)能力組件既可獨(dú)立運(yùn)行，也能通過(guò)統(tǒng)一接口按需調(diào)用、自由組合。

在異構(gòu)資源調(diào)度與優(yōu)化方面，MIPP展現(xiàn)出強(qiáng)大的適應(yīng)力。其底層支撐體系覆蓋從傳統(tǒng)CPU/GPU、ARM架構(gòu)到邊緣設(shè)備及專(zhuān)用視頻芯片的全譜系硬件。依托火山引擎自研的分布式BMF框架，平臺(tái)能根據(jù)任務(wù)類(lèi)型、實(shí)時(shí)性要求及資源狀況，自動(dòng)生成最優(yōu)資源組合策略。

尤為關(guān)鍵的是，MIPP實(shí)現(xiàn)了專(zhuān)家級(jí)的性能成本優(yōu)化。針對(duì)大模型頻繁更新與業(yè)務(wù)需求快速變化，平臺(tái)可以自動(dòng)化選擇資源類(lèi)型，規(guī)劃最優(yōu)部署執(zhí)行方案，為企業(yè)在動(dòng)態(tài)變化的多媒體生態(tài)中保留了充分的靈活性。

如果說(shuō)底層基建和MIPP平臺(tái)解決了“能用”和“用順”的問(wèn)題，那么應(yīng)用層的升級(jí)則關(guān)乎真正的落地效果。

隨著AI發(fā)展不斷涌現(xiàn)，泛智能多媒體應(yīng)用較傳統(tǒng)的視頻云應(yīng)用，也在交互方式上實(shí)現(xiàn)了突破。其中，火山引擎聚焦對(duì)話式AI、AI Agent Mobile Use和多模態(tài)視頻理解與創(chuàng)作這幾大最具廣譜性的場(chǎng)景，打通了模型能力到終端體驗(yàn)的“最后一公里”。

作為應(yīng)用層升級(jí)的代表，火山引擎的對(duì)話式AI技術(shù)旨在讓 AI 對(duì)話更具真人感，其突破體現(xiàn)在：語(yǔ)音交互上，它攻克了即時(shí)響應(yīng)、準(zhǔn)確斷句、始終流暢三大關(guān)卡。同時(shí)支持視頻對(duì)話，可以基于視覺(jué)理解模型實(shí)現(xiàn)多模態(tài) AI 對(duì)話，解鎖 AI 教育、陪伴、解說(shuō)等多元場(chǎng)景。

該對(duì)話式AI嵌入式方案應(yīng)用于母嬰零售行業(yè)領(lǐng)軍者孩子王的AI潮玩啊貝貝后，可將部分處理能力放在AI玩具終端設(shè)備，減少數(shù)據(jù)傳輸量和網(wǎng)絡(luò)延遲，打造實(shí)時(shí)性更強(qiáng)和隱私保護(hù)更優(yōu)的用戶(hù)體驗(yàn)。

此外，AI與元宇宙技術(shù)引領(lǐng)者“不普家族”也依托豆包大模型、Coze平臺(tái)和實(shí)時(shí)音視頻技術(shù)，推出了業(yè)內(nèi)首款基于原創(chuàng)劇情、豐富玩法和社交場(chǎng)景的AI伙伴游戲社交宇宙，為玩家?guī)?lái)連接真實(shí)情感的全新體驗(yàn)。玩具開(kāi)口說(shuō)話時(shí)，不再有很強(qiáng)的文案感，而是能像真人一樣自然地跟玩家聊天，讓AI伙伴離“有靈魂”更近了一步。

在移動(dòng)端主場(chǎng)的當(dāng)下，火山引擎的Mobile Use解決方案依托MIPP的靈活的編排能力，集成多智能體協(xié)調(diào)機(jī)制。用戶(hù)通過(guò)自然語(yǔ)言指令（如“訂今晚上海到北京最便宜的高鐵票”），即可驅(qū)動(dòng)端側(cè)主智能體調(diào)度圖文處理、支付、位置等專(zhuān)業(yè)Agent完成多輪任務(wù)。

該方案支持跨平臺(tái)無(wú)縫遷移及高并發(fā)多任務(wù)處理，已在外賣(mài)、票務(wù)、導(dǎo)航等場(chǎng)景落地。

在多模態(tài)理解與創(chuàng)作技術(shù)的支持下，抖音電商已依托智能視頻云的高光智剪方案，精準(zhǔn)的識(shí)別商品高光片段和核心賣(mài)點(diǎn)，產(chǎn)出了直播高光片段，大幅提升營(yíng)銷(xiāo)效率。助力商家實(shí)現(xiàn)了日均生產(chǎn)300條高質(zhì)量視頻內(nèi)容，每個(gè)商家每月最高可以節(jié)省9萬(wàn)元，轉(zhuǎn)化效率提升了3倍以上。

從零售用戶(hù)更優(yōu)質(zhì)的體驗(yàn)，到移動(dòng)端多智能體的自然指令響應(yīng)與跨平臺(tái)任務(wù)執(zhí)行，其底層邏輯已不再是“是否能做”，而是“能否做得流暢、做得體系化”。這些落地場(chǎng)景印證了火山引擎技術(shù)能力的成熟，更標(biāo)志著企業(yè)正在步入一個(gè)以AI驅(qū)動(dòng)體驗(yàn)重塑、以平臺(tái)構(gòu)建系統(tǒng)價(jià)值的關(guān)鍵轉(zhuǎn)折。

也正是在這一背景下，智能視頻云的角色正在發(fā)生本質(zhì)變化。

3.如何真正加速智能多媒體落地？

「甲子光年」認(rèn)為，在AI邁入深水區(qū)的2025年，真正決定行業(yè)落地水平的，不再是某一項(xiàng)炫目的AI能力，而是是否能夠?qū)I能力系統(tǒng)化地融入業(yè)務(wù)流程、并轉(zhuǎn)化為可感知、可持續(xù)的用戶(hù)體驗(yàn)。

上文提到的智能多媒體三重進(jìn)化趨勢(shì)——從中心響應(yīng)向邊緣預(yù)判、從單模態(tài)向多模態(tài)協(xié)同、從工具孤島向智能體網(wǎng)絡(luò)——其落點(diǎn)其實(shí)都指向了一個(gè)核心問(wèn)題：能否讓AI真正讀懂用戶(hù)、融入場(chǎng)景、驅(qū)動(dòng)價(jià)值。這一切的發(fā)生，依賴(lài)的不只是模型能力本身，更是從底層基建到平臺(tái)架構(gòu)，再到最終應(yīng)用的協(xié)同進(jìn)化。

火山引擎提出的“智能視頻云”三層架構(gòu)升級(jí)，在這一轉(zhuǎn)型過(guò)程中充分發(fā)揮了統(tǒng)籌全局的能力，助力企業(yè)在智能多媒體的落地過(guò)程中實(shí)現(xiàn)更低成本、更高效率的規(guī)模化應(yīng)用。

例如，在內(nèi)容密集的零售、電商行業(yè)中，僅靠對(duì)話式AI理解語(yǔ)義、推薦商品遠(yuǎn)遠(yuǎn)不夠，只有當(dāng)智能視頻云支持“直播-剪輯-生成-分發(fā)”全過(guò)程，AI才能真正從一段視頻中提取高光片段、自動(dòng)添加標(biāo)簽并投放進(jìn)推薦流。而用戶(hù)的行為反饋又可反向進(jìn)入平臺(tái)優(yōu)化算法參數(shù)，形成真正意義上的閉環(huán)智能，為業(yè)務(wù)帶來(lái)真正可衡量的ROI。

再以移動(dòng)端場(chǎng)景為例。傳統(tǒng)人機(jī)交互依賴(lài)中心模型調(diào)用與靜態(tài)指令，流程繁瑣且延遲明顯。而火山引擎Mobile Use方案可以讓“自然語(yǔ)言一聲令下”，就能在端側(cè)觸發(fā)圖文、位置、支付等專(zhuān)業(yè)Agent的實(shí)時(shí)協(xié)作，完成跨平臺(tái)、跨任務(wù)、跨系統(tǒng)的無(wú)縫操作。用戶(hù)無(wú)需理解AI是如何工作的，但能切實(shí)感受到：任務(wù)更快了、操作更少了、體驗(yàn)更順了。

這正是智能視頻云“系統(tǒng)能力”的真實(shí)體現(xiàn)：它不僅提供模型能力，還通過(guò)全鏈路的資源調(diào)度與內(nèi)容理解，打通了“算力—內(nèi)容—交互—場(chǎng)景”的耦合路徑，大幅提高行業(yè)落地的效率。

除了電商之外，泛娛樂(lè)、金融、教育、政務(wù)、出海等多個(gè)行業(yè)，也在加速邁入“智能交互”時(shí)代，紛紛開(kāi)始基于智能視頻云打造自己的智能多媒體能力。

預(yù)計(jì)2025年，大模型中多媒體數(shù)據(jù)的使用比例將達(dá)到40%，2030年更將超過(guò)70%。也就是說(shuō)，未來(lái)每10個(gè)AI場(chǎng)景中，至少有7個(gè)都離不開(kāi)圖像、視頻、語(yǔ)音這些多媒體內(nèi)容。

面對(duì)這樣的大趨勢(shì)，火山引擎走出了一條務(wù)實(shí)的路徑——讓智能多媒體真正深入業(yè)務(wù)場(chǎng)景，以輕量化部署與高效能輸出的方式服務(wù)于業(yè)務(wù)，成為企業(yè)構(gòu)建長(zhǎng)期競(jìng)爭(zhēng)力的重要支點(diǎn)。未來(lái)的競(jìng)爭(zhēng)，不再是誰(shuí)用上了AI，而是誰(shuí)把AI用出了系統(tǒng)化、規(guī)模化、可持續(xù)的價(jià)值。

（封面圖及文中圖片來(lái)源：火山引擎）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.