未來(lái)10個(gè)AI應(yīng)用場(chǎng)景中,至少7個(gè)與多媒體深度綁定。
作者|田思奇
編輯|栗子
在AI技術(shù)演進(jìn)的過(guò)程中,每個(gè)階段都有一個(gè)關(guān)鍵場(chǎng)景,成為撬動(dòng)產(chǎn)業(yè)升級(jí)的 “阿基米德支點(diǎn)”。
2023年,這一角色屬于生成式AI模型的爆發(fā),人類(lèi)第一次感受到了AI“能說(shuō)會(huì)畫(huà)”的能力;
到了2024年,AI不再僅靠指令執(zhí)行,而是開(kāi)始理解看到的和聽(tīng)到的。多模態(tài)對(duì)齊與語(yǔ)義統(tǒng)一成為關(guān)鍵路徑。
2025年,AI技術(shù)版圖上的支點(diǎn),無(wú)疑落在了多媒體領(lǐng)域。
人類(lèi)感知世界的方式,本質(zhì)上是一場(chǎng)視聽(tīng)盛宴的狂歡。超過(guò)80%的信息獲取,都來(lái)自視覺(jué)與聽(tīng)覺(jué)的協(xié)同運(yùn)作。從清晨喚醒人們的智能語(yǔ)音助手,到通勤路上刷到的短視頻,再到工作時(shí)查閱的視頻會(huì)議資料,圖像、視頻、語(yǔ)音等多模態(tài)交互,早已編織成理解世界的 “元代碼”。
近年來(lái),AI的算法創(chuàng)新層出不窮。然而,單純的參數(shù)規(guī)模比拼已不再是決勝關(guān)鍵。能否以人類(lèi)熟悉的方式理解世界,才是決定其商業(yè)價(jià)值與社會(huì)價(jià)值的核心要素。
而多媒體內(nèi)容,正是AI實(shí)現(xiàn)這一要素的最佳舞臺(tái)。
6月11日,「甲子光年」來(lái)到2025春季Force原動(dòng)力大會(huì)現(xiàn)場(chǎng),見(jiàn)證了火山引擎智能視頻云賦能行業(yè)變革的無(wú)限可能。
1.突破瓶頸:智能多媒體面臨的三大挑戰(zhàn)
智能多媒體時(shí)代的核心特點(diǎn)是,生產(chǎn)正在從被動(dòng)響應(yīng),轉(zhuǎn)向主動(dòng)創(chuàng)造價(jià)值。
傳統(tǒng)的多媒體處理,遵循線性邏輯。而大模型時(shí)代智能系統(tǒng)可以通過(guò)時(shí)空數(shù)據(jù)融合實(shí)現(xiàn)了 “需求預(yù)判”,形成了 “遠(yuǎn)端決策近場(chǎng)執(zhí)行” 的快速響應(yīng),能更加有前置性的預(yù)測(cè)到用戶(hù)需求,并滿足這些需求。
這種從 “中心被動(dòng)響應(yīng)” 到“邊緣主動(dòng)預(yù)判”的生產(chǎn)模式升維,是智能多媒體內(nèi)容落地過(guò)程中的變革之一。
此外,交互方式發(fā)生改變,從 “單一模態(tài)指令” 轉(zhuǎn)變?yōu)椤岸喔泄賲f(xié)同理解”。這是智能多媒體時(shí)代的第二個(gè)變革。AI正從 “聽(tīng)指令” 的工具,進(jìn)化為 “能看、能聽(tīng)、能理解” 的智能伙伴。
第三個(gè)變革在于,AI多媒體系統(tǒng),正經(jīng)歷從單點(diǎn)工具向系統(tǒng)智能體網(wǎng)絡(luò)的結(jié)構(gòu)性躍遷。當(dāng)AI Agent滲透到醫(yī)療、教育、工業(yè)等領(lǐng)域,傳統(tǒng)單一工具由于各自獨(dú)立而不能滿足復(fù)雜需要,取而代之的是跨領(lǐng)域協(xié)作的智能體協(xié)作。
火山引擎數(shù)據(jù)顯示,智能多媒體在垂直領(lǐng)域領(lǐng)域的滲透率已達(dá)40%,預(yù)計(jì)2028年將突破75%。
盡管趨勢(shì)清晰、潛力巨大,但據(jù)字節(jié)跳動(dòng)視頻與邊緣負(fù)責(zé)人王悅在Force原動(dòng)力大會(huì)介紹,智能多媒體在行業(yè)落地中,依然面臨三個(gè)方向的關(guān)鍵挑戰(zhàn)。
首先是計(jì)算效能問(wèn)題。隨著大模型從 “中心輻射式” 部署多 “毛細(xì)血管級(jí)” 滲透,人-AI-機(jī)器的實(shí)時(shí)交互對(duì)計(jì)算提出了隱私安全、實(shí)時(shí)響應(yīng)、全局優(yōu)化等需求和挑戰(zhàn),傳統(tǒng)集中式架構(gòu)已經(jīng)非常難以滿足分布式智能計(jì)算的需求。
其次,多模態(tài)數(shù)據(jù)以年均超60%的速度爆發(fā)增長(zhǎng),但也帶來(lái)了復(fù)雜度劇增。用戶(hù)的極致體驗(yàn)需求等挑戰(zhàn)出現(xiàn)了“數(shù)據(jù)越豐富,體驗(yàn)越卡頓”的怪圈 ,需要架構(gòu)級(jí)創(chuàng)新和突破。
第三,以往大模型的訓(xùn)練周期以“月”為單位,如今則以“周”甚至“小時(shí)”計(jì)。當(dāng)技術(shù)創(chuàng)新速度與成本要求出現(xiàn)矛盾時(shí),如何實(shí)現(xiàn) “高效率的創(chuàng)新” 成為亟待解決的問(wèn)題。
因此,要從傳統(tǒng)的視頻云進(jìn)化到智能視頻云,亟需一套系統(tǒng)性的架構(gòu)升級(jí)來(lái)破解當(dāng)前困局。火山引擎提出的“智能視頻云”三層架構(gòu)升級(jí),正是為應(yīng)對(duì)這一挑戰(zhàn)而生。
2.三層架構(gòu)全面升級(jí),智能多媒體真正從“可用”到“好用”
整體來(lái)看,火山引擎通過(guò)“基建 + 平臺(tái) + 應(yīng)用”的三層架構(gòu),實(shí)現(xiàn)了從“視頻云”到“智能視頻云”的底座升級(jí)。
首先升級(jí)的是基建層。
隨著AI應(yīng)用由“后臺(tái)生成”深入“前臺(tái)交互”,多媒體內(nèi)容的實(shí)時(shí)傳輸與就近處理需求激增。為此,火山引擎構(gòu)建了“全球一張網(wǎng)”,形成覆蓋全球5000+節(jié)點(diǎn)、具備280Tbps超大帶寬的分布式云網(wǎng)基礎(chǔ)設(shè)施。
該設(shè)施依托全球一體化多媒體基建,具備超大規(guī)模、超低時(shí)延、云邊端一體以及分布式安全防護(hù)等能力,目標(biāo)在讓智能應(yīng)用能就近上云,讓用戶(hù)更便捷、高效、安全地享用 AI 服務(wù)。
這個(gè)扎實(shí)的基建層,為火山引擎的智能多媒體提供了堅(jiān)實(shí)的技術(shù)底座。
但這還不夠。除了框架的升級(jí)外,火山引擎也實(shí)現(xiàn)了平臺(tái)層的升級(jí)——把分布式的BMF和底層的平臺(tái)做了深度的融合,構(gòu)建了新一代多媒體智能處理平臺(tái)MIPP。它的核心目標(biāo)是使開(kāi)發(fā)者以小時(shí)級(jí)的速度構(gòu)建一個(gè)大規(guī)模、低成本、高性能、高穩(wěn)定性的多媒體應(yīng)用。
MIPP的核心突破,首先在于其革命性的靈活編排能力。它徹底打破了傳統(tǒng)平臺(tái)僅支持文件級(jí)別處理的局限,構(gòu)建起涵蓋文件級(jí)、幀級(jí)乃至事件級(jí)的多粒度編排系統(tǒng),全面覆蓋多媒體在離線場(chǎng)景。
其次,MIPP實(shí)現(xiàn)了深度的原子能力聚合。平臺(tái)不再是功能的簡(jiǎn)單堆疊,而是構(gòu)建了一個(gè)結(jié)構(gòu)清晰、協(xié)同高效的能力原子庫(kù),系統(tǒng)整合了通用音視頻處理、圖像識(shí)別、語(yǔ)音分析、多模態(tài)摘要、流媒體分發(fā)、大模型接入以及媒資管理等關(guān)鍵模塊。每個(gè)能力組件既可獨(dú)立運(yùn)行,也能通過(guò)統(tǒng)一接口按需調(diào)用、自由組合。
在異構(gòu)資源調(diào)度與優(yōu)化方面,MIPP展現(xiàn)出強(qiáng)大的適應(yīng)力。其底層支撐體系覆蓋從傳統(tǒng)CPU/GPU、ARM架構(gòu)到邊緣設(shè)備及專(zhuān)用視頻芯片的全譜系硬件。依托火山引擎自研的分布式BMF框架,平臺(tái)能根據(jù)任務(wù)類(lèi)型、實(shí)時(shí)性要求及資源狀況,自動(dòng)生成最優(yōu)資源組合策略。
尤為關(guān)鍵的是,MIPP實(shí)現(xiàn)了專(zhuān)家級(jí)的性能成本優(yōu)化。針對(duì)大模型頻繁更新與業(yè)務(wù)需求快速變化,平臺(tái)可以自動(dòng)化選擇資源類(lèi)型,規(guī)劃最優(yōu)部署執(zhí)行方案,為企業(yè)在動(dòng)態(tài)變化的多媒體生態(tài)中保留了充分的靈活性。
如果說(shuō)底層基建和MIPP平臺(tái)解決了“能用”和“用順”的問(wèn)題,那么應(yīng)用層的升級(jí)則關(guān)乎真正的落地效果。
隨著AI發(fā)展不斷涌現(xiàn),泛智能多媒體應(yīng)用較傳統(tǒng)的視頻云應(yīng)用,也在交互方式上實(shí)現(xiàn)了突破。其中,火山引擎聚焦對(duì)話式AI、AI Agent Mobile Use和多模態(tài)視頻理解與創(chuàng)作這幾大最具廣譜性的場(chǎng)景,打通了模型能力到終端體驗(yàn)的“最后一公里”。
作為應(yīng)用層升級(jí)的代表,火山引擎的對(duì)話式AI技術(shù)旨在讓 AI 對(duì)話更具真人感,其突破體現(xiàn)在:語(yǔ)音交互上,它攻克了即時(shí)響應(yīng)、準(zhǔn)確斷句、始終流暢三大關(guān)卡。同時(shí)支持視頻對(duì)話,可以基于視覺(jué)理解模型實(shí)現(xiàn)多模態(tài) AI 對(duì)話,解鎖 AI 教育、陪伴、解說(shuō)等多元場(chǎng)景。
該對(duì)話式AI嵌入式方案應(yīng)用于母嬰零售行業(yè)領(lǐng)軍者孩子王的AI潮玩啊貝貝后,可將部分處理能力放在AI玩具終端設(shè)備,減少數(shù)據(jù)傳輸量和網(wǎng)絡(luò)延遲,打造實(shí)時(shí)性更強(qiáng)和隱私保護(hù)更優(yōu)的用戶(hù)體驗(yàn)。
此外,AI與元宇宙技術(shù)引領(lǐng)者“不普家族”也依托豆包大模型、Coze平臺(tái)和實(shí)時(shí)音視頻技術(shù),推出了業(yè)內(nèi)首款基于原創(chuàng)劇情、豐富玩法和社交場(chǎng)景的AI伙伴游戲社交宇宙,為玩家?guī)?lái)連接真實(shí)情感的全新體驗(yàn)。玩具開(kāi)口說(shuō)話時(shí),不再有很強(qiáng)的文案感,而是能像真人一樣自然地跟玩家聊天,讓AI伙伴離“有靈魂”更近了一步。
在移動(dòng)端主場(chǎng)的當(dāng)下,火山引擎的Mobile Use解決方案依托MIPP的靈活的編排能力,集成多智能體協(xié)調(diào)機(jī)制。用戶(hù)通過(guò)自然語(yǔ)言指令(如“訂今晚上海到北京最便宜的高鐵票”),即可驅(qū)動(dòng)端側(cè)主智能體調(diào)度圖文處理、支付、位置等專(zhuān)業(yè)Agent完成多輪任務(wù)。
該方案支持跨平臺(tái)無(wú)縫遷移及高并發(fā)多任務(wù)處理,已在外賣(mài)、票務(wù)、導(dǎo)航等場(chǎng)景落地。
在多模態(tài)理解與創(chuàng)作技術(shù)的支持下,抖音電商已依托智能視頻云的高光智剪方案,精準(zhǔn)的識(shí)別商品高光片段和核心賣(mài)點(diǎn),產(chǎn)出了直播高光片段,大幅提升營(yíng)銷(xiāo)效率。助力商家實(shí)現(xiàn)了日均生產(chǎn)300條高質(zhì)量視頻內(nèi)容,每個(gè)商家每月最高可以節(jié)省9萬(wàn)元,轉(zhuǎn)化效率提升了3倍以上。
從零售用戶(hù)更優(yōu)質(zhì)的體驗(yàn),到移動(dòng)端多智能體的自然指令響應(yīng)與跨平臺(tái)任務(wù)執(zhí)行,其底層邏輯已不再是“是否能做”,而是“能否做得流暢、做得體系化”。這些落地場(chǎng)景印證了火山引擎技術(shù)能力的成熟,更標(biāo)志著企業(yè)正在步入一個(gè)以AI驅(qū)動(dòng)體驗(yàn)重塑、以平臺(tái)構(gòu)建系統(tǒng)價(jià)值的關(guān)鍵轉(zhuǎn)折。
也正是在這一背景下,智能視頻云的角色正在發(fā)生本質(zhì)變化。
3.如何真正加速智能多媒體落地?
「甲子光年」認(rèn)為,在AI邁入深水區(qū)的2025年,真正決定行業(yè)落地水平的,不再是某一項(xiàng)炫目的AI能力,而是是否能夠?qū)I能力系統(tǒng)化地融入業(yè)務(wù)流程、并轉(zhuǎn)化為可感知、可持續(xù)的用戶(hù)體驗(yàn)。
上文提到的智能多媒體三重進(jìn)化趨勢(shì)——從中心響應(yīng)向邊緣預(yù)判、從單模態(tài)向多模態(tài)協(xié)同、從工具孤島向智能體網(wǎng)絡(luò)——其落點(diǎn)其實(shí)都指向了一個(gè)核心問(wèn)題:能否讓AI真正讀懂用戶(hù)、融入場(chǎng)景、驅(qū)動(dòng)價(jià)值。這一切的發(fā)生,依賴(lài)的不只是模型能力本身,更是從底層基建到平臺(tái)架構(gòu),再到最終應(yīng)用的協(xié)同進(jìn)化。
火山引擎提出的“智能視頻云”三層架構(gòu)升級(jí),在這一轉(zhuǎn)型過(guò)程中充分發(fā)揮了統(tǒng)籌全局的能力,助力企業(yè)在智能多媒體的落地過(guò)程中實(shí)現(xiàn)更低成本、更高效率的規(guī)模化應(yīng)用。
例如,在內(nèi)容密集的零售、電商行業(yè)中,僅靠對(duì)話式AI理解語(yǔ)義、推薦商品遠(yuǎn)遠(yuǎn)不夠,只有當(dāng)智能視頻云支持“直播-剪輯-生成-分發(fā)”全過(guò)程,AI才能真正從一段視頻中提取高光片段、自動(dòng)添加標(biāo)簽并投放進(jìn)推薦流。而用戶(hù)的行為反饋又可反向進(jìn)入平臺(tái)優(yōu)化算法參數(shù),形成真正意義上的閉環(huán)智能,為業(yè)務(wù)帶來(lái)真正可衡量的ROI。
再以移動(dòng)端場(chǎng)景為例。傳統(tǒng)人機(jī)交互依賴(lài)中心模型調(diào)用與靜態(tài)指令,流程繁瑣且延遲明顯。而火山引擎Mobile Use方案可以讓“自然語(yǔ)言一聲令下”,就能在端側(cè)觸發(fā)圖文、位置、支付等專(zhuān)業(yè)Agent的實(shí)時(shí)協(xié)作,完成跨平臺(tái)、跨任務(wù)、跨系統(tǒng)的無(wú)縫操作。用戶(hù)無(wú)需理解AI是如何工作的,但能切實(shí)感受到:任務(wù)更快了、操作更少了、體驗(yàn)更順了。
這正是智能視頻云“系統(tǒng)能力”的真實(shí)體現(xiàn):它不僅提供模型能力,還通過(guò)全鏈路的資源調(diào)度與內(nèi)容理解,打通了“算力—內(nèi)容—交互—場(chǎng)景”的耦合路徑,大幅提高行業(yè)落地的效率。
除了電商之外,泛娛樂(lè)、金融、教育、政務(wù)、出海等多個(gè)行業(yè),也在加速邁入“智能交互”時(shí)代,紛紛開(kāi)始基于智能視頻云打造自己的智能多媒體能力。
預(yù)計(jì)2025年,大模型中多媒體數(shù)據(jù)的使用比例將達(dá)到40%,2030年更將超過(guò)70%。也就是說(shuō),未來(lái)每10個(gè)AI場(chǎng)景中,至少有7個(gè)都離不開(kāi)圖像、視頻、語(yǔ)音這些多媒體內(nèi)容。
面對(duì)這樣的大趨勢(shì),火山引擎走出了一條務(wù)實(shí)的路徑——讓智能多媒體真正深入業(yè)務(wù)場(chǎng)景,以輕量化部署與高效能輸出的方式服務(wù)于業(yè)務(wù),成為企業(yè)構(gòu)建長(zhǎng)期競(jìng)爭(zhēng)力的重要支點(diǎn)。未來(lái)的競(jìng)爭(zhēng),不再是誰(shuí)用上了AI,而是誰(shuí)把AI用出了系統(tǒng)化、規(guī)模化、可持續(xù)的價(jià)值。
(封面圖及文中圖片來(lái)源:火山引擎)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.