“DeepSeek不是萬能的”，李彥宏今年押注AI 應(yīng)用：模型價再“打骨折”，重點(diǎn)布局多智能體、多模態(tài)

2025-04-25 16:30:37　來源: AI前線

北京舉報

分享至

作者 | 褚杏娟、華衛(wèi)

在 4 月 25 日的百度 Create 開發(fā)者大會現(xiàn)場，百度創(chuàng)始人李彥宏發(fā)布了兩大模型、多款熱門 AI 應(yīng)用，并宣布將幫助開發(fā)者全面擁抱 MCP。同時，百度正式點(diǎn)亮了國內(nèi)首個全自研的三萬卡集群，可同時承載多個千億參數(shù)大模型的全量訓(xùn)練，支持 1000 個用戶同時做百億參數(shù)的大模型精調(diào)。

“所有這些發(fā)布，都是為了讓開發(fā)者們可以不用擔(dān)心模型能力、不用擔(dān)心模型成本、更不用擔(dān)心開發(fā)工具和平臺，可以踏踏實(shí)實(shí)地做應(yīng)用，做出最好的應(yīng)用！”李彥宏說道。

李彥宏表示，大模型廠商卷生卷死，幾乎每周都在發(fā)布新模型，但開發(fā)者不敢大膽用，因?yàn)閾?dān)心自己的應(yīng)用被模型迭代快速覆蓋掉。李彥宏認(rèn)為這是把雙刃劍：一方面，開發(fā)者確實(shí)需要理解技術(shù)發(fā)展趨勢；另一方面，這么多日益強(qiáng)大的模型提供了更多的選擇，打開了更多的可能性。

“只要找對場景，選對基礎(chǔ)模型，有時候還要學(xué)一點(diǎn)調(diào)模型的方法，在此基礎(chǔ)上做出來的應(yīng)用是不會過時的”。他強(qiáng)調(diào)，“沒有應(yīng)用，芯片、模型都沒有價值。模型會有很多，但未來真正統(tǒng)治這個世界的是應(yīng)用，應(yīng)用才是王者。”

發(fā)布兩大新模型，

價格最高降 80%

文心大模型 4.5 Turbo 和文心大模型 X1 Turbo，具備多模態(tài)、強(qiáng)推理、低成本三大特性。

“多模態(tài)將成為未來基礎(chǔ)模型的標(biāo)配，純文本模型的市場會越變越小，多模態(tài)模型的市場會越來越大”。李彥宏表示。基于這樣的判斷，新模型都進(jìn)一步增強(qiáng)了多模態(tài)能力。在多個基準(zhǔn)測試集中，文心 4.5 Turbo 多模態(tài)能力與 GPT 4.1 持平、優(yōu)于 GPT 4o。

文心 4.5 Turbo- 多模態(tài)

文心 4.5 Turbo- 文本

文心大模型 X1 Turbo 則是基于 4.5 Turbo 的深度思考模型，性能提升的同時，進(jìn)一步增強(qiáng)思維鏈，問答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力，整體效果領(lǐng)先 DeepSeek R1、V3 最新版。

“有了這樣超級能干的基礎(chǔ)模型，我們就可以打造出超級有用、超級有趣的 AI 應(yīng)用來。”李彥宏還指出，隨著模型能力的增強(qiáng)，大模型和應(yīng)用場景結(jié)合的機(jī)會將越來越多，能夠滲透場景、帶來實(shí)在價值的 AI 應(yīng)用，是屬于開發(fā)者的真機(jī)會。

李彥宏認(rèn)為，當(dāng)前開發(fā)者做 AI 應(yīng)用的一大阻礙，就是大模型成本高、用不起。成本降低后，開發(fā)者和創(chuàng)業(yè)者們才可以放心大膽地做開發(fā)，企業(yè)才能夠低成本地部署大模型，最終推動各行各業(yè)應(yīng)用的爆發(fā)。

“中國市場上絕大多數(shù)大模型 API 的調(diào)用價格都比 DeepSeek 要低，而且反應(yīng)速度也更快。”李彥宏還表示，“DeepSeek 不是萬能的。”他指出，DeepSeek 不支持多模態(tài)理解，有幻覺，更重要的是，慢和貴。”

百度兩款模型的使用價格也重點(diǎn)與 DeepSeek 進(jìn)行了對比。文心大模型 4.5 Turbo 輸入價格僅為 0.8 元 / 每百萬 token，輸出價格 3.2 元 / 每百萬 token，僅為 DeepSeek-V3 的 40%，比文心 4.5 價格下降 80%。

而文心大模型 X1 Turbo 的輸入價格為 1 元 / 每百萬 token，輸出價格 4 元 // 每百萬 token，僅為 DeepSeek-R1 的 25%。

那么，最新模型有哪些技術(shù)上的創(chuàng)新呢？對此，百度 CTO 王海峰從基礎(chǔ)模型、后訓(xùn)練、深度思考和數(shù)據(jù)等方面介紹了一些文心 4.5 Turbo 和 XE Turbo 的關(guān)鍵技術(shù)細(xì)節(jié)。

首先，文心 4.5 和 4.5 Turbo 實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。針對模態(tài)間結(jié)構(gòu)規(guī)模與知識密度的差異，百度通過多模態(tài)異構(gòu)專家建模、自適應(yīng)分辨率視覺編碼、時空重排序的三維旋轉(zhuǎn)位置編碼、自適應(yīng)模態(tài)感知損失計算等技術(shù)，將跨模態(tài)學(xué)習(xí)效率提升近兩倍，多模態(tài)理解效果提升超過 30%。

后訓(xùn)練方面，百度研發(fā)了自反饋增強(qiáng)技術(shù)框架，基于大模型自身的生成和評估反饋能力，實(shí)現(xiàn)了“訓(xùn)練——生成——反饋——增強(qiáng)”的模型迭代閉環(huán)，解決大模型對齊過程中數(shù)據(jù)生產(chǎn)難度大、成本高、速度慢等問題，還降低了模型幻覺，提升模型理解和處理復(fù)雜任務(wù)的能力。

在訓(xùn)練階段，他們研發(fā)了融合偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)技術(shù)，通過多元統(tǒng)一獎勵機(jī)制，提升了對結(jié)果質(zhì)量判別的準(zhǔn)確率，通過離線偏好學(xué)習(xí)和在線強(qiáng)化學(xué)習(xí)統(tǒng)一優(yōu)化，進(jìn)一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性，并增強(qiáng)了模型對高質(zhì)量結(jié)果的感知。得益于偏好信號與獎勵信號的融合運(yùn)用，模型的理解、生成、邏輯和記憶等能力全面提升。

深度思考方面，突破了僅基于思維鏈優(yōu)化的范式，在思考路徑中結(jié)合工具調(diào)用，構(gòu)建了融合思考和行動的復(fù)合思維鏈，模型解決問題能力得到顯著提升。同時，結(jié)合多元統(tǒng)一的獎勵機(jī)制，實(shí)現(xiàn)了思考和行動鏈的端到端優(yōu)化，大幅提升了跨領(lǐng)域的問題解決能力。

數(shù)據(jù)方面，打造了“數(shù)據(jù)挖掘與合成 – 數(shù)據(jù)分析與評估 – 模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán)，為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù)。同時，數(shù)據(jù)建設(shè)流程具備良好的可擴(kuò)展性，能夠輕松遷移到全新的數(shù)據(jù)類型，實(shí)現(xiàn)快速、高效的數(shù)據(jù)生產(chǎn)。

百度自己的 AI 應(yīng)用

在看好應(yīng)用市場的背景下，百度也發(fā)布了自己的 AI 應(yīng)用，主要在多智能體和多模態(tài)方面。

多智能體應(yīng)用

“未來每個公司都需要依賴代碼智能體來完成任務(wù)，如果還像原來那樣吭哧吭哧地寫代碼，沒有贏的可能性。”李彥宏表示。

今年 3 月，百度向全社會開放無代碼編程工具“秒噠”，任何人都可以通過秒搭，用一句話就能夠生成應(yīng)用。繼“秒噠”之后，百度又最新推出一款多智能協(xié)作 App：心響，能夠通過自主規(guī)劃與多智能體協(xié)作一站式解決用戶復(fù)雜問題，在深度研究、數(shù)據(jù)分析、健康咨詢等場景都有著不錯的表現(xiàn)。目前產(chǎn)品已上線安卓版，iOS 正在上架中。

據(jù)悉，心響 App 是一款以“AI 任務(wù)完成引擎”為核心的通用超級智能體產(chǎn)品，通過自然語言交互幫助用戶實(shí)現(xiàn)復(fù)雜任務(wù)拆解、動態(tài)執(zhí)行與可視化結(jié)果交付。除了常見的外部 MCP 工具調(diào)用（Tool Use），在健康、法律等專業(yè)場景中，它還實(shí)現(xiàn)了“多智能體協(xié)作”（Agent Use）機(jī)制。比如，面對健康咨詢時，系統(tǒng)可自動調(diào)度多位“醫(yī)生 AI 分身聯(lián)合會診”；在法律服務(wù)中，則支持由多個律師 AI 分身組成的“律師智囊團(tuán)”協(xié)同答復(fù)與服務(wù)。

百度認(rèn)為，多智能體協(xié)作是下一個高價值的 AI 應(yīng)用方向。未來的 AI 應(yīng)用將從回答問題走向任務(wù)交付，而任何一個復(fù)雜任務(wù)的交付，都需要多智能體的協(xié)作來解析需求、分拆任務(wù)、調(diào)度資源、規(guī)劃執(zhí)行，最終交付結(jié)果。

多模態(tài)應(yīng)用

高說服力數(shù)字人，是多模態(tài)大模型的一個典型應(yīng)用。“2025 年最令人激動的突破性應(yīng)用之一，就是 AI 數(shù)字人。” 李彥宏介紹，百度發(fā)布的高說服力數(shù)字人，具有聲形超擬真、內(nèi)容更專業(yè)、互動更靈活的特點(diǎn)，在電商直播、游戲、消費(fèi)等領(lǐng)域，有著巨大的應(yīng)用空間。

高說服力數(shù)字人還具備“AI 大腦”，能根據(jù)直播間實(shí)時熱度和轉(zhuǎn)化情況，靈活調(diào)度助播、場控、運(yùn)營等角色共同促進(jìn)轉(zhuǎn)化，譬如適時切換鏡頭畫面、調(diào)度圖片、視頻素材，真正實(shí)現(xiàn)了一個人就是一個營銷團(tuán)隊(duì)。

李彥宏指出，高說服力數(shù)字人超越真人主要?dú)w功于百度慧播星背后的“劇本生成”能力，實(shí)現(xiàn)口播腳本與數(shù)字人表情、語氣、動作的高度融合，以及順暢的情緒轉(zhuǎn)折和動作切換，表現(xiàn)“超擬真”。目前，百度慧播星已上線“一鍵克隆”功能。用戶只需錄制一條最短 2 分鐘的直播視頻上傳訓(xùn)練，即可擁有自己的專屬數(shù)字人，人人都能做主播。

據(jù)王海峰介紹，高說服力數(shù)字人背后有多項(xiàng)關(guān)鍵技術(shù)。百度研發(fā)了劇本驅(qū)動、多模協(xié)同的超擬真數(shù)字人技術(shù)，實(shí)現(xiàn)了語言、聲音、形象的協(xié)調(diào)一致。

首先是基于大語言模型的劇本生成，包括臺詞生成、視覺標(biāo)簽生成以及語音標(biāo)簽生成。模型在生成臺詞時，同步生成數(shù)字人的動作、表情和語調(diào)等信息，以及每個模態(tài)的對齊位置，整體構(gòu)成了劇本，進(jìn)而以劇本驅(qū)動視頻和語音在生成時進(jìn)行多模態(tài)的內(nèi)容匹配和位置對齊，最終生成有高表現(xiàn)力、形神兼?zhèn)涞臄?shù)字人。同時，百度設(shè)計了豐富的動態(tài)交互模式，打造媲美真人的互動能力，并通過視頻斷點(diǎn)設(shè)計，讓動態(tài)視頻片段能夠在視頻流中順暢銜接。

其次是面向數(shù)字人場景的語音合成。在生成劇本的基礎(chǔ)上，基于文心大模型自動預(yù)測當(dāng)前文本的風(fēng)格、情緒及韻律起伏等，通過文本自控的語音合成大模型實(shí)現(xiàn)自級別指令遵循的合成能力，通過文本控制聲音效果的平滑流暢，再結(jié)合直播文本及發(fā)音人信息，合成風(fēng)格恰當(dāng)、自然、流暢的聲音。

針對視覺形象生成以及驅(qū)動方面媲美真人的數(shù)字人面臨的關(guān)鍵難題，百度研制了數(shù)字人視頻生成大模型視頻、劇本、語音等多模態(tài)信號，一同用于數(shù)字人的高可控生成。通過進(jìn)一步分析原始視頻素材，一方面抽取視頻中的高表現(xiàn)力片段，另一方面生成與劇本語音匹配的高表現(xiàn)力片段。此外，通過解析視頻中的人物場信息，視頻生成模型可以生成復(fù)雜的人物場交互片段，并保持主體的一致性，最終結(jié)合這些片段通過影空間對齊生成足夠時長的視頻內(nèi)容。

百度還發(fā)布了全球首個內(nèi)容領(lǐng)域操作系統(tǒng)——滄舟 OS。滄舟 OS 包括兩大核心：一是 Chatfile plus，對不同模態(tài)、不同形態(tài)、不同格式的內(nèi)容，做解析和向量化處理，然后再進(jìn)行混合生成；二是建立了“三庫”和“三器”：“三庫”即公域知識庫、私域知識庫、記憶庫，“三器”是編輯器、閱讀器、播放器，它們可以根據(jù)用戶的需求被大模型組合調(diào)用。

依托滄舟 OS，百度網(wǎng)盤上線了“AI 筆記”，這是業(yè)內(nèi)唯一的多模態(tài) AI 筆記，支持用戶在網(wǎng)盤內(nèi)觀看學(xué)習(xí)視頻時，一鍵生成全面、清晰、結(jié)構(gòu)化的 AI 筆記，還能生成 AI 思維導(dǎo)圖、基于視頻內(nèi)容 AI 出題等。

迎接 AI 應(yīng)用井噴：幫開發(fā)者全面擁抱 MCP

AI 應(yīng)用大爆發(fā)時代，開發(fā)者們普遍遇到一系列的難題，如使用工具缺少統(tǒng)一規(guī)范、開發(fā)效率不夠高、需要反復(fù)適配各種不同類型平臺、開源工具和組件良莠不齊、整合和維護(hù)難度大等。MCP（模型上下文協(xié)議）的出現(xiàn)帶來全新的解決思路，就像是給 AI 裝上了一個“萬能插座”，開發(fā)者不再需要為每個工具編寫定制化的代碼，只要按照 MCP 的標(biāo)準(zhǔn)編寫一次接口就可以了。

在李彥宏看來，MCP 是是 AI 發(fā)展的一大步。為此，百度內(nèi)部全面支持 MCP：

百度優(yōu)化了文心基礎(chǔ)大模型，提升模型在使用 MCP server 時的任務(wù)規(guī)劃和調(diào)度能力。
百度智能云千帆大模型平臺已率先全面兼容 MCP，不僅提供大量第三方 server，也支持開發(fā)者創(chuàng)建和發(fā)布 MCP server；
百度搜索構(gòu)建了 MCP server 發(fā)現(xiàn)平臺，可索引全網(wǎng)優(yōu)質(zhì)的 server；
文心快碼，成為國內(nèi)首個支持 MCP server 的智能編碼助手；
百度的商品檢索、商品交易、商品詳情、商品參數(shù)對比、商品排行榜能力等也已經(jīng)通過百度電商的 MCP server 對外提供，這是國內(nèi)首家支持電商交易的 MCP 服務(wù)；
百度文庫、百度網(wǎng)盤、百度地圖等應(yīng)用全面對外提供 MCP Server 服務(wù)。

最重要的是，文心大模型使用的聯(lián)網(wǎng)搜索工具也變身為百度搜索 MCP server 供開發(fā)者調(diào)用，“這是目前市場上最好的搜索 MCP，”李彥宏表示，現(xiàn)在基于 MCP 開發(fā)智能體，就像是在 2010 年前后開發(fā)移動 APP。百度將持續(xù)加大對 MCP 的支持，推動更多的應(yīng)用和服務(wù)兼容 MCP。

李彥宏表示，作為一家技術(shù)公司，百度始終堅持創(chuàng)新，堅持 AI 人才的培養(yǎng)，且一直為開發(fā)者提供模型、開發(fā)工具，以及資金和資源等多方面的支持。5 年前，百度提出的 500 萬 AI 人才計劃已在 2024 年提前完成，到現(xiàn)在為止已經(jīng)為社會培養(yǎng)了 630 萬 AI 人才。會上，李彥宏宣布，未來 5 年，百度將加大力度，再為社會培養(yǎng) 1000 萬 AI 人才。

One more thing

最后在發(fā)布現(xiàn)場，百度向外界透露了一項(xiàng)重大技術(shù)突破：中國首個全自研的 3 萬卡超級計算集群已成功點(diǎn)亮。據(jù)介紹，這臺由昆侖芯三代組成的集群，完全為大模型時代的計算需求應(yīng)運(yùn)而生的，能夠同時承載多個像滿血版 Deepseek 這樣的千億級參數(shù)大模型進(jìn)行全量訓(xùn)練，并且可以支持 1000 個客戶同時做百億參數(shù)的大模型的精調(diào)。

“現(xiàn)在可以說，在中國開發(fā) AI 應(yīng)用我們有底氣。”李彥宏稱，百度建設(shè)了超大規(guī)模的高性能網(wǎng)絡(luò)，來保證大規(guī)模集群執(zhí)行訓(xùn)練任務(wù)時候的穩(wěn)定性，大幅提升了芯片的有效利用率，而且創(chuàng)新設(shè)計了顯著降低能耗的散熱方案。

聲明：本文為 AI 前線整理，不代表平臺觀點(diǎn)，未經(jīng)許可禁止對全文或部分內(nèi)容進(jìn)行轉(zhuǎn)載。

InfoQ 老友！請留步！極客邦 1 號客服上線工作啦！

后續(xù)我將通過微信視頻號，以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗(yàn)、商業(yè)踩坑教訓(xùn)等精彩內(nèi)容，和大家一同成長，開啟知識交流之旅歡迎掃碼關(guān)注我的微信視頻號～

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.