作者 | 褚杏娟、華衛(wèi)
在 4 月 25 日的百度 Create 開發(fā)者大會現(xiàn)場,百度創(chuàng)始人李彥宏發(fā)布了兩大模型、多款熱門 AI 應(yīng)用,并宣布將幫助開發(fā)者全面擁抱 MCP。同時,百度正式點(diǎn)亮了國內(nèi)首個全自研的三萬卡集群,可同時承載多個千億參數(shù)大模型的全量訓(xùn)練,支持 1000 個用戶同時做百億參數(shù)的大模型精調(diào)。
“所有這些發(fā)布,都是為了讓開發(fā)者們可以不用擔(dān)心模型能力、不用擔(dān)心模型成本、更不用擔(dān)心開發(fā)工具和平臺,可以踏踏實(shí)實(shí)地做應(yīng)用,做出最好的應(yīng)用!”李彥宏說道。
李彥宏表示,大模型廠商卷生卷死,幾乎每周都在發(fā)布新模型,但開發(fā)者不敢大膽用,因?yàn)閾?dān)心自己的應(yīng)用被模型迭代快速覆蓋掉。李彥宏認(rèn)為這是把雙刃劍:一方面,開發(fā)者確實(shí)需要理解技術(shù)發(fā)展趨勢;另一方面,這么多日益強(qiáng)大的模型提供了更多的選擇,打開了更多的可能性。
“只要找對場景,選對基礎(chǔ)模型,有時候還要學(xué)一點(diǎn)調(diào)模型的方法,在此基礎(chǔ)上做出來的應(yīng)用是不會過時的”。他強(qiáng)調(diào),“沒有應(yīng)用,芯片、模型都沒有價值。模型會有很多,但未來真正統(tǒng)治這個世界的是應(yīng)用,應(yīng)用才是王者。”
發(fā)布兩大新模型,
價格最高降 80%
文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,具備多模態(tài)、強(qiáng)推理、低成本三大特性。
“多模態(tài)將成為未來基礎(chǔ)模型的標(biāo)配,純文本模型的市場會越變越小,多模態(tài)模型的市場會越來越大”。李彥宏表示。基于這樣的判斷,新模型都進(jìn)一步增強(qiáng)了多模態(tài)能力。在多個基準(zhǔn)測試集中,文心 4.5 Turbo 多模態(tài)能力與 GPT 4.1 持平、優(yōu)于 GPT 4o。
文心 4.5 Turbo- 多模態(tài)
文心 4.5 Turbo- 文本
文心大模型 X1 Turbo 則是基于 4.5 Turbo 的深度思考模型,性能提升的同時,進(jìn)一步增強(qiáng)思維鏈,問答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力,整體效果領(lǐng)先 DeepSeek R1、V3 最新版。
“有了這樣超級能干的基礎(chǔ)模型,我們就可以打造出超級有用、超級有趣的 AI 應(yīng)用來。”李彥宏還指出,隨著模型能力的增強(qiáng),大模型和應(yīng)用場景結(jié)合的機(jī)會將越來越多,能夠滲透場景、帶來實(shí)在價值的 AI 應(yīng)用,是屬于開發(fā)者的真機(jī)會。
李彥宏認(rèn)為,當(dāng)前開發(fā)者做 AI 應(yīng)用的一大阻礙,就是大模型成本高、用不起。成本降低后,開發(fā)者和創(chuàng)業(yè)者們才可以放心大膽地做開發(fā),企業(yè)才能夠低成本地部署大模型,最終推動各行各業(yè)應(yīng)用的爆發(fā)。
“中國市場上絕大多數(shù)大模型 API 的調(diào)用價格都比 DeepSeek 要低,而且反應(yīng)速度也更快。”李彥宏還表示,“DeepSeek 不是萬能的。”他指出,DeepSeek 不支持多模態(tài)理解,有幻覺,更重要的是,慢和貴。”
百度兩款模型的使用價格也重點(diǎn)與 DeepSeek 進(jìn)行了對比。文心大模型 4.5 Turbo 輸入價格僅為 0.8 元 / 每百萬 token,輸出價格 3.2 元 / 每百萬 token,僅為 DeepSeek-V3 的 40%,比文心 4.5 價格下降 80%。
而文心大模型 X1 Turbo 的輸入價格為 1 元 / 每百萬 token,輸出價格 4 元 // 每百萬 token,僅為 DeepSeek-R1 的 25%。
那么,最新模型有哪些技術(shù)上的創(chuàng)新呢?對此,百度 CTO 王海峰從基礎(chǔ)模型、后訓(xùn)練、深度思考和數(shù)據(jù)等方面介紹了一些文心 4.5 Turbo 和 XE Turbo 的關(guān)鍵技術(shù)細(xì)節(jié)。
首先,文心 4.5 和 4.5 Turbo 實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。針對模態(tài)間結(jié)構(gòu)規(guī)模與知識密度的差異,百度通過多模態(tài)異構(gòu)專家建模、自適應(yīng)分辨率視覺編碼、時空重排序的三維旋轉(zhuǎn)位置編碼、自適應(yīng)模態(tài)感知損失計算等技術(shù),將跨模態(tài)學(xué)習(xí)效率提升近兩倍,多模態(tài)理解效果提升超過 30%。
后訓(xùn)練方面,百度研發(fā)了自反饋增強(qiáng)技術(shù)框架,基于大模型自身的生成和評估反饋能力,實(shí)現(xiàn)了“訓(xùn)練——生成——反饋——增強(qiáng)”的模型迭代閉環(huán),解決大模型對齊過程中數(shù)據(jù)生產(chǎn)難度大、成本高、速度慢等問題,還降低了模型幻覺,提升模型理解和處理復(fù)雜任務(wù)的能力。
在訓(xùn)練階段,他們研發(fā)了融合偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)技術(shù),通過多元統(tǒng)一獎勵機(jī)制,提升了對結(jié)果質(zhì)量判別的準(zhǔn)確率,通過離線偏好學(xué)習(xí)和在線強(qiáng)化學(xué)習(xí)統(tǒng)一優(yōu)化,進(jìn)一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性,并增強(qiáng)了模型對高質(zhì)量結(jié)果的感知。得益于偏好信號與獎勵信號的融合運(yùn)用,模型的理解、生成、邏輯和記憶等能力全面提升。
深度思考方面,突破了僅基于思維鏈優(yōu)化的范式,在思考路徑中結(jié)合工具調(diào)用,構(gòu)建了融合思考和行動的復(fù)合思維鏈,模型解決問題能力得到顯著提升。同時,結(jié)合多元統(tǒng)一的獎勵機(jī)制,實(shí)現(xiàn)了思考和行動鏈的端到端優(yōu)化,大幅提升了跨領(lǐng)域的問題解決能力。
數(shù)據(jù)方面,打造了“數(shù)據(jù)挖掘與合成 – 數(shù)據(jù)分析與評估 – 模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán),為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù)。同時,數(shù)據(jù)建設(shè)流程具備良好的可擴(kuò)展性,能夠輕松遷移到全新的數(shù)據(jù)類型,實(shí)現(xiàn)快速、高效的數(shù)據(jù)生產(chǎn)。
百度自己的 AI 應(yīng)用
在看好應(yīng)用市場的背景下,百度也發(fā)布了自己的 AI 應(yīng)用,主要在多智能體和多模態(tài)方面。
多智能體應(yīng)用
“未來每個公司都需要依賴代碼智能體來完成任務(wù),如果還像原來那樣吭哧吭哧地寫代碼,沒有贏的可能性。”李彥宏表示。
今年 3 月,百度向全社會開放無代碼編程工具“秒噠”,任何人都可以通過秒搭,用一句話就能夠生成應(yīng)用。繼“秒噠”之后,百度又最新推出一款多智能協(xié)作 App:心響,能夠通過自主規(guī)劃與多智能體協(xié)作一站式解決用戶復(fù)雜問題,在深度研究、數(shù)據(jù)分析、健康咨詢等場景都有著不錯的表現(xiàn)。目前產(chǎn)品已上線安卓版,iOS 正在上架中。
據(jù)悉,心響 App 是一款以“AI 任務(wù)完成引擎”為核心的通用超級智能體產(chǎn)品,通過自然語言交互幫助用戶實(shí)現(xiàn)復(fù)雜任務(wù)拆解、動態(tài)執(zhí)行與可視化結(jié)果交付。除了常見的外部 MCP 工具調(diào)用(Tool Use),在健康、法律等專業(yè)場景中,它還實(shí)現(xiàn)了“多智能體協(xié)作”(Agent Use)機(jī)制。比如,面對健康咨詢時,系統(tǒng)可自動調(diào)度多位“醫(yī)生 AI 分身聯(lián)合會診”;在法律服務(wù)中,則支持由多個律師 AI 分身組成的“律師智囊團(tuán)”協(xié)同答復(fù)與服務(wù)。
百度認(rèn)為,多智能體協(xié)作是下一個高價值的 AI 應(yīng)用方向。未來的 AI 應(yīng)用將從回答問題走向任務(wù)交付,而任何一個復(fù)雜任務(wù)的交付,都需要多智能體的協(xié)作來解析需求、分拆任務(wù)、調(diào)度資源、規(guī)劃執(zhí)行,最終交付結(jié)果。
多模態(tài)應(yīng)用
高說服力數(shù)字人,是多模態(tài)大模型的一個典型應(yīng)用。“2025 年最令人激動的突破性應(yīng)用之一,就是 AI 數(shù)字人。” 李彥宏介紹,百度發(fā)布的高說服力數(shù)字人,具有聲形超擬真、內(nèi)容更專業(yè)、互動更靈活的特點(diǎn),在電商直播、游戲、消費(fèi)等領(lǐng)域,有著巨大的應(yīng)用空間。
高說服力數(shù)字人還具備“AI 大腦”,能根據(jù)直播間實(shí)時熱度和轉(zhuǎn)化情況,靈活調(diào)度助播、場控、運(yùn)營等角色共同促進(jìn)轉(zhuǎn)化,譬如適時切換鏡頭畫面、調(diào)度圖片、視頻素材,真正實(shí)現(xiàn)了一個人就是一個營銷團(tuán)隊(duì)。
李彥宏指出,高說服力數(shù)字人超越真人主要?dú)w功于百度慧播星背后的“劇本生成”能力,實(shí)現(xiàn)口播腳本與數(shù)字人表情、語氣、動作的高度融合,以及順暢的情緒轉(zhuǎn)折和動作切換,表現(xiàn)“超擬真”。目前,百度慧播星已上線“一鍵克隆”功能。用戶只需錄制一條最短 2 分鐘的直播視頻上傳訓(xùn)練,即可擁有自己的專屬數(shù)字人,人人都能做主播。
據(jù)王海峰介紹,高說服力數(shù)字人背后有多項(xiàng)關(guān)鍵技術(shù)。百度研發(fā)了劇本驅(qū)動、多模協(xié)同的超擬真數(shù)字人技術(shù),實(shí)現(xiàn)了語言、聲音、形象的協(xié)調(diào)一致。
首先是基于大語言模型的劇本生成,包括臺詞生成、視覺標(biāo)簽生成以及語音標(biāo)簽生成。模型在生成臺詞時,同步生成數(shù)字人的動作、表情和語調(diào)等信息,以及每個模態(tài)的對齊位置,整體構(gòu)成了劇本,進(jìn)而以劇本驅(qū)動視頻和語音在生成時進(jìn)行多模態(tài)的內(nèi)容匹配和位置對齊,最終生成有高表現(xiàn)力、形神兼?zhèn)涞臄?shù)字人。同時,百度設(shè)計了豐富的動態(tài)交互模式,打造媲美真人的互動能力,并通過視頻斷點(diǎn)設(shè)計,讓動態(tài)視頻片段能夠在視頻流中順暢銜接。
其次是面向數(shù)字人場景的語音合成。在生成劇本的基礎(chǔ)上,基于文心大模型自動預(yù)測當(dāng)前文本的風(fēng)格、情緒及韻律起伏等,通過文本自控的語音合成大模型實(shí)現(xiàn)自級別指令遵循的合成能力,通過文本控制聲音效果的平滑流暢,再結(jié)合直播文本及發(fā)音人信息,合成風(fēng)格恰當(dāng)、自然、流暢的聲音。
針對視覺形象生成以及驅(qū)動方面媲美真人的數(shù)字人面臨的關(guān)鍵難題,百度研制了數(shù)字人視頻生成大模型視頻、劇本、語音等多模態(tài)信號,一同用于數(shù)字人的高可控生成。通過進(jìn)一步分析原始視頻素材,一方面抽取視頻中的高表現(xiàn)力片段,另一方面生成與劇本語音匹配的高表現(xiàn)力片段。此外,通過解析視頻中的人物場信息,視頻生成模型可以生成復(fù)雜的人物場交互片段,并保持主體的一致性,最終結(jié)合這些片段通過影空間對齊生成足夠時長的視頻內(nèi)容。
百度還發(fā)布了全球首個內(nèi)容領(lǐng)域操作系統(tǒng)——滄舟 OS。滄舟 OS 包括兩大核心:一是 Chatfile plus,對不同模態(tài)、不同形態(tài)、不同格式的內(nèi)容,做解析和向量化處理,然后再進(jìn)行混合生成;二是建立了“三庫”和“三器”:“三庫”即公域知識庫、私域知識庫、記憶庫,“三器”是編輯器、閱讀器、播放器,它們可以根據(jù)用戶的需求被大模型組合調(diào)用。
依托滄舟 OS,百度網(wǎng)盤上線了“AI 筆記”,這是業(yè)內(nèi)唯一的多模態(tài) AI 筆記,支持用戶在網(wǎng)盤內(nèi)觀看學(xué)習(xí)視頻時,一鍵生成全面、清晰、結(jié)構(gòu)化的 AI 筆記,還能生成 AI 思維導(dǎo)圖、基于視頻內(nèi)容 AI 出題等。
迎接 AI 應(yīng)用井噴:幫開發(fā)者全面擁抱 MCP
AI 應(yīng)用大爆發(fā)時代,開發(fā)者們普遍遇到一系列的難題,如使用工具缺少統(tǒng)一規(guī)范、開發(fā)效率不夠高、需要反復(fù)適配各種不同類型平臺、開源工具和組件良莠不齊、整合和維護(hù)難度大等。MCP(模型上下文協(xié)議)的出現(xiàn)帶來全新的解決思路,就像是給 AI 裝上了一個“萬能插座”,開發(fā)者不再需要為每個工具編寫定制化的代碼,只要按照 MCP 的標(biāo)準(zhǔn)編寫一次接口就可以了。
在李彥宏看來,MCP 是是 AI 發(fā)展的一大步。為此,百度內(nèi)部全面支持 MCP:
百度優(yōu)化了文心基礎(chǔ)大模型,提升模型在使用 MCP server 時的任務(wù)規(guī)劃和調(diào)度能力。
百度智能云千帆大模型平臺已率先全面兼容 MCP,不僅提供大量第三方 server,也支持開發(fā)者創(chuàng)建和發(fā)布 MCP server;
百度搜索構(gòu)建了 MCP server 發(fā)現(xiàn)平臺,可索引全網(wǎng)優(yōu)質(zhì)的 server;
文心快碼,成為國內(nèi)首個支持 MCP server 的智能編碼助手;
百度的商品檢索、商品交易、商品詳情、商品參數(shù)對比、商品排行榜能力等也已經(jīng)通過百度電商的 MCP server 對外提供,這是國內(nèi)首家支持電商交易的 MCP 服務(wù);
百度文庫、百度網(wǎng)盤、百度地圖等應(yīng)用全面對外提供 MCP Server 服務(wù)。
最重要的是,文心大模型使用的聯(lián)網(wǎng)搜索工具也變身為百度搜索 MCP server 供開發(fā)者調(diào)用,“這是目前市場上最好的搜索 MCP,”李彥宏表示,現(xiàn)在基于 MCP 開發(fā)智能體,就像是在 2010 年前后開發(fā)移動 APP。百度將持續(xù)加大對 MCP 的支持,推動更多的應(yīng)用和服務(wù)兼容 MCP。
李彥宏表示,作為一家技術(shù)公司,百度始終堅持創(chuàng)新,堅持 AI 人才的培養(yǎng),且一直為開發(fā)者提供模型、開發(fā)工具,以及資金和資源等多方面的支持。5 年前,百度提出的 500 萬 AI 人才計劃已在 2024 年提前完成,到現(xiàn)在為止已經(jīng)為社會培養(yǎng)了 630 萬 AI 人才。會上,李彥宏宣布,未來 5 年,百度將加大力度,再為社會培養(yǎng) 1000 萬 AI 人才。
One more thing
最后在發(fā)布現(xiàn)場,百度向外界透露了一項(xiàng)重大技術(shù)突破:中國首個全自研的 3 萬卡超級計算集群已成功點(diǎn)亮。據(jù)介紹,這臺由昆侖芯三代組成的集群,完全為大模型時代的計算需求應(yīng)運(yùn)而生的,能夠同時承載多個像滿血版 Deepseek 這樣的千億級參數(shù)大模型進(jìn)行全量訓(xùn)練,并且可以支持 1000 個客戶同時做百億參數(shù)的大模型的精調(diào)。
“現(xiàn)在可以說,在中國開發(fā) AI 應(yīng)用我們有底氣。”李彥宏稱,百度建設(shè)了超大規(guī)模的高性能網(wǎng)絡(luò),來保證大規(guī)模集群執(zhí)行訓(xùn)練任務(wù)時候的穩(wěn)定性,大幅提升了芯片的有效利用率,而且創(chuàng)新設(shè)計了顯著降低能耗的散熱方案。
聲明:本文為 AI 前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止對全文或部分內(nèi)容進(jìn)行轉(zhuǎn)載。
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
后續(xù)我將通過微信視頻號,以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗(yàn)、商業(yè)踩坑教訓(xùn)等精彩內(nèi)容,和大家一同成長,開啟知識交流之旅歡迎掃碼關(guān)注我的微信視頻號~
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.