扎根應(yīng)用,創(chuàng)造價(jià)值
作者 | 黃煒
編輯 | 盧旭成
3月16日,百度拋出了兩款核彈級(jí)產(chǎn)品——文心大模型4.5以及文心大模型X1。
按照百度的設(shè)定,文心大模型4.5,是一款多模態(tài)基礎(chǔ)大模型,擅長(zhǎng)生成及解讀圖片、視頻,能解答多領(lǐng)域問題;文心大模型X1,是一款深度思考模型,在邏輯推理、復(fù)雜計(jì)算及工具調(diào)用等方面表現(xiàn)尤為出色。
根據(jù)Benchmark測(cè)評(píng),文心大模型4.5的多項(xiàng)基準(zhǔn)測(cè)試成績(jī)優(yōu)于GPT4.5、DeepSeek-V3,在平均分上以79.6分高于GPT4.5的79.14。簡(jiǎn)單來說,百度文心4.5和X1大模型就是當(dāng)前世界上最強(qiáng)的中文大模型。
百度給這兩款模型的定價(jià)是,普通用戶登錄文心一言官網(wǎng)即可免費(fèi)體驗(yàn)。企業(yè)及開發(fā)者可在百度智能云千帆大模型平臺(tái)調(diào)用新模型,文心大模型4.5的API輸入價(jià)格為0.004元/千tokens,輸出0.016元/千tokens;文心大模型X1為輸入0.002元/千tokens,輸出0.008元/千tokens。
兩款模型一經(jīng)發(fā)出,不僅國內(nèi)AI圈子迎來大地震,連海外都“震感”強(qiáng)烈。
東南亞“超級(jí)應(yīng)用”Grab的首席產(chǎn)品官Philipp Kandal不顧周末,發(fā)推稱:“百度在周日都?xì)偭耍男拇竽P?.5和 X1剛剛發(fā)布——其評(píng)估水平可與GPT-4.5/Deepseek R1媲美,而且API定價(jià)極具競(jìng)爭(zhēng)力。可惜還沒有英文注冊(cè)渠道,不然我真想試試……”
全世界最著名的科技記者Robert Scoble也感嘆:“只要DeepSeek R1的一半價(jià)格,我們要打一場(chǎng)AI價(jià)格世界大戰(zhàn)了。”
藍(lán)鯊硬科技也第一時(shí)間對(duì)百度的兩款新模型進(jìn)行了測(cè)試。經(jīng)過親身體驗(yàn),我們發(fā)現(xiàn),Benchmark的評(píng)分沒有騙人,百度的兩款新模型是當(dāng)之無愧的最強(qiáng)中文模型。但隨著測(cè)試深入,我們意識(shí)到,測(cè)評(píng)拿下高分,還只是百度AI野望的一小步。
過去兩年半,當(dāng)國內(nèi)多數(shù)AI公司都在“向OpenAI看齊”,也有一些百度這樣的異類,選擇了走自己的大模型發(fā)展之路。而現(xiàn)在,當(dāng)一個(gè)中國大模型廠商,能以O(shè)penAI百分之一的API調(diào)用價(jià)格,提供性能相當(dāng)?shù)幕A(chǔ)大模型,似乎終于證明了中國創(chuàng)業(yè)者并不缺乏創(chuàng)新能力。
正如李彥宏所言:“創(chuàng)新不能被計(jì)劃,你也不知道創(chuàng)新何時(shí)到來,你所能做的就是營(yíng)造一個(gè)有利于創(chuàng)新的環(huán)境……”
一把瑞士軍刀
百度文心4.5和X1大模型給我的第一體感是“這玩意兒真像一把瑞士軍刀”,可玩性比市面上其他模型都更高。
可玩性首先體現(xiàn)在對(duì)圖片和視頻的理解上。
經(jīng)常使用大模型的用戶都清楚,理解并識(shí)別圖片和視頻,是大模型的絕對(duì)短板。舉個(gè)例子,我們經(jīng)常在社交媒體刷到一些冷門電影片段,卻不知道它出自哪部電影。這時(shí)如果去問大模型,大模型要么給出一個(gè)錯(cuò)誤的答案,要么直接回答“無法識(shí)別”。
比如我選取的電影截圖《賽德克·巴萊》,這是一部臺(tái)灣電影,講述了1930年臺(tái)灣原始部落賽德克族反抗日本侵略者的故事,獲得過第48屆臺(tái)灣金馬獎(jiǎng)。
在詢問百度文心4.5模型后,它不僅準(zhǔn)確識(shí)別了電影名稱,還補(bǔ)充回答了主角的真實(shí)姓名和飾演角色。
而如果用同樣的截圖去問市面上其他主流模型,它們要么無法識(shí)別圖片,要么就回答是美國電影《啟示錄》(Apocalypto)。
《啟示錄》是美國導(dǎo)演梅爾·吉布森的經(jīng)典作品,講述的也是原始部落反抗侵略的故事,只不過故事主角是瑪雅人,發(fā)生時(shí)間在瑪雅文明末期(16世紀(jì))。與我想找的《賽德克·巴萊》,相差足有400年。
除了圖片識(shí)別,文心4.5模型還支持視頻識(shí)別和產(chǎn)出。比如輸入一段6秒的九寨溝風(fēng)景片段,并詢問距離,模型能很快識(shí)別視頻內(nèi)容,并給出旅行建議。
大模型能理解視頻內(nèi)容,實(shí)在令人興奮。
在當(dāng)前這個(gè)短視頻時(shí)代,有太多視頻問題需要模型解答。
比如刷到一個(gè)風(fēng)景如畫的視頻,想知道究竟是何處景點(diǎn);刷到某個(gè)動(dòng)漫片段,想知道名字入坑補(bǔ)番;看到一個(gè)萌寵視頻,想了解這只狗狗是什么品種……這些需求都需要一個(gè)“懂”視頻的大模型。
但在以往,主流模型根本沒有視頻輸入選項(xiàng),用戶只能根據(jù)視頻,輸入模糊文字或者圖片提問,得到的結(jié)果也不盡如人意。
造成上述現(xiàn)象的主因是——缺乏模型的多模態(tài)能力。所謂多模態(tài),通俗來說,就是用不同方式表現(xiàn)信息。可以是文字,也可以是圖片,短視頻,或者音頻。
之前的很多大模型,都是通過拼接多個(gè)模型擁有了多模態(tài)能力,屬于非原生多模態(tài)模型。這種模型往往只能做些表面或字面理解,很容易忽略細(xì)節(jié)信息,導(dǎo)致推理輸出不連貫甚至矛盾。
而百度則是原生的多模態(tài)大模型,原生多模態(tài)大模型更能敏銳捕捉圖像背景、小物體或微小的文本信息,綜合理解跨模態(tài)的幽默、諷刺等深層含義,使得推理結(jié)果連貫,更符合人類邏輯。
測(cè)試過百度大模型的多模態(tài)能力后,我決定給它上點(diǎn)強(qiáng)度,問了一個(gè)簡(jiǎn)短但不簡(jiǎn)單的問題“劉畊宏是干什么的?”這個(gè)問題的難度在于,劉畊宏有演員、歌手、健身教練、網(wǎng)紅等多個(gè)身份,并且近一個(gè)月職業(yè)狀態(tài)有更新。很難界定他的職業(yè)范圍。
如果把這個(gè)問題拋給其他大模型,它們的概括比較籠統(tǒng),劉畊宏的職業(yè)狀態(tài)也停留在三年前。
同樣的問題,去問文心4.5模型,它不僅列出了按時(shí)間順序劉畊宏各個(gè)時(shí)期的代表作:《頭文字D》、《爸爸去哪兒5》等,還詳細(xì)描述了劉畊宏健身主播生涯爆火的經(jīng)歷和遭遇的困難。最關(guān)鍵的,文心4.5模型連劉畊宏2025年2月與無憂傳媒解約,之后簽約新MCN機(jī)構(gòu)的消息都沒有漏掉。邏輯清晰地完成了我的指令。
為了徹底難倒百度的新模型,我決定從題設(shè)開始,就給它一個(gè)錯(cuò)誤的信息。我將模型切換成百度X1,將問題改成“劉耕宏是干什么的?”故意將“劉畊宏”的“畊”字錯(cuò)寫成“耕”,這是一個(gè)我自己在寫稿時(shí)都經(jīng)常犯的錯(cuò)誤。但百度X1模型第一時(shí)間發(fā)現(xiàn)了名字有誤,并且識(shí)別了是提問者筆誤的可能。
在我改正劉畊宏的名字后,百度X1甚至還會(huì)“炫耀”自己糾正了我的筆誤,并進(jìn)一步推測(cè)我的需求是“希望了解更詳細(xì)的劉畊宏信息”。此刻我甚至感覺,自己正在與一個(gè)有“真情實(shí)感”的人類對(duì)話,而不是面對(duì)一個(gè)按照既定程序回答問題的機(jī)器。畢竟,機(jī)器怎么會(huì)有“炫耀”這種情緒,還能推測(cè)我的需求呢?
實(shí)用是檢驗(yàn)?zāi)P偷奈ㄒ粯?biāo)準(zhǔn)
隨著對(duì)百度文心4.5和X1大模型的體驗(yàn)逐漸深入,我愈發(fā)覺得以往行業(yè)對(duì)大模型的討論,似乎搞錯(cuò)了重點(diǎn)。
拋開開源閉源的爭(zhēng)論,實(shí)用才應(yīng)該是檢驗(yàn)?zāi)P秃脡牡奈ㄒ粯?biāo)準(zhǔn)。但在工作中,現(xiàn)在的大模型實(shí)在讓人不太敢用。
國際出版集團(tuán)Wiley最近對(duì)70多個(gè)國家的4946名研究人員進(jìn)行了一項(xiàng)調(diào)查——AI對(duì)撰寫稿件、審查論文和進(jìn)行同行評(píng)議等是否有用?
近三分之二的研究人員提到,不太相信AI處理復(fù)雜任務(wù)的能力,如識(shí)別文獻(xiàn)中的研究空白、選擇投稿期刊、推薦審稿人,或是建議相關(guān)引用文獻(xiàn)等。81%的受訪者還表示,他們擔(dān)憂AI的準(zhǔn)確度和隱私風(fēng)險(xiǎn)。
各國研究員們的擔(dān)憂,存在于每一位試圖將AI引入工作流的人之中。
比如讓大模型生成一篇匯報(bào)材料,雖然模型能在幾秒鐘內(nèi)生成一篇文稿,但沒人敢直接上交,因?yàn)檫@篇文稿中必然存在大模型“胡編亂造”的內(nèi)容,既可能是偽造數(shù)字,也可能是編造時(shí)間,或虛構(gòu)人物。
這種被業(yè)界稱為“幻覺”的現(xiàn)象,阻礙著AI進(jìn)一步深入工作場(chǎng)景。畢竟,沒人敢拿自己的飯碗賭AI是否又在“一本正經(jīng)地胡說八道”。
但在深度體驗(yàn)過百度文心4.5和X1大模型后,我發(fā)覺其幻覺現(xiàn)象得到了明顯改善。
就在上個(gè)月,一條AI制造的駭人新聞在社交媒體廣泛傳播——“截至2024年末,80后死亡率突破5.2%,每20個(gè)80后中就有1人已經(jīng)去世”,很多自媒體稱,數(shù)據(jù)來源是第七次人口普查的“權(quán)威數(shù)據(jù)”。后經(jīng)上海網(wǎng)絡(luò)辟謠介紹,這條假數(shù)據(jù)的最初來源很可能是和AI對(duì)話所得,后經(jīng)自媒體擴(kuò)散形成輿論風(fēng)波。
當(dāng)把同樣的問題拋給百度模型,其不僅提供了第七次人口普查的真實(shí)數(shù)據(jù)“七普數(shù)據(jù)顯示,2019年11月至2020年10月,30-39歲(80后)死亡人數(shù)為19.35萬,占該年齡段總?cè)丝诘?.087%。”還列出了引用信息來源,以及中國人民大學(xué)李婷教授的研究結(jié)果,證明網(wǎng)傳的5.2%死亡率,存在嚴(yán)重錯(cuò)誤。
大模型幻覺減少,靠的是百度RAG(檢索增強(qiáng))的基本功。依托在搜索領(lǐng)域的深厚積累,百度自研了一套兼顧“檢索-理解-生成”檢索增強(qiáng)系統(tǒng),能夠生成準(zhǔn)確率更高、時(shí)效性更好的答案,降低大模型的幻覺。
除了保證內(nèi)容和數(shù)據(jù)的真實(shí)性,一個(gè)實(shí)用的大模型還應(yīng)該是個(gè)“多面手”。因?yàn)樵诋?dāng)今職場(chǎng),一個(gè)文員就要會(huì)寫材料、寫會(huì)議紀(jì)要、做圖、做報(bào)表、做PPT等十八般武藝,大模型要真正提供生產(chǎn)力,也需要提升“綜合能力”。
為了測(cè)試百度X1大模型的綜合能力,我根據(jù)上周自己的實(shí)際工作要求“據(jù)案例圖片,生成一張婦女節(jié)宣傳海報(bào),感謝婦女同志對(duì)公司的貢獻(xiàn),并生成一段朋友圈文案。”
有趣的是,百度X1大模型將自己的思考過程也展示了出來——第一步,調(diào)用圖片理解工具識(shí)別圖片內(nèi)容,并根據(jù)我的意圖,進(jìn)行詳細(xì)的步驟規(guī)劃;第二步,使用圖片生成工具,生成了一張卡通婦女節(jié)宣傳海報(bào)。
根據(jù)百度官方的解釋,多工具調(diào)用是文心X1的特色之一。目前上線的工具包括高級(jí)搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢、加盟信息查詢等。
根據(jù)親身體驗(yàn),用戶不必選擇具體的工具,大模型就能根據(jù)用戶的指令,智能選擇對(duì)應(yīng)的工具。
大模型下半場(chǎng),中國廠商重回正確軌道
前文提到,根據(jù)Benchmark測(cè)評(píng),百度文心4.5和X1的多項(xiàng)測(cè)試分?jǐn)?shù)都優(yōu)于GPT4.5、DeepSeek-V3,這個(gè)成績(jī)固然可喜。
但除了測(cè)試分?jǐn)?shù),百度發(fā)布這兩款業(yè)內(nèi)最強(qiáng)中文大模型更大的意義在于——讓中國廠商,在大模型的下半場(chǎng)競(jìng)爭(zhēng)中重新回到了正確軌道。
還記得2023年初,許多中國大模型廠商放下豪言“要做中國的OpenAI”,之后的行為也帶有濃厚的“軍備競(jìng)賽”意味,大家攀比的是你家大模型有多少億參數(shù),屯了多少張英偉達(dá)顯卡,融了多少億資金?而不是講模型是否實(shí)用。
“堆參數(shù)、屯卡、燒融資”的確是OpenAI喜歡的玩法,但對(duì)中國大模型來說,恐怕并不適合“財(cái)大氣粗”的美股玩法。
OpenAI目前為止已籌集了219億美元(約合人民幣1600億元)。據(jù)The Information預(yù)測(cè),OpenAI在2029年實(shí)現(xiàn)盈利之前,還要總共虧損440億美元(約合人民幣3200億元)。
OpenAI的燒錢規(guī)模,在中國市場(chǎng)顯然不可能復(fù)刻。金沙江創(chuàng)投主管合伙人朱嘯虎就多次表示:“不要燒錢搞AIGC,你必須找到PMF(產(chǎn)品與市場(chǎng)匹配)。微軟3萬億美金市值,他們敢砸錢。中國不需要砸,美國有錢在前面試錯(cuò),它一旦證明路通了,后面要花的錢少一個(gè)數(shù)量級(jí)。”
朱嘯虎的話一度被認(rèn)為是“沒有技術(shù)理想”的商人思維。但事實(shí)證明,“精研技術(shù),強(qiáng)調(diào)應(yīng)用”正是一條更適合中國大模型的發(fā)展之路。
以大模型落地最關(guān)鍵的API調(diào)用成本來說,“技術(shù)理想派”O(jiān)penAI最新發(fā)布的GPT-4.5模型,每百萬Tokens輸入的價(jià)格要75美元(約合人民幣542元),輸出的價(jià)格為150美元(約合人民幣1085元)。OpenAI聲稱是“GPT-4.5體量很大,需要大量計(jì)算資源,因此價(jià)格難以降低。”
但事實(shí)真如OpenAI所言嗎?
參考百度給開發(fā)者的定價(jià),文心大模型4.5的API輸入價(jià)格為0.004元/千tokens,輸出0.016元/千tokens,只有GPT4.5定價(jià)的1%;即將在千帆平臺(tái)上線的文心大模型X1,定價(jià)為輸入0.002元/千tokens,輸出0.008元/千tokens,價(jià)格僅為GPT4.5價(jià)格的0.5%。
連全球最知名的科技記者Robert Scoble都不禁吐槽:“為什么山姆·奧特曼想(推動(dòng)美國政府)禁止中國模型?一家中國大型公司(百度)推出一款新型多模態(tài)模型,其性能與OpenAl的GPT-4.5相當(dāng),但成本卻要遠(yuǎn)低。”
相比特曼通過拼命營(yíng)銷概念,炒高模型調(diào)用價(jià)格,百度董事長(zhǎng)李彥宏倒是說了大實(shí)話:“今天,大型語言模型12個(gè)月內(nèi)推理成本可以降低90%以上。回顧過去幾百年歷史,多數(shù)創(chuàng)新都與降低成本有關(guān)。如果成本降低一定比例,生產(chǎn)力也隨之提高同樣比例,這就是創(chuàng)新的本質(zhì)。在今天,創(chuàng)新速度比以往都快得多。”
在過去兩年,國產(chǎn)大模型陷入了與硅谷大廠攀比燒錢、刷榜、玩概念的怪圈,無疑是以己之短攻彼之長(zhǎng)——這是硅谷更擅長(zhǎng)的游戲,規(guī)則和解釋權(quán)由他們定義。
但技術(shù)創(chuàng)新從來不止一種選項(xiàng)。
中國是全球唯一擁有聯(lián)合國產(chǎn)業(yè)分類中全部工業(yè)門類的國家,不僅有龐大的C端用戶,還有廣闊的B端市場(chǎng)。這為大模型的應(yīng)用落地提供了豐富的場(chǎng)景和巨大的市場(chǎng)潛力。
以百度為例,百度財(cái)報(bào)顯示,百度智能云擁有中國最大的大模型產(chǎn)業(yè)落地規(guī)模,正為超過60%央企和大量民營(yíng)企業(yè)提供AI服務(wù)。在2024年第四季度,百度智能云營(yíng)收同比增長(zhǎng)26%,其中AI相關(guān)收入增長(zhǎng)了近3倍。百度為國家電網(wǎng)定制的AI解決方案,正用AI解決電網(wǎng)規(guī)劃、電網(wǎng)運(yùn)維、電網(wǎng)運(yùn)行、客戶服務(wù)等諸多領(lǐng)域的實(shí)際問題。
換句話來說,扎根中國廣袤應(yīng)用市場(chǎng),將產(chǎn)業(yè)應(yīng)用、自我造血視作生命線的中國創(chuàng)業(yè)者們,同樣可以在大模型競(jìng)爭(zhēng)中闖出一片天。
當(dāng)大模型競(jìng)爭(zhēng)進(jìn)入下半場(chǎng),以百度為代表的中國AI企業(yè)們終于重新回到了“扎根應(yīng)用,創(chuàng)造價(jià)值”的合理軌道,走上了一條更具中國特色的大模型發(fā)展道路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.