網易首頁 > 網易號 > 正文申請入駐

DeepSeek式創(chuàng)新無法計劃，但對「下一代模型」該有準備

2025-02-12 17:05:22　來源: 數(shù)字力場

北京舉報

分享至

　　創(chuàng)新無法被計劃，但創(chuàng)新不能沒準備。

　　文 | 佘宗明

　　作家大衛(wèi)·弗羅斯特曾說過：想要成功，反而不要以成功為目標，只需要做你喜歡和相信的事情，成功就會自然而然地到來。

　　DeepSeek的火爆出圈，儼然成了對《為什么偉大不能被計劃》中引用的這句話的詮釋。

　　身為AI布道者的李彥宏，則跟它打了個共鳴的響指。

　　2月11日，在第12屆世界政府峰會（WGS 2025）上，被阿聯(lián)酋AI部長奧馬爾·蘇丹·奧拉馬問到如何看待DeepSeek的崛起后，李彥宏就回答道：創(chuàng)新是無法計劃的，你無法知道創(chuàng)新何時何地會出現(xiàn)，你所能做的就是營造一個有利于創(chuàng)新的環(huán)境。

　　創(chuàng)新無法被計劃，但創(chuàng)新不能沒準備。一如巴斯德所說：「在觀察的領域里，機會只青睞有準備的頭腦。」

　　DeepSeek在Scaling Law的大路旁開辟出「小力出奇跡」的分岔來，也是「有準備」的回報。幻方量化在GPU儲備上的先知先覺，就是「有準備」的直觀注解。

　　「有準備」的同義詞是「肯投入」。李彥宏在峰會上就表示，盡管技術進步、成本降低，但仍需持續(xù)投入AI基礎設施，以確保處于技術創(chuàng)新的最前沿。「我們仍需對芯片、數(shù)據(jù)中心和云基礎設施持續(xù)投入，以打造下一代模型。」CNBC的最新報道也顯示，百度將于今年發(fā)布新版本的文心大模型。

　　▲報道稱，百度今年下半年將推出全新AI大模型文心5.0。

　　在DeepSeek讓那些對中美AI實力差距倍感灰心之人重燃信心的背景下，李彥宏說的「下一代模型」不無所指：AI角力終究是長跑賽，只有面向次世代技術持續(xù)投入，才能跑得更遠。

　　李彥宏跟DeepSeek「同框」，當然不是偶然。「中國」「AI」等關鍵詞，串聯(lián)起了二者。

　　作為這屆世界政府峰會主論壇首位對談嘉賓，李彥宏「AI先生」的聲名在外。被《時代》周刊評為「Foremost Futurist」的他，是《Time》首次評選的全球AI百大人物榜單中唯一的中國企業(yè)家。

　　這么看，他成為阿聯(lián)酋AI部長的對談嘉賓，也就難言奇怪了——此次峰會上，阿聯(lián)酋AI部長只主持了兩場對談，嘉賓分別是李彥宏跟谷歌CEO桑達爾·皮查伊，去年則是黃仁勛。

　　▲李彥宏跟阿聯(lián)酋AI部長奧馬爾·蘇丹·奧拉馬對談。

　　作為當下全球科技圈的當紅炸子雞，DeepSeek的熱度延伸至世界性高端峰會上，也很正常——這本就是AI發(fā)展的標志性事件。

　　中國AI「代言人」就中國AI「神秘力量」發(fā)表觀點，自然極具看點。

　　在技術大爆炸到來的今天，務實派總是會因時而變地迭代自身認知。可以看到，李彥宏在峰會上對DeepSeek發(fā)表的諸多看法，如創(chuàng)新無法被計劃，還有關于大模型訓練、AI應用的觀點，都彰顯了認知視野的開放性。

　　認同的背面是理解。從推動AI技術進步的角度講，李彥宏跟DeepSeek創(chuàng)始人梁文鋒本是同路人。

　　「卷技術是美國大模型的天命，卷價格是中國大模型的宿命」，是許多人（包括我）此前對于中美大模型對比的直接觀感。

　　但DeepSeek無疑刷新了不少人的認知：它卷價格，更卷技術。憑著多頭潛在注意力（MLA）和群組相對策略優(yōu)化（GRPO）技術，DeepSeek實現(xiàn)了對硅谷算力能效比的代際碾壓。

　　拋開頻域遮蔽效應看會發(fā)現(xiàn)，DeepSeek技術突破的背后是中國大模型技術的整體進步：百度研發(fā)的「理解-檢索-生成」協(xié)同優(yōu)化的檢索增強技術（RAG）強過OpenAI的，豆包的端到端對話能力不遜于OpenAI版「Her」；可靈的視頻生成質量不輸Sora……即為印證。

　　就拿百度結合搜索技術積累形成的模型特色RAG來說，依靠RAG帶來的中文深度理解、多模態(tài)檢索、垂直領域定制化及實時數(shù)據(jù)整合能力等優(yōu)勢，文心一言在咨詢機構沙利文的《2024年中國大模型能力評測》中拿下了五大評測維度的四項第一。

　　隨之而來的，是文心大模型調用量快速增長：截止去年11月，其日調用量已超15億，相比一年前大幅增長30倍，成了中國大模型落地應用爆發(fā)的佐證。

　　到頭來，從文心一言到DeepSeek-R1，都奠定了外界對中國大模型技術能力的基礎認知。

　　去年7月，在率先打響國產大模型價格戰(zhàn)第一槍后，梁文鋒在接受媒體專訪時曾解釋，「我們認為，AI和API服務應該是人人都能負擔得起、隨時可用的。」

　　與之相呼應的是，DeepSeek驚艷四座后，OpenAI CEO山姆·奧特曼、微軟CEO納德拉和亞馬遜CEO安迪·賈西都不約而同地談到，AI成本下降是趨勢。

　　此次峰會上，李彥宏同樣談到了這點。他認為，「創(chuàng)新的本質是成本下降與生產力提升。」根據(jù)摩爾定律，每十八個月，性能就會翻倍而價格減半。如今大模型推理成本每年降低90%以上。

　　前不久，在接入DeepSeek模型后，百度智能云立馬宣布了打折——千帆平臺上的DeepSeek-R1僅為官方刊例價的5折，DeepSeek-V3為官方刊例價的3折，并提供限時免費服務，便是回響。

　　成本下降的后面是技術帶動：推理引擎性能優(yōu)化層面，針對DeepSeek模型MLA結構的計算進行極致性能優(yōu)化；推理服務工程架構創(chuàng)新層面，做了嚴格的推/拉模式性能對比、設計了請求失敗的續(xù)推機制、實現(xiàn)了主流的KV-Cache復用技術……是百度云智能將AI成本打下來的重要支撐。

　　結果就是，DeepSeek模型上線首日，已有超1.5萬家客戶通過百度千帆平臺進行模型調用。

　　降本是最好的「刺激」。依托技術賦能，推動自有與納管主流大模型降低調用成本，已成千帆平臺的「基操」。過去一年，文心旗艦大模型降價幅度超過90%、主力模型全面免費，就累計幫助用戶精調了3.3萬個大模型，開發(fā)出逾77萬個企業(yè)級應用。

　　很大程度上，在推動AI成本下降上，李彥宏跟梁文鋒也是殊途同歸：如果說，DeepSeek讓全世界看到了中國AI花小錢辦大事的破題能力，那百度點亮首個國產萬卡集群，就是中國AI從算力基建層面尋求成本突破的另一種解法。

　　▲百度智能云前不久成功點亮昆侖芯三代萬卡集群，并將進一步點亮3萬卡集群。

　　曾有專業(yè)人士指出，由于訓練效率與數(shù)據(jù)利用效率差距，中國的模型整體資源消耗大概是全球頂尖模型的四倍。

　　而DeepSeek的框架創(chuàng)新，百度的AI基礎設施完善，正是將效率提上去、成本降下來的兩種思路。

　　2024年9月，百度升級發(fā)布百舸AI異構計算平臺4.0，就是著力為企業(yè)提供「多、快、穩(wěn)、省」的AI基礎設施。該平臺迄今已具備成熟的10萬卡集群部署和管理能力，能將兩種芯片混合訓練大模型的效率折損控制在5%以內，達到業(yè)界最領先的水平。

　　百度近期成功點亮昆侖芯三代萬卡集群，又放大了其降本效應與提效價值：萬卡集群可通過模型優(yōu)化、并行策略、有效訓練率提升、動態(tài)資源分配等手段智能調度任務，將訓練、微調、推理任務混合部署，最大化提升集群綜合利用率，降低單位算力成本，滿足AI原生應用快速迭代需求，實現(xiàn)訓練成本指數(shù)級下降。

　　「創(chuàng)新的本質是成本下降與生產力提升」，百度和DeepSeek們降低成本，自然能撬動更多創(chuàng)新。

　　花旗銀行的研報說，百度、DeepSeek等中國模型展現(xiàn)出的高效和低成本優(yōu)勢，將有助于加速全球AI應用開發(fā)，并在全球引發(fā)更多技術創(chuàng)新，就是前瞻預判。

　　提供「多、快、穩(wěn)、省」的AI基礎設施，是百度AI全棧布局之下的能力體現(xiàn)。

　　「百度是全球少有的在AI上實現(xiàn)全棧布局的公司」，是《時代》周刊將百度納入「2024年全球100大最具影響力企業(yè)」榜單時給出的評語。

　　何為全棧布局？簡單來說就是，大模型發(fā)展所需的AI基礎設施、框架、云服務、AI生態(tài)反哺模型能力等條件，它都有。從芯片層的昆侖芯、框架層的百度飛槳到模型層與應用層的落子，百度的「六邊形戰(zhàn)士」形態(tài)已若隱若現(xiàn)。

　　全棧布局，不能少了場景落實、應用搭建等拼塊，也必然體現(xiàn)在應用層的先行一步上。

　　AI產業(yè)發(fā)展，不是建空中樓閣，應用層跑通了，基礎設施投入才可持續(xù)。移動互聯(lián)網時代，從應用層到基礎設施的倒三角型利益分配，催生了數(shù)量眾多的超級應用和明星獨角獸，支撐了移動生態(tài)的長久繁榮，就是最好的證明。

　　可AI時代的「倒三角」尚未成型，AI企業(yè)給英偉達們「打工」仍是常見圖景。強如微軟谷歌，AI基礎設施投資中約一半的錢也要用來買卡。

　　就此看，李彥宏的那段話很有針對性：過去幾年，我們對各種技術進步和突破感到非常興奮。但如果我們看技術棧，它就像一個金字塔，最賺錢的是硅層面，即GPU和其他類型的AI芯片；然后在其上面的是云基礎設施，由超大規(guī)模云服務提供商提供；再往上是語言模型，最上層是應用層。應用層雖然位于最頂端，但應用層目前還沒有賺到太多錢。

　　AI產業(yè)可持續(xù)發(fā)展，推動AI成本下降的確重要，幫助應用層跑通則更為關鍵，這樣才能形成正循環(huán)。李彥宏在峰會上就說：我們確實需要關注應用層的價值創(chuàng)造。如果你作為基礎設施層投入了數(shù)千億美元，卻無法開發(fā)出能帶來十倍以上回報的應用，那么這是不可持續(xù)的。

　　該怎么加速大模型落地應用的提點擴面？峰會上有個細節(jié)頗堪玩味，也為此提供了參照：李彥宏談到Robotaxi比人開車安全十倍，蘿卜快跑出險率僅為人類駕駛員的1/14，阿聯(lián)酋AI部長也表示也許明年峰會可以探索用蘿卜快跑提供交通服務。

　　蘿卜快跑是百度推動AI規(guī)模化應用的重要抓手。2024年發(fā)布了全球首個支持L4級無人駕駛的自動駕駛大模型Apollo ADFM的蘿卜快跑，自動駕駛訂單量擊敗谷歌Waymo位居全球第一，入選《全球自動駕駛十大里程碑》及MIT2025十大突破性進展，就表明了中國AI在應用上的巨大未來想象空間。

　　▲2024年11月29日，蘿卜快跑獲批香港首個自動駕駛車輛先導牌照，這是其開啟面向全球的業(yè)務拓展的重要一步。

　　在大模型應用場景早已從「Chat」擴圍到各個領域的時下，蘿卜快跑只是大模型應用場景豐富性的注腳：大模型To C側最先實現(xiàn)商業(yè)化的標桿性應用百度文庫，以4000萬付費用戶緊逼微軟的Copilot，百度智能云2024年在中標項目數(shù)、行業(yè)覆蓋數(shù)、央國企中標項目數(shù)三個維度里均為第一……就擘畫出了大模型規(guī)模化應用途徑的多元。

　　DeepSeek爆紅后，有些人又陷入了將研發(fā)與應用二元對立的誤區(qū)。但事實上，規(guī)模化應用的反哺，恰是DeepSeek們取得更多技術突破的動能。

　　需要看到的是，無論是技術研發(fā)，還是落地應用，都需要「有準備」——DeepSeek跟百度都推動了AI技術進步、成本下降，但這不意味著，就該因此降低對AI的投入。

　　亞馬遜CEO安迪·賈西就說：（在DeepSeek的帶動下）AI 的成本在降低，但這并不意味著企業(yè)會減少對技術的投入。相反，降低的成本將使企業(yè)能夠重新考慮那些因預算限制而擱置的創(chuàng)新項目，從而加大整體的技術支出。

　　就在近日，微軟、亞馬遜、谷歌和Meta四巨頭表示，在去年創(chuàng)紀錄的支出之后，他們將在2025年進一步加大投資，預計在AI技術和數(shù)據(jù)中心建設上總共投入3200億美元。相較之下，四巨頭2024年的總資本支出為2300億美元。

　　其中動作最猛的，正是亞馬遜——它準備將支出增至1000億美元以上。

　　李彥宏說「仍需對芯片、數(shù)據(jù)中心和云基礎設施持續(xù)投入，以打造下一代模型」，DeepSeek追求持續(xù)進化，顯然也是著眼于提升中國AI競爭力的應然之舉。

　　伊瓦爾·埃克朗在《最佳可能的世界：數(shù)學與命運》中說：世界不分因果鏈，不是線性地安排事件……每個事件就像樹干，把網狀的根伸向過去，把樹冠托向未來。

　　持續(xù)投入，就是將AI技術突破和應用拓圈的根扎得更深，最終將AI時代紅利的樹冠托得更高。而這，需要技術理想主義的堅持，需要務實的準備。

　　4個月前，在百度世界大會上，針對「硅谷預言家」安德森多年前的那個著名論斷「軟件吞噬世界」，李彥宏表示，這個世界不應該被吞噬，而應該被創(chuàng)造。

　　某種意義上講，他跟其他的AI從業(yè)者們都是在「創(chuàng)造」——他們處在同一側，都在以探索下一代技術為支點，創(chuàng)造「最佳可能的世界」。

　　創(chuàng)新不能被計劃，但他們都在為創(chuàng)新做準備。

　　?作者 | 佘宗明

　　?運營| 李玩

　　轉載須經許可

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.