網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

【關(guān)注】胡延平：AI 中國(guó)的崛起是全方位的，DeepSeek 只是其中一個(gè)點(diǎn)

2025-02-27 17:57:08　來(lái)源: 盤(pán)古智庫(kù)

北京舉報(bào)

分享至

DeepSeek的技術(shù)路線在模型建構(gòu)、減少算力需求以及大面積應(yīng)用等方面，都展現(xiàn)了強(qiáng)大的實(shí)力與潛力。然而，這條主流的技術(shù)路線仍充滿(mǎn)挑戰(zhàn)，比如在數(shù)據(jù)稀少的領(lǐng)域幻覺(jué)非常嚴(yán)重，能把生手引入歧途。本研討會(huì)將探討AGI的未來(lái)形態(tài)以及DeepSeek近期可以在哪些方面發(fā)力以更有效地協(xié)助科學(xué)家和人文學(xué)者探索非常困難的研究領(lǐng)域，比如直覺(jué)和意識(shí)。

本文系盤(pán)古智庫(kù)學(xué)術(shù)委員、Futurelabs未來(lái)實(shí)驗(yàn)室首席專(zhuān)家、DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心創(chuàng)始人胡延平在專(zhuān)題研討會(huì)上的發(fā)言?xún)?nèi)容整理，文章來(lái)源于“葦草智酷”微信公眾號(hào) 。

本文大約3700字，讀完約9分鐘。

好，跟各位老師交流一下。剛才前蔡恒進(jìn)老師和劉曉力老師都講得非常好。蔡老師尤其有很多更進(jìn)一步的深度思考，對(duì)未來(lái)的智能形態(tài)，劉老師則從對(duì)產(chǎn)品的實(shí)際使用體驗(yàn)這些方面，跟我們分享了很多有益的信息。

我覺(jué)得，這件事至少可以從兩個(gè)角度來(lái)看。一個(gè)角度是說(shuō)，它的確是我們?cè)诖竽Ｐ?AI 方面取得的一個(gè)很好進(jìn)展，也有很多很棒的地方。但與此同時(shí)，我覺(jué)得我們也可能需要對(duì)它有一個(gè)客觀的判斷。現(xiàn)在我注意到，還是有一些過(guò)度解讀的地方，尤其是在媒體和自媒體這兩個(gè)方面。

一個(gè)是，比如我們看到它在算力效率方面有很顯著的進(jìn)展，這包括它的工程能力，也確實(shí)對(duì)相關(guān)的芯片算力股造成了一些沖擊。另外，從模型的實(shí)際使用體驗(yàn)來(lái)看，尤其是在數(shù)學(xué)和編程這方面，相比同類(lèi)模型也有優(yōu)勢(shì)。當(dāng)然，這是局部?jī)?yōu)勢(shì)。它其實(shí)沒(méi)有做充分的對(duì)齊，所以很多地方比較犀利，甚至可以讓它來(lái)罵人，不像很多模型那樣謹(jǐn)小慎微、非常中性。還有一個(gè)很好的特點(diǎn)是“思維鏈”的可視化。相比其他模型，從用戶(hù)獲取感或我的實(shí)際體驗(yàn)來(lái)看，這個(gè)真的非常好，它讓你看得見(jiàn)它的思維推導(dǎo)過(guò)程，你能知道它為什么會(huì)得出這樣的結(jié)果，體驗(yàn)感很不錯(cuò)。

包括 DeepSeek 我認(rèn)為起到了很好的一個(gè)作用，它讓 AI“出圈”了。最近這段時(shí)間，我身邊很多并不熟悉這方面的親戚、朋友，甚至朋友圈的一些外國(guó)友人，都在談這件事、用這件事。它有一個(gè)很好的出圈效應(yīng)，極大加速了 AI 的普及，所以這是好事。而且我“逢開(kāi)源必贊”，對(duì)于開(kāi)源模型，只要看到就會(huì)極力點(diǎn)贊。為什么呢？因?yàn)殚_(kāi)源，尤其在 AI2.0 的早期，對(duì)整個(gè)生態(tài)的發(fā)展非常重要。

所以這是從它對(duì)整個(gè)業(yè)態(tài)有貢獻(xiàn)的這一面來(lái)看。但與此同時(shí)，我也認(rèn)為有很多過(guò)度解讀。而且這些過(guò)度解讀直到現(xiàn)在為止，產(chǎn)生了不少副作用，這些副作用可能是我們接下來(lái)要去面對(duì)的一些重大問(wèn)題。我一會(huì)兒再稍微分享一些看法。

首先，第一個(gè)過(guò)度解讀是什么呢？從整個(gè) AI2.0 的大周期里面各個(gè)小周期來(lái)看，DeepSeek 它是在大語(yǔ)言模型（LLM）這個(gè)周期上。而這個(gè)周期，站在業(yè)內(nèi)來(lái)看，是 AI2.0 大模型的第一個(gè)階段。從 LLM 來(lái)講，整體上頭部的大模型都已經(jīng)走向可用和高可用。也就是說(shuō)，大家體驗(yàn)到的那些比較好的感受，其實(shí)不同模型在不同的部分都會(huì)有所呈現(xiàn)。

如果橫向?qū)Ρ雀黝?lèi)模型并充分使用，就會(huì)發(fā)現(xiàn)，大語(yǔ)言模型的整體水準(zhǔn)都差不太多，各有優(yōu)劣。也許局部峰值差個(gè)兩三分或五分，但那要經(jīng)過(guò)幾百、幾千、上萬(wàn)個(gè)各種問(wèn)題的測(cè)試，才能更準(zhǔn)確反映不同模型的水準(zhǔn)，而不是局部個(gè)案就能決定。所以這是第一個(gè)周期，這個(gè)周期已經(jīng)走向成熟與可用。

所以，DeepSeek 的表現(xiàn)并不是一個(gè)局部現(xiàn)象，是所有頭部大模型都紛紛達(dá)到的水平。不管是Google 的 Gemini，還是 OpenAI，Claude，或者 DeepSeek，包括國(guó)內(nèi)幾個(gè)大模型，大家在這個(gè)方面其實(shí)都差不多。而且現(xiàn)在這個(gè)業(yè)態(tài)其實(shí)已經(jīng)在往第二個(gè)、第三個(gè)主系統(tǒng)走，就是時(shí)空智能、物理現(xiàn)實(shí)世界的模型，以及所謂的“世界模型”。雖然離真正的世界模型還差很遠(yuǎn)，但已經(jīng)在往第二階段走了。前面幾位老師提到的 AI for Science 等等，實(shí)際上都在第二個(gè)階段。因?yàn)榇笳Z(yǔ)言模型有很多局限性。大語(yǔ)言模型對(duì)算力的要求反而相對(duì)較低，它的數(shù)據(jù)量其實(shí)也相對(duì)有限。全網(wǎng)高質(zhì)量的數(shù)據(jù)，連同清洗、標(biāo)注之類(lèi)的服務(wù)，也就幾百個(gè) T。全人類(lèi)過(guò)去數(shù)字化、信息化以后真正沉淀下來(lái)的高質(zhì)量數(shù)據(jù)，其實(shí)并沒(méi)有我們想象中那么“無(wú)窮無(wú)盡”。用于大模型訓(xùn)練的占比也不一定很大，還有合成數(shù)據(jù)等等。

接下來(lái)講講算力這個(gè)部分。從周期上來(lái)看，DeepSeek 其實(shí)是在上一個(gè)周期走向成熟的時(shí)候出現(xiàn)的。它本身并沒(méi)有像多模態(tài)，包括其他一些視頻、音樂(lè)、圖片生成，以及視覺(jué)理解等方面那樣具備更多能力，距離物理現(xiàn)實(shí)世界的模型這些方面也還有相當(dāng)?shù)木嚯x。所以說(shuō)，我們正處在一個(gè)行業(yè)的第一個(gè)周期走向成熟的階段，用我們的工程化能力和各種智慧，把模型的成本降得更低，把對(duì)算力的要求壓到最低。但是，這是不是就代表我們?cè)谙乱粋€(gè)周期也能保持同樣的優(yōu)勢(shì)呢？我覺(jué)得這是需要客觀看待的第一個(gè)方面。

第二點(diǎn)是關(guān)于 DeepSeek 對(duì)算力的節(jié)約。其實(shí)這個(gè)節(jié)約是有限的，而“有限”包含兩個(gè)概念：第一，算力的節(jié)約有下限。也就是說(shuō)，從訓(xùn)練到推理，還不可能降到零。模型原理決定了它必須保持一定水平的精度，如果過(guò)度蒸餾或者過(guò)度量化，就會(huì)帶來(lái)訓(xùn)練和推理資源大幅減少，但同時(shí)也會(huì)導(dǎo)致模型精度下降——可能損失幾個(gè)點(diǎn)甚至十幾個(gè)點(diǎn)的表現(xiàn)。所以這是一個(gè)權(quán)衡，算力的節(jié)約有下限，尤其是訓(xùn)練算力的節(jié)約也有下限。但我發(fā)現(xiàn)這一方面卻存在一些夸大的說(shuō)法，需要我們更客觀地去看待。

第三點(diǎn)是對(duì)技術(shù)報(bào)告的解讀。其實(shí)從模型訓(xùn)練來(lái)看，通常是先加法再減法。比如說(shuō)通常會(huì)從 FP16 開(kāi)始，等訓(xùn)練完成以后，再去做模型的小型化，比如把 70B、32B 甚至壓到 1.5B。這些都是先加法、后減法的過(guò)程。DeepSeek 肯定也有自己的各種考慮，比如進(jìn)一步強(qiáng)化某些亮點(diǎn)，或者有難言之隱，一些沒(méi)放在技術(shù)報(bào)告里。但無(wú)論它怎么創(chuàng)新、結(jié)構(gòu)怎么優(yōu)化，基本的常識(shí)都是不可逾越的，比如說(shuō)增強(qiáng)學(xué)習(xí)是更消耗算力的；蒸餾會(huì)讓模型出現(xiàn)性能損失等。這些都是規(guī)律。所以我覺(jué)得，業(yè)內(nèi)需要表現(xiàn)出比大眾媒體和社會(huì)輿論更冷靜、理性的一面。

當(dāng)然，這并不影響前面說(shuō)的那幾個(gè)正面因素：這確實(shí)是一個(gè)非常好的模型，對(duì)整個(gè) AI 領(lǐng)域起到了提振作用，也對(duì)硅谷、對(duì)競(jìng)爭(zhēng)對(duì)手帶來(lái)很大沖擊。這些毋庸置疑。但我們不能過(guò)度放大、過(guò)度解讀，就是這么個(gè)情況。另外，若說(shuō)國(guó)內(nèi)在 AI 方面有真正的進(jìn)展和創(chuàng)新的話(huà)，過(guò)去幾個(gè)月其實(shí)是一個(gè)“AI中國(guó)”整體崛起的過(guò)程，而不僅僅是 DeepSeek。

DeepSeek 之所以破圈，主要是它在算力方面的節(jié)約帶來(lái)了一種“引爆”效應(yīng)。然而，在視覺(jué)理解模型、實(shí)時(shí)語(yǔ)音智能、物理法則下的視頻生成、雙向多模態(tài)的生成與理解、AI Agent 學(xué)生智能機(jī)器人、基于傳感融合的 Transformer + BEV 等自動(dòng)駕駛 2.0 的技術(shù)上，國(guó)內(nèi)也有不少企業(yè)取得了相當(dāng)不亞于 DeepSeek 的進(jìn)展，只是它們沒(méi)有形成那種“破圈效應(yīng)”。但站在第二或第三個(gè)周期的角度去看，這些都可能是下一個(gè)重要的里程碑。因?yàn)楸苊鈴V告嫌疑，我就不一一提名字了。總之，AI 中國(guó)的崛起是全方位的，DeepSeek 只是其中一個(gè)點(diǎn)。

我覺(jué)得我們不能把 DeepSeek 看成是“一切”，它只是一部分。因此，我們要更加理性、全面地去看待這件事。還有一點(diǎn)，站在算力的角度，如果從未來(lái)回頭看 TPCK（注：此處疑似指某技術(shù)或概念，原文未解釋?zhuān)珼eepSeek 只是這個(gè)進(jìn)程中的一部分。

因?yàn)樗懔τ袃蓷l曲線：

?向下的曲線：在過(guò)去兩年多時(shí)間里，訓(xùn)練和推理的成本都顯著下降。推理部分的效率提高了上百倍，主要是芯片能效比、模型原理以及軟件生態(tài)的擴(kuò)張等綜合作用。訓(xùn)練成本甚至可以降到原來(lái)的千分之一，還在快速下降。DeepSeek 做到的幾倍提升，也是在這一大趨勢(shì)里并不算特別突出的部分。只不過(guò)，它在這種特定條件下，產(chǎn)生了某種“瞬間耦合效應(yīng)”，導(dǎo)致了破圈。

?向上的曲線：我們面對(duì)物理現(xiàn)實(shí)、融合傳感場(chǎng)景，比如自動(dòng)駕駛、機(jī)器人等，或雙向多模態(tài)的大模型，它的數(shù)據(jù)量會(huì)指數(shù)級(jí)增長(zhǎng)，跟大語(yǔ)言模型不是一個(gè)量級(jí)。其訓(xùn)練和推理對(duì)算力的消耗遠(yuǎn)大于大語(yǔ)言模型。包括大語(yǔ)言模型本身，如果開(kāi)啟思維鏈（比如OpenAI 的 O3 三種模式），其高消耗與低消耗模式可能相差百倍。DeepSeek 的思維鏈從推理端來(lái)看，也會(huì)帶來(lái)更高的算力消耗。最近它的一些卡頓，和大量海外國(guó)內(nèi)用戶(hù)涌入、網(wǎng)絡(luò)異常，以及本身推理消耗并不低等原因有關(guān)。

總之，要看我們處在什么周期、看的是哪條曲線。如果只關(guān)注大語(yǔ)言模型并覺(jué)得這就是“終點(diǎn)”，算力的消耗永遠(yuǎn)如此，那就把事情理解得太簡(jiǎn)單了。

另外，DeepSeek 這件事也超出了它原本的產(chǎn)品范疇。它存在于一個(gè)特殊時(shí)間點(diǎn)：在特朗普周期的起點(diǎn)上，與新版的“中國(guó)威脅論”產(chǎn)生了化學(xué)反應(yīng)，使得全球經(jīng)濟(jì)冷戰(zhàn)從貿(mào)易爭(zhēng)端進(jìn)入 AI 爭(zhēng)端的回合。而 AI 爭(zhēng)端的核心就是芯片、算力、數(shù)據(jù)、模型原理等等，代表著科技戰(zhàn) 2.0 的啟動(dòng)。

若這個(gè)生態(tài)走向分裂，高端開(kāi)源因?yàn)楦鞣N管制的原因走向閉源，安全、數(shù)據(jù)保護(hù)、知識(shí)產(chǎn)權(quán)等因素導(dǎo)致合作困難，AI 生態(tài)可能就此形成兩個(gè)體系，一個(gè)體系會(huì)擠壓另一個(gè)生態(tài)的生存空間，缺乏全球化合作。這樣，我們的產(chǎn)業(yè)造血和創(chuàng)新循環(huán)都會(huì)受到影響。

所以在這件事兒中，DeepSeek 是最大受益者，但整個(gè)行業(yè)不一定是最大受益者。我們要盡量拓展生存和發(fā)展空間，擴(kuò)大生態(tài)，讓合作伙伴更多，這樣才能攤薄芯片開(kāi)發(fā)成本、算力成本、AI 模型訓(xùn)練成本，并通過(guò)增加市場(chǎng)規(guī)模來(lái)進(jìn)一步降低推理成本，這才是 AI 生態(tài)良性發(fā)展的方向。

從眼下的狀況看，我們并沒(méi)有很好地把握好這方面的平衡。相關(guān)企業(yè)確實(shí)成功地做了一次全球性的產(chǎn)品公關(guān)，震撼了世界，也振奮了人心，產(chǎn)品本身也很優(yōu)異。但可能并沒(méi)有站在更高的全局視野上來(lái)審視，沒(méi)能從生態(tài)的高度把握總體發(fā)展成本與收益。 ■

文章來(lái)源于“葦草智酷”微信公眾號(hào)

責(zé)任編輯：劉菁波

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.