DeepSeek的技術(shù)路線在模型建構(gòu)、減少算力需求以及大面積應(yīng)用等方面,都展現(xiàn)了強(qiáng)大的實(shí)力與潛力。然而,這條主流的技術(shù)路線仍充滿(mǎn)挑戰(zhàn),比如在數(shù)據(jù)稀少的領(lǐng)域幻覺(jué)非常嚴(yán)重,能把生手引入歧途。本研討會(huì)將探討AGI的未來(lái)形態(tài)以及DeepSeek近期可以在哪些方面發(fā)力以更有效地協(xié)助科學(xué)家和人文學(xué)者探索非常困難的研究領(lǐng)域,比如直覺(jué)和意識(shí)。
本文系盤(pán)古智庫(kù)學(xué)術(shù)委員、Futurelabs未來(lái)實(shí)驗(yàn)室首席專(zhuān)家、DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心創(chuàng)始人胡延平在專(zhuān)題研討會(huì)上的發(fā)言?xún)?nèi)容整理,文章來(lái)源于“葦草智酷”微信公眾號(hào) 。
本文大約3700字,讀完約9分鐘。
好,跟各位老師交流一下。剛才前蔡恒進(jìn)老師和劉曉力老師都講得非常好。蔡老師尤其有很多更進(jìn)一步的深度思考,對(duì)未來(lái)的智能形態(tài),劉老師則從對(duì)產(chǎn)品的實(shí)際使用體驗(yàn)這些方面,跟我們分享了很多有益的信息。
我覺(jué)得,這件事至少可以從兩個(gè)角度來(lái)看。一個(gè)角度是說(shuō),它的確是我們?cè)诖竽P?AI 方面取得的一個(gè)很好進(jìn)展,也有很多很棒的地方。但與此同時(shí),我覺(jué)得我們也可能需要對(duì)它有一個(gè)客觀的判斷。現(xiàn)在我注意到,還是有一些過(guò)度解讀的地方,尤其是在媒體和自媒體這兩個(gè)方面。
一個(gè)是,比如我們看到它在算力效率方面有很顯著的進(jìn)展,這包括它的工程能力,也確實(shí)對(duì)相關(guān)的芯片算力股造成了一些沖擊。另外,從模型的實(shí)際使用體驗(yàn)來(lái)看,尤其是在數(shù)學(xué)和編程這方面,相比同類(lèi)模型也有優(yōu)勢(shì)。當(dāng)然,這是局部?jī)?yōu)勢(shì)。它其實(shí)沒(méi)有做充分的對(duì)齊,所以很多地方比較犀利,甚至可以讓它來(lái)罵人,不像很多模型那樣謹(jǐn)小慎微、非常中性。還有一個(gè)很好的特點(diǎn)是“思維鏈”的可視化。相比其他模型,從用戶(hù)獲取感或我的實(shí)際體驗(yàn)來(lái)看,這個(gè)真的非常好,它讓你看得見(jiàn)它的思維推導(dǎo)過(guò)程,你能知道它為什么會(huì)得出這樣的結(jié)果,體驗(yàn)感很不錯(cuò)。
包括 DeepSeek 我認(rèn)為起到了很好的一個(gè)作用,它讓 AI“出圈”了。最近這段時(shí)間,我身邊很多并不熟悉這方面的親戚、朋友,甚至朋友圈的一些外國(guó)友人,都在談這件事、用這件事。它有一個(gè)很好的出圈效應(yīng),極大加速了 AI 的普及,所以這是好事。而且我“逢開(kāi)源必贊”,對(duì)于開(kāi)源模型,只要看到就會(huì)極力點(diǎn)贊。為什么呢?因?yàn)殚_(kāi)源,尤其在 AI2.0 的早期,對(duì)整個(gè)生態(tài)的發(fā)展非常重要。
所以這是從它對(duì)整個(gè)業(yè)態(tài)有貢獻(xiàn)的這一面來(lái)看。但與此同時(shí),我也認(rèn)為有很多過(guò)度解讀。而且這些過(guò)度解讀直到現(xiàn)在為止,產(chǎn)生了不少副作用,這些副作用可能是我們接下來(lái)要去面對(duì)的一些重大問(wèn)題。我一會(huì)兒再稍微分享一些看法。
首先,第一個(gè)過(guò)度解讀是什么呢?從整個(gè) AI2.0 的大周期里面各個(gè)小周期來(lái)看,DeepSeek 它是在大語(yǔ)言模型(LLM)這個(gè)周期上。而這個(gè)周期,站在業(yè)內(nèi)來(lái)看,是 AI2.0 大模型的第一個(gè)階段。從 LLM 來(lái)講,整體上頭部的大模型都已經(jīng)走向可用和高可用。也就是說(shuō),大家體驗(yàn)到的那些比較好的感受,其實(shí)不同模型在不同的部分都會(huì)有所呈現(xiàn)。
如果橫向?qū)Ρ雀黝?lèi)模型并充分使用,就會(huì)發(fā)現(xiàn),大語(yǔ)言模型的整體水準(zhǔn)都差不太多,各有優(yōu)劣。也許局部峰值差個(gè)兩三分或五分,但那要經(jīng)過(guò)幾百、幾千、上萬(wàn)個(gè)各種問(wèn)題的測(cè)試,才能更準(zhǔn)確反映不同模型的水準(zhǔn),而不是局部個(gè)案就能決定。所以這是第一個(gè)周期,這個(gè)周期已經(jīng)走向成熟與可用。
所以,DeepSeek 的表現(xiàn)并不是一個(gè)局部現(xiàn)象,是所有頭部大模型都紛紛達(dá)到的水平。不管是Google 的 Gemini,還是 OpenAI,Claude,或者 DeepSeek,包括國(guó)內(nèi)幾個(gè)大模型,大家在這個(gè)方面其實(shí)都差不多。而且現(xiàn)在這個(gè)業(yè)態(tài)其實(shí)已經(jīng)在往第二個(gè)、第三個(gè)主系統(tǒng)走,就是時(shí)空智能、物理現(xiàn)實(shí)世界的模型,以及所謂的“世界模型”。雖然離真正的世界模型還差很遠(yuǎn),但已經(jīng)在往第二階段走了。前面幾位老師提到的 AI for Science 等等,實(shí)際上都在第二個(gè)階段。因?yàn)榇笳Z(yǔ)言模型有很多局限性。大語(yǔ)言模型對(duì)算力的要求反而相對(duì)較低,它的數(shù)據(jù)量其實(shí)也相對(duì)有限。全網(wǎng)高質(zhì)量的數(shù)據(jù),連同清洗、標(biāo)注之類(lèi)的服務(wù),也就幾百個(gè) T。全人類(lèi)過(guò)去數(shù)字化、信息化以后真正沉淀下來(lái)的高質(zhì)量數(shù)據(jù),其實(shí)并沒(méi)有我們想象中那么“無(wú)窮無(wú)盡”。用于大模型訓(xùn)練的占比也不一定很大,還有合成數(shù)據(jù)等等。
接下來(lái)講講算力這個(gè)部分。從周期上來(lái)看,DeepSeek 其實(shí)是在上一個(gè)周期走向成熟的時(shí)候出現(xiàn)的。它本身并沒(méi)有像多模態(tài),包括其他一些視頻、音樂(lè)、圖片生成,以及視覺(jué)理解等方面那樣具備更多能力,距離物理現(xiàn)實(shí)世界的模型這些方面也還有相當(dāng)?shù)木嚯x。所以說(shuō),我們正處在一個(gè)行業(yè)的第一個(gè)周期走向成熟的階段,用我們的工程化能力和各種智慧,把模型的成本降得更低,把對(duì)算力的要求壓到最低。但是,這是不是就代表我們?cè)谙乱粋€(gè)周期也能保持同樣的優(yōu)勢(shì)呢?我覺(jué)得這是需要客觀看待的第一個(gè)方面。
第二點(diǎn)是關(guān)于 DeepSeek 對(duì)算力的節(jié)約。其實(shí)這個(gè)節(jié)約是有限的,而“有限”包含兩個(gè)概念:第一,算力的節(jié)約有下限。也就是說(shuō),從訓(xùn)練到推理,還不可能降到零。模型原理決定了它必須保持一定水平的精度,如果過(guò)度蒸餾或者過(guò)度量化,就會(huì)帶來(lái)訓(xùn)練和推理資源大幅減少,但同時(shí)也會(huì)導(dǎo)致模型精度下降——可能損失幾個(gè)點(diǎn)甚至十幾個(gè)點(diǎn)的表現(xiàn)。所以這是一個(gè)權(quán)衡,算力的節(jié)約有下限,尤其是訓(xùn)練算力的節(jié)約也有下限。但我發(fā)現(xiàn)這一方面卻存在一些夸大的說(shuō)法,需要我們更客觀地去看待。
第三點(diǎn)是對(duì)技術(shù)報(bào)告的解讀。其實(shí)從模型訓(xùn)練來(lái)看,通常是先加法再減法。比如說(shuō)通常會(huì)從 FP16 開(kāi)始,等訓(xùn)練完成以后,再去做模型的小型化,比如把 70B、32B 甚至壓到 1.5B。這些都是先加法、后減法的過(guò)程。DeepSeek 肯定也有自己的各種考慮,比如進(jìn)一步強(qiáng)化某些亮點(diǎn),或者有難言之隱,一些沒(méi)放在技術(shù)報(bào)告里。但無(wú)論它怎么創(chuàng)新、結(jié)構(gòu)怎么優(yōu)化,基本的常識(shí)都是不可逾越的,比如說(shuō)增強(qiáng)學(xué)習(xí)是更消耗算力的;蒸餾會(huì)讓模型出現(xiàn)性能損失等。這些都是規(guī)律。所以我覺(jué)得,業(yè)內(nèi)需要表現(xiàn)出比大眾媒體和社會(huì)輿論更冷靜、理性的一面。
當(dāng)然,這并不影響前面說(shuō)的那幾個(gè)正面因素:這確實(shí)是一個(gè)非常好的模型,對(duì)整個(gè) AI 領(lǐng)域起到了提振作用,也對(duì)硅谷、對(duì)競(jìng)爭(zhēng)對(duì)手帶來(lái)很大沖擊。這些毋庸置疑。但我們不能過(guò)度放大、過(guò)度解讀,就是這么個(gè)情況。另外,若說(shuō)國(guó)內(nèi)在 AI 方面有真正的進(jìn)展和創(chuàng)新的話(huà),過(guò)去幾個(gè)月其實(shí)是一個(gè)“AI中國(guó)”整體崛起的過(guò)程,而不僅僅是 DeepSeek。
DeepSeek 之所以破圈,主要是它在算力方面的節(jié)約帶來(lái)了一種“引爆”效應(yīng)。然而,在視覺(jué)理解模型、實(shí)時(shí)語(yǔ)音智能、物理法則下的視頻生成、雙向多模態(tài)的生成與理解、AI Agent 學(xué)生智能機(jī)器人、基于傳感融合的 Transformer + BEV 等自動(dòng)駕駛 2.0 的技術(shù)上,國(guó)內(nèi)也有不少企業(yè)取得了相當(dāng)不亞于 DeepSeek 的進(jìn)展,只是它們沒(méi)有形成那種“破圈效應(yīng)”。但站在第二或第三個(gè)周期的角度去看,這些都可能是下一個(gè)重要的里程碑。因?yàn)楸苊鈴V告嫌疑,我就不一一提名字了。總之,AI 中國(guó)的崛起是全方位的,DeepSeek 只是其中一個(gè)點(diǎn)。
我覺(jué)得我們不能把 DeepSeek 看成是“一切”,它只是一部分。因此,我們要更加理性、全面地去看待這件事。還有一點(diǎn),站在算力的角度,如果從未來(lái)回頭看 TPCK(注:此處疑似指某技術(shù)或概念,原文未解釋?zhuān)珼eepSeek 只是這個(gè)進(jìn)程中的一部分。
因?yàn)樗懔τ袃蓷l曲線:
?向下的曲線:在過(guò)去兩年多時(shí)間里,訓(xùn)練和推理的成本都顯著下降。推理部分的效率提高了上百倍,主要是芯片能效比、模型原理以及軟件生態(tài)的擴(kuò)張等綜合作用。訓(xùn)練成本甚至可以降到原來(lái)的千分之一,還在快速下降。DeepSeek 做到的幾倍提升,也是在這一大趨勢(shì)里并不算特別突出的部分。只不過(guò),它在這種特定條件下,產(chǎn)生了某種“瞬間耦合效應(yīng)”,導(dǎo)致了破圈。
?向上的曲線:我們面對(duì)物理現(xiàn)實(shí)、融合傳感場(chǎng)景,比如自動(dòng)駕駛、機(jī)器人等,或雙向多模態(tài)的大模型,它的數(shù)據(jù)量會(huì)指數(shù)級(jí)增長(zhǎng),跟大語(yǔ)言模型不是一個(gè)量級(jí)。其訓(xùn)練和推理對(duì)算力的消耗遠(yuǎn)大于大語(yǔ)言模型。包括大語(yǔ)言模型本身,如果開(kāi)啟思維鏈(比如OpenAI 的 O3 三種模式),其高消耗與低消耗模式可能相差百倍。DeepSeek 的思維鏈從推理端來(lái)看,也會(huì)帶來(lái)更高的算力消耗。最近它的一些卡頓,和大量海外國(guó)內(nèi)用戶(hù)涌入、網(wǎng)絡(luò)異常,以及本身推理消耗并不低等原因有關(guān)。
總之,要看我們處在什么周期、看的是哪條曲線。如果只關(guān)注大語(yǔ)言模型并覺(jué)得這就是“終點(diǎn)”,算力的消耗永遠(yuǎn)如此,那就把事情理解得太簡(jiǎn)單了。
另外,DeepSeek 這件事也超出了它原本的產(chǎn)品范疇。它存在于一個(gè)特殊時(shí)間點(diǎn):在特朗普周期的起點(diǎn)上,與新版的“中國(guó)威脅論”產(chǎn)生了化學(xué)反應(yīng),使得全球經(jīng)濟(jì)冷戰(zhàn)從貿(mào)易爭(zhēng)端進(jìn)入 AI 爭(zhēng)端的回合。而 AI 爭(zhēng)端的核心就是芯片、算力、數(shù)據(jù)、模型原理等等,代表著科技戰(zhàn) 2.0 的啟動(dòng)。
若這個(gè)生態(tài)走向分裂,高端開(kāi)源因?yàn)楦鞣N管制的原因走向閉源,安全、數(shù)據(jù)保護(hù)、知識(shí)產(chǎn)權(quán)等因素導(dǎo)致合作困難,AI 生態(tài)可能就此形成兩個(gè)體系,一個(gè)體系會(huì)擠壓另一個(gè)生態(tài)的生存空間,缺乏全球化合作。這樣,我們的產(chǎn)業(yè)造血和創(chuàng)新循環(huán)都會(huì)受到影響。
所以在這件事兒中,DeepSeek 是最大受益者,但整個(gè)行業(yè)不一定是最大受益者。我們要盡量拓展生存和發(fā)展空間,擴(kuò)大生態(tài),讓合作伙伴更多,這樣才能攤薄芯片開(kāi)發(fā)成本、算力成本、AI 模型訓(xùn)練成本,并通過(guò)增加市場(chǎng)規(guī)模來(lái)進(jìn)一步降低推理成本,這才是 AI 生態(tài)良性發(fā)展的方向。
從眼下的狀況看,我們并沒(méi)有很好地把握好這方面的平衡。相關(guān)企業(yè)確實(shí)成功地做了一次全球性的產(chǎn)品公關(guān),震撼了世界,也振奮了人心,產(chǎn)品本身也很優(yōu)異。但可能并沒(méi)有站在更高的全局視野上來(lái)審視,沒(méi)能從生態(tài)的高度把握總體發(fā)展成本與收益。 ■
文章來(lái)源于“葦草智酷”微信公眾號(hào)
責(zé)任編輯:劉菁波
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.