99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)我們談?wù)揇eepSeek時(shí),是在談?wù)撌裁?/h1>
0
分享至



(圖片來(lái)源:pixabay)



連日來(lái),隨著DeepSeek持續(xù)霸榜熱搜,其創(chuàng)始人梁文峰的許多觀點(diǎn)也熱傳于網(wǎng)絡(luò)。

"中國(guó)AI和美國(guó)有一兩年差距,但真實(shí)的gap是原創(chuàng)和模仿之差"“過(guò)去三十多年IT浪潮里,我們基本沒(méi)有參與到真正的技術(shù)創(chuàng)新里” "經(jīng)驗(yàn)包袱太重的人,創(chuàng)新動(dòng)力不足”……他的話(huà)語(yǔ)樸實(shí)且坦誠(chéng),道理講得很白,卻給人耳目一新之感。這一點(diǎn),與大家在使用DeepSeek時(shí)的感受是相當(dāng)一致的。

在國(guó)內(nèi)輿論場(chǎng)中,梁文峰本人與DeepSeek是深度捆綁的,有人稱(chēng)他是人工智能上甘嶺的“黃繼光”,有人說(shuō)他是中國(guó)的“馬斯克”,但在筆者看來(lái),更重要的或許在于做好DeepSeek與梁文峰思維的解碼,換言之,大家應(yīng)當(dāng)更加清楚地知道,當(dāng)我們?cè)谡務(wù)揇eepSeek時(shí),到底在談?wù)撌裁矗蛘哒f(shuō)應(yīng)該談?wù)撌裁础?/p>

其一:突圍,山重水復(fù)疑無(wú)路

ChatGPT問(wèn)世以來(lái),全球AI競(jìng)賽正式進(jìn)入“大力出奇跡”時(shí)代。巨參數(shù)、大數(shù)據(jù)、強(qiáng)算力成為大模型研發(fā)的基礎(chǔ),規(guī)模法則(scaling law)被認(rèn)為是智能“涌現(xiàn)”的核心:OpenAI的GPT-4參數(shù)規(guī)模突破1.8萬(wàn)億,訓(xùn)練數(shù)據(jù)集包含13萬(wàn)億token;微軟、谷歌等一眾科技巨頭均斥巨資囤積算力。而在規(guī)模法則的另一面,全球高質(zhì)量文本數(shù)據(jù)迅速枯竭;單次訓(xùn)練成本逐漸失控;美國(guó)對(duì)芯片采取針對(duì)性出口管制,以維護(hù)其算力霸權(quán)及AI技術(shù)優(yōu)勢(shì)。

當(dāng)美國(guó)科技大廠(chǎng)已投入巨資,構(gòu)建起了一套由他們制定的行業(yè)標(biāo)準(zhǔn)、生存法則時(shí),當(dāng)很多人潛意識(shí)中已默許,AI領(lǐng)域未來(lái)發(fā)展的話(huà)語(yǔ)權(quán)、主導(dǎo)權(quán)和控制權(quán)正牢牢掌握在西方手中時(shí),來(lái)自中國(guó)的DeepSeek卻突然闖了進(jìn)來(lái)。

其用架構(gòu)算法、訓(xùn)練方式、工程優(yōu)化等系統(tǒng)性創(chuàng)新,在千億參數(shù)規(guī)模下展現(xiàn)出與GPT-o1-1217相當(dāng)?shù)耐评砟芰Γ燥@著降低的訓(xùn)練成本,走出一條震驚世界的差異化技術(shù)路徑,實(shí)現(xiàn)國(guó)產(chǎn)大模型的突圍。

正如有論者指出,DeepSeek讓許多人認(rèn)識(shí)到一個(gè)一直存在但被忽視的重要趨勢(shì),那就是中國(guó)在生成式AI領(lǐng)域正在快速追趕美國(guó)。要知道,拜登政府2022年實(shí)施并在此后多次收緊禁止向中國(guó)出售最先進(jìn)芯片及芯片制造設(shè)備的禁令,目的就是限制中國(guó)獲取尖端技術(shù)。DeepSeek團(tuán)隊(duì)正是在美國(guó)AI芯片禁運(yùn)的壓力下,不得不在較低性能的H800 GPU上訓(xùn)練模型。但正是這樣的“降維”,反而推動(dòng)了算法優(yōu)化的突破。

其二:創(chuàng)新,東風(fēng)夜放花千樹(shù)

DeepSeek的成功,挑戰(zhàn)了AI領(lǐng)域“規(guī)模至上”的傳統(tǒng)思維。那么從技術(shù)角度看,DeepSeek主要?jiǎng)?chuàng)造了哪些核心創(chuàng)新?

首先是模型架構(gòu)。混合專(zhuān)家模型(MoE)通過(guò)將模型分成多個(gè)專(zhuān)家,并在每個(gè)特定任務(wù)中只激活少量合適的專(zhuān)家,從而在推理過(guò)程中減少參數(shù)量,提升效率。據(jù)透露,GPT-4便采用了MoE框架,而DeepSeek-V3對(duì)MoE框架進(jìn)行了重要?jiǎng)?chuàng)新,新框架包含細(xì)粒度多數(shù)量的專(zhuān)業(yè)專(zhuān)家和更通用的共享專(zhuān)家。

就MoE框架而言,其面臨的一個(gè)重要難題是如何確定哪個(gè)標(biāo)記(token)會(huì)到達(dá)哪個(gè)專(zhuān)家或子模塊。DeepSeek引入了新的無(wú)損負(fù)載均衡技術(shù)和路由網(wǎng)絡(luò)方法,有效降低了通信開(kāi)銷(xiāo),突破了傳統(tǒng)方法增加通信開(kāi)銷(xiāo)換取高效推理的瓶頸,使得新框架更加穩(wěn)定高效。

其次是算法突破。多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA)是DeepSeek最關(guān)鍵的技術(shù)突破,它顯著降低了模型推理成本。在過(guò)去,推理能力最大的限制之一即為加載上下文所需的內(nèi)存: KV緩存是Transformer中的一種內(nèi)存機(jī)制,它將每一步生成的鍵(Key)和值(Value)保存到緩存中,隨著上下文長(zhǎng)度的增加,KV緩存顯著增加。而MLA可將每個(gè)查詢(xún)所需的KV緩存降低90%以上。

第三是訓(xùn)練方式。DeepSeek-R1-Zero首次證明了基于大規(guī)模強(qiáng)化學(xué)習(xí)(RL)與高質(zhì)量合成數(shù)據(jù)(Synthetic Data)結(jié)合的技術(shù)路徑,可在不依賴(lài)標(biāo)注數(shù)據(jù)、監(jiān)督微調(diào)(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓(xùn)練中,DeepSeek應(yīng)用組相對(duì)優(yōu)化策略(GRPO)和兩個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù)(回答準(zhǔn)確性和思維過(guò)程格式準(zhǔn)確性獎(jiǎng)勵(lì)),使得R1-Zero自發(fā)形成了評(píng)估和優(yōu)化推理的能力,產(chǎn)生令人驚嘆的“頓悟時(shí)刻”(Aha Moment)。

DeepSeek-R1則是在R1-Zero基礎(chǔ)上,進(jìn)一步利用少量標(biāo)注數(shù)據(jù)監(jiān)督微調(diào)作為冷啟動(dòng),并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,顯著提升了模型生成結(jié)果的可讀性及面向開(kāi)放問(wèn)題的推理能力。此外,DeepSeek也驗(yàn)證了模型蒸餾技術(shù)在推理能力上的有效性。

第四是數(shù)據(jù)策略。DeepSeek采用高質(zhì)量合成數(shù)據(jù)的數(shù)據(jù)策略與其訓(xùn)練方式、推理任務(wù)相匹配,極大降低了數(shù)據(jù)成本。“數(shù)據(jù)質(zhì)量?jī)?yōu)先”的核心原則也已逐漸成為領(lǐng)域共識(shí):比數(shù)據(jù)規(guī)模更重要的是數(shù)據(jù)質(zhì)量與知識(shí)密度,相應(yīng)地,DeepSeek采取了拒絕采樣(rejection sampling)等基于驗(yàn)證的數(shù)據(jù)篩選與增強(qiáng)方法。

最后是工程技術(shù)。除了在架構(gòu)、算法、技術(shù)路徑等方面形成“軟突破”,成功降低訓(xùn)練成本,提升模型效率,DeepSeek團(tuán)隊(duì)強(qiáng)大的工程優(yōu)化能力也同樣令人驚嘆。DeepSeek繞過(guò)了英偉達(dá)的通用編程框架CUDA,使用了更底層也更復(fù)雜的PTX(Parallel Thread Execution)匯編語(yǔ)言直接操控GPU指令集,從而實(shí)現(xiàn)芯片算力的效用最大化。這一“硬突破”也一定程度上威脅到英偉達(dá)生態(tài)的護(hù)城河,為未來(lái)適配國(guó)產(chǎn)GPU留下巨大的想象空間。

其三:未來(lái),長(zhǎng)風(fēng)破浪會(huì)有時(shí)

DeepSeek的橫空出世讓人們重新反思大模型、AGI領(lǐng)域暴力美學(xué)式的思維慣性,也重新關(guān)注算法、架構(gòu)、優(yōu)化等技術(shù)創(chuàng)新的巨大潛力。更重要的是,DeepSeek-R1還可以免費(fèi)使用,而且是開(kāi)源的。低成本與開(kāi)放性的強(qiáng)強(qiáng)聯(lián)合可能有助于普及AI技術(shù),讓其他國(guó)家(尤其是美國(guó)以外)的開(kāi)發(fā)者能夠入局。當(dāng)美國(guó)公司在為試圖進(jìn)入該領(lǐng)域的競(jìng)爭(zhēng)對(duì)手設(shè)置盡可能多的障礙時(shí),中國(guó)卻在開(kāi)放這項(xiàng)技術(shù),這確實(shí)是一種諷刺。

曾幾何時(shí),硅谷將AI技術(shù)塑造為一個(gè)珍貴且神奇的成就,將埃隆·馬斯克、薩姆·奧爾特曼等領(lǐng)軍人物描繪成引領(lǐng)人類(lèi)進(jìn)入新世界的先知。而DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。

它專(zhuān)注創(chuàng)新,在人工智能全球競(jìng)爭(zhēng)白熱化的關(guān)鍵時(shí)期形成突破,為中國(guó)的智能生態(tài)構(gòu)建奠定關(guān)鍵基礎(chǔ);它擁抱開(kāi)源,拒絕“Close AI”,為全世界技術(shù)社區(qū)做出堅(jiān)實(shí)貢獻(xiàn)。當(dāng)我們贊嘆DeepSeek產(chǎn)品的巨大成功,也應(yīng)當(dāng)關(guān)注其團(tuán)隊(duì)的系統(tǒng)性創(chuàng)新能力,這既包含多方面的技術(shù)突破,也包括如何聚合“高密度技術(shù)人才”、如何為年輕團(tuán)隊(duì)提供高效的創(chuàng)新土壤。

最后,也要指出DeepSeek的關(guān)鍵破局點(diǎn),是在保持推理能力相當(dāng)?shù)那闆r下,實(shí)現(xiàn)了訓(xùn)練及計(jì)算成本的極大降低。而從數(shù)學(xué)原理上說(shuō),并未跳出大模型浪潮范疇,這也意味著,DeepSeek也無(wú)法解決這一技術(shù)路線(xiàn)下不可解釋、幻覺(jué)等內(nèi)在問(wèn)題。因此,關(guān)于智能“涌現(xiàn)”的根本奧秘,關(guān)于現(xiàn)有模型的智能邊界與潛力,關(guān)于模型的解釋性、泛化性、穩(wěn)定性,尤其是幻覺(jué)引發(fā)的認(rèn)知安全風(fēng)險(xiǎn),仍是值得深入探索的重要議題;長(zhǎng)期而言,算力依然是人工智能的基礎(chǔ)設(shè)施,我們也期待芯片領(lǐng)域誕生屬于中國(guó)的DeepSeek時(shí)刻。

(文/王鑫 北京航空航天大學(xué)人工智能學(xué)院副教授)

歡迎下載“北京青年報(bào)”客戶(hù)端

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四川驚現(xiàn)半米斷尾活草魚(yú)!鱷雀鱔作案?網(wǎng)友:快抽水抓起來(lái)!

四川驚現(xiàn)半米斷尾活草魚(yú)!鱷雀鱔作案?網(wǎng)友:快抽水抓起來(lái)!

阿鳧愛(ài)吐槽
2025-05-08 09:38:01
大反轉(zhuǎn)!突然暴漲!

大反轉(zhuǎn)!突然暴漲!

康巴什發(fā)布
2025-05-07 17:42:33
劉國(guó)梁辭職24小時(shí)驚天反轉(zhuǎn)!四條內(nèi)幕條條致命,國(guó)乒進(jìn)入新紀(jì)元

劉國(guó)梁辭職24小時(shí)驚天反轉(zhuǎn)!四條內(nèi)幕條條致命,國(guó)乒進(jìn)入新紀(jì)元

曉風(fēng)說(shuō)
2025-04-25 08:42:49
聽(tīng)了臺(tái)灣省偽政府高官這番話(huà),我們應(yīng)該好好反思惠臺(tái)政策

聽(tīng)了臺(tái)灣省偽政府高官這番話(huà),我們應(yīng)該好好反思惠臺(tái)政策

天行艦
2025-05-08 08:13:41
廣東今日夜間起將迎大雨,主要落區(qū)在粵北珠三角!局地有冰雹

廣東今日夜間起將迎大雨,主要落區(qū)在粵北珠三角!局地有冰雹

南方都市報(bào)
2025-05-08 10:19:08
小S二女兒接管大S資源:和大S登同款雜志封面,模仿動(dòng)作擺造型

小S二女兒接管大S資源:和大S登同款雜志封面,模仿動(dòng)作擺造型

素素娛樂(lè)
2025-05-08 07:11:31
掃地出門(mén)!巴薩正式?jīng)Q定逐出7000萬(wàn)“偽大核”!欽點(diǎn)簽下1億飛翼

掃地出門(mén)!巴薩正式?jīng)Q定逐出7000萬(wàn)“偽大核”!欽點(diǎn)簽下1億飛翼

頭狼追球
2025-05-08 14:40:42
烏克蘭447架無(wú)人機(jī)大軍襲擊俄羅斯,俄閱兵計(jì)劃瞬間被打亂!

烏克蘭447架無(wú)人機(jī)大軍襲擊俄羅斯,俄閱兵計(jì)劃瞬間被打亂!

國(guó)際情爆猿
2025-05-07 20:35:10
大戰(zhàn)在即,巴基斯坦網(wǎng)友呼吁加快交付殲35,美媒稱(chēng)殲10遠(yuǎn)勝F35!

大戰(zhàn)在即,巴基斯坦網(wǎng)友呼吁加快交付殲35,美媒稱(chēng)殲10遠(yuǎn)勝F35!

凱撒談兵
2025-05-06 14:15:29
歷史首次!分區(qū)半決賽前6場(chǎng)主隊(duì)全敗 騎士綠軍全0-2恐遭下克上

歷史首次!分區(qū)半決賽前6場(chǎng)主隊(duì)全敗 騎士綠軍全0-2恐遭下克上

醉臥浮生
2025-05-08 09:48:01
美方經(jīng)紀(jì)公司官宣正式簽下林葳:中國(guó)下一位籃球之星已經(jīng)到來(lái)

美方經(jīng)紀(jì)公司官宣正式簽下林葳:中國(guó)下一位籃球之星已經(jīng)到來(lái)

懂球帝
2025-05-08 12:23:17
周琦回憶澳大利亞留洋歲月:當(dāng)時(shí)是辦特殊簽證坐拉貨飛機(jī)去的

周琦回憶澳大利亞留洋歲月:當(dāng)時(shí)是辦特殊簽證坐拉貨飛機(jī)去的

懂球帝
2025-05-08 14:00:06
女子給領(lǐng)導(dǎo)買(mǎi)藥想進(jìn)屋,外賣(mài)小哥在一旁吃瓜,還趁機(jī)要了小費(fèi)

女子給領(lǐng)導(dǎo)買(mǎi)藥想進(jìn)屋,外賣(mài)小哥在一旁吃瓜,還趁機(jī)要了小費(fèi)

唐小糖說(shuō)情感
2025-05-08 09:11:01
國(guó)務(wù)院原副總理余秋里,秘書(shū)官至正國(guó)級(jí),唯一的兒子娶了元帥之女

國(guó)務(wù)院原副總理余秋里,秘書(shū)官至正國(guó)級(jí),唯一的兒子娶了元帥之女

紅色先驅(qū)
2025-05-07 17:52:31
小米官方回應(yīng)碳纖維挖孔機(jī)蓋,已提車(chē)用戶(hù)將獲得補(bǔ)償

小米官方回應(yīng)碳纖維挖孔機(jī)蓋,已提車(chē)用戶(hù)將獲得補(bǔ)償

新車(chē)評(píng)網(wǎng)
2025-05-08 10:45:10
甘肅70歲大爺旅居西雙版納7年,直言病全沒(méi)了,網(wǎng)友:大爺沒(méi)說(shuō)謊

甘肅70歲大爺旅居西雙版納7年,直言病全沒(méi)了,網(wǎng)友:大爺沒(méi)說(shuō)謊

鐵錘簡(jiǎn)科
2025-04-30 22:37:58
王局長(zhǎng)再婚(笑話(huà))

王局長(zhǎng)再婚(笑話(huà))

匹夫來(lái)搞笑
2025-05-07 10:50:58
意媒:國(guó)米4-3巴薩在意大利收視率最高49%,至少1320萬(wàn)人看過(guò)比賽

意媒:國(guó)米4-3巴薩在意大利收視率最高49%,至少1320萬(wàn)人看過(guò)比賽

直播吧
2025-05-07 23:39:08
你家孩子干過(guò)最無(wú)語(yǔ)的事是什么?網(wǎng)友:13歲每天花30分鐘以上打扮

你家孩子干過(guò)最無(wú)語(yǔ)的事是什么?網(wǎng)友:13歲每天花30分鐘以上打扮

解讀熱點(diǎn)事件
2025-05-08 00:05:10
印度學(xué)者:中國(guó)人總是令人難以理解,兩萬(wàn)就能搞定他們卻要兩千萬(wàn)

印度學(xué)者:中國(guó)人總是令人難以理解,兩萬(wàn)就能搞定他們卻要兩千萬(wàn)

八斗小先生
2025-05-08 11:45:22
2025-05-08 15:00:49

團(tuán)結(jié)湖參考 incentive-icons
團(tuán)結(jié)湖參考
國(guó)內(nèi)頂尖的時(shí)政新聞評(píng)論
846文章數(shù) 57344關(guān)注度
往期回顧 全部

科技要聞

鴻蒙電腦正式亮相!華為:布局五年

頭條要聞

巴基斯坦外長(zhǎng):印度發(fā)動(dòng)襲擊后 巴印國(guó)安顧問(wèn)有過(guò)接觸

頭條要聞

巴基斯坦外長(zhǎng):印度發(fā)動(dòng)襲擊后 巴印國(guó)安顧問(wèn)有過(guò)接觸

體育要聞

威少兩戰(zhàn)37分:屢陷沖突將對(duì)手打出鼻血

娛樂(lè)要聞

黃圣依離婚后發(fā)現(xiàn),母親同樣令她窒息

財(cái)經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長(zhǎng)舉措

汽車(chē)要聞

純電增程雙動(dòng)力 阿維塔12 2025款上市26.99萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
旅游
本地
軍事航空

從 “白粥姐” 到 “妖妃” 逆襲!王楚然靠美貌殺回內(nèi)娛頂流?

房產(chǎn)要聞

刺激!這波大利好,新老買(mǎi)房客,都贏麻了!

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

本地新聞

為什么太行山上長(zhǎng)滿(mǎn)了韓國(guó)人?

軍事要聞

菲35號(hào)護(hù)衛(wèi)艇企圖侵闖中國(guó)黃巖島領(lǐng)海 南部戰(zhàn)區(qū)發(fā)聲

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 图们市| 灌阳县| 晋江市| 青浦区| 屏山县| 札达县| 深泽县| 旬阳县| 嘉义市| 南投市| 紫云| 东台市| 峡江县| 凤阳县| 九江县| 宜宾市| 锦屏县| 隆昌县| 湛江市| 金寨县| 海林市| 拜泉县| 台南市| 会宁县| 洛隆县| 惠东县| 依兰县| 吉隆县| 新民市| 尼勒克县| 南投市| 佛冈县| 安溪县| 堆龙德庆县| 大足县| 宜兴市| 巴中市| 通河县| 雷州市| 福海县| 庆云县|