?無盡的算力戰爭
1965年6月的一個深夜,決定成為一名偉大的小說家的史努比,在一臺沉重的老式打印機上,敲下了引人入勝的名著開頭:
在一個漆黑的、風雨交加的夜晚…
據說,史努比構思的一切精彩小說,都是從這個艮古不變的開頭寫起的。
也就在這一年,史努比戰勝了肯尼迪、赫魯曉夫、披頭士等強大對手,登上了《時代》雜志的封面。它覺得它當之無愧。
然鵝,一個美麗童話的終結,總是意味著另一個天方夜譚的開始。
2022年12月,年僅8歲的伊薩克·亞當斯命令一個冰冷的程序,寫一個類似于史努比的小說開頭。很快,他得到了它:
那是一個凄涼的大霧之夜,是那種讓最勇敢的人也感到戰栗的夜晚…
看到這個遠超史努比的小說開頭,亞當斯睜大了眼睛,怯生生地縮回手指,以為看到了神跡。
事實上,為人們寫詩、寫小說,僅僅是這個軟件最粗陋的應用。而一切故事的開始,都發生于2022年11月30日。
這一天,OpenAI倉促發布了該公司落后一代的大型語音AI模型,用于垂直打擊市場上同類聊天AI產品,這就是在GPT-3基礎上微調而成的:
ChatGPT。
市面上的同類營銷產品應聲倒地,整個世界為之徹底改變。
北密歇根大學的學術委員會激烈地抨擊了ChatGPT,因為它撰寫的論文通過了盲審第一輪;硅谷高科技公司的HR叫苦不迭,因為有中學生通過ChatGPT答題,順利通過了年薪50萬美元的工程師筆試。
ChatGPT不僅能夠以自然語言與人類進行互動問答、撰寫小說劇本,還能生成可用的編程代碼、學術論文…它似乎無所不能。
那么古爾丹,代價是什么呢?
答案就矗立在距離美國首都華盛頓僅有數十英里的微軟云數據中心。
被稱之為北弗吉尼亞州數據中心的大樓里層層疊疊地堆滿了服務器,粗壯的同軸電纜把來自世界各地的指令導入其中,代碼總量達350G的ChatGPT通過高性能的GPU處理數據,在輸出結果的同時,也消耗了天量的電力,產生了大量的熱能。
國際能源署(IEA)發布的白皮書指出:
ChatGPT每響應一個請求需要消耗2.9瓦時,這相當于一個5瓦的LED燈泡亮35分鐘。
盡管北弗吉尼亞州數據中心擁有275個數據中心和超過2600兆瓦的配套電力,盡管在這里電價已經低至0.07美元/千瓦時,但這依然是一個沉重的負擔:
ChatGPT每天都需要響應90億次問題指令,每年消耗的電力是9太瓦時(1太瓦時=10^9千瓦時,1千瓦時即為1度電),接近一個中等核電站的全年滿負荷發電量。
AI大模型能源消耗的瘋狂飆升,源于支持AI運行的芯片組,后者被廣泛應用于“更高、更快、更強”的算力戰爭。
一方面,高算力要求高性能的芯片集成,對應著功耗的增加;另一方面,高功耗又會增加芯片的發熱量。
IEA報告指出,數據中心的電力需求主要來自計算和冷卻兩個方面,兩者各占總電力需求的40%。而它們又反過來推高了ChatGPT的運營成本。
目前,ChatGPT API的價格是0.002美元/千token。相當于每輸出100萬個英文單詞支付2.7美元,也相當于輸出50萬個中文需支付18元人民幣。
IEA報告估算,如果全球60%的AI算力需求可以經算法優化后由中端芯片承載,由此節約的成本將以萬億美元計。
但事實上,算力戰爭從未停止,高性能芯片的需求一再被拉升——近年來,英偉達昇騰芯片的出貨量,每年增速都接近300%,還供不應求。
對此,硅谷的高科技公司似乎并不在乎。在投資人的慷慨解囊下,它們不用在乎“燒錢”,也不用在乎被諷刺為“大力出奇跡”,只要成為最終活下來的勝利者,這些都不是事。
只是,AI應用必然要因為追逐算力,而被卡在高成本的怪圈中嗎?
一家來自中國的初創公司決定說“不”。
2025年1月20日,一家名為DeepSeek的中國人工智能公司發布了DeepSeek-R1 模型,其性能可比肩OpenAI o1正式版,但由于采用強化學習,其成本已經降到了不可思議的地步。
綜合36氪等媒體報道,GPT-4o模型訓練成本約為1億美元,而DeepSeek僅用了2048塊GPU,訓練了不到2個月,共花費550多萬美元。其成本只有GPT-4o的1/20。
低廉的成本成為DeepSeek“免費商用、完全開源”策略的底氣所在,由此形成的沖擊,超乎了幾乎所有人的想象。
最先被震驚的是華爾街的投資人,他們驚呼DeepSeek是“來自神秘東方的魔法”。無數投資人忙著訂飛往杭州的機票,哪怕是所謂的紅眼航班也不要緊,哪怕大洋彼岸正忙著過年…也不要緊。
投資嗎,就要拿出三顧茅廬的誠意來啊,混蛋!
然后感受到威脅的是硅谷的科技精英。畢竟550萬美元的訓練成本過于寒磣,它甚至于不及一名資深AI工程師的年薪。
現在,這么低成本的AI模型登陸應用商店,硅谷的AI工程師能怎么辦?他們也很絕望啊,難不成要自愿降薪到1/20?
而美國網友則樂瘋了。1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。
一時間,從太平洋西岸的洛杉磯到太平洋東岸的上海,DeepSeek的名字無人不知無人不曉,而從寂寂無聞的發布到席卷全球的追捧,它僅用了不到一周的時間。
?DeepSeek強在哪里?
美國著名財經頻道CNBC在最新訪談節目中表示,DeepSeek 的出現,對以 OpenAI 為代表的主流AI巨頭構成了實質性威脅。
但我們都知道,人們都已經習慣于夸大競爭對手的強大,以此索要更高的投入。
那么,DeepSeek究竟好在哪里?
讓我們從一篇16頁的論文談起。
2025年1月22日,DeepSeek AI在GitHub公開了一篇學術論文,介紹了DeepSeek系列模型的技術邏輯,從中說明了如何在Open AI的基礎上進行蒸餾優化。
在論文的引言部分中,作者指出一個反直覺的結論:
Open AI的o1模型之所以取得成功,是因為它沒有像傳統大模型一樣,把算力集中在模型的預訓練上,而是把更多資源分配給模型的推理,賦予后者更多的算力,以實現性能的大幅提升。
打個比方,一個好的教師,好就好在沒有讓參加考試的小朋友把時間和精力集中在“刷題”之上,而是讓他們集中思考怎么把問題分解,轉化為已知問題。
(傳統的AI大數據模型中,預訓練是很重要的一環,它限定了AI“學什么”)
不過,因為Open AI的o1模型沒有開源,DeepSeek的開發者也不知道具體的邏輯原理,相當于試卷中只有標準答案,但沒有解題過程。
因此,開發者就通過“大范圍強化學習”( large-scale reinforcement learning)的策略,讓模型在缺少“外部監管”的環境中,自己根據標準答案,在試卷上進行反復推理,做錯了修改,做對了予以價值評判,給予正反饋。這就是DeepSeek R1-zero模型的基本原理。
當然,除了強化學習的技術,開發者還加入了GRPO優化和正則化獎勵。
GRPO優化(Group Relative Policy Optimization)是采用分組,對同一個問題生成多條候選輸出,并以組內相互比較的方式來估計相對獎勵的方法。
打個比方,GRPO更接近于“小組競爭學習法”,也就是把全班同學分為若干個小組,組員合作完成解答成果,然后做好PPT,派代表上臺講解解題過程,而授課教師全程評判,選取“最符合答案”的解題思路,然后把它作為下一輪的標尺(benchmark),發放給所有的小組,讓各小組繼續學習,開始第二輪的答題…如此反復,逼近最滿意解。
采用GRPO的AI模型,計算資源的消耗量下降了約40%,訓練速度提升了兩倍以上。
所謂正則化獎勵(Regularizer Reward),是指在得出的完整答案中,根據經驗風險最小化的原則,加上一個規則化項(regularizer)或罰項(penalty term),調整答案的權重。
這就相當于小朋友完成答題后,除了要求答案正確,還要求解題過程必須完整(程式化)、字跡清晰(標準化),絕不能和數學大神一樣思維跳脫,動不動就寫出“由上易得”、“顯然有”…之類的虎狼之詞。
正則化獎勵的優勢,不僅僅是便于溯源,而且還能遏制機器學習過程中拼湊答案的不良苗頭——畢竟問題是已知的,結論也是已知的,中間蒙一下瞎寫一個答題過程,也是人/機器之常情。
經由正則化獎勵獲得的實驗結果,可以讓GRPO的迭代學習更有效率,更加優化。
總之,感謝即使翻譯工具,讓我這個門外漢也能囫圇吞棗地了解DeepSeek的基本學習策略。
而這三大策略的“組合技”威力也是巨大的。
例如強化學習策略減少了監督微調過程;獎勵機制便于篩選出更優質的語料,指導模型改進推理;GRPO則提高了訓練效率,減少了功耗。更重要的是,在沒有預設代碼的背景下,DeepSeek在迭代強化學習的過程中擁有了“頓悟”的感覺,非常接近“一力降十會”的Open AI模型。
此外,DeepSeek R1的蒸餾技術也非常出彩。所謂蒸餾技術,就是把大模型的推理能力遷移到小模型中,從而實現計算效率與性能結果的動態平衡。
打個比方,就是先用R1大模型生成數十萬條高質量的推理樣本,然后以這些樣本作為監督微調的范式,去訓練小模型,從而讓小模型在某些方面達到接近于大模型的性能。
論文中列舉了一個有趣的例子,在解答一道國際數學奧賽題的過程中,經過蒸餾技術訓練的千問模型(擁有7B的參數,也就是70億個參數),在性能上已經接近了此前的32B模型(擁有320億個參數)。
(論文發布后,有研究人員經過測試,基本復現了圖表中的統計結論,由此引發業界轟動)
但這并不意味著DeepSeek甫一出世,就能取代其他AI產品,就能終結AI行業對算力的依賴(例如有人狂言,DeepSeek R1發布后,英偉達的芯片滯銷,穿皮衣的黃教主趕緊來訪問中國了…)
Open AI的前代教父卡帕西一再表示:
(DeepSeek R1的成功)并不意味著大模型不再需要GPU的大規模集成,因為我們必須確保模型不浪費現有資源。
作為圈內大佬,卡帕西的話比較含蓄。他其實是說:
DeepSeek R1模型很可能是把ChatGPT的模型的知識蒸餾到了新模型之中,以之前存在的海量高質量模型提取出少量的高質量數據,以此作為新模型的訓練數據,進而得到接近于原始數據的訓練效果。
也就是說,Deepseek是一個善于從知識的汪洋里采摘明珠的孩子,這當然是極好的。但不能因此認為,為知識的海洋添加活水的其他孩子就不重要了——傳統的大數據模型(例如Open AI)就是“其他的孩子”,而它們使用的工具,就是GPU集群。
你不能因為學生模型有著出色表現,就否認教師模型的作用。
這里我需要強調一點,DeepSeek并不是Open AI的換皮產品,但它在應用部署過程中使用了蒸餾技術,并將ChatGPT作為教師模型,這一點是大概率的事。
例如某媒體報道。一位科技圈知名評測研究員曾報告一個早期DeepSeek版本的bug:當你問“你是什么模型”的時候,DeepSeek說它是:
ChatGPT。
所以Open AI的CEO山姆·奧特曼在近期發文稱:
復制你知道有效的東西是相對容易的,而嘗試一些新的、有風險且你不知道效果如何的事情,是極其困難的,但那也是最酷的事…
(凹凸曼教主的發言,沒有一個字提及DeepSeek,但沒有一句話不在暗示DeepSeek,其中糾結,用心良苦)
但我們并不能因此否認DeepSeek R1的偉大。
在某種程度上,高質量的蒸餾才是DeepSeek R1模型的最突出貢獻。這意味著“分布式AI”成為一種可能。換而言之,我們可以把算力較低的機器(例如家用計算機,小型服務器,甚至手機)接入大模型,經過蒸餾訓練后,得到與大模型接近的性能。
而如果把眼界放得更長遠一點,高質量的蒸餾技術,可以緩解算力緊張的危機。對于GPU進口大門被限制、相關資源有限的國家來說,更是具有重大的工程意義。
因此,像Deepseek這樣的AI是藏不住的。
就算它有諸多不如意之處,它的口碑也會從每一次免費對話中流出來,攔不住,也斷不掉。
哪怕很少有人能夠說出它的原理,但也已經不重要了。
?那些開發了DeepSeek的年輕人
掌聲如潮水般涌起,涌向僅有140名員工的DeepSeek公司。
美國硅谷的同行稱之為“神秘的東方力量”,誠邀團隊人員參加最前沿的會議;而在國內,各路同行公司揮舞支票,盼望著DeepSeek開發團隊人員的加盟。
最新的消息是,雷軍成功地以千萬年薪挖角“天才AI少女”羅福莉。對此,DeepSeek稱,研究員羅福莉確實已經離職,但不清楚是否加入了其他公司。
如彗星般崛起的羅福莉,其實是一名“95后”。她在攻讀北京大學計算語言學碩士期間,因在國際計算語言學協會(ACL)上發表多篇論文而聲名鵲起,然后畢業后加入阿里巴巴達摩院,再在2022年進入幻方量化,參與DeepSeek大模型項目。
(作為一名自信的95后,羅福莉在社交媒體上回答了網友的提問,并公布了自己的照片)
而整個DeepSeek團隊,甚至它的母公司幻方量化,基本由年輕人構成。
例如在2023年5月,DeepSeek發布V2模型時,在主頁上重點介紹了作出卓著貢獻,但又最為年輕的兩位成員。
第一位是2013年被保送到北京大學物理系的廣東人高華佐,第二位是2017年考入北京郵電大學的湖南新化人曾旺丁。
他們是那么的年輕,但在二十多歲的年紀時,就已經為改變這個世界盡了一份自己的努力。
而幾乎每一個DeepSeek團隊的成員,都對公司創始人梁文鋒表達了敬意。
在接受騰訊“暗涌”的專訪時,梁文鋒表達了他選人、用人的標準。他說,過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。
隨著經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車。例如過去三十多年 IT 浪潮里,我們基本沒有參與到真正的技術創新里。我們已經習慣摩爾定律從天而降,躺在家里 18 個月就會出來更好的硬件和軟件。
因此,梁文鋒選人的第一個原則,就是好奇心和創造欲。
例如他說,團隊成員在午歇期間聊天,聊起人工智能的本質是不是語言。因為人類的思維最終是以語言表達出來的,你以為你在思考,其實是在腦子中組織語言,它們看上去是一回事。
梁文鋒認為這個想法很有意思,愿意提供資源,鼓勵成員去了解語言學相關知識,去驗證這個猜想——這個猜想的答案也許無用,也許會成為催生人工智能的關鍵。
除此以外,梁文鋒喜歡從國內的TOP高校招募應屆生。
他認為,也許行業中前50名頂尖人才可能不在中國,但我們能利用本土人才打造這樣的人。因為本土大學的應屆生,往往有著敢愛敢做的創新精神。
梁文鋒說,應屆生有一個好,就是認為所有的套路都是上一代的產物,未來不一定成立,這對創新是非常重要的。
因為如果追求短期目標,找現成有經驗的人是對的。但如果看長遠,經驗就沒那么重要了。例如做一件事,有經驗的人會不假思索告訴你,應該這樣做,但沒有經驗的人,會反復摸索、很認真去想應該怎么做,然后找到一個符合當前實際情況的解決辦法。
因此幻方量化有個招人的原則,就是核心技術崗位,基本以應屆和畢業一兩年的人為主。
其實,就連梁文鋒創立幻方量化時,他本人都沒有任何量化經驗。
2002年,梁文鋒以廣東省吳川市第一中學“高考狀元”的成績考上浙江大學電子信息工程專業,后來又攻讀該校碩士,因為做課題才積累了市場行情數據和探索全自動量化交易。
2010年,碩士畢業后的梁文鋒與同校好友徐進一起創業,并在2015年共同創辦了幻方量化。幻方很快就成為國內四大量化公司之一,2021年管理的基金規模炒股了千億元大關,并獲得基金界的最高榮譽金牛獎。
2019年,為了解決算力瓶頸,梁文鋒創辦了幻方AI公司,投資2億元研發深度學習訓練平臺“螢火一號”,為此搭載了1100塊GPU顯卡。
在GPU卡脖子事件匯總,梁文鋒成為幸運加成的幸運兒。對此,他謙虛地表示:
并不是我在2021年有了什么先見之明,也沒有一個不為人知的商業邏輯,因為如果單純只做量化投資,很少的卡也能達到目的…我主要就是好奇心驅動。
同樣是因為興趣,梁文鋒在2023年創辦DeepSeek公司,宣布要做通用人工智能(AGI)。他說:
一件激動人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因為有一群急于在上面彈奏樂曲的人。
2022年,幻方量化的一位員工以“一只平凡的小豬”的名義,向慈善機構捐款1.38億元,其中的扶持項目涵蓋白血病救助、鄉村工匠、中學生資助、聽障兒童支持、關愛老兵等。有人說,這位員工就是梁文鋒。
2024年10月,梁文鋒的幻方量化發布一份“告投資者公告”,稱未來會逐步將對沖產品投資倉位降低至零。
2025年1月,國務院總理主持召開專家、企業家和教科文衛體等領域代表座談會,梁文鋒在會上發言。
在農歷2024年的最后一天,我們看過了太多灰敗的塌房事件,但AI圈被DeepSeek這條鯰魚攪了個天翻地覆,顯然是一個難得的、振奮人心的好消息。
有人說,當經濟開始進入下行期,資本也進入了冷周期,這可能對生活、工作、創新產生不利。
但我們欣喜地看到,在中國,有這么一批年輕人認為,中國產業結構的調整,讓人們發現過去靠時代紅利賺快錢的機會消失了,而更愿意俯身去做真正的創新。
中國的希望,就在于有這樣的年輕人。
王爾德說:
We are all in the gutter,but some of us are looking at the stars.
(我們都在溝里,但仍有人仰望星空)
——(全文完)——
寫在后面的話:
如果說,像梁文鋒這樣的年輕人,讓我們看到了中國的未來,那么萬科在昨天的驚天劇變,則貢獻了農歷2024年最精彩的冷笑話。
話說,昨天下午,萬科公布預虧450億元、管理層“被退出”的新聞時,我一點兒都不吃驚。畢竟前些天關于祝九哥“進去又出來”的新聞,已經讓人感慨良多了。
但我顯然低估了這個突發事件的戲劇性。
例如,萬科原管理層被勸退后,新接盤的深圳地鐵董事長辛先生擔任萬科新一任董事長,而深圳國資委某負責人稱:
截至2024年底,深圳市市屬國資國企資產超過了5萬億元,規模大、實力強、有能力、有實力,也有足夠的“子彈”,支持地鐵集團通過一切可能的市場化、法治化手段,推動萬科穩健發展。
嗯,這就是改革開放的橋頭堡、市場化最徹底的深圳的答復。
而更秀的是,在萬科發布重磅新聞后僅兩個小時,王石在朋友圈發文稱:
國家隊出手相助!
我愿稱之為2024年中國房地產為人民群眾貢獻的最好笑的笑話,沒有之一。
Anyway,祝讀者胖友們新年玉快~
覺得有趣,請關注公眾號:將軍箭
28 Jan 2025
點擊“分享”和“贊”,感謝你的支持
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.