一個來自中國的開源模型,讓整個AI圈再次驚呼“來自東方的神秘力量”。
昨天,國內知名大模型創業公司“深度求索”通過官方公眾號宣布上線并同步開源 DeepSeek-V3模型,并公布了長達53頁的訓練和技術細節。
和許多報告語焉不詳相比,這份報告做到了真正的開源。不僅透露得到大幅升級的V3模型是在一個“難以想象”的預算下訓練完成的:整個訓練僅花費了557.6萬美元,在2048xH800集群上運行55天完成,還很坦誠地公布了技術細節。
真正的花小錢辦大事
這筆費用是什么概念呢?Anthropic CEO Dario Amodei曾透露,GPT-4o這樣的模型訓練成本約為1億美元。
換句話說,與 Llma、GPT 或 Claude 這些全球知名大模型相比,DeepSeek-V3的這個成本幾乎可以忽略不計。
成本低不代表效果差,DeepSeek羅列了若干個指標:
百科知識:DeepSeek-V3在知識類任務上的水平相比前代 DeepSeek-V2.5顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022。
長文本: 在長文本測評中,DROP、FRAMES和 LongBench v2上,DeepSeek-V3平均表現超越其他模型。
代碼:DeepSeek-V3在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非o1類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
數學: 在美國數學競賽(AIME 2024, MATH)上,DeepSeek-V3得分 為90.2%,而Claude-3.5-Sonnet為 78.3%,GPT-4o為 74.6%。
中文能力:DeepSeek-V3與Qwen2.5-72B在教育類測評C-Eval和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA上更為領先。
簡單說,從技術報告公布的性能指標上來看,這個開源MoE模型,已經在性能上對齊甚至在一些方面顯著超越了海外領軍的閉源模型。
對此,OpenAI創始成員Karpathy點評:DeepSeek-V3讓在有限算力預算上進行模型預訓練這件事變得容易。它看起來比Llama 3 405B更強,訓練消耗的算力卻僅為后者的1/11。
Meta科學家田淵棟感慨:這是非常偉大的工作。
創始人畢業于浙大,曾是量化基金大佬
說起國產大模型,很多人聽說過“五虎”和“四小龍”,但很少有人聽說過深度求索DeepSeek。因為他們是唯一一家沒有做2C應用的公司,選擇了開源路線,至今沒有融過資。
這也不是深度求索第一次展現神奇的力量。在硅谷,深度求索DeepSeek很早被稱作“來自東方的神秘力量”。
今年5月,深度求索DeepSeek發布發DeepSeekV2,因為創新的模型架構和史無前例的性價比,火爆出圈:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,因此深度求索DeepSeek被稱為“大模型界的拼多多”,從而引發了字節、阿里、百度等大廠的大模型價格大戰,不約而同地調整價格。
DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse結構,大幅降低了模型的計算量和顯存占用,從而降低了推理成本。
在轟炸AI圈之前,深度求索DeepSeek背后的操盤手梁文鋒是金融江湖成名已久的高手。他成立的幻方量化,是國內量化私募“四巨頭”之一。
低調的梁文鋒個80后,出生在廣東的一個五線城市,父親是一名小學老師。他畢業于浙江大學,主修軟件工程,人工智能方向。有同事評價梁文鋒:完全不像一個老板,而更像一個極客。因為作為老板,他本人每天都在寫代碼、跑代碼,學習能力驚人。
從公開的工作經歷和職業生涯來看,梁文鋒從2008年開始致力于量化對沖領域的研究,2015年創立幻方量化,開始在量化投資領域嶄露頭角。
2016年,幻方量化首次上線運行AI策略。2023年7月,梁文鋒創立深度求索DeepSeek,專注于AI大模型的研究和開發,公司就在杭州。
早在2019年,幻方和它背后的資金,就開始大手筆投入深度學習訓練平臺,到了2021年幻方量化對超算集群系統的投入增加到10億元,并且搭載了超1萬張英偉達A100顯卡。
所以有人開玩笑,中國持有高性能GPU最多的機構不是人工智能公司,而是幻方。
梁文鋒曾在《西蒙斯傳》的序言中寫道,“和很多新技術一樣,量化投資剛出現的時候也是被嘲笑的對象,沒有人相信計算機可以像人類一樣進行投資。”
傳記的主角西蒙斯,是數學家、物理學家、密碼學家,創立了文藝復興科技公司,用技術讓投資業績遠超巴菲特等人,被譽為“量化投資之父”。
這么看梁文鋒的職業生涯多有致敬前輩的意思。
并不是誰燒錢多就理所應當的贏得一切
除了將AI用于投資,梁文鋒一直對AGI和人工智能浪潮有深入的思考。
他認為,無論是API還是AI,都應該是普惠的,人人可以用得起的。他強調技術應該服務于大眾,而不是僅僅為了商業利益。這種理念體現在DeepSeek的定價策略上,他們通過降低大模型的API價格,推動了整個行業的價格戰,使得更多人能夠負擔得起AI技術。
但和其他競爭對手不一樣,深度求索并沒有用“燒錢”的方式來競爭。“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”梁文鋒說。
OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾這樣評價深度求索DeepSeek:“雇傭了一批高深莫測的奇才”,還認為中國制造的大模型,“將和無人機、電動汽車一樣,成為不容忽視的力量。”
不過在一次采訪中,梁文鋒曾透露,DeepSeek并沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”
他曾在訪談中提到,過去30多年的IT浪潮,中國基本上沒有參與到真正的技術創新,扮演的是追隨者的角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者,而不是一直依賴別人的成果。”
現在,V3的橫空出世至少讓整個AI圈看到一種可能,即創業公司可以不必用比拼資源的方式和OpenAI競爭。雖然訓練大模型依然需要很多很多的顯卡集群,但并不是誰燒錢多就理所應當地贏得一切。
甚至有網友戲稱:“想快進到英偉達泡沫破裂的時刻。”
文|沈積慧 梁應杰
VIEW MORE
@一群浙大博士正在攻占各大直播間 >>
@36年教齡的語文老師用AI讓孩子變成作文高手>>
@藏在山里的機器人基地 >>
@全球打響“百鏡大戰”>>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.