網易首頁 > 網易號 > 正文申請入駐

又是來自浙大，“大模型屆的拼多多”要刺破英偉達泡沫？

2024-12-27 18:27:43　來源: 九千光年

浙江舉報

分享至

一個來自中國的開源模型，讓整個AI圈再次驚呼“來自東方的神秘力量”。

昨天，國內知名大模型創業公司“深度求索”通過官方公眾號宣布上線并同步開源 DeepSeek-V3模型，并公布了長達53頁的訓練和技術細節。

和許多報告語焉不詳相比，這份報告做到了真正的開源。不僅透露得到大幅升級的V3模型是在一個“難以想象”的預算下訓練完成的：整個訓練僅花費了557.6萬美元，在2048xH800集群上運行55天完成，還很坦誠地公布了技術細節。

真正的花小錢辦大事

這筆費用是什么概念呢？Anthropic CEO Dario Amodei曾透露，GPT-4o這樣的模型訓練成本約為1億美元。

換句話說，與 Llma、GPT 或 Claude 這些全球知名大模型相比，DeepSeek-V3的這個成本幾乎可以忽略不計。

成本低不代表效果差，DeepSeek羅列了若干個指標：

百科知識：DeepSeek-V3在知識類任務上的水平相比前代 DeepSeek-V2.5顯著提升，接近當前表現最好的模型 Claude-3.5-Sonnet-1022。

長文本：在長文本測評中，DROP、FRAMES和 LongBench v2上，DeepSeek-V3平均表現超越其他模型。

代碼：DeepSeek-V3在算法類代碼場景（Codeforces），遠遠領先于市面上已有的全部非o1類模型；并在工程類代碼場景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。

數學：在美國數學競賽（AIME 2024, MATH）上，DeepSeek-V3得分為90.2%，而Claude-3.5-Sonnet為 78.3%，GPT-4o為 74.6%。

中文能力：DeepSeek-V3與Qwen2.5-72B在教育類測評C-Eval和代詞消歧等評測集上表現相近，但在事實知識 C-SimpleQA上更為領先。

簡單說，從技術報告公布的性能指標上來看，這個開源MoE模型，已經在性能上對齊甚至在一些方面顯著超越了海外領軍的閉源模型。

對此，OpenAI創始成員Karpathy點評：DeepSeek-V3讓在有限算力預算上進行模型預訓練這件事變得容易。它看起來比Llama 3 405B更強，訓練消耗的算力卻僅為后者的1/11。

Meta科學家田淵棟感慨：這是非常偉大的工作。

創始人畢業于浙大，曾是量化基金大佬

說起國產大模型，很多人聽說過“五虎”和“四小龍”，但很少有人聽說過深度求索DeepSeek。因為他們是唯一一家沒有做2C應用的公司，選擇了開源路線，至今沒有融過資。

這也不是深度求索第一次展現神奇的力量。在硅谷，深度求索DeepSeek很早被稱作“來自東方的神秘力量”。

今年5月，深度求索DeepSeek發布發DeepSeekV2，因為創新的模型架構和史無前例的性價比，火爆出圈：推理成本被降到每百萬token僅 1塊錢，約等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，因此深度求索DeepSeek被稱為“大模型界的拼多多”，從而引發了字節、阿里、百度等大廠的大模型價格大戰，不約而同地調整價格。

DeepSeek提出的MLA（多頭潛在注意力機制）架構和DeepSeekMoESparse結構，大幅降低了模型的計算量和顯存占用，從而降低了推理成本。

在轟炸AI圈之前，深度求索DeepSeek背后的操盤手梁文鋒是金融江湖成名已久的高手。他成立的幻方量化，是國內量化私募“四巨頭”之一。

低調的梁文鋒個80后，出生在廣東的一個五線城市，父親是一名小學老師。他畢業于浙江大學，主修軟件工程，人工智能方向。有同事評價梁文鋒：完全不像一個老板，而更像一個極客。因為作為老板，他本人每天都在寫代碼、跑代碼，學習能力驚人。

從公開的工作經歷和職業生涯來看，梁文鋒從2008年開始致力于量化對沖領域的研究，2015年創立幻方量化，開始在量化投資領域嶄露頭角。

2016年，幻方量化首次上線運行AI策略。2023年7月，梁文鋒創立深度求索DeepSeek，專注于AI大模型的研究和開發，公司就在杭州。

早在2019年，幻方和它背后的資金，就開始大手筆投入深度學習訓練平臺，到了2021年幻方量化對超算集群系統的投入增加到10億元，并且搭載了超1萬張英偉達A100顯卡。

所以有人開玩笑，中國持有高性能GPU最多的機構不是人工智能公司，而是幻方。

梁文鋒曾在《西蒙斯傳》的序言中寫道，“和很多新技術一樣，量化投資剛出現的時候也是被嘲笑的對象，沒有人相信計算機可以像人類一樣進行投資。”

傳記的主角西蒙斯，是數學家、物理學家、密碼學家，創立了文藝復興科技公司，用技術讓投資業績遠超巴菲特等人，被譽為“量化投資之父”。

這么看梁文鋒的職業生涯多有致敬前輩的意思。

并不是誰燒錢多就理所應當的贏得一切

除了將AI用于投資，梁文鋒一直對AGI和人工智能浪潮有深入的思考。

他認為，無論是API還是AI，都應該是普惠的，人人可以用得起的。他強調技術應該服務于大眾，而不是僅僅為了商業利益。這種理念體現在DeepSeek的定價策略上，他們通過降低大模型的API價格，推動了整個行業的價格戰，使得更多人能夠負擔得起AI技術。

但和其他競爭對手不一樣，深度求索并沒有用“燒錢”的方式來競爭。“我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”梁文鋒說。

OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾這樣評價深度求索DeepSeek：“雇傭了一批高深莫測的奇才”，還認為中國制造的大模型，“將和無人機、電動汽車一樣，成為不容忽視的力量。”

不過在一次采訪中，梁文鋒曾透露，DeepSeek并沒有什么高深莫測的奇才，都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人。

“V2模型沒有海外回來的人，都是本土的。前50名頂尖人才可能不在中國，但也許我們能自己打造這樣的人。”

他曾在訪談中提到，過去30多年的IT浪潮，中國基本上沒有參與到真正的技術創新，扮演的是追隨者的角色，“隨著經濟的發展，中國也應該逐步成為技術創新的主要貢獻者，而不是一直依賴別人的成果。”

現在，V3的橫空出世至少讓整個AI圈看到一種可能，即創業公司可以不必用比拼資源的方式和OpenAI競爭。雖然訓練大模型依然需要很多很多的顯卡集群，但并不是誰燒錢多就理所應當地贏得一切。

甚至有網友戲稱：“想快進到英偉達泡沫破裂的時刻。”

文|沈積慧梁應杰

VIEW MORE

@一群浙大博士正在攻占各大直播間 >>

@36年教齡的語文老師用AI讓孩子變成作文高手>>

@藏在山里的機器人基地 >>

@全球打響“百鏡大戰”>>

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.