“無人不識梁文鋒。”
這句話大概足以形容梁文鋒今天在AI圈的地位:媒體想盡辦法一訪難求、投資人用盡手段一面難約。
DeepSeek爆紅后,其研發團隊所在的北京融科資訊中心和杭州匯金國際大廈,一段時間內擠滿了媒體和投資人,甚至眾多慕名而來的網友,直接將北京融科資訊中心樓下的透明水牌,擠成了小紅書上的網紅打卡點。
這一切都是因為DeepSeek R1的發布。1月20日,DeepSeek正式發布性能比肩OpenAI o1完整版的R1推理模型后,直接帶動大模型行業的研究焦點,從之前的GPT模式,轉向了Reasoner模式。
梁文鋒和DeepSeek R1的到來,將新的AI時代切割成由兩大milestones(里程碑)節點分割而來的兩段不同時期:一個是ChatGPT的問世,一個是DeepSeek R1新模型的發布。身處不同節點之中的企業,在擁抱AI上也開始衍生出新的變化。
國內外一眾AI大廠都開始發力推理模型,國內科技大廠更是在DeepSeek效應之下紛紛加碼C端應用。
梁文鋒所一力主導的低成本大模型訓練策略,更是讓DeepSeek成了AI時代最大受益者英偉達的最大空頭:資本市場開始懷疑,當用相對較少的算力也能實現不輸于OpenAI的模型性能表現時,英偉達所代表的高端算力芯片是否會迎來新的泡沫。
上述擔憂曾在DeepSeek R1發布后一周的1月27日發酵至巔峰,導致英偉達股價一夜蒸發近6000億美元。
梁文鋒逼得英偉達創始人黃仁勛不得不在公開場合多次強調,DeepSeek并沒有降低算力需求,反而在進一步放大。
但黃仁勛的麻煩不止于此。梁文鋒的低成本大模型訓練方法,還意外帶火了H20芯片在國內的需求新高。
自2023年以來,H20芯片是英偉達可合法出口至中國的最強AI芯片。但在DeepSeek影響之下,4月份,美國對其實施新的出口管制許可,其被禁止賣入中國市場。英偉達官方在一份報告中披露,這項限制將造成高達55億美元的額外損失。
但好消息是,黃仁勛已經在加緊研制新一代的中國特供芯片。近期,據路透社報道,英偉達已通知其主要中國客戶,計劃在7月推出修改版H20芯片。
從模型、應用到芯片,梁文鋒攜DeepSeek之威,掀起了一場波及全產業鏈的震蕩。
2024年12月,梁文鋒在朋友圈轉發了一篇文章,內文是其為文藝復興科技公司創始人——“量化之王”詹姆斯·西蒙斯的傳記《征服市場的人:西蒙斯傳》一書所做的序言,其中有句話寫道,“西蒙斯是幸運的,他遇到了好的時代。”
梁文鋒無疑同樣是幸運的,他遇到了能令自己大放異彩的AI時代。如今,隨著R2模型發布越來越近,全行業都在期待梁文鋒帶來的新驚喜。
憑借R1發布爆火之前,梁文鋒其實引發過兩次行業熱議。
2023年4月,千億量化私募巨頭幻方量化發布公告,稱將集中資源和力量,投身人工智能技術,成立新的獨立研究組織,探索AGI(通用人工智能)。
一個月后的2023年5月,該組織被命名為“深度求索”,并發布了首款模型DeepSeek V1。當時,《財經十一人》報道稱,國內擁有超過1萬枚GPU的企業不超過5家。而DeepSeek就是其中之一,并由此開始得到外界關注。
及至2024年5月,DeepSeek再次借助大模型價格戰一躍成名。當時,DeepSeek發布了DeepSeek V2開源模型,并在行業內率先降價,將推理成本降到每百萬token僅1塊錢,約等于GPT-4 Turbo的七十分之一。
隨后,字節、騰訊、百度、阿里等大廠紛紛降價跟進。中國大模型價格戰由此揭幕。
只不過,當時暫未推出C端應用的梁文鋒,其聲量更多局限在大模型行業圈層,外界的更多目光被吸引到了科技大廠身上。
爆火之前,梁文鋒也曾渴望得到投資機構的青睞,但在找不同出資方洽談后,很多VC在退出需求下,因看不到商業化前景,而放棄了投資梁文鋒的可能性。
但隨著DeepSeek爆火,梁文鋒成了一眾投資機構的座上賓,還是請不到的那種。
就連一直宣稱不投資大模型的朱嘯虎,都在感受完DeepSeek新模型后,希望能夠參與其中。
值得一提的是,DeepSeek的爆火,并未改變梁文鋒一貫的低調作風。
成立DeepSeek之前,作為幻方量化創始人,由于梁文鋒一直隱身幕后,外界在很長一段時間內都以為公司核心高管只包括另外兩位聯合創始人。
即便因DeepSeek一夜成名,梁文鋒依然繼續保持著每天看論文、寫代碼、參與小組討論的習慣,且至今DeepSeek都暫未設立公關團隊,對外發聲主要通過在相關社交媒體上設立的官方賬號,以及上百個DeepSeek微信交流群。
自1月20日DeepSeek R1發布至今,梁文鋒唯二的公開露面,一次是上了新聞聯播,一次是參加民營企業家座談會。
盡管甚少露面,但通過國內外科技大佬之口,梁文鋒一直活躍在大眾視野。
只不過,不同于硅谷如馬斯克、奧特曼等人對DeepSeek和梁文鋒的質疑之聲,國內科技大佬幾乎清一色展現出了對DeepSeek的擁抱,和對梁文鋒的贊賞。
靠接入DeepSeek攫取到最大紅利之一的馬化騰,在談到梁文鋒時稱“很敬佩市場上出現獨立、開源的產品,我們非常尊重。”
去年12月宣布追逐AGI的李想,在時隔130天后,再次對外談及AI,不僅認為DeepSeek加速了理想在大模型上的研發效率,而且總結了自己對梁文鋒的兩個印象,“第一他是個特別自律的人,第二他是會在全世界范圍之內去研究和學習最佳實踐和最好的方法論的人。”
當然,被梁文鋒改變的科技大佬名單還有很長,包括張一鳴、李彥宏、蔡崇信……
被聚光燈環繞的梁文鋒,卻選擇了一系列反常識的操作。
盡管受到萬千矚目,但梁文鋒既沒有利用投資人的熱情,瘋狂融資擴張資源,也沒有借機做大C端用戶規模。
在各路投資人看來,上述場景原本應該是擺在梁文鋒面前的一手好牌。
對于想要參與投資DeepSeek的朱嘯虎來說,梁文鋒的安卓開源夢想,再往前走是需要燒錢的。
更現實的考量上,無論是未來在模型路線上繼續scale up,還是承接B端和C端暴漲的客戶需求和流量,在外界看來,梁文鋒都需要用更多的錢來構建更充裕的算力資源。
2月份,甚至外界一度傳出阿里將以100億美元估值,投資DeepSeek 10億美元占股10%的消息,但被阿里予以否認。
不過,據投中網消息,彼時DeepSeek確實在與部分投資人接觸,希望以80億美元估值尋求融資,當時國內AI六小龍中估值最高的也不超過40億美元。
但事實是,爆火100天內,DeepSeek官方API一度因調用需求過高而暫停充值服務,APP也幾度因服務繁忙而頻頻卡頓,但梁文鋒除了帶隊優化服務體驗外,并沒有明顯的算力擴建跡象,也絲毫未展現出對用戶規模效應的追逐。融資一事被暫時擱置了。
這也使得DeepSeek成了中國大模型創業公司中,唯一一家只做基礎模型、暫不考慮商業化的公司,還要加上一條,即暫未尋求外部融資的公司。
與在融資上的猶疑相反,梁文鋒則繼續堅持踐行開源。2月底,梁文鋒帶領DeepSeek用一場開源周行動,通過開源FlashMLA、DeepEP通信庫、DeepGEMM等多個代碼庫,向外界證明了DeepSeek小力出奇跡的原因所在,并首度對外揭秘了一系列針對英偉達H卡的算力優化方案。
同時,梁文鋒繼續沿著擬定好的節奏,追趕AGI腳步。
在內部規劃中,梁文鋒曾表示,團隊押注了三個方向:一是數學和代碼,二是多模態,三是自然語言本身。圍繞這三條路,梁文鋒在過去100天內動作頻頻。
2月18日,DeepSeek發布了最新的技術論文,以挑戰Transformer架構最核心的注意力機制,讓它能更高效地處理更長的上下文。
尤其值得一提的是,梁文鋒的名字,也出現在了上述論文的共同作者里。文中,DeepSeek提出的新架構NSA(原生稀疏注意力)在基準測試中,與全注意力機制相比,準確率相同或更高。
除了帶領團隊創新算法,梁文鋒還推動著公司在模型更新上的節奏。
語言模型上,3月25日,DeepSeek V3模型完成小版本升級,上線新版本DeepSeek-V3-0324,官方稱其大幅提高了在推理類任務上的表現水平,中文寫作和中文搜索能力也都得到了優化。
一個月后,數學和代碼新模型DeepSeek-Prover-V2也來了。以DeepSeek-V3作為基礎模型微調而來的Prover-V2,其參數規模擴展到了671B,相較于前一代V1.5版本的7B,參數規模增加了近百倍,這讓其在數學測試集上的效率和正確率都變得更高。
盡管梁文鋒還能保持自己的節奏推進模型更新,但外界的AI發展步伐已經被DeepSeek重構了。
在梁文鋒驗證成功低成本大模型訓練方法后,AI行業開始分裂出兩條進化路線:一是繼續堅持Scaling Law,奉行大力出奇跡,堆高算力資源,訓練更強大的基礎大模型;二是追隨梁文鋒,以性價比思路開道,用更少資源訓練更強大的專用模型。
圍繞兩條不一樣的大模型進化路線,中美在AI發展策略上的分歧進一步擴大:硅谷AI創企繼續追求Scaling Law,融資額屢創新高,前有OpenAI宣布完成歷史性的400億美元新融資,后有傳聞中正在尋求200億美元新融資的馬斯克的xAI。
反觀被冠以“AI六小龍”稱號的國內AI創企,除了智譜拿下一些國資投資外,其他五家則罕有融資消息傳出。
典型如零一萬物,1月初,零一萬物創始人李開復對外正式表態,自己將退出對AGI的追尋,未來公司主攻中小參數的行業模型。“從商業角度考慮,我們認為只有大公司能繼續做超大模型。”李開復說道。
DeepSeek爆火后,李開復更是將公司直接定位為一家開發AI應用的公司。
“AI六小虎”其他玩家也不同程度受到沖擊:月之暗面暫停大規模廣告投放,戰略重心轉向底層模型優化;MiniMax 和階躍星辰目前都在探索Agent 相關的新應用;百川智能業務重心轉向醫療;智譜AI重點布局政務、金融等市場。
國內科技大廠也不再對外講述大力出奇跡的的AI敘事,而是紛紛跟梁文鋒拼起了性價比。李彥宏更是在4月份的一場演講中,點名DeepSeek慢且貴。
但DeepSeek紅利之下,科技大廠又是結結實實享受到了一波紅利。最大受益者騰訊,更是憑借率先接入DeepSeek的舉動,助推旗下騰訊元寶一度超越豆包,成為國內AI助手下載量第一。
擁抱梁文鋒之外,科技大廠的更大野心則在于超越梁文鋒。直觀表現之一是,在接入DeepSeek之外,科技大廠都紛紛加碼了模型自研的決心。
從OpenAI到DeepSeek,這些驚艷業界的AI大模型公司,之所以能創新不斷,更重要的是依靠了一幫才華橫溢的年輕人。
作為DeepSeek創始人的梁文鋒,更是將人才組織,視為自家在AGI大戰中的護城河,不是閉源,更不是招募行業頂尖牛人。年輕人身上所具備的對創新的自信信念,成為梁文鋒對這一群體青睞有加的重點所在。
現在,包括字節、騰訊、阿里、美團和京東在內的科技大廠,也想將年輕人身上的這種創新信念,汲取到自家公司身上,并由此開啟了各自的“天才少年”招募計劃。
但在科技大廠追趕梁文鋒之前,全行業正在等待梁文鋒帶著自己的天才少年,發布新的R2模型。
參考資料:
《理想AI Talk第二季訪談實錄》理想汽車
《DeepSeek-V3 模型更新,各項能力全面進階》DeepSeek
《我所見過的梁文鋒》聰明投資者
《跟DeepSeek做起鄰居》投資界
《朱嘯虎現實主義故事1周年連載:“DeepSeek快讓我相信AGI了”》騰訊科技
《“我勸過梁文鋒很多次,DeepSeek要融資”》投中網
《瘋狂的幻方:一家隱形AI巨頭的大模型之路》36氪
PS.
加入見實會員(點擊下方按鈕),參與前往各大品牌的私域游學和私享會,及獲取私域大會PPT和直播回放、在線課程、40+主題白皮書等一手資料。
↘私域服務對接
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.