梁文鋒把價值沉淀在團隊建設上,用團隊的創新能力與行業拉開差距,以此來形成護城河。
作者|二毛
編輯|原野
“相信組織的力量”,很多時候,這是一句懸浮的話,因為你很難從這句話里得到一個有效的信息。但這卻是梁文鋒將DeepSeek全部開源的原因之一。
迪士尼曾出品過一部動畫電影《超能陸戰隊》,捧紅了IP大白。但細究內容,大白也只是主角們創造出的“工具人”,電影更深層次的表達在于,這是一場關于“組織的勝利”——在男主Hiro的帶領下,他與他的團隊戰勝了強大的對手。
這部電影上映于2014年,但若是在今年及以后重映,至少在中國市場,人們可能會為Hiro找到一個新的原型:梁文鋒。在DeepSeek的故事里,他和團隊才是一切變局的奇點。
就像Hiro的勝利,不是因為大白,更多是因為Hiro自己,與他的朋友們。
01 “Nerd”
兩個人物起家的方式都有些冒險:Hiro靠賭博,梁文鋒靠炒股。在人們的調侃中,這兩個詞經常被放在一起,區別只在于是否違法。
不過對于這兩個人而言,冒險是不存在的,因為確定值足夠高。
少年天才Hiro因為對學校教授的知識感到無聊,高中輟學后就混跡街頭,靠自研的機器人打比賽為生。
他的機器人應用的是磁力伺服器技術,靈活性十足,自誕生以來就從無敗績,因此,他總是能在各種比賽中橫掃千軍,贏得賭資。
對那些循規蹈矩的科學創作者們,他帶著深深的鄙夷,稱呼他們為“nerd(書呆子)”,至于做學術研究的科研工作室,自然就是“nerd school”。
很遺憾,梁文鋒就是這樣的“nerd”,他甚至還主動組織了一個“nerd school”。
只不過即使成為一個nerd,在當時看來也是一個略顯 “叛逆”的選擇。
那是2010年,BAT格局已成,大廠程序員成為逆天改命的新范本,然而,拿到電子信息工程碩士學位的梁文峰,選擇鉆進成都一處出租屋,幾經嘗試,切入“足夠復雜”的金融賽道,拿著8萬塊錢的本金,做起了量化投資。
所謂量化投資,簡單來說就是通過計算機及其設定的算法程序來代替人做出投資決定。行業先驅詹姆斯·西蒙斯曾花15年的時間來完善模型,最終實現了“就算是睡覺也可以賺錢”的目標。
在中國,這是一個適合“nerd”的行業,一家知名量化私募甚至直接把“nerd”寫成企業文化信條之一。
具化到人的表現中,就是“不會寒暄,講話離你三米遠”。在后來見過梁文鋒的人的敘述中,梁文鋒的表現基本符合人們對于量化投資人的這一刻板印象。
好在,足夠的成功,能很大程度改變一個詞語的負面屬性。當業內人士開始知道梁文鋒的名字時,他已經是管理了上百億基金規模的幻方量化創始人了。最高峰時,幻方量化管理著接近千億元的資金規模。——當然,在DeepSeek爆火之后,這些成績的意義就變得更像是前菜了。
圖源:幻方量化官網
Hiro與梁文鋒的另一處相似點在于:因偶像而確定人生方向。
在《超能陸戰隊》中,Hiro被哥哥設計“騙”到機器人實驗室,認識了一群同他一樣的科技發燒友,以及卡拉漢教授——Hiro視他為偶像,于是立志要加入這個“nerd school”,從此結束混跡街頭的生活。
梁文鋒的偶像是西蒙斯,他曾經希望有朝一日,自己可以成為與西蒙斯相媲美的人。
海外量化投資有在掙錢后投入基礎科學研究的傳統,西蒙斯原本是一名數學家,通過量化投資賺錢后,資助了很多純理論科學研究。
熱愛數學建模和編程的梁文鋒,循著這條路做了大量研究:什么樣的范式可以完整地描述整個金融市場,有沒有更簡潔的表達方式,不同范式能力邊界在哪,這些范式是不是有更廣泛適用……在這個過程中,AI能力邊界成為他最好奇的事情,通用人工智能的難度與前景,讓他燃起了新的戰斗力。
此時的他也擁有了足夠的財富。原本幻方每年都設有幾個億的公益捐款預算,在找到想要攻破的領域后,這筆預算換了方向。
從2019年開始,幻方購入英偉達芯片,到2021年時,它手頭的芯片已經超過萬張——這筆儲備在美國進行芯片出口管制后,變得更具含金量。
另一個層面的財富,是由很多像梁文鋒一樣對AI充滿好奇的年輕人組成的團隊。
圖:論文鳴謝人員名單截圖,圖源DeepSeek-R1論文
人工智能的競爭遵循著“人才第一,數據第二,算力第三”的規律,這三個關鍵因素里,梁文鋒已經集齊了兩個,理論上已經可以召喚神龍了——
DeepSeek便誕生了。
02 護城河
一個行業共識是:AI技術本身只是階段性的,是可以追趕的,更關鍵的壁壘,是團隊創新能力。
“大模型技術本身不是壁壘,核心競爭力還是組織形式和具有創新能力的團隊。”面壁智能首席科學家劉知遠和硅基流動的創始人袁進輝曾表達過這樣的觀點。
階躍星辰創始人姜大昕對媒體說:只要OpenAI放出來一個東西,我們的策略就是6個月內趕上它。
梁文鋒也認為技術本身沒有秘密,只是重置需要時間和成本。所以,他把價值沉淀在團隊建設上,用團隊的創新能力與行業拉開差距,以此來形成護城河。
而打造創新團隊,無外乎兩個指標:人和組織。
DeepSeek有一支被獵頭們視為“全員精銳”的隊伍。Anthropic聯合創始人Jack Clark稱他們為 “高深莫測的奇才”。不過這個說法被梁文鋒駁回:沒有什么高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
圖:英偉達高級研究科學家、潘梓正實習期間的導師Zhiding Yu在X平臺上回憶與潘梓正的交集
有一點可以明確,“經驗”在梁文鋒這里是失效的。這在大模型公司里實屬罕見。
馬斯克去年曾在X上感嘆:人工智能領域的人才大戰是他見過的最瘋狂的人才戰爭。
細究巨頭們搶奪的對象,幾乎都是對方陣營里“資深”的工程師和專家。
國內大模型公司的人員流轉,光環也隸屬于履歷漂亮的程序員。原零一萬物的模型訓練負責人黃文灝博士曾將“從海外吸引包括谷歌、微軟在內的高水平算法人才回國加入我們”作為公司的背景背書;
同梯隊的月之暗面,在招聘時也希望應聘人員擁有“國際國內科技大廠履歷和成功的產品經驗”,即“既做過0-1,也做過1-1億”。
DeepSeek顯得有些離經叛道。
一位獵頭曾向媒體透露:DeepSeek不要資深的技術人員,工作經驗在3-5年已經是最多的了,超8年的基本就pass了。
“做一件事,有經驗的人會不假思索告訴你,應該這樣做,但沒有經驗的人,會反復摸索,然后找到一個符合當前實際情況的解決辦法。”梁文鋒拿自己舉例:“我一開始也沒有量化的經驗。”
沒有經驗,評判優秀與否的標準除了院校外,便是學術成績。
DeepSeek對員工的要求之高,在社交平臺上的一個帖子或許可以作為參考:除非你是一個年輕且潛力巨大的“技術英雄”,否則就別考慮了。
香港《南華早報》曾報道,DeepSeek-R1的參與者戴黛玫,是北京大學計算語言學研究所博士,并在 EMNLP 2023 獲得最佳長論文獎;
DeepSeekMath模型核心作者之一的朱啟豪,是北京大學計算機科學學院的博士,他在 DeepSeek 期間領導了 DeepSeek-Coder-V1 的開發,并在頂級會議上發表了 16 篇 CCF-A 級論文;
而大眾已經熟悉的“AI天才少女”羅福莉,在北大讀碩士期間,就于2019年在人工智能領域頂級國際會議ACL上發表了8篇論文。
這與《超能陸戰隊》里的劇情設定也高度相似。
Hiro在帶領團隊跟反派作戰之前,團隊成員已經在各自領域里取得了傲人成績:Gogo的電磁懸浮自行車可以實現零阻力騎行,wasabi的激光誘導等離子光束可以切碎萬物,honey lemon能利用化學試劑在金屬上制造出神奇混合物……
在DeepSeek,這群多少具備些nerd氣質的年輕人,擁有了比在大廠更多的可能性:DeepSeekMath模型團隊的三名核心作者是在博士實習期間完成了相關的研究工作;V2模型中創新的MLA架構的提出者,彼時還是一名實習生。
這大概也是科技公司實習生的天花板了。
優秀有潛力的年輕人在大模型公司不算是稀有物種,但能在實習階段發揮舉足輕重作用,并主導項目開發,就要更多依賴公司組織文化了。
以MLA架構的提出者為例:這名年輕的研究員在總結出Attention架構的一些主流變遷規律后,突發奇想設計了一個替代方案。探索過程中,他遇到問題就自己拉人討論。當這個想法顯示出潛力,公司便調配資源,給予支持。
一個幻方早期內部采訪視頻在DeepSeek爆火后被網友翻出來。一名量化策略研究員說:
“幻方有一個非常靈活而扁平的團隊框架,鼓勵內部不同小組成員之間自由交流與合作,去最大化我們整體的創新能力。也不采用KPI、OKR等考核方式,每個人可以根據自己的能力和興趣,選擇自己研究的方向,即使是剛畢業的新人,也有機會去主導和探索一個全新的領域,并且團隊成員會給與足夠的資源支持。”
顯然,這樣的企業文化被平移到了DeepSeek。
在與自媒體《暗涌waves》記者于麗麗的對談中,梁文鋒透露:DeepSeek對于卡和人的調動是非常靈活的,不存在層級和跨部門,也無需審批。他本人更是保持著每天“看論文,寫代碼,參與小組討論”。
這也像Hiro組隊后做的事情:將天賦異稟的朋友們集結,用自己天才的編程技能提供支持,讓每個成員在擅長領域變得更強,以提升整個團隊的戰斗力。
這種“小作坊式”的組織模式,幾乎是大廠的對立面:輕盈、快捷、高效。當DeepSeek打破國內AI局面的膠著,迅速成為“基建”式的角色,大廠在輿論場中進一步祛魅了。——某種程度上,這也像是年輕人對功成名就者的勝利。
03 一切為了AI
關于DeepSeek融資的消息最近在市場頻頻傳出,但均被DeepSeek一一否定。事實上,在公司正式成立以前,梁文鋒曾與不同的出資方進行過洽談。只不過對于商業化,雙方始終存在分歧,并未達成。
梁文鋒是技術理想主義者,在他的計劃中,研究和揭秘AGI 是DeepSeek的終極目的,商業化并沒有值得關注。這顯然與需要投資回報率的VC們背道而馳,但你也無法去指責他們的短視——
中國的大模型公司往往都選擇做應用創新而不是技術創新,去科技的最前沿探索就意味著沒有路徑可依,要經歷很多失敗,時間、經濟成本都耗費巨大。本質上,這與西蒙斯無償捐款給純理論科學研究沒什么區別。
而DeepSeek的員工大部分都是他這樣的。一名DeepSeek的AI架構師曾表示:“我寧可為了1%的性能突破殫精竭慮一個月,也不要面向谷歌編程,寫一些沒有挑戰的代碼。”
在他看來,做程序員最大的快樂,就是跟一群天才死磕一個難題。
還有一名AI應用工程師表示,自己的價值感收獲瞬間,是發現團隊針對模型訓練降速提出的解決方案被英偉達官方收錄,并作為案例提供給其他開發者,他意識到,“我們已經是全球技術前沿的團隊了”。
DeepSeek堅持開源的眾多原因之一,是梁文鋒認為:對于技術人員來說,被follow是很有成就感的事。它與商業無關,而是“一種額外的榮譽”。
頂級人才的吸引力法則之一,就是去解決世界上最難的問題。很大程度上,梁文鋒與他的團隊都是同類人。更幸運的是,在梁文鋒決定死磕AGI前,手中已有充足資金,這是團隊能夠專注研究的重要前提。
你很難要求一位食不飽腹的乞討者,去立下改變人類的宏愿,并付諸行動。
這或許也是技術之外,梁文鋒與DeepSeek會被同行艷羨的地方。
他可以按照自己的意愿行事。
“據我所知,他們連正兒八經的產品經理都沒有,更別說市場營銷公關這類的職能支持”,一名自我介紹為AI初創合伙人在社交平臺上透露。這是梁文鋒對西蒙斯的再一次致敬:
“只雇傭沒有金融背景、與華爾街沒有關系的數學家、物理學家和計算機科學家。”
與梁文鋒同為“天才少年”的楊植麟(月之暗面創始人),或許就不能這樣“任性”。技術研究之外,他必須考慮商業化,因為他身后還有投資人,這種“打工人的無奈”,多少會分散他的專注力。
他必須更加謹慎。比如,更傾向于雇傭有過成功項目經驗的技術人員,這種策略能減少出錯的概率。畢竟錢不是自己的。
當然,梁文鋒的處境也不算高枕無憂。
首先就是幻方量化的資金規模在下降。據幻方的工作人員表示,目前公司的基金規模有200多億元(南財快訊記者報道),距離高峰縮水嚴重,梁文鋒的“為愛發電”面臨著現實危機。
而一旦接受融資,DeepSeek “探索與研究”的初心,就很可能面臨動搖的風險。
另一方面,DeepSeek雖強,友商也不弱,它的技術領先優勢未必能長久保持。比如Kimi K1.5,在OpenAI的o系列論文中,這個模型是與DeepSeek-R1并列出現的。
最近,梁文鋒剛剛提交了一份關于NSA(Natively Sparse Attention,原生稀疏注意力)的技術論文。
圖源:NSA論文
巧合的是,就在同一天,楊植麟也提交了一份技術論文MoBA。兩份論文回答的是同一個問題:如何讓transformer架構的注意力機制,通過自研的架構處理更長的文本。未來,這兩位被視為中國大模型最有希望的兩個年輕人注定會展開更多的角逐。
來自大廠的壓力也不容小覷。
梁文鋒此前曾認為大廠的組織架構會阻礙創新,但據《晚點latepost》報道,無論是在找人以及調整組織方面,字節都表現出了“創業公司”的速度與反應:
首先就是張一鳴親自下場,他研究AI技術論文,從2023年開始他就開始一對一拜訪重要作者,包括未畢業的博士生。
去年,字節挖來了Google 原 VideoPoet 項目負責人蔣路、零一萬物黃文灝,和阿里通義大模型原技術負責人周暢。據相關人士稱,字節給到的條件,讓原公司都不好挽留。
其次在組織上,字節整合內部力量,快速完善 AI 新部門——Flow。如今,Flow 現在已是和抖音、火山、飛書等平級的主要業務部門,如果 Flow 特別想調哪個人,原部門一般會同意。這與DeepSeek的“不存在跨部門”的組織,有異曲同工之效。
簡而言之,一切為了AI。
此外,無論是資金還是資源,大廠都具備足夠的優勢。無論是梁文鋒還是楊植麟,都必須打起精神來應對接下來的競爭。
若將目光放眼于全球,DeepSeek要走的路顯然更遠,盡管它已足夠優秀,但這次它給世界帶來震撼的最大原因在于:同等推理效果下的價格優勢。技術領域里,open AI與美國的科技巨頭仍掌握著行業優勢,且沒有算力限制。
DeepSeek仍要負重前行。
然而,盡管外界討論得熱火朝天,DeepSeek和梁文鋒仍在按照自己的節奏繼續前進。
截至2月8日,DeepSeek國內APP端日均活躍用戶數達到3494萬;海外APP端DAU達到3685萬,全球Web端日活直擊4800萬,全球日活用戶總量達到1.19億。但DeepSeek沒有做任何投放,而是就像當初梁文鋒所說的那樣,讓其它公司在DeepSeek 的基礎上構建toB、toC的業務。
于麗麗曾問梁文鋒:你們會選擇閉源嗎?梁文鋒的回答沒有給未來留空間:不會。
比起商業化,他認為一個強大的技術生態更重要。他希望實現AI普惠,而不是技術壟斷。當然,他也足夠自信,相信團隊創新速度,會成為開源模式中的護城河。
于麗麗在后來的文章中說,這是一個少有的把“是非觀”置于“利害觀”之前,并提醒人們看到時代慣性,把“原創式創新”提上日程的人。
梁文鋒也從不橫向比較,“我經常思考的是,一個東西能不能讓社會的運行效率變高,以及你能否在它的產業分工鏈條上找到擅長的位置。”
他還在繼續迭代。整個AI行業也是。
這樣的熱鬧開場,讓2025年的春天似乎更近了。
頭圖來源|AI制圖
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.