1957年10月4日,蘇聯成功發射了全世界第一顆人造衛星“史普尼克1號”,讓美國乃至整個西方世界陷入了極度恐慌。在此之前,美國一直自我感覺良好,認為自己在核彈、導彈和航天領域遙遙領先,沒想到卻被狠狠打臉。這個時刻也被歷史銘記,命名為“史普尼克時刻”(Sputnik moment)。
2024年12月至1月,一家中國創業公司深度求索(DeepSeek)連發3款大模型,讓AI領域遙遙領先的美國科技界大受震撼,并引發了英偉達等美國科技股的暴跌,這也被美國投資家馬克?安德森(Marc Andreessen)稱為另一個“史普尼克時刻”(Sputnik moment)。要知道,馬克?安德森可是互聯網的一代宗師,曾經參與開發了全球第一個通用瀏覽器Mosaic,創立了著名的網景(Netscape)公司。
關于DeepSeek在大模型產品上的創新,行業內的報道已經非常之多,老冀在此也就不再贅述。作為一名做了二十多年科技報道的觀察者,從DeepSeek暴擊美國AI這件事,老冀看到了國內科技行業一個非常明顯的趨勢,那就是“硬科技時代”已經到來。
什么是“硬科技”?老冀查了一下,其實官方已經有了明確的定義,那就是:“基于科學發現和技術發明之上,經過長期研究積累形成的,具有較高技術門檻和明確的應用場景,能代表世界科技發展最先進水平、引領新一輪科技革命和產業變革,對經濟社會發展具有重大支撐作用的關鍵核心技術。”
老冀這里所說的“硬科技時代”中,“硬科技”確實是其中的一個關鍵要素,但并不是全部。在這個時代中,“硬科技”還與其他同樣重要的要素結合在一起,構成了科技行業的新生態和新特征。
具體來說,“硬科技時代”主要有這么“五硬”:
一、硬科技主導
如果了解中國科技行業40多年的發展歷史,你就會知道:硬科技一直都不是主導。
國內最早崛起的一批科技公司,起家是靠給跨國公司做代理,更注重銷售和渠道。老冀曾經采訪過其中代表企業的高管,你問他怎么搞技術創新,他跟你談怎么搞管理變革,總之很無語。
此后起來的一波科技公司開始搞研發,但也僅限于做跟隨型的產品開發。國外出了創新的產品,咱們把它做得更便宜一些。
到了互聯網時代,一開始是資本為王,很多創業公司都是to VC,跟著資本的指揮棒打轉。后來產品越來越重要,產品經理大行其道,還是產品指揮技術。
當然,老冀在這里并不是否定中國科技行業的過去,畢竟大家都是時代的企業,在技術落后如此之多的那個年代,你讓他們花錢去搞研發,尤其是去搞研究,那是不切實際的幻想。
直到AI興起這幾年,你會發現無論是科技大廠還是創業公司,關注的重點都發生了很大的變化——大家不約而同搞起了研究院,雇了很多研究型人才,搞起了研究。如今,很多創業公司的創始人,本身就是搞了多年研究的科學家。
像DeepSeek這樣的公司,搞起“硬科技”已經是得心應手了,人家公司的本名就是“杭州深度求索人工智能基礎技術研究有限公司”。DeepSeek的團隊先從研究論文開始,一邊寫論文發論文搞研究,一邊攢GPU卡寫代碼搞開發。
其實,像DeepSeek這樣的“硬科技”創業公司,也不是今天才出現的。早在2014年,那一波搞計算機視覺、以商湯為代表的“AI四小龍”就是這么干了。正是因為他們的共同努力,硬科技才會在國內蔚然成風,成為如今科技創業的主流。而如今的風險投資,也紛紛去追逐這些硬科技公司,而不是搞個APP、做點流量分發的“軟實力”公司了。
二、硬軟通吃
如今,美國市值最高的科技公司是英偉達和蘋果,他們雖然賣的是硬件,卻把軟件與硬件緊密地結合在一起,像英偉達的CUDA平臺與GPU卡的捆綁,蘋果各種智能終端與操作系統、應用生態的完美融合。如今這個時代,只有做到硬軟通吃,才能雄霸天下。
之前國內最風光的科技公司,還是以互聯網服務為體現的“軟”公司,如BAT。不過,最近幾年興起的科技公司,往往都將硬件作為主攻方向,如造車的“蔚小理”,還有地平線等芯片公司。當然,他們的軟件能力也很強,把大模型搬上車也是毫不含糊。
而像DeepSeek這樣的軟件公司,已經具備了很強的硬件能力。
老冀研究了一下DeepSeek發表的《DeepSeek-V3技術報告》,發現他們花了很多精力在硬件優化方面,比如創新的負載平衡策略、創新的管道并行算法DualPipe、高效的跨節點全連接通信內核、混合精度FP8框架等等。
也正因為如此,他們才得以用并不先進的H800 GPU(綜合算力是在美國廣泛應用的H100 GPU的70%左右,是目前最先進的B200 GPU的35%左右),訓練出了完全不遜于美國AI大廠的大模型。他們甚至還給硬件廠商提了諸如將通信任務從SM卸載下來、統一IB和NVLink網絡、支持塊和塊量化、支持在線量化、支持轉置GEMM操作等建議,由此可見DeepSeek研發團隊對于AI硬件的熟悉程度。
可以說,未來的科技公司要想做到頂流,要么親自下場搞硬件,要么深入了解硬件的核心技術;像過去那種寫寫代碼、搞搞流量,就能輕松成長的情況,恐怕不太容易了。
三、硬核創始人
過去,無論是在美國還是中國,一直有個共識的觀點,那就是公司做大之后,創始人就應該退居二線,將公司的日常管理交給經驗更為豐富的職業經理人。
而如今,在AI改變一切的今天,很多美國科技大廠的創始人都坐不住了,他們發現職業經理人根本無法應對這種行業巨變,于是紛紛從退休或半退狀態返回一線,重新抓起了業務。如Google創始人謝爾蓋·布林親自給Gemini大模型寫代碼,亞馬遜創始人貝索斯也回到公司主抓AI,更別提在旗下幾家公司來回穿梭、直接與一線工程師交流的“鋼鐵俠”馬斯克了。而這種管理模式,也被稱為“創始人模式”。
在國內,老冀聽到一個說法,說是很多科技大廠創始人都交班了,而且往往是CFO接班。老冀倒是不以為然。看看國內一線的互聯網公司,騰訊和百度的創始人仍然戰斗在一線,阿里巴巴的馬老師由于特殊原因隱退,換上的CEO仍然是創業的“十八羅漢”之一。再看字節跳動,且不說張一鳴是不是真的退居二線;如今掌舵的,也是公司聯合創始人。
再舉個例子。如今京東的CEO確實是CFO出身,可是你覺得創始人劉強東離開一線了么?相反,他比之前更頻繁地出現在京東的各個高管群中,直接指揮公司的日常運營。
再看DeepSeek這家創業公司,也是典型的創始人模式:創始人梁文鋒本身就是搞技術的,他一直在一線,親自寫代碼,親身參與各項業務的決策。也正因為如此,DeepSeek才得以發展得如此之快。
所以說,如今,無論是美國硅谷,還是中國“硅谷”,其實都是“創始人模式”當道。
四、硬漢特種兵
老冀也注意到了DeepSeek還有一個特點,那就是雖然干出了這么驚天動地的大事,公司的規模卻仍然很小,據說員工還不到140人,僅僅相當于一些AI大廠研發部門的十分之一。
雖然人數不多,卻個個都是特種兵。例如,DeepSeek的核心研發人員中,朱琪豪是北大計算機學院軟件研究所2024屆博士生,代達勱是北大同一個學院計算語言所2024屆博士生,邵智宏是清華交互式人工智能課題組博士生,曾旺丁則出自北郵人工智能與網絡搜索教研中心……而據說被小米以千萬年薪挖走的“天才少女”羅福莉,碩士畢業于北大計算機學院計算語言所,畢業后加入阿里達摩院機器智能實驗室。
老冀發現,這些DeepSeek的核心研發人員有一些共同的特點:都出自國內一流名校,不是北大清華,也是北航北郵;都是研究型人才,發了不少高質量的論文;都很年輕,工作經驗不超過5年。
這其實也反映了DeepSeek的用人原則:招最優秀的技術人才胚子,給他們最開放的研究環境,做最有想象力的研究,讓員工與公司共同成長。
DeepSeek創始人梁文鋒透露,參與上一代大模型DeepSeek-V2 的研發人員,沒有一位海歸,全部都是本土的。“前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”
DeepSeek的研發團隊不做前置分工,而是自然分工。每個人都可以研究自己感興趣的方向,并且拉團隊中的任何人討論,然后組建團隊,隨時調用訓練集群的GPU卡,無需審批。
例如,前不久發布的DeepSeek-V3大模型用到了創新的MLA(多頭潛注意力)架構,就是來自于一位年輕(不過,團隊的成員都很年輕)研究員的突發奇想,大家感覺靠譜之后組建了一個研究團隊,花了幾個月把它跑通了。
DeepSeek的崛起,其實很給很多中國科技公司提了個醒:兵不在多,而在于精。一支強悍的特種兵部隊,勝過千軍萬馬。當然,你得給這支隊伍特殊的待遇、文化和資源才行。
五、硬寨呆仗
其實在國內,DeepSeek的一飛沖天,不僅僅把美國人搞蒙了,也把國內的科技精英們搞迷糊了。原因很簡單:你DeepSeek的創始人梁文鋒,之前是搞金融,搞量化交易的,不是正牌搞高科技的呀!搞AI大模型跑出來的,應該是我們純正的搞軟件、搞互聯網的才對呀!有一位AI“小龍”的高管,甚至在老冀的朋友圈里質疑:“不是說他們(DeepSeek)有5萬張卡么?”言下之意,DeepSeek也是靠堆算力。
當然,如果他仔細研究了DeepSeek發表的技術報告,就知道DeepSeek肯定不只是堆算力,而是在算法和數據領域做了非常多的創新,例如混合專家模型(MoE)、多頭潛注意力(MLA)、多令牌預測(MTP)、長鏈式推理(CoT)、DualPipe算法FP8混合精度等等,都是DeepSeek自己琢磨出來的,很多都是為了把GPU卡的算力壓榨到極致。
當然,不可否認,DeepSeek確實是“卡多”。老冀也看到在美國那邊,Scale AI創始人兼CEO汪滔(Alexandr Wang)在接受媒體采訪的時候,說DeepSeek可能有5萬張卡。姑且不論這個說法是否屬實,從各個方面得到的信息來分析,DeepSeek擁有的GPU卡數量,恐怕在國內科技公司中能夠排到前5位,多到跟字節跳動、阿里巴巴旗鼓相當的水平。
為什么DeepSeek的卡有這么多?因為人家一直就在做AI,而且是奔著AGI(通用人工智能)的遠大目標去的。
早在DeepSeek成立之前,梁文鋒還在做量化交易的時候,他就對AGI感了興趣。本來量化交易就要用到很多GPU卡,而要做AGI,顯然還需要更高數量級的卡。于是早在2015年,梁文鋒就用量化交易賺到的錢囤了100張卡;到了2019年,卡的數量已經增加到1000張了。
2020年5月GPT-3發布,并沒有在行業內激起多大的浪花。而已經在AGI路上摸爬滾打了好幾年的梁文鋒,已經意識到大規模算力平臺對于AGI的重要性,于是在第二年建設了“螢火二號”智算平臺,把GPU卡的數量堆到了上萬。
反觀國內那些自命正牌的AI創業公司,基本上都是因為2022年11月ChatGPT發布后一炮走紅,想了想自己原來就是搞互聯網的,甚至是搞計算機視覺的,舍我其誰?老冀在朋友圈里看到了好幾位搞互聯網的朋友,都認為這一波絕對是自己的機會,于是興致勃勃地殺了進去。
首先像王慧文等成功的互聯網創業者,他們有成體系的互聯網創業打法,搞地推、搞流量、做APP、快速迭代。問題是,如今AI大模型的創業邏輯不是這樣的,首先你得把技術方向搞清楚了,然后投入數倍于之前互聯網創業的資源,也才有個開始。正因為如此,王慧文投入AI才半年就抑郁了,并且果斷退出。
當然,你會說王慧文不懂AI,那些之前就懂技術、也搞過AI的創業者,是不是就能成功呢?恐怕希望也不大。因為雖然是同一棵科技樹,向上生長的時候已經出現了分叉。
例如,當年“AI四小龍”確實也都是搞AI,微軟亞洲研究院的AI論文也發了不少,但是他們以前大部分都選擇了計算機視覺這個方向,而這一波大模型則走了另一個方向——“語言”。
因此,當ChatGPT掀起大模型浪潮之后,從2023年開始,一大批原來就搞AI的技術精英們紛紛創業,投身于其中。但是,正如老冀的好朋友程苓峰所說,他們更多地是攢局,而不是從0到1,很難持續。
于是,剛到2024年下半年,所謂的“大模型六小龍”當中,已經有兩家公開放棄了AGI的夢想,不再做預訓練和通用大模型了;還有一家因為創業者的貪婪,陷入了與投資人的撕扯之中。
反觀DeepSeek,在互聯網人心目中確實不是“正規軍”,但是人家確實在通往AGI的道路上,辛辛苦苦耕耘了至少五六年的時間了。人家不成功,還等著你們這些“正規軍”成功么?
寫到這里,老冀不僅想到了曾文正公給湘軍制訂的“結硬寨、打呆仗”六字訣。說到底,就是不求速勝,而是一步一個腳印地鞏固戰果,最終達成勝利。
硬科技主導、硬軟通吃、硬核創始人、硬漢特種兵、硬寨呆仗這“五硬”,就是老冀觀察到的、全球以及中國一流科技公司的特征。如今,我們已經進入硬科技時代;未來,那些要想成為世界一流的中國科技公司,也必須“硬”起來。
對于那些更有理想的中國科技公司來說,這恐怕也是一個更加幸福的時代,因為與他們的前輩相比,他們將更加接近全球科技的最高峰!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.