"這幫小子非常牛啊!用1/100到1/1000的代價就做出一樣的事情。"
在前不久剛剛舉行的2025潤楊集團工作動員會上,阿爾法公社創始合伙人許四清難掩激動,這種"降維打擊"式的創新,正是許四清口中"把技術門檻砸在地板上"的技術革命。
阿爾法公社創始合伙人許四清
在他所帶來的有關于當下人工智能行業的《探索人工智能產業爆發式增長的機會》主旨演講中,這位見證過PC互聯網、移動互聯網浪潮的資深投資人,此刻正用最直白的語言解讀著中國AI的"彎道超車"
錦繡科學園國際會議中心演講現場
強化學習:讓AI學會"抄近道"
“從寶安機場到錦繡科學園導航要怎么走?以前沒有導航的時候大家就自己看地圖走,后來出現大語言模型之后它就能告訴你中間該怎么走,但是它每走一個路口都要修正。”許四清用導航做比喻,“DeepSeek的做法是直接說:你就給我開到錦繡科學園。”等到了錦繡,對這個過程的算法就給肯定和加權。這種強化學習的顛覆性在于,它摒棄了傳統大語言模型的預訓練(最初這部分最大可占到99%的GPU計算量),建立了強化學習方式,直接用結果指導過程。
這種"偷懶"帶來的效果堪稱魔幻:將語言模型參數從671億壓縮到37億,推理成本直降95%。DeepSeek用算法代替蠻力,建立了MoE(多專家系統)方式將256個細分領域的"專家模型"裝進系統,像"專家會診"般動態調用。
MoE(多專家系統)示意圖
軟硬件提升:8位計算的"效率革命"
在算力軍備競賽白熱化的當下,DeepSeek卻玩起了"極限壓榨"。許四清透露關鍵細節:"他們用8位精度替代傳統16位做大模型的訓練和推理,就像用一本書代替一座圖書館。"這個看似倒退的決策,實則暗藏玄機——通過混合精度計算,將非核心環節大幅"縮水",既保效果又降能耗。
DeepSeek多專家系統(MoE)以及多頭潛在注意力(MLA)示意圖
DeepSeek不僅在軟件上表現優異,還通過自主研發的編程框架,實現了對GPU的"硬件級操作",通訊效率獲得數量級的提升。這種底層突破,讓中國團隊首次在AI基礎架構領域撕開領先歐美的技術缺口。
開源新范式:全民可用的"技術普惠"
當美國OpenAI還在搞“閉關鎖國”時,DeepSeek選擇了完全不同的道路。他們將技術文獻與技術論文公開發表,等同于除了源代碼外大部分都分享了出來。這種"技術開源裸奔"的勇氣,源自中國工程師特有的實用主義思維——與其守著一把絕世好劍,不如讓天下武者都能鑄劍。
這種開放所帶來的連鎖反應遠超預期。許四清分享觀察:
“2024年美國在AI方面投資額是中國的10倍,但DeepSeek用1%資源實現超越,在OpenAI為代表的堆砌算力的scaling law(規模法則)之外,建立了依賴算法突破獲得巨大收益的scaling law。”
AI大模型產業鏈五層協同驅動產業爆發
當前AI大模型產業鏈已形成五層協同體系:硬件層聚焦芯片創新與能效突破;平臺與存儲層支撐千億參數模型的訓練與部署;AI模型層在基礎模型與垂直領域實現雙重突破;工具層通過數據標注平臺、架構(MLA+MoE+FP8量化)等工具,降低開發門檻并提升效率;應用層則涌現出Sierra對話式客服(問題解決率74%),形成從底層硬件到行業落地的完整閉環。
這場始于人工智能演講的動員會,最終落腳在更樸素的啟示:當AI發展從"堆算力"轉向"拼巧勁",或許我們都該學會用更聰明的方式解決問題——無論是在工作中用更精準的命令去訓練AI模型,還是在生活中借助AI的優越性來經營美妙人生。而對潤楊集團和潤楊人而言,擁抱AI浪潮、探索智能未來的征程,才剛剛拉開序幕。
· The end ·
如需轉載,請在后臺回復“轉載”
部分圖源網絡,如侵告刪
文字為原創,版權歸倉頡通文化所有
歡迎轉發至朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.