網易首頁 > 網易號 > 正文申請入駐

從DeepSeek到字節，中國人帶來的真正價值

2025-02-26 18:00:09　來源: 20社

北京舉報

分享至

市場開始關注DeepSeek如何影響英偉達估值時，英國《金融時報》發表了一篇評論認為，對于DeepSeek的成功，市場更應該擔心的是：這意味著中國已經掌握了“改善”的藝術。

什么是“改善”？

這是一個來源于日本的概念：Kaizen（改善的日文發音），大致涵蓋了模仿、優化流程、生產物美價廉的產品。Kaizen被認為是豐田生產方式的核心之一，在中國汽車行業也曾備受推崇，比如長城汽車的座右銘就是，每天進步一點點。

在歐美研究者看來，Kaizen是日本在1970年代和80年代經濟起飛，成為超級大國的主要原因之一。這是一個先發國家，或者說所有市場霸主很容易認可的邏輯：后來者，可以通過在原有產品、技術的基礎上加以優化改善，打敗先行者。

正是沿著這個路線，日本公司在汽車、消費電子和半導體等行業從技術和質量上擊敗了歐美傳統巨頭。

用這個詞來描述當下的中國AI行業，這背后代表了一種混雜的態度，既有對于DeepSeek“創新含量”的質疑，也有對中國工程師團隊能夠在最尖端行業平推工藝優化迭代的驚嘆。但相較于美國人一驚一乍的“Sputnik”，《金融時報》多了一份旁觀者的冷靜。

或許在這一段DS熱潮稍息之際，我們可以有余裕看一下更核心的問題：中國以什么體系、路徑，誕生了DeepSeek這樣的現象級創新。DeepSeek路徑，能否泛化為中國路徑?

01、一個典型的中國式“改善”

兩周前，字節發布了視頻生成模型OmniHuman，用戶僅需輸入一張圖片和一段音頻，就可以生成一條AI視頻。

你可以讓愛因斯坦成為物理名師課堂的講師，讓泰勒·斯威夫特唱中文神曲。這比之前的做對口型視頻的流程更簡單，效果也非常真實。

OmniHuman可以生成光線、質感、細節相對應的，任意圖像比例、任意人物比例的視頻。

一位國內大模型廠商從業者認為，OmniHuman屬于一種AI口播類產品，沒有什么創新之處，功能都不是全新的，但他也承認是在AI口播這個垂直領域，OmniHuman還是非常實用。

“AI口播的核心功能是要素替換，而不是內容創造”。這是一個很窄的領域，因此OmniHuman發布后，沒有像可靈那樣吸引來廣泛關注。

OmniHuman可以適配不同畫風，生成以前做不出來的姿勢，來適配人物。

由于我們最近一直在找最簡單的數字人方案來做視頻，這個大模型還是一下就吸引了我的注意，因為它確實用戶友好，如果再搭配剪映加上字幕，就很容易實現讓AI替我們念稿子的想法。

本質上，OmniHuman這個“傻瓜級”視頻生成模型，是一個垂直模型。把原本更垂直的面部動畫模型和姿勢調節模型，合并成了更有適用性的數字人動畫模型。

它的長處在于，給定一個基礎人像，讓它按照語音/視頻的指令一邊演講/唱歌，一邊身體自然律動，效果無比出色（參考演示視頻效果）。至于從無到有的內容創造，對不起，不是我的專業。

而它之所以能做到小賽道的高分（據OmniHuman論文數據），答案其實并不復雜。那就是針對單一目標，做極致的工程學優化。

據OmniHuman的論文，原本更垂直的數字人模型（如主播類），大多專注口型，為求精確，往往需要過濾裁剪大量與面部表情無關的訓練數據。而OmniHuman，從原本被浪費的數據中，提煉出有價值的運動模式，驅動面部表情的同時，也驅動身體姿勢，使生成的形象更自然靈動。

這是一款中國AI產業“應用”思維下誕生的典型產品。

如果在基礎研究上沒有足夠能力，或短時間內大模型的能力無法顯著突破，又或大模型本身的商業化遙遙無期，那么用已有技術打磨出一個好用的應用，是商業公司的最優解。

事實上，字節的AI產品覆蓋相當全面，在AI視頻生成這個方向上，我們甚至看到豆包和剪映兩個團隊在賽馬，在OmniHuman發布前，豆包也發布了一款視頻生成產品。

這某種程度上而言，算是原本意義上的“Kaizen”的實踐。

Kaizen的核心，就是在原有產品基礎上去追求極致，無論是單點的優化，還是整個系統的再降本增效。

但“Kaizen”的壁壘能維持多久，是一個問題。比如，過去幾周，一個經常被拿來對比的產品是豆包：就在豆包好不容易有了近千萬的DAU，成了國內排名第一的AI產品時，DeepSeek R1發布了，上線僅20天DAU超過2000萬。

這可能也是這一領域的獨特風險。大模型的進步曲線十分陡峭，不像互聯網產品或者是傳統制造業已經平緩。雖然中國互聯網企業在AI應用打造上更有優勢，但AI技術目前仍在發展中。我們看到的產品仍然都是是階段性的，也就很難形成絕對壁壘，無論對于open AI還是豆包。

而DeepSeek，則是在最前沿的方向，把Kaizen做到了極致。

02、共同的秘訣

來自東方的神秘力量——“工程科學”，不僅出現在OmniHuman這個小模型中，更在整個AI產業中涌現，產生效果。揭開今年科技圈春晚序幕的DeepSeek，是這方面的佼佼者。

DeepSeek最讓人矚目的要數兩點，一是極致的性價比，二是優越的模型表現。

而這兩點的實現，來自DeepSeek高密度、一環扣一環的工程創新。

很多讀者可能已經遺忘了，去年拉開大模型價格戰不是大廠，而是幻方。當時它發布了DeepSeek-v2，帶來全方位的推理成本下降，能夠在盈利的基礎上進行降價。而年末發布的DeepSeek-v3，進一步進行了工程上的創新優化。

最值得稱道的工程創新，是模型架構層面的。

新的混合專家系統（Mixure of Experts，MoE）架構，作為一個更精細的任務“分診臺”，只激活少量合適的專家，從而在推理過程中減少參數量，提升效率。

也有算法層面的，新的多頭潛在注意力機制（Multi-Head Latent Attention，MLA），把加載上下文的顯存占用，降到了常見架構的5%-13%，顯著降低了推理成本。這來自于DeepSeek一個年輕研究員的個人靈感，最終被團隊落地，實現了極其罕見、有魄力的Attention架構創新。

此外，還有幾乎無人工干預的強化學習（RL）。尤其是DeepSeek-R1-Zero模型，僅靠簡單的獎懲信號來優化模型行為，純RL。而這個過程中，R1-Zero自發獲得了優化推理的能力，在推理過程中產生了令人激動的“頓悟時刻”（Aha Moment）。這是GPT-o1隱藏的秘密和壁壘，DeepSeek自己攻破了這個謎題。

（論文記錄了一個案例，R1-Zero在數學推理的過程中，突然停下，"Wait, wait. Wait. That's an aha moment I can flag here"，而后重新審視了自己的解題思路。研究團隊也將這視為RL能力的彰顯。）

當然還有一系列針對數據壓縮、數據處理流程、芯片帶寬通信調度等等的細節創新優化。

（來自騰訊科技）

這就進入到一些爭議環節了。

以FutureLabs首席專家胡延平為代表的一些人認為，DeepSeek的亮點，按實際價值其實依次是強化學習、混合專家模型MoE、知識與模型蒸餾、多頭注意力、多Token預測、混合精度訓練和PTX等。盡管其中沒有一項是DeepSeek自己完全原創、獨創的，但是DeepSeek成功地進行了非常系統的再創新。

那么，這實際上是最經典的“改善”邏輯——博采眾長，從而實現效率最大化。

也有一些人，尤其是在閱讀了DeepSeek的多份論文后，發出了“低成本高效率”之外的另一種的感嘆——這不是單點的巧思，而是一整個系統的創新。

比如，在R1發布前，Perplexity CEO Aravind Srinivas對V3評價已經非常高，他在接受CNBC專訪時稱，MoE非常難訓練，有準確度的8位浮點訓練很難做到，在美國并不常見。

通常的認知是中國人擅長復制，如果美國人停止發表論文，他們就趕不上。“但現實是，DeepSeek-V3中一些細節非常出色，我甚至不會驚訝Meta會借鑒并應用到Llama中。他們不是在復制，而是在創新。”

VC機構Benchmark合伙人Chetan Puttagunta讀了V3的論文，他認為DeepSeek團隊貢獻了一些在算法方面真正的創新，某種程度上是世界領先水平的創新。

公允地說，DeepSeek沒有做出Transformer模型之外的底層創新——像楊立昆（Yann LeCun）所說的大語言模型之外的世界模型，但在Transformer領域內，DeepSeek做出了有突破價值的工程學創新，從而讓Transformer模型更強大了。

本質上，它做的正是GPT3做的事。

在AI領域，工程創新，跟最前沿的理論創新，并不是孤立存在的。它們往往是并行的，互相驗證，互相啟發。規模效應、工程本身會帶來意外的aha moment，從而推動理論、模型創新進入新的階段。

在R1發布后，據DeepSeek團隊研究員Daya Guo稱，R1-Zero的性能曲線還在“不斷上升”，真切感受到RL的威力。

梁文鋒最近又新發了署名論文，又提出了一個新的Attention模型——NSA（Native Sparse Attention），相較于其之前的MLA模型，提升推理效率的同時，能更好地模擬人類對長文本的理解方式。

要求大算力的預訓練階段比拼，競爭強度下降。而在RL這個想象空間巨大的領域，中國的AI企業正在迅速追趕Open AI。

03、“Kaizen”的極致階段，創新涌現

一位大模型公司的人士在和我們討論Kaizen時認為，持續改善說起來容易做起來很難，因為繞行和摸魚才更符合人性。

實際上DeepSeek所做的嘗試，很多公司都曾做過一項或者是幾項，但發現效果不佳后，就不再繼續。DeepSeek某種意義上的價值，在于掀開了中國從業者心中的天花板。

日本公司成功的核心在于恒心，豐田等日本公司將其發展成一種企業文化。將改善的權力交給了每一位員工，在生產線上，任何員工發現問題都有權舉手叫停。

這種改善帶來的進步，看起來并不復雜，只是在原本的產品路徑上又跨越了一個難點，或者是降低一點點成本、一點點使用門檻。

《金融時報》認為，回顧豐田“Kaizen”式的成功，或許更能解釋中國企業的進步，以及為什么這樣的進步，有可能幫助這些公司獲得最大的市場成功。

豐田在上世紀80年代，通過更高效和低成本的生產方式，制造出了廉價但可靠的科羅拉，打敗了大眾的甲殼蟲，從而重塑了美國的汽車工業。

比起美國公司所習慣的“大力出奇跡”來得到創新，豐田更專注于在作業過程中，杜絕資源浪費和自發實現漸進式的進步，這樣的方法被總結為“改善”。

豐田能夠在美國市場迎頭趕上，做到了以下三點：

1、大量模仿，小幅提升。最后，技術落后的豐田，靠逆向工程雪佛蘭的發動機，研發出了自己的引擎，馬力比之前提高了10%。

2、認真調研市場需求。當時的美國處于石油危機下，消費者特別需要油耗低的小型車。豐田的小型車的拋錨率遠低于當時大熱的大眾甲殼蟲，還便宜。

3、改善生產流程，去掉無用的環節，實現全局細節優化，從而做到成本和質量上的雙優化。

這樣的路線，在今天中國的很多行業也在被不斷執行且發揚光大。

比如在電動車行業，最早的阻礙是電池。比亞迪找用磷酸鐵鋰迭代了此前主流的三元鋰。但最初的方案續航旅程很短，比亞迪又在2020年推出了“刀片電池”，基本彌補了在續航上和三元鋰電池的差距，且成本極低。

同時，在實現大部分零件自產的前提下，比亞迪造出了性價比最高的車輛，從而成為新能源“銷冠”。

但到如今，中國的新能源汽車，早已經超出了原本的“改善”范疇。

作為全球最大的電動車生產與消費國，中國的電動車行業是一個有機整體，在電池、壓鑄技術、空氣懸掛、汽車芯片、智能座椅、智能駕駛、軟件等多個方面都在內卷式創新。它們的對手，也從特斯拉變成了彼此。

一年前，中國還沒有能提供全場景L2輔助駕駛能力的頭部供應商，但沒有意外的話，到今年底，L2+就會成為所有主力車型的標配。

用深入觀察中國電動車的Reddit用戶singularity的觀點，這是整個生態系統整體發展的故事，推動快速應用，優化產業鏈，構建特定專業領域的龐大集群——飛輪開始加速。而在AI領域最近發生的事情，讓他想起了汽車領域發生過的事。

在人工智能領域，這個軌跡目前為止確實是相似的。

Open AI目前最強大的o3固然驚艷，但僅部分向公眾開放，且價格高昂。能夠實現相似智能水平的DeepSeek-R1-Zero橫空出世，將其在RL階段實現深度思考的秘訣開源，追趕Open AI的路徑似乎已被解密。

和DeepSeek R1幾乎同時發布的月之暗面的Kimi k1.5，也英雄所見略同地推出了稀疏注意力機制，名為MoBA（混合塊注意力機制），同樣對標o1正式版。

而k1.5的推理能力也相當不錯。Open AI的論文表示，R1和k1.5兩者的獨立研究都證明，利用思維鏈能夠提升大模型在數學與編程上的能力。

字節隨后發布的豆包大模型1.5 Pro，也聲稱采用了稀疏MoE架構。其稀疏模型架構命名為UltraMem，稱推理速度相比MoE架構提升2-6倍，推理成本最高可降低83%。

在scaling law告急后，行業轉向加碼RL，中國企業則還有一個突破Transformer算力桎梏的共同目標——Attention架構提高了模型智能程度，但卻需要占用大量內存，且計算成本高昂。

在海量的AI人才努力下，大家都給出了相似的解題思路，只不過DeepSeek的創新更加密集，更系統，給出了最高分答卷。

《金融時報》樂觀估計，相較于日本原版，中國式的 “改善” 能在更快節奏、更具顛覆性的時期發揮作用，且成果可能更為顯著。

首先是中國的人力資源和人才規模與以往完全不是一個量級，讓“改善”能夠在更大范圍內進行，改善再加上規模化的威力，是不可小覷的。

其次是，在數字化時代，消費者反饋和公司調整會更快。

更重要的是，中國不論官方還是民間，依然有意愿和能力為快速規模化提供資金支持。

在大語言模型的scaling law被質疑觸墻的過去一年，我時常想起古早美劇《疑犯追蹤》中的一個情節——引入了壓縮算法后，原本需要巨型數據庫容身的AI，可以被裝進一個手提箱。

科幻有時候會給出先驗的預言。人工智能一定要寄居在海量算力上嗎？能不能讓AI既聰明，又低能耗呢？

在最新近的現實中，中國的AI創業公司正在為這個使命做出最核心的貢獻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.