網易首頁 > 網易號 > 正文申請入駐

李萌：關于DeepSeek大模型以及在金融業應用的幾點思考

2025-03-14 18:41:03　來源: 三思派

上海舉報

分享至

李萌

全國政協委員、科學技術部原副部長

聽了專家和各金融機構的介紹很受鼓舞也很受啟發。金融業在引入DeepSeek時間不長，但形成了很多應用場景，無論是金融巨頭還是中小機構在態勢感知、智能風控、流程重塑、服務優化、投研決策、業務創新（人機協同）等多種場景上做的各有特色。目前應用剛剛起步相信會漸入佳境。這反映了金融業的敏銳眼光、技術積淀、業務積累和對大模型技術發展趨勢的把握。

DeepSeek技術在模型架構、訓練策略和開源等方面的創新，意義重大，影響深刻。DeepSeek現象從技術層面、應用層面、影響層面、甚至從文化層面都是值得討論的。

DeepSeek的架構創新、軟硬件優化和訓練策略開啟了一場效率革命。

其實在業內相對于大廠和大機構而言，OPENAI和DeepSeek等都有點用亂拳打死老師傅的方式逆天改命，然后開宗立派。在人工智能研發理念上DeepSeek更遵循企業邏輯，不以智能涌現最大化為唯一目標，而是追求高智能水平之上的綜合最優，能效比最好。OPENAI更遵循研究邏輯，盡管成本極高，但仍然以追求最大程度地涌現智能為唯一目標。DeepSeek大大降低了全社會智能化的經濟門檻，帶來了廣泛的產業應用，包括金融領域，也推動了眾多中小企業和ToC端應用的興起。

DeepSeek把核心技術開源且開源模型首次達到閉源模型的性能。

這大大降低了技術門檻，推動了高端大模型的技術平權-----從“寡頭玩物”向“普惠工具”轉變，DeepSeek大模型在各行各業本地化部署，各類平臺應用爭相接入，用戶在短期內暴增，普通百姓開始體驗大模型。DeepSeek的開源效應使人們認識到開源是一種思想，是一種范式，是值得全社會重視的一種事業。

DeepSeek現象帶來了AI價值體系重構。

大模型價值重估正在引領投資行為的調整，甚至對全球金融市場也產生影響。面向未來，投資界可能會更加積極布局高性能低成本的大模型產業，同時也要面對過去估值體系下投資策略的一些后遺癥。

DeepSeek的成功帶給我們很多啟示，其中關鍵的是推動行業競爭邏輯發生轉變：

1.復合創新替代單一路徑。

模型、算力、數據三者協同突破，實現了模型效率的顯著提升。DeepSeek的創新否定了尺度定律（ScalingLaw）的單項思維，當前行業對尺度定律的理解已從單一維度理解向多階段復合性理解轉變。

2.效率優化成為競爭的新維度。

DeepSeek模型在低功耗芯片、動態資源分配等優化能耗技術方面具有明顯優勢，這也充分展示未來軟硬件工程化創新對于推動大模型可持續發展的巨大潛力。下階段大模型發展更考驗軟硬件協同的新型開發方式與工程優化。

3.開源生態加速技術擴散和技術路徑分化。

閉源路線繼續追求超大規模參數和專用硬件集群；開源路線通過創新算法降低對算力的依賴，形成輕量化模型+社區協作的生態。

4.推動算力需求開始進行結構性調整。

短期看推理成本下降可能抑制算力硬件的短期需求，長期看AI的普及應用將推動算力總需求持續增長，尤其是端側部署和多模態場景將帶來算力需求的暴增。

通過觀察有幾點認識與大家分享：

首先，DeepSeek大模型是沒有顛覆TRANSFORMER。

理論上在TRANSFORMER框架下模型參數可以無限放大，GPT1是一億參數，GPT2是1.5億參數，GPT3.5是1750億參數，GPT4就達到了1.8萬億了，GPT4.5沒有公布，有說法在20-100萬億之間。大模型是目前實現智能涌現的主流形式，模型規模擴大仍有空間，只不過參數可能不會向過去那樣暴力增長。在預訓練階段模型參數與智能涌現的邊際效果在下降，大概處于頂點之下拐點至上的區間。有企業在探索非TRANSFORMER 架構，能否走通有不確定性但很值得贊賞。至于有研究開發者提出探索更接近人類認知本質的新范式，還需假以更多時日驗證。

其次，DeepSeek在強化推理方面的創新對延續尺度定律做出貢獻。

這是接著上一個問題的，尺度定律的提出最初是基于TRANSFORMER架構的實踐，DeepSeek沒有否定尺度定律的核心邏輯---大模型規模（參數量、數據量、算力投入量）與性能的正相關，而是通過效率革命拓展了應用邊界。大模型的規模與性能與呈正相關這一規律在預訓練階段仍被驗證有效，但邊際效果下降引發人們對尺度定律還能延續多久的擔憂，而是以DeepSeek為代表的模型強化訓練方法提升長鏈推理能力，在后訓練階段開啟智能涌現通道，使尺度定律繼續驅動大模型性能提升。DeepSeek的顛覆性源于對尺度定律的工程優化而非理論的否定，對尺度定律持批判態度的楊立昆也并不完全否定其價值，還是認可數據與模型平衡的重要性，當然他更強調需結合新架構突破。

第三，從摩爾定律（芯片）到尺度定律（大模型）的技術革命通道軌跡表明重大技術突破往往呈現基礎理論與應用工程的交替式上升。

半導體革命中摩爾定律（觀察的理論）與FINFET晶體管（工程創新）就是共生演進，晶體管進入納米尺度后熱管理和信號的完整性遇到了挑戰，胡正明先生發明了三維魚鰭結構是一項革命性的工程優化技術，這個發明為延續摩爾定律作出了重要貢獻。現在AI發展中又有尺度定律（經驗規律）與MOE（混合專家專家模型）、MLA（多頭潛在注意力機制）的工程創新交叉推進。DeepSeek尚未形成顛覆性的理論框架，也沒有底層理論突破，但其MOE（混合專家模型）和MLA（多頭潛在注意力機制）等架構創新、多信息單元（TOKEN）預測的訓練方法，以及結合底層硬件指令PTX語言的軟硬件協同優化創新，實現了模型效率的顯著提升，證實了當理論擴展遇到物理極限時，工程創新能打開新的空間。這種理論與工程交替式上升也符合近80多年來科研范式演進的結果：從萬尼瓦爾.布什的基礎研究---應用研究---試驗發展的“線性模式”，到斯托克斯由應用引發基礎研究的巴斯德“象限模式”，再到文卡特希的發明---發現的“循環模式”，認識到這一點對于形成中國特色的科研組織和研發模式意義重大。因此，科技發展進程中可能理論指導和工程優化作用的權重在某一階段會出現偏重哪一邊的問題，但我們一定不能偏廢哪一邊。

第四，未來大模型技術的發展將長期處于尺度定律和效率革命的動態平衡中。

對于堆砌大參數、對大算力的反思不能走向另一個極端，認為算力可以松口氣了。算力是個好東西，是智能社會最重要的基礎設施，我們跟美國的算力水平差距仍然比較大，必須深耕算力不能放松。過去訓練階段的算力占比較大，現在大量應用以后推理生成占用算力資源大幅度提升，有人甚至講占95%以上。算力不足仍然是我們需要面對的最重要的問題，不能被所謂的“小力出奇跡”帶偏了。孫正義提出，未來12-18個月內會出現三個10倍，芯片產量提高10倍，模型性能提高10倍，計算能力提高10倍，是他們提出“星際之門”計劃的基礎依據。DeepSeek開始提升了國產GPU的地位和使用面，我們要堅持探索國產算力芯片自主可控路徑，探索通算、智算、超算、量算協同發揮作用。盡快建立以國產GPU為主的超級智算集群，探索有效和穩定的異構算力體系，雖然面臨技術挑戰但對AI產業發展至關重要。

第五，DeepSeek在金融領域的應用必將大放異彩。

DeepSeek已經在全球形成了技術路線上一定的共識，在金融領域的廣泛應用正在推動金融工程從“少數機構專屬”轉向普惠化的“生態共建”；正在推動傳統金融工程依賴的統計模型升級為因果推理+實時知識更新的復合架構，長期存在的形式合規掩蓋實質風險控制的難題將得到緩解。

DeepSeek在金融領域的應用由于其因果鏈可視化而可解釋性、可信度更強。DeepSeek的技術架構（尤其是多模態推理+輕量化部署）與金融行業數據驅動強、合規要求嚴、安全標準高、實時性敏感的特性形成深度耦合，未來可能在實時高頻交易、監管技術與模式等領域，成為替代傳統規則引擎的技術變量。DeepSeek落地需要突破金融數據閉環生態與可解釋之間的平衡難題，還有能否在人機協同、數據安全與效率之間找到平衡點也將是機構之間競爭的一個焦點。這里有一點值得重視，就是構建金融知識圖譜，整合企業股權結構、供應鏈關系等非結構化數據，建立風險傳導的路徑，比如企業發生資金鏈斷裂和信用危機對上下游企業的連鎖影響。

總之，DeepSeek模型出道即巔峰影響了全球，DeepSeek現象更是在國內形成了高度的文化共識，極大地增強了全民的創新自信。中國是全球最大的文化共識單體市場，從DeepSeek和哪吒迅速火爆就能反映出文化共識對市場規模形成的巨大影響。金融業過去在淺人工智能和大模型的應用上做了很多探索，對行業發展和效率提升發揮了重要作用。DeepSeek正在形成新的應用浪潮，中國當前也不是DeepSeek一家在戰斗，而是有一群DeepSeek。過去有句老話“所有的行業都值得用AI重做一遍”，我引申一下，“所有用過AI的行業都值得用DeepSeek們重做一遍”，相信接下來DeepSeek們必將在國內的金融業開枝散葉。

本文為全國政協委員、科學技術部原副部長李萌在3月2日“DeepSeek在金融行業的實踐與展望”閉門研討會上所作的專家點評。文章觀點不代表主辦機構立場。

◆ ◆ ◆

編輯郵箱：sciencepie@126.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.