99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型“神仙打架”,掀起復現潮、技術大升級后,我們需要關注什么? | 萬有引力

0
分享至


作者 | 萬有引力

出品 | CSDN(ID:CSDNnews)

在過去短短的幾周里,大模型賽道的信息密度飆升至前所未有的高度。DeepSeek 連續,直接引發了一場復現熱潮;阿里巴巴通義實驗室、騰訊相繼推出面向視覺文檔的 RAG 系統 ViDoRAG、新一代混元快思考模型 ,加速了大模型的演進步伐;馬斯克用 20 萬張 GPU 訓練出的 ,超越了許多業界標桿,再次驗證了“大力出奇跡”的定律; 迎來編碼能力大升級,AI 編程的技術平權時代正在加速到來;DeepSeek 論文與 Kimi“撞車”,越來越多公司開始布局稀疏注意力與線性注意力機制,這些技術正成為 Transformer 之后的關鍵探索方向;此外,Manus 模式的“虛擬機”概念迅速走紅,正在重塑大模型的運行方式...

在這場眼花繚亂的技術競賽背后,真正值得我們關注的是什么?DeepSeek 的五連發究竟意欲何為?在 545% 的成本利潤率之下,其他大模型公司是否也能找到盈利空間?面對行業變局,哪些趨勢正在悄然浮現?

帶著這些問題,CSDN 特別策劃的《萬有引力》欄目邀請了智源人工智能研究院數據研究組負責人劉廣、Jina AI 創始人及 CEO 肖涵,在欄目主理人 CSDN &《新程序員》執行總編唐小引主持下,共同拆解這場大模型新戰況,深入解析技術趨勢、行業格局及潛在變量。

觀點搶先看:

劉廣:

  • 無論是訓練大模型還是優化推理效率,軟硬件協同的創新才是關鍵。

  • “百模大戰”的結局,目前尚無定論,但行業已取得里程碑式的進展。下一步,競爭可能會向多模態和具身智能演進。

  • AI 的發展可能會沿著兩條路徑分化,一是少數頂級企業繼續堆砌算力,追求極致的模型;大多數企業則選擇小模型路線,可能通過知識蒸餾將大模型的能力壓縮到小模型中,使其變得越來越強大。

  • 當前 Attention 機制的核心問題在于算法復雜度太高了,直接導致模型的訓練成本昂貴,推理時顯存占用極大。

  • 代碼模型其實還有個很有意思的研究方向——它可能成為通往 AGI 的一條路徑。

肖涵:

  • 一家公司的競爭優勢決定了能否在行業中賺錢,最重要的是上游價格和下游支付意愿。

  • 私有化并非萬能方案,除非在技術或業務層面有足夠的創新支撐,否則貿然推進可能得不償失。

  • 在不改變模型的大小、尺寸、參數量的情況下,隨著訓練技術的精準性提升,以及高質量數據的不斷積累,我們可以在有限的參數下極大地提高訓練效率。

  • 編程工具中,如 Devin 這類的 AutoPilot 工具更有可能成為未來主流,它特別適合“萬事開頭難”的場景。

  • 大模型的發展可能會讓擅長虛擬機技術的人火起來。因為人類文明的發展離不開工具,而代碼模型正在學習如何使用工具、調用工具。工具調用必然是沙盒化的,不可能直接在本機運行。它需要能夠快速啟動一個輕量級的 Linux 內核,在虛擬機中執行任務,并在完成后輸出結果。而虛擬機本身正是一個天然的沙盒環境。


大模型諸神之戰中值得關注的點

唐小引:過去一段時間,AI 大模型領域可謂“神仙打架”——DeepSeek 開源周、OpenAI 發布 、Anthropic 推出新版 ...行業動態密集更新。在這場信息轟炸中,兩位老師有何感受?能否為大家提煉幾個關鍵詞?

劉廣:第一個關鍵詞是DeepSeek。自春節期間 DeepSeek R1 的發布在全球范圍內引發熱議,當時不少技術人本想趁假期休息,卻被 DeepSeek 技術的爆火吸引,都想深入探究其成功背后的關鍵。于是,這場熱潮席卷整個 AI 大模型領域,各界都忙碌起來,紛紛關注并積極討論 DeepSeek 的出圈現象。

肖涵:1 月 20 日 DeepSeek R1 的發布確實是一個關鍵節點。它能迅速走紅,我認為主要有幾個原因:

  • 第一,它對標的是 OpenAI 的推理型模型 o1。實際上,推理模型在 2024 年上半年并不受關注,直到 OpenAI 在 9 月發布 o1-preview 版本,才引發廣泛討論。當時,業界流傳著這樣一種觀點——“Scaling Law 已經走到了盡頭,測試時計算(Test Time Compute)才是新時代的關鍵。”包括 OpenAI 前聯合創始人 Ilya Sutskever 此前在接受路透社采訪時表示:“實際上,Scaling Law 已經達到了極限,就快走到頭了!” 同時,OpenAI o1 的核心貢獻者 Noam Brown 也強調,測試時計算將帶來更大的價值。

    然而,OpenAI 始終未公開 o1 的技術細節,市場上雖然普遍認為推理可能是未來的發展方向,但沒有人能真正復現這一思路。直到 DeepSeek 推出 R1,并完整公開其推理思維鏈(Chain Of Thought,CoT), 眾人才能自己親手嘗試。

  • 第二,R1 讓大家第一次見到模型能以類似人類的方式思考——它采用第一人稱表達自己的推理過程,比如“我聽到用戶在問什么,我該怎么辦”,展現出模型的“內心獨白”。如果說此前的生成式模型更像是 Seq2Seq(Sequence to Sequence,序列到序列)架構,用戶難以察覺模型的思考過程,那么 R1 的開源則讓全球開發者意識到推理模型不僅可行,而且極具潛力。

春節期間,DeepSeek 的影響力迅速擴散,對我們公司也帶來一定影響,尤其是在搜索領域。要知道推理與搜索緊密相連,DeepSeek 的推理架構為搜索體驗帶來了顛覆性變化。春節前后,Google、OpenAI、Perplexity、xAI 相繼推出“Deep Research”產品,我們公司 Jina AI 也推出了 Deep Search,騰訊、百度也發布了各自的深度搜索產品。多種搜索產品落地的背后是源于這種推理架構。過往傳統搜索往往是一次性查詢,而結合推理后,系統可以“邊搜邊想”,持續優化結果。這顛覆了過去“速度優先”的搜索邏輯,甚至改變了用戶體驗。

1 月 20 日 DeepSeek R1 的發布成為一個分水嶺,此前和此后,AI 搜索已是兩個時代。過去,如果一個搜索系統需要三分鐘才出結果,別人會覺得你別干這行轉行算了。而如今,推理已成為標配,每個 UI、Chat 界面都開始先展示模型的思考過程,再呈現最終答案。

唐小引:經典的《思考,快與慢》一書中曾提及兩個概念——System 1 和 System 2,指的是“快思考”和“慢思考”模式。當慢思考逐漸成為主流推理方式時,快思考的作用又是什么?

劉廣:學術界對“快思考”和“慢思考”有不同的研究方向。從數據角度來看,傳統的多模態數據(如感知類數據)通常被歸為快思考,而文本類數據在大模型的預訓練和微調階段此前并不會顯性展示出完整的思考鏈條。然而,從 OpenAI o1 到 DeepSeek R1,這類模型開始明確展示推理鏈條和“內心獨白”,標志著這一領域的重要轉變。

這一變化對數據處理提出了更高要求。我們需要找到更好的方法,使數據能夠更直觀地展現思考鏈條。這并不是簡單地靠強化學習微調幾千條數據就能實現的。有研究表明,快思考和慢思考的能力其實在基礎模型(Base 模型)的訓練階段就已經部分形成,強化學習只是進一步激發它們。如果 Base 模型本身能力不足,后續的優化很難讓它真正具備推理能力。

當前一些公司可能會在預訓練階段直接增強這種能力,但并非所有公司都具備這樣的技術實力。另一種思路是基于已有的 Base 模型,將其作為快思考模型,并通過后續優化逐步激發其慢思考能力。目前,許多研究團隊都在嘗試復現這一過程,例如,斯坦福大學的李飛飛團隊與華盛頓大學研究人員僅用 50 美元的成本,就訓練出了一個名為 s1 的推理模型。

這些復現工作具有重要的研究意義,不過要讓模型具備真正強大的泛化能力,仍然需要大規模的算力支持和精細微調,例如全參數微調 R1 需要使用 192 張 GPU 甚至更多,這對大多數研究團隊來說成本過高,難以承受。

因此,目前這項技術仍處于迭代階段,大部分研究只能在小模型上進行探索。


“復現 DeepSeek”熱潮下的技術探索與實踐

唐小引:智源也在復現 DeepSeek,有哪些觀察和進展可以與我們分享?

劉廣:完整地訓練一個大模型的成本非常高,這導致該技術主要掌握在少數大型公司和研究機構手中。為此,智源發起了 OpenSeek 開源項目(https://github.com/FlagAI-Open/OpenSeek),希望借鑒 BigScience(Hugging Face 的 BLOOM,https://huggingface.co/bigscience/bloom)這種開源協作模式共創項目。

目前 DeepSeek 并未公開數據以及整個訓練的代碼,所以我們希望借助開源社區的力量,從數據和系統兩個角度對 DeepSeek 進行復現,推動 DeepSeek 下一代模型的研發,這也是 OpenSeek 的目標。OpenSeek 已于 2 月 14 日正式啟動,也歡迎大家一起加入共創這一項目。

唐小引:復現過程中遇到哪些挑戰?

劉廣:其實整個復現的過程就是“踩坑”的過程。我們的團隊已經吸引了 100 多位貢獻者,大家對模型訓練的細節或多或少有所了解,但在數據處理、訓練框架等方面仍然缺乏系統認知。項目起步時,我們進行了大量前期分析和講解。

從數據層面來看,我們處理了約 100 億網頁數據,對所有樣本進行了過濾、去重、質量評分(每個樣本標注 3-4 個質量分),并進行人工抽樣檢查,以確保數據質量。同時,我們還采用數據合成方式,使數據更能展現推理邏輯?;诖?,我們還構建了一套基于 Agent 的系統,復現人類的思維邏輯和思維鏈 CoT,最終構造了約 4 億條數據樣本,這是目前規模最大的 CoT 數據集之一

這些數據集的構建消耗了大量算力資源,即便是大廠也很難輕易投入如此規模的機器計算能力。這是一個極大的挑戰,我們也需要說服團隊投入如此大規模的資源。不過,我們計劃在后續全面開源這些數據集,為整個開源社區提供支持。

唐小引:這樣成本很高,但實際上很多團隊能夠用很低的成本完成復現?

劉廣:正常復現只需要一個基礎模型,比如基于阿里的 Qwen2.5,這樣成本相對較低,但倘若想要打造出超越 Qwen2.5、DeepSeek V3 更強的基礎模型,成本就會上升。我們在每個階段都希望有更好的版本,因此如果能開源整個過程、數據和框架,實際上能推動技術向前發展。這一點很重要,因為目前很多中間環節是黑盒狀態,若完全公開,大家就能在此基礎上改進。

此外,在系統訓練層面,當前訓練 DeepSeek V3 這樣的大規模模型缺乏 Megatron(NVIDIA 出品)等成熟的框架支持,如何高效訓練 DeepSeek V3 成為一大難題。不久前,DeepSeek 公開了自研的五個項目,我們能夠基于此進一步提升訓練效率。此外,我們團隊未來還計劃支持多種芯片,拓展至英偉達生態之外,使這一技術更具廣泛意義。

從這兩個方面來看,OpenSeek 項目值得關注。

唐小引:相比 DeepSeek,OpenSeek最大的區別在于不局限于英偉達的生態?

劉廣:對,我們的目標是打破單一依賴,比如在單節點訓練時不局限于英偉達的 GPU,而是探索其他芯片的可行性。

唐小引:這種方式意義更大。接下來,肖老師團隊的復現工作進展如何,是復現 Deep Research 嗎?

肖涵:是的,我們公司在 2023-2024 年間主要專注于搜索領域的基礎模型研發,如 Embedding 和 Reranker。其中,我們的 Embedding 和 Reranker 在 Hugging Face 上的下載量位居前列,每月下載量達 200 萬次。自 2023 年中后期起,我們也開始探索搜索領域的垂直小模型,重點關注 2B 參數以下的模型。

在搜索領域,小模型主要用于數據清理,例如從 HTML 提取適合大模型處理的 Markdown、純文本或 XML 格式。雖然這一任務可以通過正則表達式或大模型完成,但正則表達式在多語言支持和內容理解方面存在局限,而大模型成本高昂,并且需要超長的上下文窗口(通常至少百萬級 token)。

為此,我們推出了兩個專門用于網頁數據清理的模型:ReaderLM(2024 年 7 月發布)和 ReaderLM-v2(2025 年 1 月發布)。ReaderLM-v2 在多語言支持方面有所優化,基于 Qwen 微調,并針對長文本和 HTML 到純文本的轉換進行了改進。這些模型在海外社區引發了廣泛關注。

隨著 DeepSeek 的發布,我們起初開始思考是否需要一個專門用于搜索推理的小模型。其實 Deep Search 并沒有使用到類似 DeepSeek R1 或 OpenAI o1 中的 Thinking Model,而是主要依賴 Agentic Search,相當于上文中提到的“快思考”,其工作方式類似狀態機,包含網頁抓取、內容讀取、推理、反思等多個環節,并在這些狀態之間循環運行。

普通推理模型與搜索推理模型的關鍵區別在于,搜索推理模型需要在推理過程中頻繁打斷,以調用外部工具,并將結果重新輸入思維鏈。這是 DeepSeek R1 等正常推理無法做到的,除非在訓練時進行特殊優化。

因此,如果要訓練一個搜索推理模型,首先需要構建迭代式數據集,即如何在輸入、輸出之間插入合理的思維鏈,這涉及合成數據生成(Synthetic Data)。事實上,當前的循環式 Deep Search 本質上也可以看作一個數據標注器,它通過顯式規則和用戶反饋生成數據。

未來的搜索競爭點可能不再是 Embedding 或 Reranker,而是搜索策略(Search Strategy)。關鍵在于如何在不同階段選擇合適的搜索策略,以提高信息獲取的精準度,這也是我們最近思考的重點。

唐小引:在具體場景下,我用 Windsurf 調 Claude 3.7 模型,希望實現無代碼開發。它會調用各種工具進行安裝和部署,但如果報錯,它會持續嘗試,而身為用戶的我只能等待。進而錯誤不斷出現后,只能手動叫停。即便如此,它仍然不斷報錯,卻無法自行解決問題。這是什么原因?

肖涵:這體現出當前模型會窮舉式地嘗試各種方案。這正是我認為 Agentic 機制不可或缺的原因。推理模型無法完全獨立迭代,某些情況下需要外部干預,比如人為介入,或者另一個 Agent 來中斷它,做出這樣的提示:“你已經錯了三次,換個思路吧?!?/p>

因此,我會在程序里加入規則,比如“如果錯誤超過三次,就觸發特定的 Prompt?!庇行┤擞X得這種方法很“土”,但目前推理模型的局限性就在于它無法自主跳出固定思維模式。

此外,工具調用本身會削弱模型的推理能力。Google Gemini 的文檔也提到過這一點,因為模型會傾向于直接調用工具,而不是自主推理。這種情況在搜索時尤為明顯——模型如何判斷自己是否該調用工具?

其實對于 1+1=2 這種簡單問題,大模型可以直接回答,但面對復雜數學題,它可能需要生成 Python 代碼并執行計算。關鍵在于,模型如何決策:是依賴自身知識,還是調用外部工具?這一問題仍然沒有完美的解決方案。

劉廣:這確實是大模型領域的一大爭議點:模型是否知道自己不知道?它在何時確信自己的答案是正確的?何時會產生幻覺或不確定性?這些問題直接影響工具調用的合理性和決策能力。

在特定領域,Agent 系統會調用工具來執行任務。但從更深層次來看,我們希望模型能更精準地判斷自身的知識邊界,提高確定性,減少幻覺。這不僅涉及工具調用的優化,也關乎模型的核心能力。為此,建立評測體系至關重要,比如衡量幻覺率、置信度等關鍵指標。智源也在深入研究這一方向,通過不同任務對大模型的整體表現進行評估,以推動更可靠、更可控的 AI 發展。

唐小引:這是否應該從模型訓練、開發階段就去解決問題?

劉廣:實際上,模型開發本質上是圍繞評測目標展開的。如果要優化代碼能力,就必須設定針對性的評測標準,否則開發方向容易發散。因此,各大模型團隊都會建立內部評測體系,設定關鍵指標,例如降低幻覺率,以確保模型的可靠性。

降低幻覺率的關鍵在于數據優化。首先,要確保數據的質量和真實性;其次,可以通過技術手段分析模型的置信度,例如判斷某個 token 是否可能引發幻覺。目前,已有研究探索如何量化模型在回答時的置信度,并結合多種機制提升準確性。

在 OpenSeek 項目中,我們也在不斷優化工具調用和代碼能力。如今,大模型在單一問題回答和推理任務上的表現已經相當優秀,尤其是在數學和代碼方面的能力提升明顯。但像 Claude 3.7 這樣在代碼能力上表現出色的模型,其本質上是在彌補大模型的不確定性,大模型本質上是概率模型,難以保證完全確定的輸出。因此,代碼能力和工具調用的優化,或許正是未來大模型發展的關鍵方向。

唐小引:這意味著先“卷”程序員?

劉廣:沒錯,先“卷”程序員。我們的目標不是單純提升某一方面,而是在整體均衡的基礎上,對特定能力進行重點優化。如果我們更看重代碼能力,就會強化代碼數據和訓練比重,但其他能力也不能落下,關鍵在于找到平衡點。

從數據角度來看,預訓練數據幾乎已被充分利用,比如網頁數據大約十幾 TB,代碼數據主要來自 GitHub 或其他渠道,來源相對固定。因此,如何更高效地利用這些數據,甚至生成合成數據,是當前研究的一個方向。

正如肖總上文提及的,數據可以通過 Agentic 方法優化推理過程,使其更易被模型理解。我們在 OpenSeek 也會探索這方面的嘗試,提升數據質量。目前,代碼領域尤為缺乏高質量、人工校驗或系統校驗的數據,因此仍有很大的優化空間。


DeepSeek 開源周的五連發意味著什么?

唐小引:DeepSeek 開源周的核心在于公開 DeepSeek AI Infra 的關鍵技術,主要涉及三大領域:

  • 計算:FlashMLA、DeepGEMM(算力加速與硬件優化)

  • 通信:DeepEP、DualPipe、EPLB(優化通信與并行計算)

  • 存儲:3FS、Smallpond(存儲與數據處理)

DeepSeek 為什么選擇開源這些技術?它的真實意圖是什么?這將如何影響 AI Infra 領域?

劉廣:提前預告一下,這五個開源倉庫未來都將集成到 OpenSeek,方便大家進行模型訓練和推理。

從內容上看,這些項目與云廠商的工作類似,主要圍繞計算、通信、存儲進行優化——云廠商和硬件廠商的核心任務也是提升這三大模塊的效率,以支持云端計算、存儲和數據傳輸。通過這些算子,AI 服務能力得以提升,本質上也是在優化云廠商和硬件廠商的效率。

當然,這些項目也存在局限性。目前,它們主要針對英偉達 H 系列(Hooper 系列)硬件進行了優化,尚未覆蓋其他芯片。

從更廣的角度來看,這不僅是 OpenSeek 的機會,也是整個行業的機會。任何人都可以在此基礎上進行優化,甚至通過開源合作,在不同硬件上實現類似優化,降低開發成本,減少重復勞動。

對于存儲、算力和通信有著很多需求的硬件廠商而言,這種趨勢可能帶來更大的競爭壓力,而模型訓練團隊則可以直接利用這些開源項目,降低開發成本,加快迭代速度。當然,當前底層 Infra 仍有很大優化空間。

此外,值得注意的是,現在行業里 Infra 團隊和人才相對稀缺,目前行業內更多在做從 0 到 1 的搭建,而從 1 到 100 的優化相對較少。因此,未來如果有更多長期項目推動 Infra 領域的深度優化,將會非常重要。例如,智源的 FlagScale 就是一個值得關注的項目。

肖涵:我認為 DeepSeek 發布的系統級開源項目意義重大,尤其是在其模型取得成功后,更能證明其技術的可信度。許多系統框架的創新往往是為了解決特定問題,但如果缺乏成功的實際案例,很容易被忽視。

DeepSeek 的框架創新不僅有成功的模型作為背書,而且在推理速度優化和量化方面展現出了領先優勢。相比之下,其他公司在這一領域仍相對薄弱,而 DeepSeek 的投入顯然更深入、更系統化。

唐小引:從你的角度來看,DeepSeek 為什么要在英偉達生態中做極致優化?是否考慮過其他生態?

肖涵:我認為其中一個原因是英偉達的文檔非常完整。許多開發者曾反映,其他硬件平臺的文檔不夠深入,遷移到其他平臺時,文檔中往往缺少關鍵信息。英偉達的 CUDA 文檔非常詳細,許多人深挖這一層內容,這對做極致優化非常有幫助。

劉廣:軟硬件結合并不是新概念,OpenAI 早已提出,并與英偉達展開深度合作。A100 和 H100 服務器在早期都是優先供給 OpenAI,而 OpenAI 開發 Triton 編譯器,本質上也是為算法創新提供系統級優化。

DeepSeek 也在走類似的路徑,他們吸納了英偉達的人才,在 GitHub 倉庫的貢獻者中,也能看到與英偉達的關聯。正是這種深厚的底層技術積累,讓 DeepSeek 在軟硬件協同方面具備了改進空間,并能進行系統化的工程設計。

因此,無論是訓練大模型還是優化推理效率,軟硬件協同的創新才是關鍵。

唐小引:像 DeepSeek 等模型現如今依然選擇了 PyTorch、TensorFlow 等框架?

肖涵:當前大模型主要依賴 PyTorch,谷歌也在推廣 JAX,但使用者相對較少。而 DeepSeek 開源周給我最大的觸動在于,它不僅專注于 AI 模型的創新,更在系統層面進行了深度優化,特別是在底層架構上。這種穩扎穩打的做法令人印象深刻。

許多人對 DeepSeek 的開源感到震驚,因為它與 OpenAI、Anthropic 等專注于產品級創新的路徑不同,而是更加聚焦于系統基礎層面的突破。這也是 DeepSeek 與其他 AI 公司的關鍵區別之一。

唐小引:很多人稱 DeepSeek 為“源神”,是當之無愧的開源典范。你剛才提到,DeepSeek 完全顛覆了你對 AI 公司的印象,能談談你之前對 AI 公司的印象嗎?

肖涵:在我的刻板印象里,許多 AI 公司往往把 50% 資金投向營銷,另一半用于研發,甚至研發投入可能更少。但 DeepSeek 走了一條完全不同的路,始終專注于技術深耕,并保持低調務實的風格。

更關鍵的是,DeepSeek 能否長期堅持這一理念,繼續保持 “靜水深流” 的發展模式?如果無法堅持下去,我們或許只能轉向 OpenSeek 這樣的開源項目了。

唐小引:國內是否有能與 DeepSeek 匹敵的新興公司?DeepSeek 掀起的開源浪潮中,阿里的 Qwen 也具有不小的影響力,但為什么這次的焦點不是 Qwen?是什么因素導致這一差異?新興公司是否有機會在這一賽道中挑戰 DeepSeek?

肖涵:我一直很喜歡 Qwen 模型,尤其是在長文本支持和指令跟隨方面表現出色。Qwen 2.5 在訓練 Embedding Reader 等任務上效果很好。2024 年,Qwen 在國際市場上也有不俗表現,特別是在社區互動和國際影響力方面,成功跨越地緣政治障礙,吸引了眾多海外粉絲。

盡管 Qwen 在外網知名度很高,但近期未能占據行業焦點,可能與其技術路線選擇有關。相比 DeepSeek 聚焦推理和推理優化,Qwen 更傾向于多模態和代碼模型的開發,因此在推理方面未能取得 R1 級別的突破。不過,無論是 Qwen 還是 DeepSeek,都是中國 AI 領域的重要代表,展現了強勁的技術實力。

唐小引:那新興公司是否有能與之匹敵的呢?

肖涵:新興公司的日子,可謂艱難(笑)。

劉廣:我注意到一個有趣的趨勢,許多量化公司開始轉型成立 AI 部門,九坤就是一個典型例子。這類公司在系統優化和數據處理方面積累深厚,它們具備軟硬件協同開發的能力,尤其在處理海量異質數據時具有明顯優勢。

然而,是否能像 DeepSeek 一樣打造有影響力的開源項目和高效模型,仍是一個未知數。我希望這次行業不會重蹈“百團大戰”的覆轍,而是能找到各自的差異化發展路徑,形成更加良性的競爭格局。

唐小引:大家都說自己是 AI 公司。

劉廣:是的,但記住 80/20 原則,市場上最終只會記住老大和老二,像可口可樂和百事可樂,其他品牌幾乎沒人記得。

肖涵:對于新興公司來說,AI 基礎設施、大模型訓練,尤其是通用大模型,確實需要非常大的投入。要么走純開源路線,比如 DeepSeek,專注技術創新;要么走完全封閉的系統,比如 OpenAI、Anthropic,做到頂尖水平。

除此之外,很難找到中庸的平衡,而且新興公司要專注于應用層的創新,因為只有這樣才能在大模型發展的浪潮中脫穎而出,不至于被淹沒。

唐小引:百模大戰至今,算是結束了嗎?

肖涵:我覺得第一階段暫時是 DeepSeek 領先,接下來就看有沒有后來居上者了。

劉廣:從 AGI 或更廣義的人工智能發展路徑來看,目前仍處于早期階段。真正實現 AGI 可能需要經歷多個階段,而當前的 R1 主要是文本推理模型,未來的發展方向將逐步擴展至多模態和具身智能。

關于“百模大戰”的結局,目前尚無定論,但行業已取得里程碑式的進展。接下來,競爭可能會向多模態和具身智能演進,就像具身智能領域已出現類似“百身大戰”的格局,多模態方向同樣涌現出眾多探索者。

目前,文本模型已基本達到 R1 級別,下一步能否突破仍需觀察。一部分人將繼續推動技術前沿,而另一部分則專注于基于現有模型開發下游應用,進一步拓展 AI 生態版圖。

肖涵:應用確實是檢驗模型落地能力的關鍵。我們不希望模型在技術上不斷突破、各種系統級創新層出不窮之際,卻缺乏真正賺錢的應用。

如果應用端能盈利,比如代碼生成、短視頻生成這些領域,企業賺到錢后,才會進一步反哺模型研發,推動多模態能力的增強。這種良性循環才能真正帶動整個生態發展,否則就違背了基本的經濟規律。


基于大模型的 MaaS 服務到底掙不掙錢?

唐小引:DeepSeek 開源五連發后還帶來了一個 “One More Thing”,即發表了《DeepSeek-V3/R1 推理系統概念》的文章,披露了兩點信息:一是通過架構優化提升模型推理的吞吐量并降低延遲,二是測算了大規模部署的成本與收益,得出的數據顛覆了許多人的認知——DeepSeek 的利潤率竟高達 545%。

這也讓大模型 MaaS(模型即服務)是否具備盈利能力成為討論焦點。在“MaaS 在中國短期內可能是最糟糕的商業模式”和“MaaS 能否成功關鍵在于技術實力和用戶基礎”的討論中,大家真正關心的是大模型商業化的問題。AI Infra 真的只是虧損生意嗎?為什么外部部署 DeepSeek 可能虧錢,而 DeepSeek 自己做推理卻能盈利?你們怎么看?

肖涵:首先,一家公司的競爭優勢決定了能否在行業中賺錢,最重要的是上游價格和下游支付意愿。其中,你的上游是哪個云服務器,是否能以低價獲取 GPU,這直接影響你能定什么價格。其次,下游客戶愿意付多少錢,這也不完全由我們決定,市場競爭決定了價格水平。

可以說,MaaS 的最大問題在于其壁壘非常脆弱。上游不給低價,客戶又不愿付高價,就容易陷入兩難境地。在這種情況下,唯一的壁壘就是精簡運營,做到最小化,一切都要緊湊高效,不容有任何浪費。

唐小引:首先得保證活下去?

肖涵:不僅是活下去,而是要確保組織內部的運營效率,這是唯一的壁壘。對于 MaaS 公司來說,面對上游無法獲得理想價格、下游客戶不愿支付的情況,唯一的解決辦法就是優化運營。

唐小引:那這個生意很難做。

肖涵:確實很難做。市場也會遵循 80/20 法則。如果模型可以更快速地下載到本地或減少延遲,這對國內客戶有吸引力。但最終市場仍會由一兩家巨頭主導,DeepSeek 目前可能已經占據了這個位置。

唐小引:做模型有護城河嗎?

肖涵:護城河是相對且短暫的。Sam Altman 曾經堅信 OpenAI 自己有堅固的護城河,并警告其他公司不要與之競爭。但事實證明,OpenAI 的護城河也并不堅不可摧。相反,像 Anthropic 通過差異化發展,在代碼能力上找到了一條成功之路。雖然 Claude 是通用模型,但其 90% 的用戶主要用它來生成代碼,因此他們不斷強化這方面的能力,最終讓 Claude 成為編程領域的領先工具。

劉廣:從應用角度來看,之前我們主要從 2C 角度討論應用,但 2B 領域的應用影響同樣巨大。我們曾與一些企業合作,發現許多公司希望進行私有化部署和定制化模型,比如預訓練或微調,但往往面臨一個核心問題——數據并不適合直接用于模型訓練。

雖然企業掌握著海量數據,比如 PDF 文件、截圖、照片等,但這些數據通常無法直接用于訓練,而很多企業并不清楚什么樣的數據才合適。因此,國外有不少公司專門提供數據治理和處理服務,以優化模型訓練。在 2B 領域,對數據治理和數據處理的需求非常旺盛,國內也在加速推進這方面的建設,比如國家成立數據局,推動數據要素市場的發展。

從市場角度來看,私有化部署的需求正在快速增長,未來誰能解決數據處理和治理問題,誰就能在這一市場占據先機。

唐小引:如果專攻 2B 領域走私有化部署的路線,但數據無法直接利用,這條路該怎么走?

劉廣:許多公司確實對如何利用大模型感到困惑,也不清楚數據該如何處理。目前,一些大型互聯網公司可能已經掌握了完整的流程,但對于許多傳統企業來說,這仍然是一個陌生領域,尤其是在數據處理和模型私有化部署方面,仍然需要大量的知識普及。

如今,DeepSeek 的出現進一步沖擊了這一市場。許多企業開始認為,直接使用 DeepSeek 可能就能滿足需求,甚至無需額外的微調和訓練。

唐小引:DeepSeek 能滿足 2B 領域的需求嗎?

肖涵:最近與國內一些客戶交流時,我發現 DeepSeek 一經推出,許多公司迅速將原有模型替換,甚至將“上 DeepSeek”作為業務指標,成為領導層匯報的重要內容之一。

對于私有化部署,我建議企業將其作為長期目標,而非短期任務。若一開始就急于推進私有化部署,往往會陷入復雜的技術和管理困境,導致項目延誤數月。私有化部署涉及設備采購、內部網絡環境配置等諸多問題,尤其對外部 B2B 銷售而言,客戶的內部 IT 環境具有高度不確定性,增加了實施難度。

因此,在驗證可行性時,建議優先使用 API,即 MaaS 服務。DeepSeek 提供的 API 適用于快速原型驗證,無需微調,只需將數據輸入上下文窗口,通過 Prompt 進行學習。在這一過程中,企業可以明確問題所在——是模型生成質量欠佳,還是成本過高,或是其他因素。如果這些問題無法通過私有化部署有效解決,那么就需要重新評估其必要性。私有化并非萬能方案,除非在技術或業務層面有足夠的創新支撐,否則貿然推進可能得不償失。

現實來看,私有化部署確實是一個迫切需求。企業往往希望數據嚴格留在內部網絡,不經過外網傳輸。然而,現在是否就該推進 DeepSeek R1 的完全私有化部署?我認為,考慮到技術更新速度極快,這一決策需要謹慎。比如,未來 OpenSeek 可能會成為更優選擇,屆時你可能會發現當前部署的版本已不再適用,導致資源浪費。

與此同時,私有化部署還面臨諸多挑戰。首先,企業需要構建支持多租戶的系統,以滿足不同部門的計算需求,并妥善管理 token 統計等問題。目前雖然可以搭建一個綜合系統,但前提是企業需投入高昂成本購置 A100 等硬件。其次,如何在這些設備上高效運行最先進的推理技術也是一大難題。當前許多廠商開始推出軟硬一體機,打包硬件與優化后的軟件一起銷售,以降低部署和運維的復雜度。

唐小引:這會成為未來的主要方向嗎?還是只是曇花一現?

肖涵:目前市面上有很多 AI PC,購買電腦時,DeepSeek 等軟件可能會捆綁一起。

唐小引:聽起來有些像是泡沫?

肖涵:這可以看作是一種趨勢,但能否長期持續還有待觀察??偟膩砜?,DeepSeek 公開了模型推理成本和利潤的細節,我們也在探討 API 接口是否會推動價格下降。技術層面,MoE(專家混合)是否會成為行業的必選方案?這一點仍然存在不確定性。

劉廣:模型訓練成本將逐步降低。目前,行業的重點是數據收集和大規模數據集的構建,并在驗證過程中進行模型訓練。隨著訓練成本下降,中小企業將有更多機會負擔得起模型訓練費用,促進技術的普及。過去,高昂的訓練成本使許多中小企業無法進行預訓練,但一旦門檻降低,他們將能夠加入競爭,從而推動整個生態進入良性循環。

唐小引:DeepSeek 的開源透明度能幫助中小企業嗎?

劉廣:目前或許還不行,但這確實是一個值得期待的趨勢。未來隨著訓練效率的提升和技術進步,成本將大幅下降,而類似“面壁 miniCPM”這樣的輕量級模型也會不斷優化,效果越來越好。

肖涵:企業在應用大模型時,除了訓練成本,還需考慮試錯成本和人才成本。并非所有企業都有能力復現 DeepSeek,關鍵在于人才儲備。DeepSeek 的招聘標準極高,而市場上具備預訓練能力的人才本就稀缺。許多博士生的工作重點往往是微調,而非從零搭建預訓練模型。因此,真正能夠主導預訓練的專家屈指可數,這也使得大規模自主研發難度更大。

唐小引:但此前 Ilya Sutskever 很明確地提出了“預訓練時代已經結束”。

肖涵:預訓練的核心在于追求頂尖效果,普通的預訓練模型往往缺乏競爭力,與其投入資源訓練平庸的模型,不如等待別人推出更先進的開源模型。因此,盡管有人認為微調已過時,但在特定場景下,它仍然不可或缺,尤其是針對高度私有或結構化的數據。例如,通用模型在公有數據上的表現優異,但面對企業的專有數據,往往難以達到理想效果,此時微調便成為提升模型適用性的關鍵手段。

唐小引:DeepSeek 流行后,有些人建議不要急于做微調。那領域問題如何解決?

劉廣:領域模型的挑戰在于數據準備。比如醫療、金融行業,數據的隱私保護非常嚴格,導致領域數據無法流通,這使得領域模型很難進展。

我們提出了“Data Agent”概念,利用大模型的能力構建自動化的數據處理系統,幫助從領域內挖掘數據并轉換為訓練數據。當前我們正在推進這一構想,并計劃在今年下半年取得一些成果。

肖涵:領域數據的微調并非只是將數據灌入模型,關鍵在于數據配比。比如,金融領域的數據與通識數據的比例很重要。我們使用合成數據來實現精細化配比,這種方法對小模型的應用尤為重要,能夠幫助我們更好地發揮模型的潛力。


大力出奇跡的大模型法則依然成立還是已走向終點?

唐小引:馬斯克推出的 Grok 3,給人的第一印象就是“豪橫”——憑借 20 萬張 GPU 堆出的模型,在數學、科學和編程等基準測試中,超越了 Google 的 Gemini Flash Thinking、DeepSeek V3、Claude,以及 OpenAI GPT-4o。這一成績讓不少人驚嘆:“Scaling Law 依然成立,大力出奇跡?!?/strong>

然而,僅僅十天后,OpenAI 發布了史上規模最大的 AI 模型 GPT-4.5,輿論風向卻截然不同。許多人質疑它成本高昂,但基準測試的提升并不顯著,甚至顯得平平無奇。于是,關于 AI 發展的核心命題再次浮現:“大力出奇跡”這條路究竟還能走多遠?還是已經逼近極限?

劉廣:我認為 Scaling Law 仍然有效。從結果來看,在投入大量算力、數據和資金后,模型能力的確有了提升,正如 Grok 3 的表現確實比 DeepSeek V3 更強。如果這些資源投入后,模型沒有明顯提升,那才表明 Scaling Law 可能失效了。

至于 Grok 3,其算力投入確實巨大。盡管馬斯克曾提到要開源,但目前我們還不了解其具體的模型架構。如果繼續沿用 Grok-1 的思路,極有可能是類似 Mistral 架構的大型 MoE(混合專家)模型,且每個 Expert 的規??赡芊浅4蟆6?DeepSeek 的策略則側重小粒度 Expert,強調效率。因此,從成本和算力利用率的角度來看,DeepSeek 的方案可能更為高效。Grok 3 顯然沒有考慮這些優化,依靠龐大的算力走的是“暴力美學”的路線。這種方式的優勢在于,充足的算力使得模型可以快速試驗和迭代,模型的規模不斷擴大,能力也確實得到提升。他們可能會繼續沿著這條路探索,直到達到極限。

OpenAI 的情況可能有所不同。他們的目標似乎是打造“情商模型”,更加注重情感理解、陪伴交互,甚至更細致的情感分析。因此,GPT-4.5 可能只是一個過渡版本,或者他們的整體方向與我們的假設有所不同。

至于 OpenAI 是否已經遇到了 Scaling Law 的瓶頸,目前尚不清楚。如果真的遇到了瓶頸,他們可能會重新思考效率、模型結構、數據等方面的問題,尋找新的突破。數據問題尤其關鍵。高質量的數據是有限的,合成數據是否能夠有效支持 Scaling Law 的延續?據說 GPT-4o 的大量訓練數據為合成數據,這可能有助于解決問題,但數據的多樣性仍然是一個挑戰。如果數據問題突破,且數據規模能夠無限增長,那么 Scaling Law 或許能夠繼續保持有效。

除外之外,對于算力的擴展,這在一定程度上是可預見的。只要新芯片不斷推出,網絡規模不斷擴大,從 20 萬張 GPU 擴展到 200 萬、2000 萬,甚至 2 億張,理論上 Scaling Law 仍然成立。但問題在于,成本會極為高昂。到那個階段,只有少數資源雄厚的企業才能承擔得起。

因此,未來可能會出現兩種發展路線:

1. 少數頂級企業繼續堆砌算力,追求極致的模型。

2. 大多數企業則選擇小模型路線,可能通過知識蒸餾將大模型的能力壓縮到小模型中,使其變得越來越強大。

最終,AI 的發展可能會沿著這兩條路徑分化。

肖涵:站在做小模型的角度來看,我一直認為小模型的能力會不斷提升,而大模型的能力一定會遇到瓶頸。大模型之所以會遇到瓶頸,不是因為無法繼續擴展或提升,而是因為 ROI(投資回報率)變得非常低,投入大量成本,最后的提升可能只是幾百分點,這種游戲不是所有公司都能承受得起。

相反,像測試時間計算(test time compute)和推理時間(inference time)等方面,并不一定有業界說的那么好,而是因為大家之前過于關注預訓練和 Scaling Law,忽視了推理時間和測試時間的潛力。事實上,針對這些領域,有很多現成的、簡單可得的成果,輕松就能收獲大回報。對于我們這種小公司來說,我們更務實,關注的并不是大模型的 Scaling Law 是否會“撞墻”,而是更專注于提升小模型本身的性能。

如果用今天的 3B 模型與三年前的 3B 模型相比,很多人會發現,今天的 3B 模型相當于當時的 11B 模型,這是為什么?

我總是用內燃機汽車的發展歷程作為比喻?,F在的小米 SU7 Ultra 已經有 1000 多馬力,而幾十年前,這種動力可能難以想象。回看 1920 年代,寶馬就已經開始制造八缸發動機,并把它放到車里。雖然現在的車比過去要大一些,但并沒有夸張到無法上路,發動機艙依舊差不多大,而今天,我們能夠在這些艙內放進更強勁的發動機。

這其實和模型的發展很相似:在不改變模型的大小、尺寸、參數量的情況下,隨著訓練技術的精準性提升,梯度優化、Early Stop、Grokking 技術、Budget Forcing 等手段的提升,以及高質量數據的不斷積累,我們可以在有限的參數下極大地提高訓練效率。這一直是我們堅信的方向。我們不考慮大于 2B 模型的擴展,而是專注于 2B 以下的模型,探索如何在特定領域和任務中比如搜索、推理、重排、數據清理等方面達到優秀的效果。這是我們公司對 Scaling Law 的理解。甚至我們還發布了一個關于 Embedding 模型的 Scaling Law 圖,非常驕傲地分享了出來,結果發現沒什么人關注。這就是小公司常有的現象,慢慢就習慣了。

唐小引:在眾多大模型中,Google Gemini 似乎顯得較為低調?

肖涵:我們一直在使用 Gemini 2.0 Flash 版本,體驗非常不錯,速度極快。在企業端 API 領域,它的價格極具競爭力,甚至讓人覺得它在大廠中的定位有些類似于 DeepSeek——價格相對親民,同時在速度和準確性方面表現優秀,精準地抓住了幾個關鍵點。

許多人可能忽視了大模型的一個重要需求——結構化輸出。除了代碼生成、圖像生成、詩歌創作和深度思考等功能外,市場對 JSON 格式輸出的需求已經成為剛需。如果某個大模型能在這方面做到極致,那無疑是一條突圍之路。而 Flash 版本在這方面表現出色,價格合理,速度也很快。

此外,Google 大模型有多個版本,比如 Google AI Studio 和 Vertex AI,二者在性能上有所不同。Gemini Studio 版本的 SLA(服務水平協議)保障率較低,偶爾會有延遲;而 Vertex AI 版本則非常穩定,特別適合企業級應用。Google 在多模態方面的投入也令人驚艷。例如,在發布會上,他們直接用攝像頭錄制屏幕,Gemini 能夠實時分析并提供操作指導。這種真正的多模態能力不僅是單向的,而是雙向的,甚至可以多模態輸出,展現出了強大的能力。

至于 Gemini 相對低調的原因,可能在于市場熱度的分配。例如,Anthropic 發布 Claude 3.5 時,程序員社區的反應非常熱烈,而 OpenAI 本身就擁有一批忠實粉絲。相比之下,Google 雖然在持續發力,但關注度似乎沒那么高。值得注意的是,Google 最近挖來了 Hugging Face 創始團隊成員之一 Philipp Schmid,并讓他負責 Gemini 的開發者關系,這表明他們正加速布局開發者生態。

劉廣:Gemini 的一大亮點在于長文檔處理能力。發布時,它展示了一個令人驚艷的 Demo——直接輸入一個小時的視頻,Gemini 不僅能給出詳細的描述,還能精準定位到每一幀。這種能力在多模態數據標注方面極具價值,我了解到不少團隊已經在使用 Gemini 進行這類任務,并取得了顯著效果。

肖涵:長窗口是 Gemini 早期就讓人印象深刻的特性。最初它宣稱支持 100 萬 token 的窗口,引發熱議,結果第二天又傳出還有一個 10 Million token 版本尚未發布。許多人認為 RAG(檢索增強生成) 在搜索領域已經逐漸過時,而我在進行 Deep Search 研究時,確實也沒有用到向量化或向量數據庫。為什么?因為 Gemini 的窗口足夠長,基本不用擔心超出 100 萬 token 的限制。尤其是在深度搜索時,由于是迭代式檢索,新信息會不斷填充窗口,隨后進行總結、歸納或推理,再進一步檢索。只要窗口空間足夠大,基本上就能得到所需答案。

在長上下文(Long Context)方面,我們看到了一場技術變革,它可能徹底改變搜索領域的格局。過去,很多搜索技術棧和理念可能已經不再適用,比如 Embedding 的作用。在實踐中,我們發現 Embedding 主要被用作去重工具,而非召回手段。因此,我們在思考,如果 Embedding 在長上下文環境下的主要用途是去重,而非搜索召回,那么優化 STS(Sentence Semantic Similarity)任務的優先級就要提高,而不是繼續圍繞異構搜索展開優化。

唐小引:有哪些技術棧已經過時了?

肖涵:不能說完全過時,但有些變化是很明顯的。

首先,長窗口(long context)是必不可少的。過去很多人覺得它只是個實驗性特性,但現在我們發現,從端到端的應用來看,它確實很有用。

其次,Query Rewrite 變得越來越重要。其實 Query Rewrite 并不新鮮,早在三四十年前的 NLP 研究中就有人提出。但過去的 Query Rewrite 只是簡單的關鍵詞轉換,而現在我們可以用大模型蒸餾小模型來進行重寫。具體核心是挖掘用戶的深層意圖,甚至是他們自己沒有意識到的需求。我們需要提煉出這些隱藏意圖,即使用戶明確表示“不想看某些內容”,但如果對他們有幫助,我們仍然要把這些內容呈現給他們。Query Rewrite 的關鍵就是確保搜索結果真正符合用戶的潛在需求,而不僅僅是表面需求。

唐小引:你們為什么要做這些改進?

肖涵:因為我們在做 Deep Search。傳統的關鍵詞搜索已經無法滿足用戶需求,大家需要更深入的內容,類似 DeepSeek 追求的 “AHA Moment”(頓悟時刻)。所以,我們必須把 Query 這一環做得更精準、更深度。

至于向量數據庫,我不過多評論,它可能還是有用的。

不過,Agent Framework 這一塊倒是值得討論。2023 年,Agent Framework 和 LLM Framework 非?;?,如 LlamaIndex、LangChain、LLMOps 等,它們的作用是幫助快速構建基于 LLM 的應用,尤其是在 RAG 范式穩定的情況下,它們能固化這個范式,提高開發效率。

但是,當 DeepSeek R1 這樣的推理模型出現后,RAG 范式就被顛覆了。這些框架需要在保留 RAG 兼容性的同時,快速適應新的推理搜索范式,但這個過程會很慢。因此,我認為當前搜索領域的新范式是“帶推理的深搜索”(Deep Search with Reasoning),在這個模式下,傳統的 RAG 并不那么高效。

唐小引:Claude 3.7 和 Claude Code 都是基于 Agentic Search,沒有用 RAG,之前炙手可熱的技術棧現在有哪些被刷新了?

肖涵:我們內部也在思考這個問題。

首先,Embedding 和 Reranking 這些模型的用途可能和我們最初設想的不同?,F在,很多人直接用大模型做召回,甚至回歸到關鍵詞搜索。關鍵詞搜索速度快,成本低,然后把結果交給大模型,由大模型來優化 precision 和 recall。

甚至 rerank 也可以交給大模型完成,比如當你有大量 URL 時,下一個應該訪問哪個?可以單獨用 rerank,也可以讓大模型通過內部推理來決定。這種模式對傳統搜索市場沖擊很大,讓許多不上不下的模型被大模型吞噬,而關鍵詞搜索(如 BM25、Elastic Search)反而變成剛需。

其次,evaluation(評測)變得越來越重要,甚至可以作為系統的一部分,而不僅僅是后期評測。

唐小引:大模型如何評估自己的幻覺問題?

肖涵:對于這個問題,我嘗試了兩種方法。

  • 方案 A:在輸出答案時,讓模型自己生成一個 confidence(置信度),告訴我們它對自己輸出內容的信心有多高。

  • 方案 B:讓另一個模型(可以是相同的模型,但 prompt 不同)作為評測者,專門評估前一個模型的回答是否存在幻覺。

我發現方案 B 的效果更好,即使是同一個模型,不同的角色設定就能產生不同的效果。這讓我意識到 evaluation 這一環有很多優化空間,甚至可以結合強化學習。在 test-time compute 時,我們可以讓 evaluator 先攔截輸出,檢查內容是否幻覺、過時或不完整,再決定是否繼續輸出。這種方法被稱為 Budget Forcing,即在輸出前強制等待片刻,反思一下答案質量,再繼續生成。

劉廣:關于長上下文的支持,現在有很多模型側的改進,比如 DeepSeek 提出的 NSA(Native Sparse Attention)。這種改進可以讓模型在訓練過程中處理超長上下文,同時訓練成本降低十倍以上。

推理時,可能也會有類似優化,比如固定的上下文窗口,甚至可以理論上支持無限長度的上下文。

同時,Kimi 也提出了 Mixture of Block Attention(MoBA)機制,這種機制從 Attention 結構本身優化長上下文的處理能力,效果可能更優。


Attention 機制的演進

唐小引:大數人入門大模型,基本都是從 Attention Is All You Need 這篇 Transformer 論文開始的。最近,DeepSeek(NSA)和 Kimi(MoBA)的論文“撞車”事件引發了廣泛討論,兩者都聚焦于稀疏注意力(Sparse Attention)機制,而此前 MiniMax 則是發表了線性注意力(Linear Attention)機制。

從這些趨勢可以看出,傳統的 Attention 機制正面臨挑戰。那么,當前 Attention 機制存在哪些問題?學術界和產業界又有哪些新的研究進展?

劉廣:當前 Attention 機制的核心問題在于算法復雜度太高了,直接導致模型的訓練成本昂貴,推理時顯存占用極大,尤其是 KV cache 的占用會隨著上下文長度的增加而迅速膨脹,顯存需求成倍增長,計算量也隨之增加。

因此,改進 Attention 機制的主要方向有兩個:

1. 讓 Attention 計算更稀疏化

現在的 Attention 計算方式很“密集”,不管一個 token 重要與否,都要計算一遍,導致計算效率低下。目前常用的計算方式是,Attention 計算并非均勻分配給所有 token,而是高度集中在少數關鍵 token 上。例如,StreamingLM 觀察到,第一個 token 的 Attention 權重往往占據主導地位。這一發現啟發了一種優化思路——如果僅保留 Attention 權重較高的 token,而減少低權重 token 的計算量,就能在保證生成質量的同時降低計算成本,并維持一定的連貫性和一致性。

基于這一思路,Sparse Attention 主要發展出三種優化方法:

  • 滑窗注意力(Sliding Attention):通過滑窗機制,將 token 劃分為局部窗口,僅計算相鄰 token 之間的 Attention 關系,減少整體計算量。

  • 選擇注意力(Selected Attention): 在超長上下文(如 16K token)中,僅計算部分關鍵 token 的 Attention,跳過低重要性的 token。

  • 壓縮注意力(Compressed Attention): 通過壓縮方法,將整個上下文濃縮到一個固定長度的窗口中,以減少計算開銷。

目前,NSA(Neural Sparse Attention)結合了上述方法,使計算更加高效,同時還能保持較好的生成效果。

2. SSM(狀態空間模型)

由于傳統 Attention 計算復雜度高,顯存占用大,因此業界探索了如何將其計算復雜度降低到線性級別,以減少計算量并降低推理成本。但這種優化存在一個典型的 trade-off:計算效率提升的同時,模型的表達能力可能會下降。

目前,研究線性 Attention 主要集中在狀態空間模型(SSM,State Space Models) 方向,例如 Mamba 和 RWKV。SSM 結構借鑒了 RNN,但也融合了 Transformer 的 Attention 機制和并行計算能力,形成了一種新的架構。其核心特點是:

  • 僅保留一個固定的 KV cache(或 state),作為記憶狀態。

  • 計算時只需更新狀態,而無需像傳統 Attention 那樣計算整個序列的 Attention 權重。

  • 由于 KV cache 是固定的,這種方式能有效降低訓練和推理的計算成本,并提高計算效率。

不過,目前的研究表明,SSM 仍然主要側重于提高計算效率,其性能在某些任務上可能仍與標準 Transformer 存在一定差距。

關于 NSA(Neural Sparse Attention),最讓我驚訝的是,它在減少計算量的同時,模型效果反而提升了。按理說,減少計算、壓縮信息通常會導致性能下降,但 NSA 通過選擇性地保留關鍵 token,有效降低了計算量,同時保持了模型對關鍵信息的建模能力。實驗結果顯示,loss 甚至更低,推理效果更好。

我們 OpenSeek 計劃嘗試復現 NSA 方法,看看它是否真的能在降低計算成本的同時,帶來更好的生成質量和推理效率。

唐小引:你們在復現 NSA?

劉廣:對,我們這邊有一些貢獻者在幫忙做這個事情,也在往這個方向努力。這其實是一個很有價值的嘗試。

唐小引:Attention 的演進方向,未來會進一步朝稀疏化發展嗎?

劉廣:目前來看,稀疏化是一種權衡(trade-off)。比如 MiniMax 提出的線性化 Attention,雖然在理論上可行,但實際應用很難做到,它也是一種 trade-off。線性化更偏向計算效率,而稀疏化則更關注效果。本質上,這像是在調整不同的閾值。完整的 self-attention 計算量最大,但效果最好;線性 Attention 計算量最小,但效果差距可能比較大;稀疏 Attention 介于兩者之間,試圖在效率和效果之間找到平衡。

不過,要同時做到這兩點,可能還需要新的架構突破,不是短時間能解決的。

肖涵:從工程角度看,我們對 Attention 的最大期待是提升顯存效率,尤其是在微調(fine-tuning)時,Attention 常常是個瓶頸。

比如我們的小模型 Reader 支持 512K 長文本窗口,如果直接用 Full Attention,顯存會“爆炸”,訓練時還要跟蹤梯度,占用更是翻倍,這和推理階段的需求完全不同。

所以,我們更希望像劉老師團隊把這個問題研究透了,告訴我們哪種方式更合適,我們就直接應用,不會在 Attention 機制上花太多額外精力。

另外,像 Mamba 和 RWKV 這樣的異構架構其實早已存在,尤其是 RWKV,早在三四年前就已開始發展,并進入基金會孵化。我記得 2022 年在西班牙瓦倫西亞開會時,Linux 基金會正式宣布 RWKV 進入孵化階段。

然而,異構架構的推廣取決于兩個關鍵因素:是否能在特定硬件上發揮最大性能,以及主流社區的支持度。目前,像 Mistral 和 Llama 這樣的社區活躍度很高,但它們并未采用這種架構,因此 RWKV 和 Mamba 的發展仍面臨一定阻力。盡管這一方向已經探索多年,至今仍缺乏明確的信號指引未來發展路徑。

如果回溯更早期的機器學習,稀疏化一直是重要概念。最初,計算是基于全量數據的,后來逐步引入稀疏化,例如 L1、L2 正則化等。早在 20 年前,機器學習就已在研究稀疏化,而今天看來,這一方向依然具有現實意義。

唐小引:Mamba 和 RWKV 這些架構,這幾年討論也很多。它們和 Transformer 的競爭態勢是怎樣的?

劉廣:從模型結構上看,RWKV 和 Mamba 的優勢在于流式處理,比如實時音頻、視頻,因為它們的 KV cache 占用很小,顯存開銷低。而 Transformer 結構在文本任務上仍然更強。

現在還有一個新方向——Diffusion LM,它的效率很高,不像 Transformer 那樣逐步生成,而是一次性生成 1000 個甚至更多個 token。這樣一來,未來的架構可能會呈現“百花齊放”的局面,各種模型結構都有它們的應用場景。

肖涵:Diffusion LM 真的很驚艷。比如用 Claude 生成代碼時,它是一行一行改,改起來很慢。但 Diffusion LM 一次性出完整代碼,然后再調整,這種體驗對開發者更友好。

其實 Diffusion 相關的研究很早就有了,Google DeepMind 之前用 Diffusion 生成音樂,但當時沒有結合歌詞?,F在 Diffusion LM 在文本領域的應用,確實是一個很有意思的創新點。

唐小引:除了架構,還有哪些新方向你們覺得值得關注,但可能還沒被行業足夠重視?

劉廣:數據。合成數據正在成為一個重要方向。

在多模態、具身智能、文本任務等領域,合成數據的應用越來越廣泛。許多團隊會用大模型生成數據,然后再把這些數據發布到網絡上,供后續模型訓練使用。現在抓取的網頁數據中,可能有很大一部分其實是模型自己生成的。

這對未來模型也帶來了一個挑戰:如何區分這些合成數據,并在預訓練過程中合理利用它們?

此外,具身智能領域也可以用模擬器合成數據,提升真實場景模擬的精度。在多模態檢索任務中,合成數據能幫助訓練更強的檢索模型。甚至在人臉識別等分類任務上,我們也可以用 Diffusion 模型合成大量高質量的人臉數據。

相比傳統的數據增強(data augmentation),合成數據的精準度更高,幾乎是“指哪打哪”,這可能會成為未來模型訓練的關鍵技術之一。

肖涵:確實,數據合成的價值已經超過了傳統的數據增強。過去的數據增強是隨機旋轉、翻轉、模糊等,現在完全可以直接生成符合需求的數據,提升數據質量和多樣性。我覺得未來這塊的發展會越來越快。


模型巨變進行時,程序員迎來怎么樣的挑戰與機遇?

唐小引:隨著首個混合推理模型 Claude 3.7 的發布,以及智能編碼工具 Claude Code 的推出,AI 代碼能力迎來了大幅躍升。國內也有類似的嘗試,如字節跳動 Trae 于近日在國內上線并接入了 DeepSeek,海外版接入 Claude。AI 代碼能力的提升,會加劇程序員的焦慮,還是帶來新機遇?DeepSeek 曾引發“技術平權”討論,如今 AI 編程也展現出類似趨勢——普通用戶借助 AI 就能實現創意,不再依賴程序員。這是否會催生新的創新爆發?而在編碼領域,相比 DeepSeek,Claude 是否更值得程序員關注?

肖涵:我每天使用的 AI 編程工具非常多,主要分為兩大類:

  • 第一類是 Copilot 類工具,比如 Cursor。這類工具本質上就是在編輯器里嵌入了一個 AI 助手,左側是代碼編輯器(Editor Window),右側是 AI 聊天窗口(AI Chat Window)。相比手動在瀏覽器中使用 AI 編程工具生成代碼再復制粘貼,Copilot 類工具減少了頻繁切換窗口的麻煩,讓整個編程體驗更加流暢。此外,像 Claude 或 DeepSeek 這樣的 AI 生成代碼時,通常會輸出完整代碼,而不是增量修改(diff),需要手動復制粘貼到編輯器中。而 Cursor、Windsurf 這類工具可以直接生成 diff,點擊“Accept”即可一鍵應用修改,幾百行代碼瞬間生成,大幅提升效率。我主要用 Copilot 來檢查代碼倉庫,查找 Bug 或優化空間,在這些場景下,這類工具非常好用。

  • 第二類是 Autopilot。我們目前在用的是 Devin——由 Scott Wu 在紐約創辦的初創公司 Cognition AI 開發的 AI 軟件工程師。它的使用體驗類似于在微信里給員工布置任務,對方執行后再反饋結果。區別在于,這里的“員工”是 AI,而整個任務執行過程是全自動的。我觀察過 Devin 的運行方式,它會在命令行、代碼窗口和瀏覽器之間不斷切換,并且在瀏覽器端具備一定的模態能力,能判斷何時該點擊哪個按鈕,以檢查前端效果。這正是 Autopilot 的核心——你只需要下達指令,半小時后,它就能交付一個完整的項目。

目前,這兩類工具我都在用,但我認為 AutoPilot 未來更有可能成為主流,它特別適合“萬事開頭難”的場景——當你有想法但不知道從何下手時,AutoPilot 能快速生成一個初步版本,為你提供可行的起點。當然,這類工具也有局限性,需要對多模態能力、大模型工具調用以及長文本處理的要求非常高。如果滿分 100 分,我會給當前的 AutoPilot 工具打 60 分。它生成的項目通常能作為新功能的基礎,其中 60% 的代碼可以直接運行,但仍然需要人工檢查,避免遺漏關鍵邏輯。從使用體驗來看,AutoPilot 更像是一個“能力不錯的實習生”,但成本更低,每月 500 美元,比雇傭實習生還劃算。

而 Copilot 也有其優勢,比如在修復 Bug 方面表現不錯,但在理解整個代碼庫時則顯得力不從心。我們 Jina AI 的代碼庫規模龐大,即使針對其中一個項目,AI 在解析代碼、優化性能或提供深入見解時仍然容易卡住。即便使用 Claude 3.7,在分析到一定深度后,依然會遇到瓶頸。

隨著 AI 編程能力的提升,用戶的期待也大幅提高。如果說一年前,AI 隨便生成一個貪吃蛇游戲就足以讓人驚嘆,那么現在,人們更希望它能解決更復雜的代碼問題,比如優化老代碼、理解業務邏輯,甚至給出自己的見解,指出代碼中的不合理之處。然而,在這些方面,AI 仍然有待提升。

我一直關注阿里的通義千問團隊,他們在每次發布新的編碼模型時,都會用 SVG 矢量圖生成來測試 AI,比如讓它畫小豬、小象,以檢驗生成的精準度。這種測試方法非常巧妙,表面上看是代碼生成,實際上考驗的是 AI 對幾何關系的理解、長文本的處理能力以及代碼生成的準確性。

SVG 代碼看似簡單,但涉及坐標計算,tokenizer 處理后會形成很長的字符串,實際上對大模型是個不小的挑戰。我也嘗試讓 AI 優化 SVG,比如讓 Claude 3.7 處理 Jina AI 的 Logo,生成一個漂亮的 SVG 動畫,結果它折騰半天,只讓球彈了一下就結束了……不管是 Claude 3.7 還是 DeepSeek,在代碼能力上都還有很大的提升空間。

不過,盡管存在這些不足,我們依然對 AI 編程充滿期待。畢竟,去年 AI 營收最后的公司都是做代碼相關的,如 Vercel、Cursor、Windsurf、Devin 等。

唐小引:是的,此前 Babel 創始人兼 CEO 張海龍也曾評價過,「AI 編程是第一個真正經過 PMF(產品市場契合度)驗證的應用場景,所以能出圈」。

肖涵:沒錯。

唐小引:Claude 現在把編程能力作為核心升級方向,是因為 AI 編程更容易實現、已經驗證過市場價值,還是為了做差異化競爭?

肖涵:我認為這完全取決于市場反饋和 PMF。去年 AI 編程工具的爆發,幾乎讓 Anthropic 成了最大贏家,因此 Claude 選擇專攻這個方向是有道理的。

說到底,有多少人會真的用大模型寫詩、畫畫、陶冶情操?大多數用戶更關心 AI 如何提高生產力,而編程恰恰是最直接、最具可衡量性的生產力工具。代碼的好壞可以通過編譯、運行、單元測試來驗證,而像視頻生成、文創內容的評判標準更模糊,往往需要人工干預。因此,在 AI 還處于發展期時,編程無疑是最現實、最能變現的突破口。

劉廣:代碼模型其實還有個很有意思的研究方向——它可能成為通往 AGI 的一條路徑。

類似于具身智能領域的“終身學習”概念,代碼模型也在不斷習得新技能、積累經驗并提升能力。在 Minecraft(我的世界)這款游戲中,研究人員通過代碼模型組合已有技能,形成新的能力,比如合成材料、建造房屋。一旦成功,這些技能就會被存儲,逐步形成一個技能庫。代碼模型的成長路徑也是如此——通過持續學習和進化,它能夠完成的任務將越來越多。

隨著 Claude 3.7 這樣的代碼模型不斷進化,代碼技能庫的規模也將大幅擴展。我曾與實習生探討過一個設想:如果我們能整合全球所有代碼工具,構建一個包含一千萬種工具的龐大庫,那么 AI 是否就能勝任幾乎任何編程任務?如果在此基礎上不斷構建和拓展代碼技能庫,最終是否可能孕育出 AGI?

肖涵:劉老師這個觀點很好。人類文明的發展離不開工具,而代碼模型正在學習如何使用工具、調用工具,以及在什么場景下調用。一旦掌握了這些,或許在 AI 的定義里,AGI 就實現了。Anthropic 推出 MCP(Model Context Protocol,模型上下文協議),其實就是各種代碼工具的調用規范,目的也是讓 AI 更好地使用工具。

不過,最近他們展示的“AI 通關寶可夢”的案例,我覺得不太能說明問題。玩過寶可夢的人都知道,這個游戲本身很簡單,通關不需要復雜的策略,戰斗基本上平 A 就行。他們說模型學會了工具調用,但實際上,Prompt 設計很簡單,只是告訴它前面有個類似 Game Boy 的設備,可以選擇按 A、B、X、Y、上下左右等鍵,再結合多模態能力操作游戲。

真正的工具調用,尤其是結合編程能力的調用,遠比這復雜。甚至,當現有工具不夠用時,AI 需要自己編寫代碼,把工具封裝進來。這種能力,或許才是通向大模型最終智能的關鍵。說到這里,我覺得做虛擬機方面的人應該會很火。

唐小引:為什么是虛擬機?

肖涵:因為工具調用一定是沙盒化的,不可能直接跑在本機上。它需要能快速啟動一個輕量級的 Linux 內核,在虛擬機里執行任務,跑完后再輸出結果。虛擬機本身就是一個沙盒環境。

唐小引:已經開始火了,還是即將火?

肖涵:現在有不少人在做,類似 Docker,但會比 Docker 更輕量化。

唐小引:正如肖老師提到的,大多數人對大模型的期待不是用它來寫詩、畫畫,而是提升生產力,甚至在具身智能領域,幫人類解決那些臟活累活。那么,具身智能有什么新的進展?

劉廣:具身智能領域正迎來機器人熱潮,人形機器人成為各大企業競相探索的方向。然而,以往的做法更偏向自動化,即通過預設編碼固定機器人的動作,一旦場景發生變化,機器人往往難以適應,泛化能力較弱。

但今年春節期間,Figure 02 采用了 VLA 模型——即大模型與多個小模型的組合,這種架構顯著提升了機器人的泛化能力,使其能夠執行更多不同的操作。因此,當前業內的趨勢正是通過 VLA 模型增強機器人在復雜環境中的適應性。

與此同時,國內宇樹科技近期也推出了一款能跳舞的機器人,甚至登上了春晚舞臺,不僅能完成 360 度旋轉,還能表演中國功夫,精準模擬人的全身動作。這類全身運動的學習能力意味著,一旦掌握一個動作,就能泛化到更多動作。如果構建一個豐富的動作庫,機器人將能不斷提升泛化能力。

整體來看,行業的方法論正在從傳統的自動化控制逐步向基于模型的方法轉變,讓機器人具備更強的學習與適應能力。

關于《萬有引力》:

這是由 CSDN&《新程序員》執行總編唐小引主理的對話欄目。技術趨勢多變,一不留神總擔心錯過。正在發生的技術事件,對于我們開發者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術真相。

  • 欄目定位:一檔面向開發者群體,聚焦解讀技術事件的對話直播欄目。

  • 直播觀看平臺:CSDN 視頻號、CSDN 網站&App

  • 多形式:文章、視頻、音頻都會有,持續關注 CSDN 公眾號都可獲取。目前《萬有引力》欄目已上線小宇宙平臺,歡迎大家關注!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本簽證不同領區鄙視鏈?上海贏麻了……

日本簽證不同領區鄙視鏈?上海贏麻了……

日本物語
2025-03-20 21:33:14
女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

阿胡
2024-06-16 11:06:11
以色列空襲伊朗首都!伊軍防空系統疑無反應,F35實施臨空轟炸?

以色列空襲伊朗首都!伊軍防空系統疑無反應,F35實施臨空轟炸?

儒雅隨和老泰勒
2025-06-13 09:24:58
痛別!廈門大學發布訃告

痛別!廈門大學發布訃告

極目新聞
2025-06-14 11:02:44
吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

動物奇奇怪怪
2025-06-13 03:07:33
特朗普稱中美已達成協議,將對華征收55%關稅,商務部回應

特朗普稱中美已達成協議,將對華征收55%關稅,商務部回應

中國能源網
2025-06-13 15:09:09
伊朗放話:已越過所有紅線,對以色列采取“無限制”報復!跡象表明,以色列的襲擊未能突破伊朗核設施的保護層

伊朗放話:已越過所有紅線,對以色列采取“無限制”報復!跡象表明,以色列的襲擊未能突破伊朗核設施的保護層

和訊網
2025-06-13 15:53:32
大部分女性,其實骨子里面,是希望男人牽引著自己走的

大部分女性,其實骨子里面,是希望男人牽引著自己走的

加油丁小文
2025-06-07 07:00:03
知名機器人公司被終止上市,4年巨虧近20億元!背后“美女大佬”旗下兩家上市公司已被“*ST”

知名機器人公司被終止上市,4年巨虧近20億元!背后“美女大佬”旗下兩家上市公司已被“*ST”

每日經濟新聞
2025-06-14 08:37:11
3個女兒出嫁后從不回娘家,老兩口賭氣去旅游,一年后回家愣住了

3個女兒出嫁后從不回娘家,老兩口賭氣去旅游,一年后回家愣住了

秋風專欄
2025-06-12 11:33:49
身價上億的韋神,突然變了!

身價上億的韋神,突然變了!

灰產圈
2025-06-14 00:15:31
臺風“蝴蝶”中午前后將二次登陸!湛江海灣大橋等已封閉管控

臺風“蝴蝶”中午前后將二次登陸!湛江海灣大橋等已封閉管控

南方都市報
2025-06-14 10:15:07
219元,小米剛出的新品我真喜歡!

219元,小米剛出的新品我真喜歡!

手機評測室
2025-06-14 11:49:53
俄羅斯凌晨突然“開核”,8架核轟直撲基輔,戰局突變

俄羅斯凌晨突然“開核”,8架核轟直撲基輔,戰局突變

一個有靈魂的作者
2025-06-11 13:10:35
印尼被扣3分,1-0不算數,國足天上掉餡餅?做夢吧,真相曝光

印尼被扣3分,1-0不算數,國足天上掉餡餅?做夢吧,真相曝光

體育就你秀
2025-06-13 11:26:05
日本夜市上撈金魚用的“坑人網”,竟意外走紅醫學圈!

日本夜市上撈金魚用的“坑人網”,竟意外走紅醫學圈!

日本窗
2025-06-13 16:43:12
73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

趣文說娛
2025-06-13 12:02:01
42歲草帽姐確診絕癥,在醫院被要求捐款,崩潰大哭:我都快死了

42歲草帽姐確診絕癥,在醫院被要求捐款,崩潰大哭:我都快死了

簡讀視覺
2025-06-12 12:07:50
穆斯卡特談蒯紀聞、王鈺棟:單方面將兩人拎出來比較沒什么意義

穆斯卡特談蒯紀聞、王鈺棟:單方面將兩人拎出來比較沒什么意義

直播吧
2025-06-13 17:52:02
大英徹底日落了,英國迎來屈辱時刻,2300個島嶼拱手讓人

大英徹底日落了,英國迎來屈辱時刻,2300個島嶼拱手讓人

遠方風林
2025-06-05 10:37:50
2025-06-14 12:39:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

親子
本地
藝術
公開課
軍事航空

親子要聞

寶寶害怕吃藥怎么辦?爸爸傳授的冷靜

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武清区| 洪雅县| 汤阴县| 伊宁县| 安丘市| 焦作市| 泗阳县| 新民市| 漾濞| 宝兴县| 竹山县| 溧阳市| 鸡泽县| 白玉县| 海淀区| 托克逊县| 陆丰市| 太仆寺旗| 资阳市| 峨边| 成武县| 临沧市| 麻阳| 大庆市| 昌邑市| 平舆县| 临武县| 文安县| 南靖县| 邵东县| 新乡市| 罗源县| 南靖县| 通化县| 通榆县| 库尔勒市| 弥勒县| 平度市| 长泰县| 伊通| 呼玛县|