網易首頁 > 網易號 > 正文申請入駐

震撼登場！AI不再需要"家教"，自信心竟成了最佳老師

2025-06-17 20:54:59　來源: 至頂頭條

北京舉報

分享至

這項令人興奮的研究由俄羅斯莫斯科人工智能研究所（AIRI）和莫斯科物理技術學院（Skoltech）的研究團隊共同完成，論文的主要作者包括李鵬毅（Pengyi Li）、馬特維·斯克里普金（Matvey Skripkin）、亞歷山大·祖布雷（Alexander Zubrey）、安德烈·庫茲涅佐夫（Andrey Kuznetsov）和伊萬·奧塞列德茨（Ivan Oseledets）。這項突破性研究發表于2025年6月11日的arXiv預印本平臺，編號為arXiv:2506.06395v3，感興趣的讀者可以通過該編號在arXiv官網上查閱完整論文內容。

想象一下，如果一個學生能夠通過觀察自己答題時的自信程度來不斷改進學習效果，不需要老師批改作業，不需要標準答案，甚至不需要任何外部指導，這聽起來是不是很神奇？莫斯科研究團隊最新發現的人工智能訓練方法就是基于這樣一個令人驚訝的原理——讓AI模型通過分析自己回答問題時的"自信心"來自我改進。

這項研究解決了一個長期困擾AI研究者的重要問題：如何在沒有大量人工標注數據、沒有昂貴的外部獎勵模型、也沒有復雜的獎勵設計的情況下，讓大型語言模型變得更加聰明。就像一個優秀的學生能夠通過自我反思來提高成績一樣，研究團隊開發的"基于自信心的強化學習"方法（簡稱RLSC）讓AI模型學會了從自己的"內心聲音"中獲得改進的動力。

研究團隊選擇了數學推理這個極具挑戰性的領域來驗證他們的方法。他們使用了一個名為Qwen2.5-Math-7B的數學專用AI模型作為測試對象，這個模型就像一個專門擅長數學的學生。令人驚訝的是，僅僅通過讓模型對每個問題生成16個候選答案，然后訓練10到20個步驟，這種基于自信心的方法就讓模型在多個數學競賽測試中取得了顯著的成績提升。

具體的改進效果簡直令人刮目相看。在美國數學邀請賽AIME2024中，準確率提升了13.4個百分點；在MATH500數學測試中，提升了21.2個百分點；在礦工數學（Minerva Math）測試中，提升了21.7個百分點；在奧林匹克數學競賽（Olympiadbench）中，提升了20.8個百分點；在AMC23數學競賽中，也有9.7個百分點的提升。這些數字背后代表的是AI模型解決復雜數學問題能力的大幅躍升。

更令人興奮的是，這種方法的資源消耗極低，訓練過程既簡單又高效。整個訓練過程就像教會一個學生通過自我評估來改進學習方法，而不需要請昂貴的家教或購買大量的練習冊。這為未來AI模型的訓練開辟了一條全新的道路，特別是對那些計算資源有限的研究機構和公司來說，這無疑是一個重大福音。

一、從投票到自信：AI學習的新思路

傳統的AI訓練方法就像是讓一群專家投票決定正確答案。比如，當AI遇到一個數學問題時，研究者們會讓它生成64個不同的答案，然后通過"少數服從多數"的方式選出最可能正確的答案，再用這個"偽標準答案"來訓練模型。這種被稱為"測試時強化學習"（TTRL）的方法雖然有效，但就像組織一場大規模投票一樣，需要消耗大量的計算資源，而且還需要復雜的預處理步驟來分離答案和推理過程。

莫斯科研究團隊的科學家們開始思考一個深層問題：投票機制背后的核心原理究竟是什么？他們意識到，投票實際上是在尋找輸出分布的"眾數"——也就是最常出現的答案。當多個獨立的回答趨向一致時，實際上是在讓概率分布變得更加"尖銳"，就像把原本分散的注意力集中到一個焦點上。

這個洞察啟發了他們提出一個革命性的想法：與其通過外部投票來選擇答案，為什么不直接讓模型內部的概率分布變得更加集中和自信呢？這就好比不再依賴他人的意見來判斷自己的答案是否正確，而是培養內在的判斷能力和自信心。

研究團隊用數學公式精確地描述了這個想法。他們定義了一個"自信心函數"，用來衡量兩個獨立樣本產生相同結果的概率。當這個概率越高時，說明模型的輸出越穩定、越自信。這個函數在數學上表現為所有可能輸出的概率的平方和，當模型對某個答案極度自信時，這個函數會達到最大值。

基于這個數學基礎，他們提出了直接優化自信心的目標函數。這個函數不需要外部標簽，不需要人工標注，也不需要復雜的獎勵工程，完全依賴模型自身的信念分布作為反饋信號。這就像教會學生通過感受自己解題時的確定程度來判斷答案的可靠性，而不是總是依賴老師的批改。

二、數學魔法：讓AI學會自我評估

要理解這個方法的數學原理，我們可以把它想象成一個簡單的烹飪類比。假設你正在學習做菜，每次做完一道菜后，你都能感受到自己對這道菜質量的自信程度。如果你對自己的手藝很有把握，你會毫不猶豫地給朋友品嘗；如果心里沒底，你可能會猶豫再三。

在AI的世界里，"自信程度"就是模型對其輸出的概率估計。當模型生成一個答案時，它同時也會給出這個答案的"可信度評分"。研究團隊發現，通過讓模型專注于提高那些它自己認為最可靠的答案的概率，就能夠顯著改善整體性能。

具體的訓練過程就像一個自我改進的循環。首先，研究團隊會保留一個"快照"版本的模型，就像給學生拍一張當前水平的照片。然后，讓這個快照版本對問題生成多個答案，并評估每個答案的可信度。接下來，訓練當前版本的模型，讓它更多地關注那些快照版本認為最可信的答案。

這個過程的巧妙之處在于，它不需要知道"標準答案"是什么。就像一個學生通過反復練習和自我反思來提高解題能力，模型通過不斷調整自己的輸出分布來變得更加自信和準確。研究團隊還引入了一個"平滑參數"，就像在嚴格的自我要求中加入一些寬容，防止模型變得過于固執。

為了讓這個方法更加穩定，研究團隊還開發了一個改進版本。他們在原始的自信度評分基礎上加入了一個小的常數，就像在嚴格的自我評估中加入一些溫和的鼓勵。這種微調讓訓練過程更加平穩，特別是當模型的輸出分布非常集中或稀疏時。

整個數學框架的核心思想是利用模型自身的概率估計作為訓練信號。這種方法的優美之處在于它的簡潔性：不需要復雜的外部獎勵函數，不需要人工設計的評價標準，只需要讓模型學會相信自己最自信的判斷。

三、實戰測試：16個答案的神奇效果

為了驗證這個基于自信心的訓練方法，研究團隊選擇了Qwen2.5-Math-7B這個專門為數學推理設計的AI模型。這個模型就像一個在數學方面有特殊天賦的學生，但仍有很大的提升空間。

訓練設置出人意料地簡單。對于每個訓練問題，研究團隊只讓模型生成16個候選答案，這個數量遠遠少于傳統TTRL方法需要的64個答案。他們將溫度參數設置為0.5，這個參數就像控制學生思考時的"創造性程度"——既不會太過拘謹導致答案單一，也不會太過發散導致答案混亂。

整個訓練過程的技術實現也相當直接。研究團隊采用了標準的自回歸解碼和訓練流程，就像按照食譜一步步制作美食。首先，他們為每個問題生成16個完整的解答過程。然后，對每個"問題-答案"對進行標記化處理，計算每個詞匯的對數概率。接著，他們應用一個"助手掩碼"來專門關注答案部分的詞匯，忽略問題本身。最后，他們計算被掩碼覆蓋的對數概率的總和，得到整個回答的對數似然度。

令人印象深刻的是訓練的規模和效率。整個訓練過程只需要在AIME2024數據集上進行10到20個訓練步驟，使用8塊NVIDIA A100 GPU（每塊80GB顯存）。他們選擇了AdamW優化器，學習率設置為1×10^-5，并采用標準的權重衰減策略。生成長度被限制在3072個詞匯以內，這確保了答案既充分詳細又不會過度冗長。

這種最小化的設置理念貫穿了整個研究。研究團隊故意避免使用額外的輔助數據集、指令調優或偏好模型，完全依賴模型自身的內在知識和自信心評估機制。這就像讓學生在沒有外部幫助的情況下，僅僅通過自我反思和練習來提高成績。

訓練過程中的損失函數計算也體現了這種簡潔性。研究團隊使用兩種不同的損失函數進行實驗：基礎版本直接使用舊模型的概率作為權重，改進版本則加入了一個小的平滑常數。無論使用哪種版本，整個訓練過程都能在幾個小時內完成，這與傳統方法需要的大規模計算資源形成了鮮明對比。

這種高效的訓練方法實現了真正意義上的"零標簽強化學習"。它不需要人工標注的數據，不需要外部獎勵模型，也不需要手工設計的獎勵函數，完全通過模型的自我評估來驅動改進。這為資源受限的研究環境提供了一個實用而強大的工具。

四、驚人的成績提升：數字背后的故事

當研究團隊看到測試結果時，連他們自己都感到驚訝。這種基于自信心的訓練方法在多個具有挑戰性的數學推理基準測試中都取得了顯著的性能提升，就像一個學生突然開竅，在各個科目上都有了質的飛躍。

為了確保實驗結果的公正性和可信度，研究團隊采用了嚴格的評估標準。他們使用了公開可用的評估腳本來重新測試基線模型和經過RLSC訓練的模型，確保所有實驗設置完全相同。這就像使用同一把尺子來測量不同學生的身高，避免了任何可能的偏差。

在美國數學邀請賽AIME2024這個極具挑戰性的測試中，基線的Qwen2.5-Math-7B模型原本只能達到13.3%的準確率，而經過RLSC訓練后，準確率躍升至26.7%，提升了13.4個百分點。這相當于一個原本只能解決十個問題中一個的學生，現在能夠解決十個問題中接近三個，這種提升是實質性的。

在MATH500這個廣泛使用的數學推理測試中，改進效果更加顯著。基線模型的準確率從51.4%提升到72.6%，增長了21.2個百分點。這意味著模型在解決復雜數學問題方面的能力得到了大幅提升，就像一個數學成績中等的學生突然能夠解決大多數難題。

在礦工數學（Minerva Math）測試中，性能提升更是令人矚目。準確率從基線的10.7%飆升至32.4%，提升了21.7個百分點。這個測試以其高難度著稱，能夠在這樣的測試中取得如此大的進步，說明RLSC方法確實捕捉到了數學推理的某些核心要素。

奧林匹克數學競賽基準測試（Olympiadbench）的結果同樣令人印象深刻。基線模型僅能達到15.1%的準確率，而訓練后的模型達到了35.9%，提升了20.8個百分點。這個測試模擬了國際數學奧林匹克競賽的難度，能夠在這樣的測試中取得顯著提升，表明該方法對于處理最具挑戰性的數學問題也是有效的。

即使在相對簡單的AMC23測試中，模型也從45.0%的準確率提升到54.7%，增長了9.7個百分點。雖然這個提升相對較小，但考慮到基線性能已經較高，這樣的改進仍然是有意義的。

研究團隊特別強調，他們評估的是模型的直接準確率，而不是"Pass@1"分數。他們認為在實際應用中，準確性是最重要的指標，因為現實世界不允許反復試錯。這種評估標準更加貼近實際使用場景，也讓結果更具實用價值。

值得注意的是，這些顯著的性能提升是在極其有限的訓練資源下實現的。相比于需要大量計算資源和復雜設置的傳統方法，RLSC只需要少量的訓練步驟和相對較小的樣本數量就能達到如此效果，這進一步凸顯了該方法的效率和實用性。

五、意外發現：AI學會了簡潔表達

在分析訓練結果的過程中，研究團隊發現了一個意想不到的現象：經過RLSC訓練的模型開始產生更加簡潔、更加自信的答案。這就像一個原本喜歡冗長解釋的學生，突然學會了直擊要害，用最少的話說出最關鍵的內容。

這種變化在對比分析中表現得非常明顯。原始的基線模型在解決數學問題時，往往會進行冗長的符號推導，寫出大量的中間步驟，但最終可能仍然得出錯誤的答案。相比之下，經過RLSC訓練的模型學會了早期識別正確答案，避免不必要的推理路徑，用更加清晰簡潔的邏輯流程直接得出正確結論。

研究團隊展示了一個典型的例子。在一個AIME數學競賽問題中，基線模型生成了大量復雜的符號推導過程，包含了許多中間計算步驟，但最終還是得出了錯誤答案。而經過RLSC調整的模型直接識別出問題的核心，用簡潔的邏輯推理得出了正確答案，整個解答過程既清晰又高效。

這種現象在其他數學基準測試中也同樣出現。比如在MATH和AMC23測試中，訓練后的模型表現出了類似的行為模式：更少的文字，更直接的推理，更高的準確率。這與傳統的"讓我們一步步思考"的提示策略形成了有趣的對比。RLSC訓練的模型似乎內化了一種能力，能夠自動判斷何時需要詳細推理，何時可以直接給出答案。

雖然研究團隊沒有正式量化這種響應長度的減少，但這一趨勢在所有基準測試中都是一致的。這表明RLSC方法可能隱式地增強了中間推理的可信度，讓模型更加相信自己的判斷過程，從而不需要過度解釋或重復驗證。

這個發現具有重要的實際意義。在真實應用場景中，用戶通常更喜歡簡潔明了的答案，而不是冗長的推理過程。一個能夠直接給出正確答案的AI助手比一個需要進行大量中間推理的助手更加實用。這種簡潔性不僅提高了用戶體驗，也減少了計算資源的消耗。

更深層次地看，這種行為變化可能反映了RLSC訓練過程的一個重要特點：它不僅提高了模型的準確性，還改善了模型的"思維方式"。通過優化自信心，模型學會了更加相信自己的直覺判斷，減少了不必要的自我懷疑和過度思考。

研究團隊表示，他們計劃在未來的工作中對這種現象進行更精確的量化分析，包括使用熵值、推理步驟數量等指標來系統性地研究這種變化。這將有助于更好地理解RLSC方法的內在機制，以及它如何影響模型的推理過程。

六、深入對比：質的飛躍實例展示

為了讓讀者更直觀地理解RLSC訓練帶來的改進，研究團隊提供了幾個具體的對比案例，展示了基線模型和訓練后模型在面對相同問題時的不同表現。這些案例就像是展示一個學生在接受特殊訓練前后的答題差異，清晰地說明了改進的具體體現。

第一個案例來自一個復雜的函數分析問題。題目要求找到使得分段函數圖像與水平線至少相交兩次的最小參數值。基線模型在解決這個問題時，進行了大量的數學推導，包括復雜的不等式計算和因式分解，但最終得出了錯誤的答案。整個解答過程冗長而混亂，包含了許多不必要的計算步驟。

相比之下，經過RLSC訓練的模型采用了完全不同的解題策略。它首先正確識別了問題的核心要求，然后系統性地分析了函數的兩個部分的取值范圍。模型清晰地推導出為了使函數能夠覆蓋所有實數值，兩個部分的取值范圍必須有重疊，并據此建立了正確的不等式。整個推理過程邏輯清晰，步驟簡潔，最終得出了正確答案。

第二個案例是一個看似簡單的距離計算問題，要求計算兩點之間的距離并用最簡根式表示。基線模型在這個相對簡單的問題上表現得令人意外地糟糕，只給出了一個不正確的數值答案"10"，沒有任何推理過程，也沒有按要求使用根式形式。

經過RLSC訓練的模型則展現了完全不同的解題水平。它首先明確寫出了距離公式，然后逐步代入坐標值進行計算，正確地得出了距離為√117。更重要的是，模型還進一步將這個結果簡化為最簡根式形式3√13，完全符合題目要求。為了驗證答案的正確性，模型甚至提供了Python代碼驗證，顯示了對答案的高度自信。

這些對比案例清楚地展示了RLSC訓練帶來的幾個關鍵改進。首先是邏輯推理能力的提升，訓練后的模型能夠更好地理解問題的本質要求，制定合適的解題策略。其次是計算準確性的改善，模型在進行數學運算時變得更加可靠。最后是表達能力的優化，模型學會了用更加簡潔清晰的方式呈現解題過程。

研究團隊從MATH和AIME基準測試中提取了這些推理結果進行定性分析。他們發現，經過RLSC微調的模型在零樣本設置下表現出了顯著改善的任務理解和推理能力。在MATH500基準測試中，原始模型對于簡單問題（案例1）能夠進行基本但錯誤的推理，而對于復雜問題（案例2）則完全無法解決。相比之下，RLSC訓練的模型展現出強大的推理能力，能夠通過簡單的推理路徑達到準確的結論，而不需要冗長的"逐步"推導。

這種質的變化不僅僅體現在最終答案的正確性上，更重要的是體現在整個解題思路的成熟度上。訓練后的模型似乎發展出了一種更加高效的"數學直覺"，能夠快速識別問題的關鍵點，選擇最合適的解題方法，并以最簡潔的方式表達解決方案。

七、學術價值與理論貢獻

這項研究在強化學習和語言模型訓練領域做出了重要的理論貢獻，其影響遠超出了數學推理這一特定應用領域。就像一個看似簡單的發現可能引發科學革命一樣，RLSC方法為整個AI訓練范式提供了新的思路。

在強化學習的發展歷程中，如何設計有效的獎勵信號一直是一個核心挑戰。傳統的方法通常依賴于人類反饋強化學習（RLHF），這種方法需要大量的人工標注工作來訓練偏好模型。雖然有效，但這種方法的成本極高，而且嚴重依賴于標注質量。另一種方法是基于可驗證獎勵的強化學習（RLVR），它通過將模型輸出與參考答案進行比較來計算獎勵，但仍然需要人工標注的問題-答案對。

RLSC方法的革命性在于它完全擺脫了這些外部依賴。它利用模型自身的概率分布作為獎勵信號的來源，這種"內在驅動"的訓練方式為強化學習開辟了一個全新的方向。這就像是從"他人評價驅動"轉向"自我認知驅動"的學習模式，具有更強的可持續性和可擴展性。

從理論角度來看，RLSC方法揭示了多數投票機制背后的數學本質。研究團隊證明了多數投票實際上是在優化輸出分布的"尖銳度"，而這種優化可以通過直接最大化分布的自相關性來實現。這個數學洞察不僅簡化了訓練過程，還提供了更深層的理論理解。

這種理論貢獻的價值在于它提供了一個統一的框架來理解不同類型的獎勵信號。研究團隊在論文中展示了一個對比表格，將RLSC損失函數與其他常見的損失函數進行比較，包括RLHF損失、香農熵和基于完成度的獎勵。這種比較表明RLSC實際上是在優化一個特定的函數期望值，這為理解其有效性提供了數學基礎。

在測試時訓練（Test-Time Training, TTT）這個新興領域中，RLSC也做出了重要貢獻。現有的TTT方法，如自對弈批評（SelfPlay Critic, SPC）和絕對零推理器（Absolute Zero Reasoner, AZR），通常采用對抗性雙模型框架，需要外部工具（如Python執行器或代碼驗證器）提供反饋信號。而測試時強化學習（TTRL）雖然避免了顯式的人工監督，但需要大量的樣本（每個問題64個樣本）來進行多數投票，導致顯著的計算開銷。

RLSC方法通過將多數投票的潛在原理數學化，提供了一個更加高效的替代方案。它只需要16個樣本就能達到甚至超過TTRL的效果，大大降低了計算成本。更重要的是，RLSC提供了一個可微分的、自監督的目標函數，使得整個訓練過程更加穩定和可預測。

這項研究還為理解語言模型的"自我認知"能力提供了新的視角。通過分析模型對自己輸出的信心程度，研究者們可以更好地理解模型的內在表示和決策過程。這種理解可能對開發更加可靠和可解釋的AI系統具有重要意義。

從更廣闊的角度來看，RLSC方法體現了AI研究中的一個重要趨勢：從依賴外部監督轉向利用內在信號。這種轉變不僅能夠降低訓練成本，還可能讓AI系統發展出更加自主和適應性的學習能力。這為未來的AI研究指明了一個有前景的方向。

八、突破性的實用價值

RLSC方法的實用價值遠超出了學術研究的范疇，它為整個AI行業提供了一個可行且高效的解決方案。這種方法就像是發現了一種新的"營養配方"，能夠讓AI模型在資源有限的條件下也能茁壯成長。

對于計算資源受限的研究機構和中小型公司來說，RLSC方法簡直是一個福音。傳統的大型語言模型訓練需要龐大的計算集群和海量的標注數據，成本往往高達數百萬美元。而RLSC只需要8塊高端GPU和幾個小時的訓練時間就能顯著改善模型性能，這讓更多的研究者和開發者能夠參與到AI技術的創新中來。

這種資源效率的提升具有深遠的意義。它意味著不僅僅是大型科技公司才能開發先進的AI模型，中小型企業和學術機構也能夠利用有限的資源實現技術突破。這種"民主化"的趨勢有助于加速整個AI領域的發展，促進更多樣化的創新和應用。

從部署角度來看，RLSC訓練的模型表現出的簡潔推理特性特別有價值。在實際應用中，用戶通常更喜歡快速、準確的回答，而不是冗長的推理過程。一個數學教學AI助手如果能夠直接給出正確答案和關鍵解題步驟，比一個需要進行大量試錯和重復計算的助手更受歡迎。

這種改進在教育技術領域具有特別重要的意義。想象一下，一個經過RLSC訓練的數學輔導AI能夠像經驗豐富的老師一樣，迅速識別學生問題的關鍵點，提供簡潔而準確的解答。這不僅提高了學習效率，也降低了認知負擔，讓學習過程變得更加流暢。

在商業應用方面，RLSC方法的低成本特性使得它特別適合快速原型開發和概念驗證。公司可以使用這種方法快速改進現有的AI模型，測試新的應用場景，而不需要投入大量的研發資源。這種敏捷性在快速變化的市場環境中具有重要的競爭優勢。

研究團隊特別強調了RLSC方法的可擴展性。由于它不依賴于特定的數據集或外部工具，這種方法可以很容易地應用到其他領域和任務中。無論是代碼生成、文本摘要還是對話系統，只要是涉及概率輸出的任務，都可能從這種自信心驅動的訓練方法中受益。

更重要的是，RLSC方法為AI安全和可靠性研究提供了新的工具。通過分析模型的自信心分布，研究者可以更好地理解模型何時可能出錯，何時的輸出是可信的。這種"自我意識"能力對于開發更加安全可靠的AI系統具有重要價值。

從長遠來看，RLSC方法可能催生一種新的AI服務模式。由于訓練成本的大幅降低，可能會出現專門提供定制化AI模型訓練服務的公司，為不同行業和應用場景提供針對性的解決方案。這種專業化的服務模式可能會加速AI技術在各個垂直領域的應用和普及。

結論

說到底，這項來自莫斯科的研究就像是給AI世界帶來了一面"魔鏡"，讓AI模型學會了通過觀察自己的反映來不斷改進。過去，我們總以為AI需要大量的外部指導才能變得更聰明，就像學生需要老師不斷批改作業一樣。但這項研究告訴我們，有時候最好的老師就是自己內心的聲音。

研究團隊發現的這個"自信心訓練法"不僅僅是一個技術突破，更像是揭示了學習的一個基本原理：當我們學會相信自己最有把握的判斷時，我們的整體能力就會得到提升。這個道理對人如此，對AI也是如此。更令人興奮的是，這種方法竟然如此簡單高效——僅僅用16個練習樣本和十幾個訓練步驟，就讓一個AI模型在多個數學競賽中的表現提升了20個百分點左右。

這種效率上的突破意味著AI技術不再是大公司的專利。中小型研究機構、初創公司，甚至是個人開發者，都可能利用這種方法來改進自己的AI模型。這就像是把昂貴的私人教練課程變成了人人都能負擔得起的在線學習平臺，讓AI技術的普及變得更加容易。

更有趣的是，經過這種訓練的AI模型不僅變得更準確，還學會了"簡潔表達"。它們不再需要冗長的推理過程就能給出正確答案，就像一個經驗豐富的專家能夠一眼看穿問題的本質。這種能力在實際應用中極其寶貴，因為用戶總是更喜歡快速準確的回答。

從更廣闊的視角來看，這項研究可能預示著AI發展的一個新階段：從依賴外部監督到發展內在智慧。這種轉變不僅能夠降低AI訓練的成本，還可能讓AI系統變得更加自主和適應性強。想象一下未來的AI助手能夠通過自我反思不斷改進，不需要人類的持續干預，這樣的未來似乎正在變得越來越現實。

當然，這項研究也提出了一些有趣的問題值得進一步探索。比如，這種自信心驅動的學習方法在其他類型的任務中是否同樣有效？它能否幫助AI模型發展出更強的"直覺"能力？這些問題的答案可能會進一步拓展我們對AI學習機制的理解。

如果你對這項研究的技術細節感興趣，建議訪問arXiv網站搜索論文編號arXiv:2506.06395v3，那里有完整的研究報告和數學推導過程。這項研究不僅為AI研究者提供了新的工具，也為我們所有人展示了一個更加智能、更加高效的AI未來的可能性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.