允中 發自 凹非寺
量子位 | 公眾號 QbitAI
圍棋因其獨特的復雜性和對人類智能的深刻體現,可作為衡量AI專業能力最具代表性的任務之一。
目前,AI雖然在棋力、效率、通用性等方面均取得顯著成績,但其具體推理過程仍處于“黑盒”之中,更無法用人類語言解釋其思考過程和結果。
大模型具備良好的自然語言交互性,如何通過提升大模型的推理能力,實現圍棋專業能力突破,是擺在科研人員面前的一道難題。
針對這個問題,上海人工智能實驗室(上海AI Lab)全新發布了新一代書生·思客(InternThinker)。
基于創造性構建的“加速訓練營”(InternBootcamp)以及一系列底層技術新進展,InternThinker專業推理能力大幅提升,成為我國首個既具備圍棋專業水平,又能展示透明思維鏈的大模型。
即便面對李世石的“神之一手”(李世石在AlphaGO交戰的第四盤78手下在L11,被稱為“神之一手”),InternThinker也能給出正確應對策略。
思維鏈透明,自然語言點評“神之一手”
圍棋作為一項具有四千多年歷史的智力競技項目,因其獨特的復雜性和對人類智能的深刻體現,可作為衡量人工智能專業能力最具代表性的任務之一。
2016年AlphaGO一戰成名,隨后,AI在棋力、效率、通用性等方面均有顯著提升,但其具體推理過程仍為“黑盒”,即便能輸出勝率評估和落子概率,亦無法用人類語言解釋“為什么某一步更好”。典型表現為:AI有時會下出違背人類直覺的“天外飛仙”棋步,事后被證明有效,但當時難以解釋。
本次升級后的InternThinker,在圍棋任務上不僅具備較強的專業水平,在大模型中率先實現打破思維“黑盒”,運用自然語言就對弈過程進行講解。
用戶在與InternThinker對弈的過程中,大模型化身為循循善誘的“教練”,它能全面地分析當前局面形勢,對不同的落子點進行判斷和對比,并給出明確的結果,讓用戶了解每一步棋背后的推理過程和決策依據,從而幫助用戶更好地理解和學習圍棋。
李世石在與AlphaGO交戰的第四盤78手下在L11,被稱為“神之一手”,直接扭轉局勢贏下一局。在研究人員對這一名局的復現中,InternThinker評價這步棋“相當刁鉆……這步棋完美解決L11的威脅,重新確立中央控制權,為后續進攻埋下伏筆”。隨后它給出了落子在L10的應對策略。
△InternThinker應對李世石“神之一手”
InternThinker還具備多樣化的“語言”風格,極具“活人感”。比如,當用戶下了一步好棋,它會加油鼓勵:“這步棋相當有力,可以說是‘以攻代守’的好手?!?/p>
也會冒出毒舌銳評:“可以說是‘不是棋’的選擇?!?/p>
△InternThinker多樣化的語言風格
在棋力方面,InternThinker未來仍有提升空間。
新生代世界圍棋冠軍王星昊九段在與其對弈后評價道:
能解說思考過程的AI還是第一次見,感覺它分析得非常好;從布局看棋力可能在職業3-5段之間。
目前InternThinker已開啟公測,所有用戶均可以隨時隨地與之對弈,鏈接可在文末自取。
InternBootcamp:“體驗”即學習,探索大模型推理能力提升新范式
InternThinker強大的推理能力及在圍棋任務上的突破,得益于其創新的訓練環境。
針對復雜的邏輯推理任務,如何準確地獲得過程和結果反饋尤為關鍵,為此,研究人員搭建了大規模、標準化、可擴展的可交互驗證環境InternBootcamp——這相當于為模型創造了一個“加速訓練營”,使其可以高效習得專業技能,快速“成長”。
△InternBootCamp與大模型交互流程
基于代碼智能體自動化構造,InternBootCamp包含超1000個驗證環境,覆蓋廣泛的復雜邏輯推理任務,能有效幫助大模型領域研究者基于強化學習開展探索。
InternBootcamp可以批量化、規范化生成難度可控的推理任務,如奧賽級數學、科學對象理解與推理、算法編程、棋類游戲、智力謎題等,并與大模型進行交互和提供反饋。通過不同專業知識大規模構造和混合訓練,使大模型跳出基于數據標注獲取問題和答案的繁瑣模式,同時避免傳統獎勵模型的欺騙,從而實現大模型推理能力提升的新范式。
除圍棋外,在其他任務中InternThinker也有不俗表現。通過對多種任務的混合強化學習,InternThinker在包括數十個任務的測試集上的平均能力超過o3-mini、DeepSeek-R1以及Claude-3.7-Sonnet等國內外主流推理模型:
甚至在一些任務中性能表現遠超當前其他推理大模型。
比如在以下兩項任務中:
InternThinker的表現均優于o3-mini:
多任務混合強化學習:迎來“涌現時刻”
值得一提的是,研究人員觀察到,在基于InternBootcamp的多任務混合訓練過程中,出現了強化學習的“涌現時刻”:在單一任務中,無法成功推理得到獎勵的模型,通過多個任務混合的強化學習,能夠在訓練過程中成功得到獎勵,實現領域外專業任務的有效強化學習訓練。
除了單獨訓練Tapa、Unicoder25任務外,研究人員額外選擇了幾十種任務進行混合訓練。如下圖所示:單一訓練Tapa等任務并不能成功獲得任務的正向反饋;而混合訓練各類InternBootcamp任務達一定步數后,InternThinker融合學習了這些推理任務的思考方式,建立起了不同任務間的關聯,從而成功獲取了Tapa這類任務的正向反饋,實現對該任務的有效學習。
這意味著,隨著InternBootcamp任務的數量增加、質量提升和難度加大,大模型有望迎來能力的“升華”,高效解決更多、更難、更具實用性的推理任務,在助力大模型推理能力泛化的同時,加速推動科學發現。
△Unicode25任務,其中淺色表示峰值、深色表示均值
△Tapa任務”涌現時刻”,其中淺色表示峰值、深色表示均值
通專融合底層技術突破
上述進展得益于近期上海AI Lab在通專融合路線的底層技術和架構方面的一系列創新突破。
從大模型發展歷程來看,主要分化為專業性和通用泛化性兩大路線。上海AI Lab率先提出通專融合技術路線(https://arxiv.org/abs/2407.08642),著力解決大模型高度專業化與通用泛化性相互制約的發展困境。這一路徑的關鍵在于同步提升深度推理與專業泛化能力,使模型不僅在廣泛的復雜任務上表現出色,還能在特定領域中達到專業水平。
上海AI Lab進一步提出通過相互依賴的基礎模型層、 融合協同層和探索進化層“三層”技術路徑, 可打造“通用泛化性”“高度專業性”“任務可持續性”三者兼得的通用人工智能。
△通專融合AGI實現路徑
第一層為基礎模型層,旨在構建通用泛化基礎能力和高密度監督的專業能力。上海AI Lab團隊近期提出全新的“記憶體+解碼器”大模型架構Memory Decoder,并實現兩個組成部分通過不同的預訓練任務分別進行訓練。區別于將所有信息全都編碼進decoder的現有Transformer經典大模型架構,該架構實現了通專融合中“知識與推理可分離與自組合”的新一代大模型。其中,記憶體承擔“專”的功能,負責對不同領域知識的可靠記憶;解碼器承擔“通”的功能,負責通用的語言組織和邏輯;記憶體可經過一次訓練后應用于不同基模型。
第二層為融合協同層,通過多路線協同構建比肩人類專家的通專融合能力。團隊近期的突破包括:
- 設計強化學習算法PRIME(https://arxiv.org/abs/2502.01456),結合高密度監督信號,有效強化了智能體專精能力的提升效率,為通用群體智能發展鋪平了道路??蓪崿F更快速的收斂,同時獲取比現有方法高出7%的性能提升。在AIME、MATH等競賽難度數學題上,僅用少量開源數據,便可使得7B模型的數學能力顯著超越OpenAI的GPT-4o。
- 推出以多任務強化學習為核心的后訓練技術框架MoR,聚焦實現多任務的強化學習。針對不同類型任務(例如數學解答和證明、科學問答、推理解謎、主觀對話等)進行了算法探索和初步集成驗證,實現了多任務強化學習的混合訓練。
- 構建基于結果獎勵的強化學習新范式OREAL(https://arxiv.org/abs/2502.06781),著力解決大模型當前面臨的“稀疏獎勵困境、局部正確陷阱和規模依賴魔咒”三大困局。該算法超越了目前廣泛使用的GRPO等方法,定義了一個更廣泛的算法設計空間,能將PRIME、DAPO等方法的優點融合入算法框架中,無需蒸餾超大參數規模模型,便實現了輕中量級(7B/32B)模型推理能力的再提升。
第三層為探索進化層,通過自主探索與反饋修正實現AI自我進化閉環。團隊近期的突破包括:
- 測試時強化學習(TTRL)框架
- (https://arxiv.org/abs/2504.16084),有效探索人工智能自主進化的可能路徑。TTRL能在沒有準確標簽的情況下進行獎勵估計,驅動模型朝著正確的方向學習,有力支持了在減少人工標注依賴方面的潛力,進一步推動強化學習向大規模、無監督方向的持續擴展。
- 構建分子逆合成新方法Retro-R1,基于大模型+智能體+長推理+強化學習的范式,在多步逆合成問題上展現出了更精準的合成路徑規劃能力。Retro-R1在不使用任何SFT數據僅使用1萬條強化學習數據通過200步訓練的情況下就實現了大模型在逆合成推理能力的升級,并在不同領域數據中展現出了出色的泛化能力。
據悉,未來上海AI Lab將系統推進通專融合技術路線的發展與探索,將通專融合的新能力、新進展持續通過InternBootcamp對外開放,加速以新一代通專融合基座模型的方式解決具體科學發現中的關鍵問題,同時牽引打造垂直領域示范應用案例,為科學發現與產業創新提供關鍵驅動力。
公測鏈接:https://internlm-chat.intern-ai.org.cn/
開源地址:https://github.com/InternLM/InternBootcamp
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.