99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通專融合,思維鏈還透明,上海AI Lab為新一代大模型打了個樣

0
分享至



機器之心報道

機器之心編輯部

OpenAI 研究員姚順雨近期發布文章,指出:AI 下半場將聚焦問題定義與評估體系重構。在 AI 發展新階段,行業需要通過設計更有效的模型評測體系,彌補 AI 能力與真實需求的差距。這一趨勢在國內也得到印證。

剛剛,上海 AI Lab 宣布創造性構建了“加速訓練營”(InternBootcamp),通過對評價建模,與大模型進行交互并提供反饋,從而使大模型持續進化,獲得解決復雜推理任務的能力。

通過上述方法以及一系列通專融合底層技術架構創新,書生?思客(InternThinker)實現在奧賽級數學、科學對象理解與推理、算法編程、棋類游戲、智力謎題等多個專業任務同步學習演進,并在多任務混合強化學習過程中出現智能 “涌現時刻”。

隨著 InternThinker 專業推理能力升級,它成為我國首個既具備圍棋專業水平,又能展示透明思維鏈的大模型。在實驗室科研人員的布局和著子中,蘊含數千年智慧的圍棋成為了科學探索的 “試應手”。

思維鏈透明,自然語言點評“神之一手”

圍棋作為一項具有四千多年歷史的智力競技項目,因其獨特的復雜性和對人類智能的深刻體現,可作為衡量人工智能專業能力最具代表性的任務之一。2016 年 AlphaGO 一戰成名,隨后,AI 在棋力、效率、通用性等方面均有顯著提升,但其具體推理過程仍為 “黑盒”,即便能輸出勝率評估和落子概率,亦無法用人類語言解釋 “為什么某一步更好”。典型表現為:AI 有時會下出違背人類直覺的 “天外飛仙” 棋步,事后被證明有效,但當時難以解釋。

本次升級后的 InternThinker,在圍棋任務上不僅具備較強的專業水平,在大模型中率先實現打破思維 “黑盒”,運用自然語言就對弈過程進行講解。目前 InternThinker 已開啟公測,所有用戶均可以隨時隨地與之對弈(公測鏈接:https://chat.intern-ai.org.cn/)。

用戶在與 InternThinker 對弈的過程中,大模型化身為循循善誘的 “教練”,它能全面地分析當前局面形勢,對不同的落子點進行判斷和對比,并給出明確的結果,讓用戶了解每一步棋背后的推理過程和決策依據,從而幫助用戶更好地理解和學習圍棋。

李世石在與 AlphaGO 交戰的第四盤 78 手下在 L11,被稱為 “神之一手”,直接扭轉局勢贏下一局。在研究人員對這一名局的復現中,InternThinker 評價這步棋 “相當刁鉆…… 這步棋完美解決 L11 的威脅,重新確立中央控制權,為后續進攻埋下伏筆。” 隨后它給出了落子在 L10 的應對策略。



InternThinker 應對李世石 “神之一手”

InternThinker 還具備多樣化的 “語言” 風格,極具 “活人感”。比如,當用戶下了一步好棋,它會加油鼓勵:“這步棋相當有力,可以說是‘以攻代守’的好手”;也會冒出毒舌銳評:“可以說是‘不是棋’的選擇”。



InternThinker 多樣化的語言風格

在棋力方面,InternThinker 未來仍有提升空間。新生代世界圍棋冠軍王星昊九段在與其對弈后評價道:“能解說思考過程的 AI 還是第一次見,感覺它分析得非常好;從布局看棋力可能在職業 3-5 段之間。”

InternBootcamp:“體驗” 即學習,探索大模型推理能力提升新范式

InternThinker 強大的推理能力及在圍棋任務上的突破,得益于其創新的訓練環境。針對復雜的邏輯推理任務,如何準確地獲得過程和結果反饋尤為關鍵,為此,研究人員搭建了大規模、標準化、可擴展的可交互驗證環境 InternBootcamp—— 這相當于為模型創造了一個 “加速訓練營”,使其可以高效習得專業技能,快速 “成長”。



InternBootCamp 與大模型交互流程

基于代碼智能體自動化構造,InternBootCamp 包含超 1000 個驗證環境,覆蓋廣泛的復雜邏輯推理任務,能有效幫助大模型領域研究者基于強化學習開展探索。InternBootcamp 可以批量化、規范化生成難度可控的推理任務,如奧賽級數學、科學對象理解與推理、算法編程、棋類游戲、智力謎題等,并與大模型進行交互和提供反饋。通過不同專業知識大規模構造和混合訓練,使大模型跳出基于數據標注獲取問題和答案的繁瑣模式,同時避免傳統獎勵模型的欺騙,從而實現大模型推理能力提升的新范式。

除圍棋外,在其他任務中 InternThinker 也有不俗表現。通過對多種任務的混合強化學習,InternThinker 在包括數十個任務的測試集上的平均能力超過 o3-mini、DeepSeek-R1 以及 Claude-3.7-Sonnet 等國內外主流推理模型。



InternThinker 在包括數十個任務的測試集上的平均能力超過 o3-mini、DeepSeek-R1 以及 Claude-3.7-Sonnet 等國內外主流推理模型。

甚至在一些任務中性能表現遠超當前其他推理大模型。





InternBootcamp 已開源,歡迎接入任務,開展更多有價值的探索:https://github.com/InternLM/InternBootcamp

多任務混合強化學習:迎來 “涌現時刻”

值得一提的是,研究人員觀察到,在基于 InternBootcamp 的多任務混合訓練過程中,出現了強化學習的 “涌現時刻”:在單一任務中,無法成功推理得到獎勵的模型,通過多個任務混合的強化學習,能夠在訓練過程中成功得到獎勵,實現領域外專業任務的有效強化學習訓練。

除了單獨訓練 Tapa、Unicoder25 任務外,研究人員額外選擇了幾十種任務進行混合訓練。如下圖所示:單一訓練 Tapa 等任務并不能成功獲得任務的正向反饋;而混合訓練各類 InternBootcamp 任務達一定步數后,InternThinker 融合學習了這些推理任務的思考方式,建立起了不同任務間的關聯,從而成功獲取了 Tapa 這類任務的正向反饋,實現對該任務的有效學習。

這意味著,隨著 InternBootcamp 任務的數量增加、質量提升和難度加大,大模型有望迎來能力的 “升華”,高效解決更多、更難、更具實用性的推理任務,在助力大模型推理能力泛化的同時,加速推動科學發現。





Unicode25 任務和 Tapa 任務 "涌現時刻",其中淺色表示峰值、深色表示均值

通專融合底層技術突破

上述進展得益于近期上海 AI Lab 在通專融合路線的底層技術和架構方面的一系列創新突破。

從大模型發展歷程來看,主要分化為專業性和通用泛化性兩大路線。上海 AI Lab 率先提出通專融合技術路線(https://arxiv.org/abs/2407.08642),著力解決大模型高度專業化與通用泛化性相互制約的發展困境。這一路徑的關鍵在于同步提升深度推理與專業泛化能力,使模型不僅在廣泛的復雜任務上表現出色,還能在特定領域中達到專業水平。

上海 AI Lab 進一步提出通過相互依賴的基礎模型層、 融合協同層和探索進化層 “三層” 技術路徑, 可打造 “通用泛化性”“高度專業性”“任務可持續性” 三者兼得的通用人工智能。



通專融合 AGI 實現路徑

第一層為基礎模型層,旨在構建通用泛化基礎能力和高密度監督的專業能力。上海 AI Lab 團隊近期提出全新的 “記憶體 + 解碼器” 大模型架構 Memory Decoder,并實現兩個組成部分通過不同的預訓練任務分別進行訓練。區別于將所有信息全都編碼進 decoder 的現有 Transformer 經典大模型架構,該架構實現了通專融合中 “知識與推理可分離與自組合” 的新一代大模型。其中,記憶體承擔 “專” 的功能,負責對不同領域知識的可靠記憶;解碼器承擔 “通” 的功能,負責通用的語言組織和邏輯;記憶體可經過一次訓練后應用于不同基模型。

第二層為融合協同層,通過多路線協同構建比肩人類專家的通專融合能力。團隊近期的突破包括:

  • 設計強化學習算法 PRIME(https://arxiv.org/abs/2502.01456),結合高密度監督信號,有效強化了智能體專精能力的提升效率,為通用群體智能發展鋪平了道路。可實現更快速的收斂,同時獲取比現有方法高出 7% 的性能提升。在 AIME、MATH 等競賽難度數學題上,僅用少量開源數據,便可使得 7B 模型的數學能力顯著超越 OpenAI 的 GPT-4o。
  • 推出以多任務強化學習為核心的后訓練技術框架 MoR,聚焦實現多任務的強化學習。針對不同類型任務(例如數學解答和證明、科學問答、推理解謎、主觀對話等)進行了算法探索和初步集成驗證,實現了多任務強化學習的混合訓練。
  • 構建基于結果獎勵的強化學習新范式 OREAL(https://arxiv.org/abs/2502.06781),著力解決大模型當前面臨的 “稀疏獎勵困境、局部正確陷阱和規模依賴魔咒” 三大困局。該算法超越了目前廣泛使用的 GRPO 等方法,定義了一個更廣泛的算法設計空間,能將 PRIME、DAPO 等方法的優點融合入算法框架中,無需蒸餾超大參數規模模型,便實現了輕中量級(7B/32B)模型推理能力的再提升。
  • 第三層為探索進化層,通過自主探索與反饋修正實現 AI 自我進化閉環。團隊近期的突破包括:
  • 測試時強化學習(TTRL)框架(https://arxiv.org/abs/2504.16084),有效探索人工智能自主進化的可能路徑。TTRL 能在沒有準確標簽的情況下進行獎勵估計,驅動模型朝著正確的方向學習,有力支持了在減少人工標注依賴方面的潛力,進一步推動強化學習向大規模、無監督方向的持續擴展。
  • 構建分子逆合成新方法 Retro-R1,基于大模型 + 智能體 + 長推理 + 強化學習的范式,在多步逆合成問題上展現出了更精準的合成路徑規劃能力。Retro-R1 在不使用任何 SFT 數據僅使用 1 萬條強化學習數據通過 200 步訓練的情況下就實現了大模型在逆合成推理能力的升級,并在不同領域數據中展現出了出色的泛化能力。

據悉,未來上海 AI Lab 將系統推進通專融合技術路線的發展與探索,將通專融合的新能力、新進展持續通過 InternBootcamp 對外開放,加速以新一代通專融合基座模型的方式解決具體科學發現中的關鍵問題,同時牽引打造垂直領域示范應用案例,為科學發現與產業創新提供關鍵驅動力

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曹德旺、南存輝、劉強東等,齊聚浙江

曹德旺、南存輝、劉強東等,齊聚浙江

政知新媒體
2025-05-28 22:50:12
杜威二少對不住,亞歷山大要爭奪雷霆隊史第一人寶座了

杜威二少對不住,亞歷山大要爭奪雷霆隊史第一人寶座了

籃球掃地僧
2025-05-29 11:11:32
4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

側身凌空斬
2025-05-29 09:39:14
兩條吃相難看的新聞,再一次擊穿底線

兩條吃相難看的新聞,再一次擊穿底線

末名先生
2025-05-28 14:52:12
山東高密特大爆炸案,不是意外,是人禍

山東高密特大爆炸案,不是意外,是人禍

城內事城外說
2025-05-28 23:43:28
“我從未見過父親,為何要為他買單”,男生政審被刷,質問后愣住

“我從未見過父親,為何要為他買單”,男生政審被刷,質問后愣住

熙熙說教
2025-05-20 20:40:56
老人誤將女主播視頻當私人告白,買煙花守村口“等國家發的老婆”……民警勸說

老人誤將女主播視頻當私人告白,買煙花守村口“等國家發的老婆”……民警勸說

環球網資訊
2025-05-28 15:48:29
解放軍臺海有大動作,美放狠話:中國若敢打擊美國本土,后果自負

解放軍臺海有大動作,美放狠話:中國若敢打擊美國本土,后果自負

說天說地說實事
2025-05-29 09:22:00
剛刺殺完普京,烏方將“臟水”潑向中國,話音未落,中國反將三軍

剛刺殺完普京,烏方將“臟水”潑向中國,話音未落,中國反將三軍

科技有趣事
2025-05-28 18:23:34
大反轉!王楚欽戀情傳出2天后,三大名將連番表態,真相大白?

大反轉!王楚欽戀情傳出2天后,三大名將連番表態,真相大白?

大秦壁虎白話體育
2025-05-29 08:54:29
來自越南的挑戰——越南推出第68號決議,經濟政策迎來重大轉變

來自越南的挑戰——越南推出第68號決議,經濟政策迎來重大轉變

小院之觀
2025-05-28 05:30:03
印度被擊落6架戰機詳情曝光,包括機型、飛行員姓名、軍銜、所在醫院

印度被擊落6架戰機詳情曝光,包括機型、飛行員姓名、軍銜、所在醫院

不掉線電波
2025-05-28 20:32:57
“怎么會有人這樣做?”巴勒斯坦代表淚灑安理會

“怎么會有人這樣做?”巴勒斯坦代表淚灑安理會

看看新聞Knews
2025-05-29 07:51:57
放過“梟龍”,放過殲-10C吧,它們很難大賣的!

放過“梟龍”,放過殲-10C吧,它們很難大賣的!

真知灼健
2025-05-28 10:52:27
唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

愛意隨風起呀
2025-05-29 00:50:32
邁阿密4-2贏了:梅西2球1助,蘇神3分鐘雙響!近5輪首勝

邁阿密4-2贏了:梅西2球1助,蘇神3分鐘雙響!近5輪首勝

葉青足球世界
2025-05-29 09:44:08
汕頭估價超1億豪宅“英之園”被拆!當地:最初處置方式是沒收,但當事人不配合

汕頭估價超1億豪宅“英之園”被拆!當地:最初處置方式是沒收,但當事人不配合

瀟湘晨報
2025-05-28 16:55:17
就在今天!5月29日早上,國乒傳來劉國梁、孫穎莎、王曼昱新消息

就在今天!5月29日早上,國乒傳來劉國梁、孫穎莎、王曼昱新消息

紅香娛
2025-05-29 08:09:31
公園“司馬光砸缸”雕塑被吐槽像猴

公園“司馬光砸缸”雕塑被吐槽像猴

大象新聞
2025-05-29 10:34:01
新的開始!雷霆隊史第5次打入總決賽!此前4次僅收獲1冠

新的開始!雷霆隊史第5次打入總決賽!此前4次僅收獲1冠

雷速體育
2025-05-29 11:10:56
2025-05-29 11:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10547文章數 142326關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

老人誤將女主播視頻當告白 守村口"等國家發的老婆"

頭條要聞

老人誤將女主播視頻當告白 守村口"等國家發的老婆"

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

美聯邦法院阻止特朗普4月2日關稅政策生效

汽車要聞

高階智駕/起售12.98萬 小鵬MONA M03 Max上市

態度原創

親子
時尚
數碼
本地
手機

親子要聞

哥哥姐姐出去玩不帶妹妹 不會說話的妹妹哭著找媽媽告狀 網友:一句話都沒說明白 卻表達得清清楚楚

牛仔“藍”很忙,忙著占領你的眼妝

數碼要聞

驅動代碼泄露玄機!Intel四款新GPU ID現身:包含高端銳炫B770

本地新聞

中國最費腿的城市,不止重慶

手機要聞

小屏旗艦一加 13T,性能拉滿,游戲體驗超絲滑!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 台北县| 开江县| 临夏县| 陈巴尔虎旗| 建瓯市| 疏勒县| 红安县| 广元市| 依兰县| 青龙| 太谷县| 广水市| 遂宁市| 双城市| 明星| 万载县| 登封市| 阳谷县| 乃东县| 茂名市| 紫阳县| 深圳市| 南漳县| 莱州市| 海宁市| 兰溪市| 河北省| 谢通门县| 南投县| 元朗区| 溧阳市| 敖汉旗| 民勤县| 新丰县| 新安县| 阳新县| 夹江县| 四平市| 韩城市| 泸溪县| 临安市|