99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型首次打破圍棋思維黑盒!上海AILab發(fā)布新一代InternThinker

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

圍棋因其獨(dú)特的復(fù)雜性和對人類智能的深刻體現(xiàn),可作為衡量AI專業(yè)能力最具代表性的任務(wù)之一。

目前,AI雖然在棋力、效率、通用性等方面均取得顯著成績,但其具體推理過程仍處于“黑盒”之中,更無法用人類語言解釋其思考過程和結(jié)果。

大模型具備良好的自然語言交互性,如何通過提升大模型的推理能力,實(shí)現(xiàn)圍棋專業(yè)能力突破,是擺在科研人員面前的一道難題。

針對這個問題,上海人工智能實(shí)驗(yàn)室(上海AI Lab)全新發(fā)布了新一代書生·思客(InternThinker)。

基于創(chuàng)造性構(gòu)建的“加速訓(xùn)練營”(InternBootcamp)以及一系列底層技術(shù)新進(jìn)展,InternThinker專業(yè)推理能力大幅提升,成為我國首個既具備圍棋專業(yè)水平,又能展示透明思維鏈的大模型。

即便面對李世石的“神之一手”(李世石在AlphaGO交戰(zhàn)的第四盤78手下在L11,被稱為“神之一手”),InternThinker也能給出正確應(yīng)對策略。

思維鏈透明,自然語言點(diǎn)評“神之一手”

圍棋作為一項(xiàng)具有四千多年歷史的智力競技項(xiàng)目,因其獨(dú)特的復(fù)雜性和對人類智能的深刻體現(xiàn),可作為衡量人工智能專業(yè)能力最具代表性的任務(wù)之一。

2016年AlphaGO一戰(zhàn)成名,隨后,AI在棋力、效率、通用性等方面均有顯著提升,但其具體推理過程仍為“黑盒”,即便能輸出勝率評估和落子概率,亦無法用人類語言解釋“為什么某一步更好”。典型表現(xiàn)為:AI有時會下出違背人類直覺的“天外飛仙”棋步,事后被證明有效,但當(dāng)時難以解釋。

本次升級后的InternThinker,在圍棋任務(wù)上不僅具備較強(qiáng)的專業(yè)水平,在大模型中率先實(shí)現(xiàn)打破思維“黑盒”,運(yùn)用自然語言就對弈過程進(jìn)行講解。

用戶在與InternThinker對弈的過程中,大模型化身為循循善誘的“教練”,它能全面地分析當(dāng)前局面形勢,對不同的落子點(diǎn)進(jìn)行判斷和對比,并給出明確的結(jié)果,讓用戶了解每一步棋背后的推理過程和決策依據(jù),從而幫助用戶更好地理解和學(xué)習(xí)圍棋。

李世石在與AlphaGO交戰(zhàn)的第四盤78手下在L11,被稱為“神之一手”,直接扭轉(zhuǎn)局勢贏下一局。在研究人員對這一名局的復(fù)現(xiàn)中,InternThinker評價這步棋“相當(dāng)?shù)筱@……這步棋完美解決L11的威脅,重新確立中央控制權(quán),為后續(xù)進(jìn)攻埋下伏筆”。隨后它給出了落子在L10的應(yīng)對策略。



△InternThinker應(yīng)對李世石“神之一手”

InternThinker還具備多樣化的“語言”風(fēng)格,極具“活人感”。比如,當(dāng)用戶下了一步好棋,它會加油鼓勵:“這步棋相當(dāng)有力,可以說是‘以攻代守’的好手。”

也會冒出毒舌銳評:“可以說是‘不是棋’的選擇?!?/p>



△InternThinker多樣化的語言風(fēng)格

在棋力方面,InternThinker未來仍有提升空間。

新生代世界圍棋冠軍王星昊九段在與其對弈后評價道:

能解說思考過程的AI還是第一次見,感覺它分析得非常好;從布局看棋力可能在職業(yè)3-5段之間。

目前InternThinker已開啟公測,所有用戶均可以隨時隨地與之對弈,鏈接可在文末自取。

InternBootcamp:“體驗(yàn)”即學(xué)習(xí),探索大模型推理能力提升新范式

InternThinker強(qiáng)大的推理能力及在圍棋任務(wù)上的突破,得益于其創(chuàng)新的訓(xùn)練環(huán)境。

針對復(fù)雜的邏輯推理任務(wù),如何準(zhǔn)確地獲得過程和結(jié)果反饋尤為關(guān)鍵,為此,研究人員搭建了大規(guī)模、標(biāo)準(zhǔn)化、可擴(kuò)展的可交互驗(yàn)證環(huán)境InternBootcamp——這相當(dāng)于為模型創(chuàng)造了一個“加速訓(xùn)練營”,使其可以高效習(xí)得專業(yè)技能,快速“成長”。



△InternBootCamp與大模型交互流程

基于代碼智能體自動化構(gòu)造,InternBootCamp包含超1000個驗(yàn)證環(huán)境,覆蓋廣泛的復(fù)雜邏輯推理任務(wù),能有效幫助大模型領(lǐng)域研究者基于強(qiáng)化學(xué)習(xí)開展探索。

InternBootcamp可以批量化、規(guī)范化生成難度可控的推理任務(wù),如奧賽級數(shù)學(xué)、科學(xué)對象理解與推理、算法編程、棋類游戲、智力謎題等,并與大模型進(jìn)行交互和提供反饋。通過不同專業(yè)知識大規(guī)模構(gòu)造和混合訓(xùn)練,使大模型跳出基于數(shù)據(jù)標(biāo)注獲取問題和答案的繁瑣模式,同時避免傳統(tǒng)獎勵模型的欺騙,從而實(shí)現(xiàn)大模型推理能力提升的新范式。

除圍棋外,在其他任務(wù)中InternThinker也有不俗表現(xiàn)。通過對多種任務(wù)的混合強(qiáng)化學(xué)習(xí),InternThinker在包括數(shù)十個任務(wù)的測試集上的平均能力超過o3-mini、DeepSeek-R1以及Claude-3.7-Sonnet等國內(nèi)外主流推理模型:



甚至在一些任務(wù)中性能表現(xiàn)遠(yuǎn)超當(dāng)前其他推理大模型。

比如在以下兩項(xiàng)任務(wù)中:



InternThinker的表現(xiàn)均優(yōu)于o3-mini:



多任務(wù)混合強(qiáng)化學(xué)習(xí):迎來“涌現(xiàn)時刻”

值得一提的是,研究人員觀察到,在基于InternBootcamp的多任務(wù)混合訓(xùn)練過程中,出現(xiàn)了強(qiáng)化學(xué)習(xí)的“涌現(xiàn)時刻”:在單一任務(wù)中,無法成功推理得到獎勵的模型,通過多個任務(wù)混合的強(qiáng)化學(xué)習(xí),能夠在訓(xùn)練過程中成功得到獎勵,實(shí)現(xiàn)領(lǐng)域外專業(yè)任務(wù)的有效強(qiáng)化學(xué)習(xí)訓(xùn)練。

除了單獨(dú)訓(xùn)練Tapa、Unicoder25任務(wù)外,研究人員額外選擇了幾十種任務(wù)進(jìn)行混合訓(xùn)練。如下圖所示:單一訓(xùn)練Tapa等任務(wù)并不能成功獲得任務(wù)的正向反饋;而混合訓(xùn)練各類InternBootcamp任務(wù)達(dá)一定步數(shù)后,InternThinker融合學(xué)習(xí)了這些推理任務(wù)的思考方式,建立起了不同任務(wù)間的關(guān)聯(lián),從而成功獲取了Tapa這類任務(wù)的正向反饋,實(shí)現(xiàn)對該任務(wù)的有效學(xué)習(xí)。

這意味著,隨著InternBootcamp任務(wù)的數(shù)量增加、質(zhì)量提升和難度加大,大模型有望迎來能力的“升華”,高效解決更多、更難、更具實(shí)用性的推理任務(wù),在助力大模型推理能力泛化的同時,加速推動科學(xué)發(fā)現(xiàn)。



△Unicode25任務(wù),其中淺色表示峰值、深色表示均值



△Tapa任務(wù)”涌現(xiàn)時刻”,其中淺色表示峰值、深色表示均值

通專融合底層技術(shù)突破

上述進(jìn)展得益于近期上海AI Lab在通專融合路線的底層技術(shù)和架構(gòu)方面的一系列創(chuàng)新突破。
從大模型發(fā)展歷程來看,主要分化為專業(yè)性和通用泛化性兩大路線。上海AI Lab率先提出通專融合技術(shù)路線(https://arxiv.org/abs/2407.08642),著力解決大模型高度專業(yè)化與通用泛化性相互制約的發(fā)展困境。這一路徑的關(guān)鍵在于同步提升深度推理與專業(yè)泛化能力,使模型不僅在廣泛的復(fù)雜任務(wù)上表現(xiàn)出色,還能在特定領(lǐng)域中達(dá)到專業(yè)水平。

上海AI Lab進(jìn)一步提出通過相互依賴的基礎(chǔ)模型層、 融合協(xié)同層和探索進(jìn)化層“三層”技術(shù)路徑, 可打造“通用泛化性”“高度專業(yè)性”“任務(wù)可持續(xù)性”三者兼得的通用人工智能。



△通專融合AGI實(shí)現(xiàn)路徑

第一層為基礎(chǔ)模型層,旨在構(gòu)建通用泛化基礎(chǔ)能力和高密度監(jiān)督的專業(yè)能力。上海AI Lab團(tuán)隊(duì)近期提出全新的“記憶體+解碼器”大模型架構(gòu)Memory Decoder,并實(shí)現(xiàn)兩個組成部分通過不同的預(yù)訓(xùn)練任務(wù)分別進(jìn)行訓(xùn)練。區(qū)別于將所有信息全都編碼進(jìn)decoder的現(xiàn)有Transformer經(jīng)典大模型架構(gòu),該架構(gòu)實(shí)現(xiàn)了通專融合中“知識與推理可分離與自組合”的新一代大模型。其中,記憶體承擔(dān)“?!钡墓δ?,負(fù)責(zé)對不同領(lǐng)域知識的可靠記憶;解碼器承擔(dān)“通”的功能,負(fù)責(zé)通用的語言組織和邏輯;記憶體可經(jīng)過一次訓(xùn)練后應(yīng)用于不同基模型。

第二層為融合協(xié)同層,通過多路線協(xié)同構(gòu)建比肩人類專家的通專融合能力。團(tuán)隊(duì)近期的突破包括:

  • 設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法PRIME(https://arxiv.org/abs/2502.01456),結(jié)合高密度監(jiān)督信號,有效強(qiáng)化了智能體專精能力的提升效率,為通用群體智能發(fā)展鋪平了道路。可實(shí)現(xiàn)更快速的收斂,同時獲取比現(xiàn)有方法高出7%的性能提升。在AIME、MATH等競賽難度數(shù)學(xué)題上,僅用少量開源數(shù)據(jù),便可使得7B模型的數(shù)學(xué)能力顯著超越OpenAI的GPT-4o。
  • 推出以多任務(wù)強(qiáng)化學(xué)習(xí)為核心的后訓(xùn)練技術(shù)框架MoR,聚焦實(shí)現(xiàn)多任務(wù)的強(qiáng)化學(xué)習(xí)。針對不同類型任務(wù)(例如數(shù)學(xué)解答和證明、科學(xué)問答、推理解謎、主觀對話等)進(jìn)行了算法探索和初步集成驗(yàn)證,實(shí)現(xiàn)了多任務(wù)強(qiáng)化學(xué)習(xí)的混合訓(xùn)練。
  • 構(gòu)建基于結(jié)果獎勵的強(qiáng)化學(xué)習(xí)新范式OREAL(https://arxiv.org/abs/2502.06781),著力解決大模型當(dāng)前面臨的“稀疏獎勵困境、局部正確陷阱和規(guī)模依賴魔咒”三大困局。該算法超越了目前廣泛使用的GRPO等方法,定義了一個更廣泛的算法設(shè)計(jì)空間,能將PRIME、DAPO等方法的優(yōu)點(diǎn)融合入算法框架中,無需蒸餾超大參數(shù)規(guī)模模型,便實(shí)現(xiàn)了輕中量級(7B/32B)模型推理能力的再提升。

第三層為探索進(jìn)化層,通過自主探索與反饋修正實(shí)現(xiàn)AI自我進(jìn)化閉環(huán)。團(tuán)隊(duì)近期的突破包括:

  • 測試時強(qiáng)化學(xué)習(xí)(TTRL)框架
  • (https://arxiv.org/abs/2504.16084),有效探索人工智能自主進(jìn)化的可能路徑。TTRL能在沒有準(zhǔn)確標(biāo)簽的情況下進(jìn)行獎勵估計(jì),驅(qū)動模型朝著正確的方向?qū)W習(xí),有力支持了在減少人工標(biāo)注依賴方面的潛力,進(jìn)一步推動強(qiáng)化學(xué)習(xí)向大規(guī)模、無監(jiān)督方向的持續(xù)擴(kuò)展。
  • 構(gòu)建分子逆合成新方法Retro-R1,基于大模型+智能體+長推理+強(qiáng)化學(xué)習(xí)的范式,在多步逆合成問題上展現(xiàn)出了更精準(zhǔn)的合成路徑規(guī)劃能力。Retro-R1在不使用任何SFT數(shù)據(jù)僅使用1萬條強(qiáng)化學(xué)習(xí)數(shù)據(jù)通過200步訓(xùn)練的情況下就實(shí)現(xiàn)了大模型在逆合成推理能力的升級,并在不同領(lǐng)域數(shù)據(jù)中展現(xiàn)出了出色的泛化能力。

據(jù)悉,未來上海AI Lab將系統(tǒng)推進(jìn)通專融合技術(shù)路線的發(fā)展與探索,將通專融合的新能力、新進(jìn)展持續(xù)通過InternBootcamp對外開放,加速以新一代通專融合基座模型的方式解決具體科學(xué)發(fā)現(xiàn)中的關(guān)鍵問題,同時牽引打造垂直領(lǐng)域示范應(yīng)用案例,為科學(xué)發(fā)現(xiàn)與產(chǎn)業(yè)創(chuàng)新提供關(guān)鍵驅(qū)動力。

公測鏈接:https://internlm-chat.intern-ai.org.cn/
開源地址:https://github.com/InternLM/InternBootcamp

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
還是老男人最懂大女主!李誠儒可比李現(xiàn)朱亞文靠譜多了

還是老男人最懂大女主!李誠儒可比李現(xiàn)朱亞文靠譜多了

米椒影視
2025-05-23 17:08:23
一覺醒來 陳芋汐懵了 不是因?yàn)槿t嬋退賽了,而是對手張家齊回來了

一覺醒來 陳芋汐懵了 不是因?yàn)槿t嬋退賽了,而是對手張家齊回來了

動物奇奇怪怪
2025-05-24 04:45:26
千萬不要相信網(wǎng)上的毒雞湯,有研究生學(xué)歷已經(jīng)超過大多數(shù)普通人

千萬不要相信網(wǎng)上的毒雞湯,有研究生學(xué)歷已經(jīng)超過大多數(shù)普通人

曉風(fēng)說
2025-05-24 14:35:52
力挫4大豪門、久居中超第1!“平民”申花:3大關(guān)鍵,引中超深思

力挫4大豪門、久居中超第1!“平民”申花:3大關(guān)鍵,引中超深思

話體壇
2025-05-24 18:38:19
微信員工回應(yīng)朋友圈折螺絲廣告:沒有「盜用」好友去互動,可能是時間久忘了

微信員工回應(yīng)朋友圈折螺絲廣告:沒有「盜用」好友去互動,可能是時間久忘了

鞭牛士
2025-05-23 19:24:06
不該約的炮,別約

不該約的炮,別約

法律讀品
2025-05-23 08:21:52
在哈佛的中國學(xué)者:“我很高興,能在此時離開美國”

在哈佛的中國學(xué)者:“我很高興,能在此時離開美國”

環(huán)球網(wǎng)資訊
2025-05-23 21:22:24
蘋果+生姜丟水里煮,血管刷得干干凈凈!三高人群快收藏

蘋果+生姜丟水里煮,血管刷得干干凈凈!三高人群快收藏

江江食研社
2025-05-24 08:30:08
胃癌手術(shù)8天帶貨4800萬,51歲曹穎邊化療邊哭,害怕兒子失去媽媽

胃癌手術(shù)8天帶貨4800萬,51歲曹穎邊化療邊哭,害怕兒子失去媽媽

卷史
2025-05-22 17:52:54
95年杭州夫妻花50萬囤茅臺酒,15年后茅臺價格令他們不敢置信

95年杭州夫妻花50萬囤茅臺酒,15年后茅臺價格令他們不敢置信

星宇共鳴
2025-05-20 17:59:18
去了一趟梵蒂岡,心都碎了,人跟人的差距竟然這么大

去了一趟梵蒂岡,心都碎了,人跟人的差距竟然這么大

小嵩
2025-05-19 09:03:39
帕森斯:如果聯(lián)盟第一人是MVP,那詹姆斯會有15、16個!

帕森斯:如果聯(lián)盟第一人是MVP,那詹姆斯會有15、16個!

歷史第一人梅西
2025-05-23 17:55:46
李嘉誠突然暴雷!香港廉政公署出手調(diào)查,拘捕10人,李澤鉅回應(yīng)

李嘉誠突然暴雷!香港廉政公署出手調(diào)查,拘捕10人,李澤鉅回應(yīng)

深析古今
2025-05-24 11:45:38
就在剛才!世乒賽4強(qiáng)出爐,誕生了6個萬萬沒想到,今日賽程如下

就在剛才!世乒賽4強(qiáng)出爐,誕生了6個萬萬沒想到,今日賽程如下

泠泠說史
2025-05-24 11:13:51
朝鮮公布驅(qū)逐艦下水事故調(diào)查結(jié)果

朝鮮公布驅(qū)逐艦下水事故調(diào)查結(jié)果

參考消息
2025-05-24 09:33:11
南京夫妻生下黑人寶寶,7次鑒定都是親生,妻子無奈痛哭說出真相

南京夫妻生下黑人寶寶,7次鑒定都是親生,妻子無奈痛哭說出真相

蕭竹輕語
2025-05-20 16:58:49
卡薩諾:國米4年里將3座意甲冠軍丟進(jìn)馬桶,責(zé)任完全在于小因扎吉

卡薩諾:國米4年里將3座意甲冠軍丟進(jìn)馬桶,責(zé)任完全在于小因扎吉

直播吧
2025-05-24 07:04:12
陽謀!巴基斯坦高度稱贊陣風(fēng),計(jì)劃購買法國戰(zhàn)機(jī)的國家更不敢買了

陽謀!巴基斯坦高度稱贊陣風(fēng),計(jì)劃購買法國戰(zhàn)機(jī)的國家更不敢買了

掌青說歷史
2025-05-24 17:25:49
90后母親十年求醫(yī)路:兩兒子患罕見病,一路盡遇好心人沒有理由不堅(jiān)持

90后母親十年求醫(yī)路:兩兒子患罕見病,一路盡遇好心人沒有理由不堅(jiān)持

上游新聞
2025-05-24 17:25:09
高通尷尬!雷軍微博只字不提與高通合作!網(wǎng)友:從青梅竹馬到已讀不回!玄戒才是小甜甜!

高通尷尬!雷軍微博只字不提與高通合作!網(wǎng)友:從青梅竹馬到已讀不回!玄戒才是小甜甜!

大白聊IT
2025-05-22 10:07:44
2025-05-24 20:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10550文章數(shù) 176151關(guān)注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

體育要聞

NBA最被高估球隊(duì),“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經(jīng)要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風(fēng)全新SUV定妝圖曝光,顏值氣場并存

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

連續(xù)17次提前交付!海口這座頂流紅盤,業(yè)主贏麻了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

僅199元!小米推出室外攝像機(jī)4C:500萬像素全彩夜視、雙云臺

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京:俄羅斯仍位列五大武器出口國之列

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 贞丰县| 揭西县| 海盐县| 庆云县| 什邡市| 临城县| 大田县| 望谟县| 綦江县| 乌兰县| 信丰县| 忻城县| 昭苏县| 阿城市| 漳平市| 鹰潭市| 金湖县| 瑞安市| 九江市| 多伦县| 灯塔市| 壶关县| 乐亭县| 黔西| 游戏| 新疆| 通城县| 吴川市| 洛阳市| 新田县| 新蔡县| 樟树市| 西贡区| 息烽县| 老河口市| 靖安县| 安国市| 从化市| 宿州市| 循化| 乡宁县|