99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

LLM已能自我更新權重,自適應、知識整合能力大幅提升,AI醒了?

0
分享至



機器之心報道

編輯:Panda

近段時間,關于 AI 自我演進/進化這一話題的研究和討論開始變得愈漸密集。

本月初我們就曾梳理報道了一些,包括 Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文-哥德爾機(DGM)」、CMU 的「自我獎勵訓練(SRT)」、上海交通大學等機構提出的多模態大模型的持續自我改進框架「MM-UPT」、香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」,參閱文章《LSTM 之父 22 年前構想將成真?一周內 AI「自我進化」論文集中發布,新趨勢涌現?》

那之后,相關研究依然還在不斷涌現,以下拼圖展示了一些例子:



而前些天,OpenAI CEO、著名 大 v 山姆?奧特曼在其博客《溫和的奇點(The Gentle Singularity)》中更是暢想了一個 AI/智能機器人實現自我改進后的未來。他寫道:「我們必須以傳統的方式制造出第一批百萬數量級的人形機器人,但之后它們能夠操作整個供應鏈來制造更多機器人,而這些機器人又可以建造更多的芯片制造設施、數據中心等等。」

不久之后,就有 用戶 @VraserX 爆料稱有 OpenAI 內部人士表示,該公司已經在內部運行能夠遞歸式自我改進的 AI。這條推文引起了廣泛的討論 —— 有人表示這不足為奇,也有人質疑這個所謂的「OpenAI 內部人士」究竟是否真實。



https://x.com/VraserX/status/1932842095359737921

但不管怎樣,AI 也確實正向實現自我進化這條路前進。

MIT 昨日發布的《Self-Adapting Language Models》就是最新的例證之一,其中提出了一種可讓 LLM 更新自己的權重的方法:SEAL,即 Self-Adapting LLMs。在該框架中,LLM 可以生成自己的訓練數據(自編輯 /self-editing),并根據新輸入對權重進行更新。而這個自編輯可通過強化學習學習實現,使用的獎勵是更新后的模型的下游性能。



  • 論文標題:Self-Adapting Language Models
  • 論文地址:https://arxiv.org/pdf/2506.10943
  • 項目頁面:https://jyopari.github.io/posts/seal
  • 代碼地址:https://github.com/Continual-Intelligence/SEAL

這篇論文發布后引發了廣泛熱議。在 Hacker News 上,有用戶評論說,這種自編輯方法非常巧妙,但還不能說就已經實現了能「持續自我改進的智能體」。



論文一作 Adam Zweiger 也在 上給出了類似的解釋:



也有人表示,這表明我們正在接近所謂的事件視界(event horizon)—— 這個概念其實也出現在了山姆?奧特曼《溫和的奇點》博客的第一句話,不過奧特曼更激進一點,他的說法是「我們已經越過了事件視界」。簡單來說,event horizon(事件視界)指的是一個不可逆轉的臨界點,一旦越過,人類將不可避免地邁入某種深刻變革的階段,比如通向超級智能的道路。



當然,也有人對自我提升式 AI 充滿了警惕和擔憂。



下面就來看看這篇熱門研究論文究竟得到了什么成果。

自適應語言模型(SEAL)

SEAL 框架可以讓語言模型在遇到新數據時,通過生成自己的合成數據并優化參數(自編輯),進而實現自我提升。

該模型的訓練目標是:可以使用模型上下文中提供的數據,通過生成 token 來直接生成這些自編輯(SE)。

自編輯生成需要通過強化學習來學習實現,其中當模型生成的自編輯在應用后可以提升模型在目標任務上的性能時,就會給予模型獎勵。

因此,可以將 SEAL 理解為一個包含兩個嵌套循環的算法:一個外部 RL 循環,用于優化自編輯生成;以及一個內部更新循環,它使用生成的自編輯通過梯度下降更新模型。



該方法可被視為元學習的一個實例,即研究的是如何以元學習方式生成有效的自編輯。







最后,他們還注意到,雖然本文的實現是使用單個模型來生成自編輯并從這些自編輯中學習,但也可以將這些角色分離。在這樣一種「教師-學生」形式中,學生模型將使用由另一個教師模型提出的編輯進行更新。然后,教師模型將通過強化學習進行訓練,以生成能夠最大程度提高學生學習效果的編輯。

針對具體領域實例化 SEAL

理論有了,該團隊也打造了 SEAL 的實例。具體來說,他們選擇了兩個領域:知識整合和少樣本學習。

其中,知識整合的目標是有效地將文章中提供的信息整合到模型的權重中。下圖展示了相關設置。



而下圖則給出了少樣本學習的設置。



對這兩種實例化的更詳細描述請訪問原論文,下面來看看 SEAL 的實際表現。

實驗結果

少樣本學習

實驗所用的模型是 Llama-3.2-1B-Instruct,基準為 ARC。參與對比的方法包括 ICL(上下文學習)、TTT + 自編輯(無強化學習)、Oracle TTT。結果見下表。



可以看到,與基線相比,SEAL 顯著提高了適應成功率:72.5% vs. 20%(使用基礎模型的自編輯但未進行強化學習訓練)和 0%(無適應),但性能仍低于 Oracle TTT,表明新方法仍有進一步改進的空間。

知識整合

知識整合則使用了更大一些的 Qwen2.5-7B,目標是整合 SQuAD 文章中的新事實內容。這里對比的方法包括基礎模型、僅在文章上訓練的模型、在文章 + 合成數據訓練的模型、在文章 + GPT-4.1 合成數據上訓練的模型。結果見下表。



可以看到,在單篇文章(n = 1)和持續預訓練(n = 200)這兩種情況下,SEAL 方法的準確度表現都超過了基準。

首先使用基礎 Qwen-2.5-7B 模型生成的合成數據訓練后,模型的表現已經能獲得明顯提升,從 32.7% 分別提升到了 39.7% 和 41.0%,之后再進行強化學習,性能還能進一步提升(47.0% 和 43.8%)。

圖 4 展現了每次外部強化學習迭代后的準確度。



可以看到,兩次迭代足以使 SEAL 超越使用 GPT-4.1 數據的設置;后續迭代的收益會下降,這表明該策略快速收斂到一種將段落蒸餾為易于學習的原子事實的編輯形式(參見圖 5 中的定性示例)。



在這個例子中,可以看到強化學習如何導致生成更詳細的自編輯,從而帶來更佳的性能。雖然在這個例子中,進展很明顯,但在其他例子中,迭代之間的差異有時會更為細微。

另外,該團隊也在論文中討論了 SEAL 框架在災難性遺忘、計算開銷、上下文相關評估方面的一些局限,詳見原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

鋭娛之樂
2025-06-20 20:32:56
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

界史
2025-06-21 11:45:00
一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

詩詞中國
2025-01-18 13:12:38
87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

蕭竹輕語
2025-06-18 18:31:19
破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

素年文史
2025-06-21 12:40:03
花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

快科技
2025-06-20 11:23:13
闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

聯友說娛
2025-06-21 14:21:52
評論“違規吃喝”,新華社更勝一籌

評論“違規吃喝”,新華社更勝一籌

海濤評論
2025-06-20 22:22:44
足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

側身凌空斬
2025-06-21 21:30:33
馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

阿紿聊社會
2025-06-21 11:33:39
伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

胖福的小木屋
2025-06-20 23:48:20
特斯拉重大宣布:計劃再投資超500億元!大行警告......

特斯拉重大宣布:計劃再投資超500億元!大行警告......

每日經濟新聞
2025-06-21 14:29:07
汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

古希臘掌管月桂的神
2025-06-20 13:36:25
達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

奧拜爾
2025-06-21 21:05:05
以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

柏銘銳談
2025-06-20 16:01:48
2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

時代投研
2025-06-20 21:17:03
小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

奇思妙想草葉君
2025-06-21 01:19:08
知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

星光看娛樂
2025-06-20 10:35:27
周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

政知新媒體
2025-06-20 19:25:24
“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

科技處長
2025-06-20 22:14:57
2025-06-21 23:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

房產
健康
旅游
公開課
軍事航空

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 岑溪市| 通化市| 武城县| 荔波县| 张家界市| 宁陕县| 翁源县| 墨竹工卡县| 教育| 交城县| 阿尔山市| 嘉义县| 大名县| 宝山区| 靖宇县| 融水| 长治县| 景东| 棋牌| 西乡县| 道孚县| 雅江县| 章丘市| 德惠市| 玛多县| 三穗县| 驻马店市| 乐平市| 邳州市| 太保市| 宜章县| 龙岩市| 延庆县| 阳山县| 车险| 团风县| 宿州市| 景谷| 郯城县| 景宁| 莆田市|