99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

3B超越DeepSeek,大模型終于理解時間了!Time-R1一統過去/未來/生成

0
分享至


新智元報道

編輯:LRST

【新智元導讀】Time-R1通過三階段強化學習提升模型的時間推理能力,其核心是動態獎勵機制,根據任務難度和訓練進程調整獎勵,引導模型逐步提升性能,最終使3B小模型實現全面時間推理能力,超越671B模型。

時間,是我們日常生活中最基礎的概念。

但對于大語言模型(LLM)來說,它們或許能寫詩作畫、通曉古今,但在真正理解和運用時間概念時,卻常常顯得力不從心。

這個技術短板來自于大模型的底層設計,無法避免:

訓練語料庫是靜態的,存在知識截斷時間;在按非時間順序的語料訓練過程中,跨越不同時期的時間信息是同時處理的,不像人類逐步接收知識,阻礙了在事件與其對應時間之間建立可靠的邏輯映射。

現有的方案如時間對齊、外部知識庫等,如同「打補丁」,哪差補哪,始終未能實現「理解-預測-生成」的全鏈路突破。

最近,來自伊利諾伊大學香檳分校的研究人員發布了一份突破性成果Time-R1,基于一個僅3B的小模型,通過精心設計的三階段的課程強化學習,實現理解過去、預測未來甚至創造性生成大一統。

該框架的核心創新在于其精心設計地動態的、基于規則的獎勵機制,像一位經驗豐富的導師,逐步引導模型掌握時間的奧秘。


論文地址:https://arxiv.org/abs/2505.13508

代碼地址:https://github.com/ulab-uiuc/Time-R1/tree/master

模型地址:https://huggingface.co/collections/ulab-ai/time-r1-682626aea47cb2b876285a16

數據集地址:https://huggingface.co/datasets/ulab-ai/Time-Bench

直播回放:https://b23.tv/aArKNSY

Time-R1的三階段「時間特調」

Time-R1的具體實現由三個階段組成:


(a)階段1通過四個時間子任務進行強化微調,建立時間觀念的基本理解;(b)階段2在階段1的基礎上進一步使用知識截止時間后以及合成的數據來訓練,鍛煉預測未來的能力;(c)第3階段直接進行創造性未來情景的生成。

第一階段,構建「時間認知基石」,通過在四大特訓任務上的強化微調,建立事件與時間的精準映射:時間戳推理,時間差計算,事件排序,時間實體補全;

第二階段,跨越知識邊界的未來預測,在嚴格隔離未來數據的前提下,在階段一得到的模型checkpoint基礎上繼續強化微調,讓模型從歷史規律中自主推演趨勢;

第三階段,零樣本創意生成,無需額外訓練,直接生成指定未來時間下合理的推演未來場景。


Time-R1在面對未來導向問題的真實回答。(左)未來事件時間預測;(右)創造性場景生成,輸出與未來發生的現實新聞比較。

1200行代碼,精心打磨的「獎勵藝術」

Time-R1的成功很大程度上歸功于研究人員為每個子任務量身定制的、極其細致的獎勵函數。

這套獎勵機制的代碼總行數超過了1200行,每一個設計細節,都是在模型試圖「鉆空子」、尋找捷徑時,針對性地提出「反制措施」,是無數次實驗和迭代的結晶。

通用獎懲設計

格式遵循獎勵如果輸出格式符合任務要求(例如日期格式為「YYYY-MM」),則給予少量獎勵。 這也是準確性評分的前提。

標簽結構獎勵對正確使用 和等結構標簽給予獎勵,以鼓勵「思考鏈」式的推理過程。

長度與重復懲罰懲罰過于冗長或重復的輸出,這在實驗中被證明非常有效。該懲罰項綜合考慮了總長度和多種重復情況(如連續詞語重復、短語重復、n-gram多樣性不足等)。

特定任務的精準「標尺」

準確度獎勵,是獎勵機制的核心,針對每個任務的特性進行設計:

時間戳推斷獎勵基于推斷日期與真實日期之間的月份差距,采用指數衰減函數,其中設計一個衰減系數α能讓模型感知到其時間誤差的「大小」,同時還設計了動態調整機制。

時間差估計獎勵綜合了兩個事件日期的推斷準確性以及它們之間時間差的準確性,并引入了不一致性懲。這個懲罰項用于懲罰模型明確推斷的時間差與其推斷的兩個日期所暗示的時間差之間的矛盾,確保模型輸出的內部邏輯自洽。

事件排序獎勵同樣綜合了各事件日期的推斷準確性和最終排序的準確性。

此任務中,設計了不一致性懲罰(確保推斷順序與推斷日期所指示的順序一致)和多樣性懲罰(懲罰所有推斷日期都相同或日期呈簡單序列的「平凡解」),鼓勵模型推斷出更多樣化和真實的事件日期分布。

掩碼時間實體補全獎勵綜合事件日期推斷的準確性和被掩碼實體(年份或月份)補全的準確性。特別地,當掩碼實體是「月份」時,會計算預測月份與真實月份之間的「循環差異」,以更好地捕捉月份的鄰近性。

特色動態獎勵機制:引導模型循序漸進

為了解決從零開始微調LLM進行專門時間任務時的「冷啟動」挑戰,并培養模型在難題上的穩健表現,研究團隊在第一階段引入了動態獎勵機制。

根據任務難度和訓練進程,動態調整日期準確性獎勵部分中的衰減系數α

小模型的「屠榜時刻」

通過上述精心設計,Time-R1在第一階段取得了令人矚目的成績。

根據最新的實驗結果,Time-R1 (3B)在第一階段的基礎時間理解任務上,其綜合表現已經成功超越了參數量200多倍的DeepSeek-V3-0324模型(0.647)!


Time-R1第一階段的訓練曲線與baselines對比。紅色:Time-R1,具有三過程動態獎勵機制。藍色:沒有動態獎勵設計的消融實驗。

圖中的結果也有力的證明了動態獎勵機制的有效性。

在有了基礎時間推理能力后,繼續訓練的Time-R1在未來事件時間預測上取得了最高的平均總得分,在整個預測時間范圍內(2024年8月至2025年2月)持續優于包括DeepSeek-R1和DeepSeek-V3在內的大多數基線模型。


接著,在沒有任何微調的情況下,創造性場景生成任務中,Time-R1同樣取得了最佳的平均最大相似度得分(衡量生成新聞與真實新聞的語義相似度),再次超越了所有基線模型,展現了強大的泛化能力,有力地證明了前兩階段訓練范式的成功。


總結

Time-R1,一個3B參數語言模型,通過一種新穎的、精心設計的三階段強化學習課程和動態獎勵系統,實現了全面的時間推理能力——涵蓋理解、預測和創造性生成,碾壓671B巨無霸模型。

這一成功直接解決了大模型領域一個重要的痛點,并證明了先進的、漸進式的強化學習方法能夠使更小、更高效的模型實現卓越的時間性能,為實現具有巨大應用潛力的、真正具備時間意識的人工智能提供了一條實用且可擴展的路徑。

同時研究團隊實現了全面開源,不僅發布了Time-Bench由200000余條的10年紐約時報新聞打造的大型多任務時間推理數據集,還發布了Time-R1完整訓練代碼以及各階段模型檢查點,積極促進下一步的研究和發展。

作者介紹

論文一作劉子嘉是同濟大學直博生,導師為嚴鋼教授,目前在美國伊利諾伊大學香檳分校(UIUC)訪問交流,接受Jiaxuan You教授指導,博士期間圍繞論文選題取得一系列成果:

在頂級期刊Physical Review X以第一作者發表「Early predictor for the onset of critical transitions in networked dynamical systems」文章,被頂級Nature子刊Nature Physics進行專門報道。

同時,工作成果「Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect」發表于人工智能頂會NeurIPS,并被收錄為「Spotlight」。

博士在讀期間,發表多篇高水平論文,并被多次引用。

參考資料:

https://arxiv.org/abs/2505.13508


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“高中3年數學,跟沒學一樣”,25高考數學難出新高度,考生崩潰

“高中3年數學,跟沒學一樣”,25高考數學難出新高度,考生崩潰

牛鍋巴小釩
2025-06-08 02:35:22
賊眉鼠眼就別演杜甫!看朱亞文的表現,才徹底明白“詩圣”什么樣

賊眉鼠眼就別演杜甫!看朱亞文的表現,才徹底明白“詩圣”什么樣

頭號劇委會
2025-06-10 00:00:05
史上最嚴“禁酒令”:管的是權力酒桌,不是百姓酒杯

史上最嚴“禁酒令”:管的是權力酒桌,不是百姓酒杯

西莫的藝術宮殿
2025-06-09 09:22:40
33歲女子自述:黑人男友成了心中抹不去的陰影,至今沒人能接受我

33歲女子自述:黑人男友成了心中抹不去的陰影,至今沒人能接受我

易玄
2025-06-09 01:17:45
敢曝光發生在你身邊的奇葩事嗎?網友:還真是一個比一個勁爆啊

敢曝光發生在你身邊的奇葩事嗎?網友:還真是一個比一個勁爆啊

解讀熱點事件
2025-06-05 00:10:03
馬斯克剛跟特朗普鬧翻,星鏈衛星就突然大規模墜落,誰在搞鬼?

馬斯克剛跟特朗普鬧翻,星鏈衛星就突然大規模墜落,誰在搞鬼?

奉壹數碼
2025-06-09 22:23:43
重磅!火箭打包10號簽和兩新星換2019年狀元郎,斯通運作獲評A+

重磅!火箭打包10號簽和兩新星換2019年狀元郎,斯通運作獲評A+

埃文凱爾
2025-06-10 00:18:16
竟然倒閉了?中國最“暴利”的行業,囂張20年后卻徹底被時代淘汰

竟然倒閉了?中國最“暴利”的行業,囂張20年后卻徹底被時代淘汰

森羅萬象視頻
2025-01-16 17:55:20
46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

陳述影視
2025-06-07 20:44:35
參軍9年未能提干,退伍返鄉時,團長找到我:你可知犯了什么錯?

參軍9年未能提干,退伍返鄉時,團長找到我:你可知犯了什么錯?

凱裕說故事
2025-06-07 12:37:40
這次大放水,無人察覺……

這次大放水,無人察覺……

路財主
2025-06-09 23:18:41
吃相太難看!韋東奕注冊賬戶才5天,惡心的一幕發生了,官媒發聲

吃相太難看!韋東奕注冊賬戶才5天,惡心的一幕發生了,官媒發聲

楊哥歷史
2025-06-09 10:15:09
太突然!東莞又一大型超市關閉!!!

太突然!東莞又一大型超市關閉!!!

東莞好生活
2025-06-09 15:38:22
網壇名宿麥肯羅大膽斷言:阿爾卡拉斯、辛納都能擊敗巔峰納達爾

網壇名宿麥肯羅大膽斷言:阿爾卡拉斯、辛納都能擊敗巔峰納達爾

體育妞世界
2025-06-10 00:05:21
港媒傳孫儷鄧超將移民英國,孫儷最新發文讓網友安心:我們要在上海慢慢變老

港媒傳孫儷鄧超將移民英國,孫儷最新發文讓網友安心:我們要在上海慢慢變老

極目新聞
2025-06-08 22:22:29
俄羅斯公布最新民調顯示,美國并非頭號敵人,中國也非最親密盟友

俄羅斯公布最新民調顯示,美國并非頭號敵人,中國也非最親密盟友

碳基生物關懷組織
2025-06-07 15:30:31
南寧地鐵一宣傳片被指低俗 相關公司:已撤下,涉事車輛因維修未更換備用墊片

南寧地鐵一宣傳片被指低俗 相關公司:已撤下,涉事車輛因維修未更換備用墊片

紅星新聞
2025-06-09 19:55:14
2000年,第53屆戛納國際電影節上,莫妮卡·貝魯奇給梁朝偉頒獎時

2000年,第53屆戛納國際電影節上,莫妮卡·貝魯奇給梁朝偉頒獎時

娛你同歡
2025-06-08 21:47:04
烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

項鵬飛
2025-06-09 21:19:06
評論 | 比起炒作“高志凱線”,這才是在邊境問題上對付印度的辦法…

評論 | 比起炒作“高志凱線”,這才是在邊境問題上對付印度的辦法…

南亞研究通訊
2025-06-09 00:01:00
2025-06-10 02:24:50
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12848文章數 66061關注度
往期回顧 全部

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

數碼
游戲
時尚
家居
軍事航空

數碼要聞

蘋果tvOS 26 支持機型名單曝光, 10 年前的 Apple TV HD 也能升

泰國武俠試玩Demo上線Steam!來嘗嘗味兒正不正!

今年夏天最流行的裙子,配這4雙鞋才好看!

家居要聞

簡約輕奢 現代實用私宅

軍事要聞

烏方稱俄發動沖突以來最大空襲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安顺市| 桂阳县| 河南省| 浦江县| 即墨市| 临海市| 民勤县| 曲周县| 高清| 炉霍县| 南投县| 哈密市| 青阳县| 双柏县| 吴忠市| 肇源县| 陆川县| 安顺市| 葵青区| 凉城县| 安徽省| 宁海县| 湖口县| 宁阳县| 绵竹市| 刚察县| 黎川县| 临湘市| 江川县| 错那县| 若尔盖县| 共和县| 凭祥市| 兰考县| 福建省| 贡嘎县| 六盘水市| 井研县| 岳西县| 阿尔山市| 剑川县|