99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

3B超越DeepSeek,大模型終于理解時間了!Time-R1一統過去/未來/生成

0
分享至

  

  新智元報道

  編輯:LRST

  【新智元導讀】Time-R1通過三階段強化學習提升模型的時間推理能力,其核心是動態獎勵機制,根據任務難度和訓練進程調整獎勵,引導模型逐步提升性能,最終使3B小模型實現全面時間推理能力,超越671B模型。

  時間,是我們日常生活中最基礎的概念。

  但對于大語言模型(LLM)來說,它們或許能寫詩作畫、通曉古今,但在真正理解和運用時間概念時,卻常常顯得力不從心。

  這個技術短板來自于大模型的底層設計,無法避免:

  訓練語料庫是靜態的,存在知識截斷時間;在按非時間順序的語料訓練過程中,跨越不同時期的時間信息是同時處理的,不像人類逐步接收知識,阻礙了在事件與其對應時間之間建立可靠的邏輯映射。

  現有的方案如時間對齊、外部知識庫等,如同「打補丁」,哪差補哪,始終未能實現「理解-預測-生成」的全鏈路突破。

  最近,來自伊利諾伊大學香檳分校的研究人員發布了一份突破性成果Time-R1,基于一個僅3B的小模型,通過精心設計的三階段的課程強化學習,實現理解過去、預測未來甚至創造性生成大一統。

  該框架的核心創新在于其精心設計地動態的、基于規則的獎勵機制,像一位經驗豐富的導師,逐步引導模型掌握時間的奧秘。

  

  論文地址:https://arxiv.org/abs/2505.13508

  代碼地址:https://github.com/ulab-uiuc/Time-R1/tree/master

  模型地址:https://huggingface.co/collections/ulab-ai/time-r1-682626aea47cb2b876285a16

  數據集地址:https://huggingface.co/datasets/ulab-ai/Time-Bench

  直播回放:https://b23.tv/aArKNSY

  Time-R1的三階段「時間特調」

  Time-R1的具體實現由三個階段組成:

  

  (a)階段1通過四個時間子任務進行強化微調,建立時間觀念的基本理解;(b)階段2在階段1的基礎上進一步使用知識截止時間后以及合成的數據來訓練,鍛煉預測未來的能力;(c)第3階段直接進行創造性未來情景的生成。

  第一階段,構建「時間認知基石」,通過在四大特訓任務上的強化微調,建立事件與時間的精準映射:時間戳推理,時間差計算,事件排序,時間實體補全;

  第二階段,跨越知識邊界的未來預測,在嚴格隔離未來數據的前提下,在階段一得到的模型checkpoint基礎上繼續強化微調,讓模型從歷史規律中自主推演趨勢;

  第三階段,零樣本創意生成,無需額外訓練,直接生成指定未來時間下合理的推演未來場景。

  

  Time-R1在面對未來導向問題的真實回答。(左)未來事件時間預測;(右)創造性場景生成,輸出與未來發生的現實新聞比較。

  1200行代碼,精心打磨的「獎勵藝術」

  Time-R1的成功很大程度上歸功于研究人員為每個子任務量身定制的、極其細致的獎勵函數。

  這套獎勵機制的代碼總行數超過了1200行,每一個設計細節,都是在模型試圖「鉆空子」、尋找捷徑時,針對性地提出「反制措施」,是無數次實驗和迭代的結晶。

  通用獎懲設計

  格式遵循獎勵如果輸出格式符合任務要求(例如日期格式為「YYYY-MM」),則給予少量獎勵。 這也是準確性評分的前提。

  標簽結構獎勵對正確使用 和等結構標簽給予獎勵,以鼓勵「思考鏈」式的推理過程。

  長度與重復懲罰懲罰過于冗長或重復的輸出,這在實驗中被證明非常有效。該懲罰項綜合考慮了總長度和多種重復情況(如連續詞語重復、短語重復、n-gram多樣性不足等)。

  特定任務的精準「標尺」

  準確度獎勵,是獎勵機制的核心,針對每個任務的特性進行設計:

  時間戳推斷獎勵基于推斷日期與真實日期之間的月份差距,采用指數衰減函數,其中設計一個衰減系數α能讓模型感知到其時間誤差的「大小」,同時還設計了動態調整機制。

  時間差估計獎勵綜合了兩個事件日期的推斷準確性以及它們之間時間差的準確性,并引入了不一致性懲。這個懲罰項用于懲罰模型明確推斷的時間差與其推斷的兩個日期所暗示的時間差之間的矛盾,確保模型輸出的內部邏輯自洽。

  事件排序獎勵同樣綜合了各事件日期的推斷準確性和最終排序的準確性。

  此任務中,設計了不一致性懲罰(確保推斷順序與推斷日期所指示的順序一致)和多樣性懲罰(懲罰所有推斷日期都相同或日期呈簡單序列的「平凡解」),鼓勵模型推斷出更多樣化和真實的事件日期分布。

  掩碼時間實體補全獎勵綜合事件日期推斷的準確性和被掩碼實體(年份或月份)補全的準確性。特別地,當掩碼實體是「月份」時,會計算預測月份與真實月份之間的「循環差異」,以更好地捕捉月份的鄰近性。

  特色動態獎勵機制:引導模型循序漸進

  為了解決從零開始微調LLM進行專門時間任務時的「冷啟動」挑戰,并培養模型在難題上的穩健表現,研究團隊在第一階段引入了動態獎勵機制。

  根據任務難度和訓練進程,動態調整日期準確性獎勵部分中的衰減系數α

  小模型的「屠榜時刻」

  通過上述精心設計,Time-R1在第一階段取得了令人矚目的成績。

  根據最新的實驗結果,Time-R1 (3B)在第一階段的基礎時間理解任務上,其綜合表現已經成功超越了參數量200多倍的DeepSeek-V3-0324模型(0.647)!

  

  Time-R1第一階段的訓練曲線與baselines對比。紅色:Time-R1,具有三過程動態獎勵機制。藍色:沒有動態獎勵設計的消融實驗。

  圖中的結果也有力的證明了動態獎勵機制的有效性。

  在有了基礎時間推理能力后,繼續訓練的Time-R1在未來事件時間預測上取得了最高的平均總得分,在整個預測時間范圍內(2024年8月至2025年2月)持續優于包括DeepSeek-R1和DeepSeek-V3在內的大多數基線模型。

  

  接著,在沒有任何微調的情況下,創造性場景生成任務中,Time-R1同樣取得了最佳的平均最大相似度得分(衡量生成新聞與真實新聞的語義相似度),再次超越了所有基線模型,展現了強大的泛化能力,有力地證明了前兩階段訓練范式的成功。

  

  總結

  Time-R1,一個3B參數語言模型,通過一種新穎的、精心設計的三階段強化學習課程和動態獎勵系統,實現了全面的時間推理能力——涵蓋理解、預測和創造性生成,碾壓671B巨無霸模型。

  這一成功直接解決了大模型領域一個重要的痛點,并證明了先進的、漸進式的強化學習方法能夠使更小、更高效的模型實現卓越的時間性能,為實現具有巨大應用潛力的、真正具備時間意識的人工智能提供了一條實用且可擴展的路徑。

  同時研究團隊實現了全面開源,不僅發布了Time-Bench由200000余條的10年紐約時報新聞打造的大型多任務時間推理數據集,還發布了Time-R1完整訓練代碼以及各階段模型檢查點,積極促進下一步的研究和發展。

  作者介紹

  論文一作劉子嘉是同濟大學直博生,導師為嚴鋼教授,目前在美國伊利諾伊大學香檳分校(UIUC)訪問交流,接受Jiaxuan You教授指導,博士期間圍繞論文選題取得一系列成果:

  在頂級期刊Physical Review X以第一作者發表「Early predictor for the onset of critical transitions in networked dynamical systems」文章,被頂級Nature子刊Nature Physics進行專門報道。

  同時,工作成果「Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect」發表于人工智能頂會NeurIPS,并被收錄為「Spotlight」。

  博士在讀期間,發表多篇高水平論文,并被多次引用。

  參考資料:

  https://arxiv.org/abs/2505.13508

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗為何不主動倒向中國?

伊朗為何不主動倒向中國?

華山穹劍
2025-06-20 21:02:05
重大逆轉!伊朗, 援兵到了!

重大逆轉!伊朗, 援兵到了!

大嘴說天下
2025-06-21 22:05:04
恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

體育就你秀
2025-06-22 18:05:03
那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

叨嘮
2025-06-23 02:10:06
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

漢唐光輝
2025-06-22 16:55:34
2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

青途歷史
2025-06-20 20:34:06
大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

鋭娛之樂
2025-06-21 18:57:06
河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

懂球帝
2025-06-22 21:38:54
去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

小嵩
2025-06-21 09:47:30
蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

IT之家
2025-06-21 13:59:18
僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

上觀新聞
2025-06-22 14:22:07
真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

魚樂大使
2025-06-22 10:25:57
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

李春光
2025-06-22 11:55:02
感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

特約前排觀眾
2025-06-22 00:05:08
罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

獵火照狼山
2025-06-22 21:01:45
美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

環球網資訊
2025-06-22 18:05:59
周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

娛樂看阿敞
2025-06-21 15:45:31
過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

直播吧
2025-06-22 21:59:14
2025-06-23 02:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

本地
健康
藝術
公開課
軍事航空

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美對伊行動細節:使用14枚巨型鉆地彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蒲江县| 西华县| 当阳市| 绵竹市| 盖州市| 阿合奇县| 大新县| 苏尼特右旗| 玛曲县| 米泉市| 兴安盟| 临猗县| 呼伦贝尔市| 望谟县| 金堂县| 从化市| 平顶山市| 新野县| 汶上县| 石屏县| 东源县| 三明市| 岢岚县| 镇坪县| 邻水| 上高县| 永清县| 加查县| 洛阳市| 汪清县| 阿合奇县| 临朐县| 抚宁县| 雷山县| 定南县| 塘沽区| 灵璧县| 岚皋县| 巴林右旗| 沅陵县| 体育|