99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI之后首個多模態o1發布,這篇技術報告講清楚了!|甲子光年

0
分享至


給OpenAI億點點壓力?

作者|蘇霍伊

編輯|趙健

最近一周,一波又一波新模型趕在春節前上新,你方唱罷我登場,仿佛就是“AI春晚”一般熱鬧。

昨晚,DeepSeek與月之暗面Kimi在相隔20分鐘的時間里發布推理模型,并且都放出了詳盡的技術報告。這兩家年輕的、備受矚目的AI新星“中門對狙”,引發了眾多AI從業者的圍觀。

同樣是對標o1的推理模型,DeepSeek與Kimi的這次發布有什么不同?首先,這次兩家公司發布的都是滿血版o1,從數學、代碼基準測試分數看,和過往類o1-preview模型有明顯差距。


雖然DeepSeek R1和Kimi k-1.5都側重以強化學習(RL)為核心驅動力,但在具體的技術路線和模式設計上卻“分道揚鑣”。

英偉達AI科學家Jim Fan第一時間發帖對比。他發現,Kimi和DeepSeek的論文驚人地集中在類似的發現上:

不需要像 MCTS 那樣復雜的樹搜索。只需將思維軌跡線性化,然后進行傳統的自回歸預測即可; 不需要需要另一個昂貴的模型副本的價值函數; 無需密集獎勵建模。盡可能依賴事實和最終結果。

兩者的差異點在于:

DeepSeek 采用 AlphaZero 方法 - 純粹通過 RL 引導,無需人工輸入,即“冷啟動”。Kimi 采用 AlphaGo-Master 方法:通過即時設計的 CoT 跟蹤進行輕度 SFT 預熱。 DeepSeek 權重是 MIT 許可證(思想領導力!);Kimi K1.5尚未正式上線。 Kimi 在 MathVista 等基準測試中表現出強大的多模式性能(!) ,這需要對幾何、智商測試等有視覺理解(DeepSeek目前只能識別文字,不支持圖片識別)。 Kimi 的論文在系統設計上有更多細節:RL 基礎設施、混合集群、代碼沙箱、并行策略;以及學習細節:長上下文、CoT 壓縮、課程、采樣策略、測試用例生成等。

雖然Kimi沒有開源,Kimi分享了更多的訓練策略、數據與AI Infra方面的信息,并且其推理模型的測評成績在業內首屈一指。

1.OpenAI之外首個多模態o1

過去,Kimi一直采取的是模型閉源路線。業內人士評估,此次k1.5技術報告的公開,或多或少是為了“招兵買馬”,希望更多技術人才能關注并加入他們的多模態大模型項目。

k1.5團隊公布了SOTA模型設計和訓練的四大關鍵要素:

第一,長上下文擴展K1.5將RL的上下文窗口擴展到128k,通過部分展開(partialrollouts)等技術手段提升訓練效率,觀察到隨著上下文長度的增加,模型推理能力也在提升。

第二,改進的策略優化K1.5采用推導自long-CoT的在線鏡像下降(OMD)變體來進行穩健的策略優化,并結合長度懲罰與數據配方微調算法性能。

第三,簡潔的RL框架K1.5通過上下文擴展來獲得更多搜索和反思的空間,而不依賴復雜的價值函數、過程獎勵模型或蒙特卡洛樹搜索,也能獲得較強性能。

第四,多模態能力K1.5聯合視覺與文本數據訓練,讓模型在處理圖文推理時具備更寬泛的適應性。但由于主要支持 LaTeX 等格式的文本輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。

與前幾代相比,k1.5最顯著的特點在于其在多模態推理更上一層樓。k1.5在文本與視覺數據上聯合訓練,能夠進行多模態推理,著重在數學、代碼、視覺等復雜任務上的綜合性能提升,是OpenAI之外首個多模態類o1模型。

在短思考模式(short-CoT)模式下,Kimi k1.5 的數學、代碼、視覺多模態和通用能力,大幅超越了全球范圍內短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,領先達到550%。


在長思考模式(long-CoT)下,Kimi k1.5在數學、編程和視覺任務中的表現與OpenAI o1的性能水平接近。


總體而言,在數學和代碼能力上,模型在推理能力和正確率(諸如 pass@1、EM等指標)上大幅領先或趕超其他主流對比模型;在視覺多模態任務上,無論是對圖像中信息的理解、還是進一步的組合推理、跨模態推理能力,都有顯著提升。在通用推理測試上,如MMLU、C-Eval、CLUEWSC等評測基準中,也展現出綜合性的語言理解與推理水準。

2.獨特的“Long2Short”訓練方案

在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的報告中,最大的亮點之一是“Long2Short”訓練方案:具體做法是先利用較大的上下文窗口(據稱可擴展到128K)讓模型學會長鏈式思維,再將“長模型”的成果和參數與更小、更高效的“短模型”進行合并,然后針對短模型進行額外的強化學習微調。

Kimi提到,盡管長鏈推理(long-CoT)模型表現優異,但在測試時消耗的標記數量比標準短鏈推理(short-CoT)大模型更多。

相比之下,采用Long2Short方案的好處是,最大化保留原先長模型的推理能力,避免了常見的“精簡模型后能力減弱”難題,同時有效挖掘短模型在特定場景下的高效推理或部署優勢。

在AIME測試中,k1.5系列模型一舉沖上60.8分的高度;在MATH500測試中,拿下94.6分;而在LiveCodeBench測試中也穩穩占據47.3分的領先地位。對比GPT-4和Claude 3.5等傳統短鏈模型,k1.5的提升幅度甚至達到了550%。


Long2Short表現,靠近左上方效率越高

這波long2short操作,讓短鏈推理任務實現了質變”通過將長鏈模型的深度推理能力和短模型的高效響應特點相結合,開創了一種更靈活、更實用的思路。不夸張地講,k1.5系列的突破為未來如何平衡算力與性能提供了啟發式的答案,也為短鏈思維模型的創新打開了新的大門。

知名AI博主劉聰評價,Long2Short方案可能要成為新風潮了。

3.強化學習的Scaling

很多人都知道Kimi的產品做的很好,殊不知Kimi團隊在AI Infra的基建能力上也實力雄厚。

RL可以讓模型在“嘗試—反饋—改進”的循環中不斷提升。為了實現這個循環,就需要一個完整的訓練系統來支撐。本次Kimi的技術報告也分享了在RL的模式下如何做AI Infra。?


K1.5訓練系統的架構,主要由幾個核心模塊組成,從圖片左邊的System overview可以看到整個強化學習訓練系統的主要組件和數據流向。

Kimi k1.5使用了一個迭代同步的強化學習框架,其靈感來自于訓練AlphaGo和AlphaStar的系統。這個框架的核心是通過持續學習和適應來增強模型的推理能力。該系統的一個關鍵創新是引入了部分rollout技術,以優化復雜推理軌跡的處理。

在處理長文本推理時,模型可能會生成非常長的回答,這會消耗大量計算資源。為了解決這個問題,Kimi k1.5引入了Partial rollouts的技術,主要思想之一是擴展長上下文RL訓練——也就是做RL的Scaling。

通過分段處理、異步操作、重復檢測等方法,Partial rollouts可以處理更長的推理過程,同時保持高效的訓練速度,從而優化了整個系統的性能。

此外,通常情況下訓練模型和使用模型進行推理是分開的,這會導致資源浪費。Kimi k1.5采用了一種混合部署策略,讓訓練和推理共享同一個計算資源池。這種策略大大減少了訓練和推理之間的切換時間,提高了資源利用率。

可以說,Kimi所有技術的核心,都把長上下文作為了核心指導原則。Kimi在技術報告中總結道:“從我們的實踐中得出的關鍵見解之一是,上下文長度的擴展對于 LLM 的持續改進至關重要。我們采用了優化的學習算法和基礎設施優化(例如 Partial rollouts 技術),以實現高效的長上下文 RL 訓練。”

Kimi雖然并沒有把模型的權重開源,但如此詳盡的技術策略報告的開放,對于推動整個強化學習以及AI行業的發展,仍舊有巨大的推動意義。

(封面圖來源:公開資料)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
微博:嚴厲打擊對肖某董某事件蹭炒熱點、編造故事博流量等行為

微博:嚴厲打擊對肖某董某事件蹭炒熱點、編造故事博流量等行為

界面新聞
2025-05-01 19:11:26
央媽排查結果來了:國內能一次性拿出50萬的家庭,超出你想象

央媽排查結果來了:國內能一次性拿出50萬的家庭,超出你想象

平說財經
2025-04-08 13:12:01
童蕾董子健曝在《蠻好的人生》劇組有孫儷盒飯錢都省了 原因超好笑

童蕾董子健曝在《蠻好的人生》劇組有孫儷盒飯錢都省了 原因超好笑

情感大頭說說
2025-05-02 16:05:58
印度空軍大調整!陣風戰機被殲10狠狠壓制,印度中將“就地免職”

印度空軍大調整!陣風戰機被殲10狠狠壓制,印度中將“就地免職”

書中自有顏如玉
2025-05-02 17:23:33
安徽啤酒消亡史:資本碾壓下的本土品牌悲歌

安徽啤酒消亡史:資本碾壓下的本土品牌悲歌

阿抒
2025-05-02 07:30:05
四十不多欲,五十不多情,六十…

四十不多欲,五十不多情,六十…

詩詞中國
2025-04-22 13:08:08
沒有對比就沒有傷害!把袁冰妍和胡意旋放一起看,明白她有多可惜

沒有對比就沒有傷害!把袁冰妍和胡意旋放一起看,明白她有多可惜

溫柔娛公子
2025-05-02 18:20:08
莫迪應感謝中國:巴基斯坦又一強援趕到,中國給了印度一個臺階下

莫迪應感謝中國:巴基斯坦又一強援趕到,中國給了印度一個臺階下

星辰故事屋
2025-04-30 17:34:33
楊天真和沙溢證明了一件事,瘦下來后顏值不一定能提升

楊天真和沙溢證明了一件事,瘦下來后顏值不一定能提升

觀察鑒娛
2025-04-27 10:36:04
為何說梅毒病是最臟的病?醫生詳細講解,隔著屏幕都感到頭皮發麻

為何說梅毒病是最臟的病?醫生詳細講解,隔著屏幕都感到頭皮發麻

奇妙的本草
2025-04-28 18:00:08
長期走路能把八類病走沒?醫生建議:70歲后這樣動,降低生病風險

長期走路能把八類病走沒?醫生建議:70歲后這樣動,降低生病風險

鬼菜生活
2025-04-30 10:34:35
巨虧334.6億元!深圳知名國企,發布重大損失公告

巨虧334.6億元!深圳知名國企,發布重大損失公告

大象新聞
2025-05-02 09:47:01
又一專割中年男人的“智商稅”飲料賣爆了,狂攬近億,暴增834%!

又一專割中年男人的“智商稅”飲料賣爆了,狂攬近億,暴增834%!

泠泠說史
2025-04-23 15:40:19
梅婷回南京慶50歲生日,兒女和她一起許愿,攝影師老公大花臂搶鏡

梅婷回南京慶50歲生日,兒女和她一起許愿,攝影師老公大花臂搶鏡

八怪娛
2025-05-01 20:40:05
外交部發出強音不到24小時,想讓中方先讓步的特朗普,又變了口風

外交部發出強音不到24小時,想讓中方先讓步的特朗普,又變了口風

小宇宙雙色球
2025-05-01 11:13:22
11國談判失敗,中國盡力了,金磚出現“叛徒”,莫迪對美一跪到底

11國談判失敗,中國盡力了,金磚出現“叛徒”,莫迪對美一跪到底

獵火照狼山
2025-05-01 21:43:41
庫爾斯克戰役最終結局證明,朝俄聯軍吊打北約聯軍,尤其是常規戰

庫爾斯克戰役最終結局證明,朝俄聯軍吊打北約聯軍,尤其是常規戰

碳基生物關懷組織
2025-04-28 17:55:51
在孩子心里,親人的“排序”是這樣的,和誰帶娃無關

在孩子心里,親人的“排序”是這樣的,和誰帶娃無關

C媽學堂
2025-04-29 14:11:21
你所知道的KTV到底有多亂?網友:茶幾底下黏著團用過的濕巾。。

你所知道的KTV到底有多亂?網友:茶幾底下黏著團用過的濕巾。。

美好客棧大掌柜
2025-03-14 00:05:22
600噸中國“空中巨無霸”運40橫空出世,改寫全球航空格局!

600噸中國“空中巨無霸”運40橫空出世,改寫全球航空格局!

書中自有顏如玉
2025-04-28 04:15:56
2025-05-02 23:36:49
甲子光年
甲子光年
中國科技產業化前沿智庫
3050文章數 9237關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

魯比奧被指將赴莫斯科出席勝利日閱兵式 美國務院回應

頭條要聞

魯比奧被指將赴莫斯科出席勝利日閱兵式 美國務院回應

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

房產
藝術
家居
旅游
公開課

房產要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

意式輕奢 低飽和質感美學

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 玛曲县| 北票市| 永丰县| 福安市| 浮梁县| 启东市| 营口市| 黄冈市| 崇礼县| 沛县| 五台县| 东山县| 昌都县| 左云县| 瓮安县| 南平市| 达拉特旗| 巢湖市| 十堰市| 汝城县| 德阳市| 蒙山县| 巨鹿县| 沿河| 石河子市| 同仁县| 高州市| 蓝山县| 桃源县| 翁源县| 阿拉善右旗| 武城县| 诏安县| 兴海县| 剑阁县| 安陆市| 寻乌县| 扎鲁特旗| 天峨县| 武川县| 南江县|