好久沒動靜的月之暗面今天推出了kimi 研究功能,從基準測試來看很強
Kimi-Researcher是一款擅長多輪搜索與推理的自主智能體。在執(zhí)行每個任務時,平均會進行 23 個推理步驟,并瀏覽超過 200 個網(wǎng)址
#開源
Kimi-Researcher 將于今日起逐步向用戶開放,現(xiàn)在可以在kimi.com申請內測
未來幾個月內,月之暗面將開源 Kimi-Researcher 背后的基礎預訓練模型以及經過強化學習訓練后的模型
#基準測試
Kimi-Researcher 基于 Kimi k-系列模型的內部版本構建,并完全通過端到端的智能體強化學習(RL)進行訓練。在“人類終極考驗”(Humanity\x26#39;s Last Exam)這項測試中,它取得了 26.9% 的 Pass@1 得分率——達到了業(yè)界頂尖水平,其 Pass@4 準確率也高達 40.17%。
Kimi-Researcher 的 HLE 初始得分僅為 8.6%,最終能達到 26.9% 的高分,幾乎完全得益于端到端的強化學習訓練。這有力地證明了,端到端智能體強化學習可以極大地推動智能體智能水平的提升。
此外,Kimi-Researcher 在多個復雜且具挑戰(zhàn)性的真實世界基準測試中也表現(xiàn)出色。例如,在 xbench 測試中——這是一套全新的、動態(tài)的、與專業(yè)需求對齊的測試套件,旨在連接人工智能技術與真實世界的生產力——Kimi-Researcher 在 xbench-DeepSearch 項目上取得了 69% 的 pass@1(4次運行平均值),其表現(xiàn)優(yōu)于配備了搜索工具的 o3 等模型。在針對多輪搜索推理(如 FRAMES、Seal-0)和事實性信息問答(如 SimpleQA)的基準測試中,Kimi-Researcher 同樣表現(xiàn)出色
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.