99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

開啟 AI 自主進化時代,普林斯頓Alita顛覆傳統通用智能體

0
分享至



智能體技術日益發展,但現有的許多通用智能體仍然高度依賴于人工預定義好的工具庫和工作流,這極大限制了其創造力、可擴展性與泛化能力。

近期,普林斯頓大學 AI Lab 推出了Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。



  • 論文標題:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION
  • 論文鏈接:https://arxiv.org/abs/2505.20286
  • Twitter:https://x.com/JiahaoQiu99/status/1927376487285432790
  • GitHub:https://github.com/CharlesQ9/Alita

Alita 目前已在 GAIA validation 基準測試中取得75.15% pass@187.27% pass@3的成績,一舉超越 OpenAI Deep Research 和 Manus 等知名智能體,成為通用智能體新標桿。Alita 在 GAIA test 上也達到了72.43% pass@1的成績。

極簡架構設計,最大自我進化

「讓智能體自主創造 MCP 工具而不靠人工預設」,是 Alita 的核心設計理念。

現有的主流智能體系統通常依賴大量人工預定義的工具和復雜的工作流,這種方法有三個關鍵缺陷:

  • 覆蓋范圍有限:通用智能體面臨的現實任務種類繁多,預先定義好所有可能需要的工具既不可行亦不現實。而且預定義工具很容易過擬合 GAIA,不具有泛化性。



  • 創造力與靈活性受限:任務的難度可能超出了預定義工具或工作流的能力范圍。復雜任務通常需要智能體創新性地使用新工具,或以新的方式組合和利用現有工具,而預定義的工具庫和工作流會制約這種創造性和靈活性。



  • 適配失配:不同工具的接口或環境未必與智能體兼容。例如,許多有用的工具并非用 Python 編寫,這使得它們難以(盡管并非不可能)提前預接到主要以 Python 編寫的主流智能體框架中。



這些挑戰共同限制了現有通用智能體的創造力、可擴展性和泛化能力。

與當前日益復雜的趨勢相反,Alita 團隊認為對于通用智能體而言,「simplicity is the ultimate sophistication」。遵循這一原則,Alita 實現了可擴展的動態能力、增強的創造力與靈活性,以及跨生態系統的兼容性。Alita 團隊由此提出了兩大設計范式:

  • 最小化預定義:僅為智能體配備最核心的基礎能力,避免為特定任務或模態設計人工預定義的組件。
  • 最大化自進化:賦予智能體按需自主創建、優化和復用 MCP 工具的能力,實現自我進化。



具體而言,Alita 僅內置了管理智能體(Manager Agent)網頁智能體(Web Agent)作為其核心內部組件,以及少量支持自主能力擴展的通用模塊,而不依賴繁雜的預定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols(MCP) 這一開放協議,使智能體系統能根據任務需求動態生成、修改和復用 MCP 工具。相較于一般的工具創建,MCP 創建還具有更好的可復用性與更簡易的環境管理等優勢。這種從人工設計工具和工作流到即時構建 MCP 工具的轉變,為構建簡約而通用的智能體開辟了新路徑。

Alita 的執行流程:簡潔而高效



整體設計理念與系統架構

Alita 基于「最小預定義 + 最大自主進化」的設計范式,其總體結構十分簡單,僅由三個關鍵組件構成:

  • Manager Agent:充當中央協調器的角色,分析任務需求,調度不同模塊和工具,執行最終的聚合與回答生成。
  • Web Agent:負責搜索有用的外部信息,包括開源代碼、文檔等。
  • MCP 創建組件:由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成,能夠進行自我能力評估、腳本生成與代碼執行,還能夠動態生成 MCP 工具并實現自我進化。

在整個流程中,Alita 通過不斷創建、驗證、優化新的工具,從而實現持續演化的智能閉環。

三大核心能力模塊

  • MCP Brainstorming 模塊:分析任務,思考需要什么工具

Alita 的第一步是調用 MCP Brainstorming 模塊,對輸入任務進行分析。該模塊會評估當前智能體是否已經具備完成任務所需的能力和工具:若已具備能力,就快速調度相應的工具;若能力缺失,則生成「能力缺口描述」和「MCP 工具構建建議」,以便后續創建新的 MCP 工具。

  • 腳本生成模塊:實時創建工具

檢測到能力缺口后,Alita 會啟動腳本生成模塊。該模塊根據管理智能體提供的任務描述與工具構建建議,結合網頁智能體檢索到的開源資源,生成一套可執行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性,可直接集成進任務流程并支持后續復用。

  • 代碼運行與驗證模塊:確保工具能用,并不斷優化

新生成的工具首先會在虛擬環境中執行測試。系統會根據輸出判斷工具是否符合預期。如果工具運行成功,它將被正式注冊為可復用的 MCP 服務,納入任務調用體系;若運行失敗,系統則會自動進入診斷與修復流程,嘗試調整依賴版本、修改關鍵參數,甚至在必要時放棄當前工具,轉向新的解決方案。此外,每次運行過程都會被詳細記錄,以支持后續模型學習與工具演化,真正實現「自我進化」。

自我工具創建:Alita 的秘密武器

Alita 能夠自主創建并優化任務所需的工具,最后將新的工具打包為 MCP,可以在未來進行復用,或是給其他智能體系統使用。

例如,用戶的任務是詢問「這份 PPT 中有多少頁提到了甲殼類動物?」如果預定義的 PPT 處理工具僅將所有內容轉換為文本,就可能無法提取頁碼信息并回答問題。但 Alita 會動態創建一個合適的 PPT 處理工具,并將其封裝為足以解決該任務的 MCP。

另一個場景是,用戶的任務涉及 YouTube 視頻理解。現有的某些通用智能體所預定義的視頻分析工具僅是一個 YouTube 字幕抓取工具,然而部分視頻理解任務需要更深入的分析,僅讀取字幕無法徹底解決問題。Alita 能創建逐幀讀取視頻的 MCP 來解決更復雜的視頻理解任務——這種任務特定的 MCP 創建會根據任務難度動態調整。由于不是視頻理解領域的專家,Alita 團隊無法預先構想此類工具如何實現,直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復用至團隊的另一項工作《邁向多模態歷史推理:HistBench與HistAgent》(代碼庫已開源)。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破:GAIA 基準測試的新標桿

GAIA 的終局已至,Alita 正是最終的答案。

在 GAIA 基準測試中,Alita 展現了卓越的性能表現。GAIA 作為評估通用 AI 助手實際解決問題能力的標桿測試,共包含 450 個涵蓋不同難度級別的測試題目。

Alita 在 GAIA Validation 測試中取得了75.15% 的 pass@187.27% 的 pass@3準確率,暫時位居所有通用智能體的第一位,超越了 OpenAI Deep Research(67.36% 的 pass@1)和 Manus。在數學推理測試 Mathvista 和醫學圖像識別 PathVQA 測試中,Alita 也分別達到了74.00%52.00%的 pass@1 準確率,優于許多裝備復雜工具庫的智能體系統。

這些結果也表明,簡約架構并非性能限制,反而是激發智能體創造性行為的關鍵。通過強調最小化預編寫工具和最大化自主進化的設計哲學,Alita 成功實現了簡潔與性能的統一。

有趣的是,在 Alita 團隊發推特的第二天,GAIA validation 榜單被移除,Alita 團隊提出,或許是時候邁向 HLE、BrowseComp 和 xbench 了。



MCP 復用:智能體蒸餾新范式與自我進化

在 Alita 構建過程中,系統會動態生成一系列高質量的 MCP,作為解決任務的中間產物。值得注意的是,這些 MCP 的價值遠不止于完成一個任務這么簡單,它們可以在后續任務中被 Alita 調用,顯著提高性能和效率,也能被其他智能體復用。

具體來說,Alita 生成的 MCP 工具箱具備雙重優勢:

其一,智能體蒸餾,自動生成 MCP 的復用可視為一種全新的智能體蒸餾機制,相比傳統蒸餾方法,其成本更低且更高效。



  • 強智能體指導弱智能體:這些 MCP 可由其他較弱智能體復用,由 Alita(而非人類開發者)通過試錯設計出適配特定任務的 MCP 集,能顯著提升其性能。在不改變底層模型配置的情況下,僅通過引入 Alita 生成的 MCP,Open Deep Research-smolagents 在 GAIA 上的平均準確率從 27.88%提升至33.94%,實現了在所有難度等級上的一致性能提升。
  • 基于大模型的智能體指導基于小模型智能體:這些 MCP 同樣可被小模型智能體復用并顯著提升表現。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型,Alita 所生成的 MCP 也能顯著提升其性能:準確率從 21.82%提升至29.09%,Level 3 的準確率更是提升了三倍(3.85% → 11.54%)。

其二,自我進化,使 Pass@1 方法實現 Pass@N 效果:MCP 工具箱與 Alita 連接后,可將單次嘗試的通過率提升至近似多次嘗試的水平。

結語:簡約設計引領通用智能體未來發展范式

Alita 的成功證明,在智能體設計中,簡約性并非功能限制,而是系統演進的驅動力。當傳統方案陷入「工具膨脹,性能停滯」的困境時,Alita 通過動態協議機制實現了「架構簡化,能力增強」的正向循環。我們也相信,隨著大語言模型編寫代碼和推理能力的不斷提升,Alita 將會變得更加強大。未來通用 AI 助手的設計或大幅簡化,無需任何預定義工具和直接解決問題的工作流。相反,開發者可能更專注于設計激發通用智能體創造力與進化潛能的模塊。

隨著人工智能技術向通用化方向發展,這種融合簡約設計與自主進化特性的范式,必將成為構建下一代智能體的關鍵技術路徑——既保持核心系統的優雅簡潔,又能通過持續演化獲得近乎無限的擴展能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網紅李維剛再次被坑慘!1.2萬包魚塘卻只有194斤,塘主毫無愧疚心

網紅李維剛再次被坑慘!1.2萬包魚塘卻只有194斤,塘主毫無愧疚心

裕豐娛間說
2025-06-10 11:41:36
央視除名,《長安的荔枝》女主演出事,曝升學內幕,父親職位被扒

央視除名,《長安的荔枝》女主演出事,曝升學內幕,父親職位被扒

傲傲講歷史
2025-06-09 18:28:39
獨家|美團王興及管理層股東大會現場讀稿,引發股東強烈不滿(附2萬字完整實錄)

獨家|美團王興及管理層股東大會現場讀稿,引發股東強烈不滿(附2萬字完整實錄)

劃重點KeyPoints
2025-06-09 22:41:17
多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

智觀科技
2025-06-10 01:52:08
數十篇頂論,韋東奕6年沒升副教授!讀野雞大學的早就評教授了吧

數十篇頂論,韋東奕6年沒升副教授!讀野雞大學的早就評教授了吧

昨夜軍帖
2025-06-10 08:57:01
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

蘭姐說故事
2025-06-09 10:00:07
和解信號!特朗普“祝他一切順利”,馬斯克“比心”!特朗普:不會處理掉Model S,不會停止星鏈;特斯拉股價大漲

和解信號!特朗普“祝他一切順利”,馬斯克“比心”!特朗普:不會處理掉Model S,不會停止星鏈;特斯拉股價大漲

每日經濟新聞
2025-06-10 13:01:40
中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

風向觀察
2025-06-09 17:19:17
國足vs巴林隊文明觀賽倡議書:讓我們以文明熱情有序的方式觀賽

國足vs巴林隊文明觀賽倡議書:讓我們以文明熱情有序的方式觀賽

直播吧
2025-06-10 10:36:10
韋東奕的牙齒和陶哲軒的牙齒

韋東奕的牙齒和陶哲軒的牙齒

關爾東
2025-06-10 12:19:16
今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應

今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應

每日經濟新聞
2025-06-09 18:17:09
一日四戰四勝!樊振東說:作為運動員還是專注比賽

一日四戰四勝!樊振東說:作為運動員還是專注比賽

魯中晨報
2025-06-10 09:20:46
涉嫌嚴重違紀違法,喬向民被查!

涉嫌嚴重違紀違法,喬向民被查!

揚子晚報
2025-06-10 12:23:08
特級教師怒批高考作文后續,出題人親自回應:罵是因為有人喜歡看

特級教師怒批高考作文后續,出題人親自回應:罵是因為有人喜歡看

不寫散文詩
2025-06-09 22:06:34
將農民工、網約車司機等群體納入社保范圍

將農民工、網約車司機等群體納入社保范圍

北京商報
2025-06-09 17:53:09
日本要求解釋“遼寧艦為何現身硫磺島”,中方一句回應沖上熱搜

日本要求解釋“遼寧艦為何現身硫磺島”,中方一句回應沖上熱搜

大道無形我有型
2025-06-10 12:23:57
曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

古希臘掌管松餅的神
2025-06-09 15:09:36
在面館接受客戶宴請,兩名客戶經理各被罰款3000元,涉事銀行回應:屬實

在面館接受客戶宴請,兩名客戶經理各被罰款3000元,涉事銀行回應:屬實

瀟湘晨報
2025-06-09 19:00:13
重罰!網傳安徽某行兩員工在面館接受宴請,被通報并考核3000元…

重罰!網傳安徽某行兩員工在面館接受宴請,被通報并考核3000元…

火山詩話
2025-06-09 17:08:34
美國總統下令把所有戴口罩的全部抓起來

美國總統下令把所有戴口罩的全部抓起來

爆角追蹤
2025-06-09 20:11:46
2025-06-10 15:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10611文章數 142336關注度
往期回顧 全部

科技要聞

"液態玻璃"新皮膚,能挽救"AI差生"蘋果嗎

頭條要聞

衛星披露:朝鮮側翻軍艦現身朝俄邊境

頭條要聞

衛星披露:朝鮮側翻軍艦現身朝俄邊境

體育要聞

17歲攀上最高的山!亞馬爾身價 2年從0飆至2億歐

娛樂要聞

黃圣依首曝初戀是賈乃亮 仍經常聯系

財經要聞

泡泡瑪特王寧成“河南新首富”

汽車要聞

定位6座大型SUV 吉利銀河M9有望年內上市

態度原創

教育
時尚
健康
旅游
本地

教育要聞

三年級,很多學生喜歡的圖形題,卻不會填

爽文都不敢這么寫!21歲結婚被全網罵,28歲靠美妝品牌賺10億美金

減重專家破解減肥九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 隆回县| 壤塘县| 天全县| 钟祥市| 海淀区| 永和县| 荣成市| 恩平市| 奉贤区| 威远县| 巴中市| 金昌市| 天镇县| 乐平市| 和平县| 仪陇县| 江达县| 达拉特旗| 唐山市| 青浦区| 枞阳县| 方城县| 舟曲县| 义乌市| 泾源县| 汕头市| 巴青县| 山东省| 深州市| 乐清市| 大英县| 独山县| 延吉市| 尤溪县| 连江县| 尼木县| 油尖旺区| 清流县| 禹州市| 乡城县| 普陀区|