99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

自主智能體——邁向通用智能的必由之路丨智能體論壇精華集錦

0
分享至


來源:智源社區

近年來隨著大模型的迅猛發展,智能體被賦予更加豐富的內涵和期許,有人將智能體作為大模型武裝專業知識、賦能千行百業的技術方案,有望成為大模型深入工作與生活應用的重要形態;也有人將自主智能體作為大模型進一步發展的關鍵,展示出更強的自主探索、決策規劃和協作能力。

智源大會智能體論壇邀請到來自普林斯頓、Mila、清華大學、人民大學、上海交通大學等的研究者們,共同針對2025年智能體領域的熱點話題進行了深入探討。這些研究觀點不僅反映出了智能體相關技術的最新進展,還展示了其在不同場景下的應用潛力和未來發展方向。


近年來隨著大模型的迅猛發展,智能體被賦予更加豐富的內涵和期許,有人將智能體作為大模型武裝專業知識、賦能千行百業的技術方案,有望成為大模型深入工作與生活應用的重要形態;也有人將自主智能體作為大模型進一步發展的關鍵,展示出更強的自主探索、決策規劃和協作能力。

智源大會智能體論壇邀請到來自普林斯頓、Mila、清華大學、人民大學、上海交通大學等的研究者們,共同針對2025年智能體領域的熱點話題進行了深入探討。這些研究觀點不僅反映出了智能體相關技術的最新進展,還展示了其在不同場景下的應用潛力和未來發展方向。

以下為精華觀點總結:

(回放鏈接:https://event.baai.ac.cn/live/900)

王夢迪:《RL&Agent&Science


當我們思考大語言模型(LLM)時,可以從控制理論的角度出發。通常,控制系統可以被視為一個動態系統或馬爾可夫決策過程(MDP),其中系統狀態隨時間變化,狀態轉移由策略(policy)決定。我們的目標是調整策略以優化某些獎勵(rewards)。從這個角度來看,大語言模型可以被視為一種策略,初始狀態是提示(prompt),模型通過生成下一個token來更新狀態。這種逐token的生成過程可以被視為狀態轉移過程,而Transformer的每一層可以被視為一種特定的策略。


強化學習(RL)可以用于優化大語言模型的策略。對齊(alignment)任務(例如,基于人類反饋的強化學習)旨在調整模型的策略以最大化某些獎勵或人類反饋。常見的算法包括DPO和PPO。此外,強化學習還可以用于改進解碼過程,例如:通過添加額外的控制器來調整下一個token的采樣分布,從而在不微調模型的情況下實現對齊。

推理是當前研究的熱點之一,目標是讓大語言模型能夠生成長鏈推理并解決復雜問題。這可以通過將模型與額外的記憶、規劃和工具能力結合來實現,從而構建一個能夠思考和行動的智能體。當智能體在環境中行動時,環境會變化,智能體需要根據新的環境狀態更新其行動策略。這種推理智能體可以通過強化學習來訓練。


為了處理復雜的任務,可以采用層次化強化學習(Hierarchical RL)。這種方法的核心是將任務分解為高層次的決策和低層次的執行。例如,在機器人控制中,高層次的策略負責規劃和符號推理,而低層次的策略負責具體的物理控制。這種層次化方法可以應用于智能體推理問題,王夢迪教授團隊通過構建 ReasonFlux框架來提取和利用現有的知識庫,實現了用于 LLM 推理的層次化強化學習。


王夢迪教授團隊嘗試將 AI 智能體應用于解決科學問題。與數學領域不同,科學領域缺乏結構化的數據集。為此,他們開發了一種全自動的流程,從長達 11 年的真實世界的科學討論中提取可訓練的結構化數據,并從中提取高質量的問答對,最終得到了一個包含3000多個條目的真實世界數據集。

王夢迪教授團隊成功地采用層次化強化學習方法訓練了科學智能體,設置了高層次的Router 和低層次的微調模型。最終,多專家模型達到了人類科學家的水平,這說明可以在無需人工標注的前提下,訓練開源模型像科學家一樣進行推理。此外,王夢迪教授團隊還發布了基于真實科學討論的 LLM 推理評價對比評測基準 Genome-bench。


基于這一成果,王夢迪教授團隊開發了專注于基因組學和基因組工程領域的多智能體AI系統“CRISPR-GPT”。該系統能夠自動協助人類進行基因編輯研究、藥物篩選、基因編輯等工作,包括設計實驗方案、確定參數、故障排除以及數據分析和報告生成。構建這種科學智能體的難點在于說服科學家評估和使用這些智能體,并與AI研究人員密切合作。目前,Crisper GPT已經與不同大學的科學家合作,用于肺癌研究和阿爾茨海默病治療的基因編輯,并與制藥公司合作開發自動化AI藥物靶點篩選流程。


近期,王夢迪教授團隊提出了自進化的智能體“Alita”,它能夠根據任務需求動態生成工具和工作流。與傳統的智能體不同,Alita不需要預定義的工具,而是自己構建工具,并實時進化這些工具。在解決新任務時,Alita會實時生成所需的MCP,找出最佳的工作流程來解決問題,最終解決問題。使用Alita時,涉及到三個智能體:管理智能體、網絡智能體和MCP生成智能體。

閆宇坤:《知識導向的智能體能力提升》


由于訓練數據等因素限制,大模型存在知識局限,具體表現在如下方面:一是幻覺問題,模型有可能生成“似是而非”的錯誤內容;二是知識“過時”,由于數據處理與訓練的滯后,模型無法及時“掌握”新產生的知識與信息;三是隱私泄露,敏感信息納入預訓練數據后存在一定的泄露風險;四是后訓練失效,通過SFT等方式進行“知識注入”效果有限。

為解決上述問題,研究者們從2022年起逐步探索并發展了RAG(Retrieval-Augmented Generation)技術。從最基礎的RAG范式,到關注檢索時機與方式,再到COT(Chain of Thought)與RAG的結合、知識組織與RAG范式的配合,如今已發展到深思考模式下的知識獲取與利用階段。大模型的知識獲取和利用問題,從最初的邊緣問題逐漸成為核心問題。RAG技術的基礎范式分為檢索和生成兩個模塊:檢索模塊負責在遇到問題時找到相關知識,生成模塊則將知識與問題結合并輸出答案。


閆宇坤團隊從2023年起系統性地研究RAG技術,首先關注檢索基礎能力的提升,通過使用decoder only的強基座模型訓練Embedding模型,結合同質化小批次對比學習、多任務獨立學習率調節等技術,產出了發布時在CMTEB檢索榜單上排名第一的MiniCPM-Embedding系列模型。此外,團隊還擴展了模型檢索對象的模態,提出了VisRAG,結合MiniCPM-V系列模型實現了圖文跨模態檢索增強生成,并在多項VQA任務上超出GPT-4o效果。


然而,基礎性能的提升和模態的拓展并不能從根本上解決復雜問題。閆宇坤團隊對檢索增強過程進行了反思,提出了基于筆記的多輪檢索與深度整合——DeepNote。該方法通過引入大模型的筆記功能,實現知識獲取的整體規劃、動態拓展、近期整合以及自適應啟停。具體而言,模型在接到問題后進行初次檢索,并在筆記中記錄已掌握和需要獲取的信息,然后進入多輪循環,每次循環根據筆記內容提出新問題并檢索,將新知識整合到筆記中,直至筆記內容足以回答問題。這種范式顯著提升了模型解決復雜(長跨度、多跳等)問答問題的能力,相比基礎RAG版本平均提升了約10個百分點,在減少輸入的檢索文本的同時提升了有效信息量和密度。


盡管RAG技術能夠提供外部知識支持,但模型對有效知識的識別和利用能力有限,且內部知識與外部知識可能產生沖突。此外,檢索系統引入的噪聲也給模型帶來了挑戰。閆宇坤團隊發現,強化訓練更適合RAG系統的生成模塊訓練,因為它對數據規模需求低,適用于“Out-of-Domain”場景,且能保持通用能力。團隊提出了RAG-DDR的生成鏈路調優方法,通過調整模型的溫度系數來優化外部知識的組合和內部知識的采樣,從而獲得正負例或帶有不同獎勵值的案例。在長鏈路調優中,團隊采用后向對齊的方式,將多智能體組成的鏈路視為齒輪系統,通過固定后面的系統,調優前面的系統,實現多輪優化,顯著提升了系統性能。


RAG場景下,有時候需要通過內部知識,有時候需要通過外部知識,有時候需要內部知識和外部知識有效結合,采樣成功率是非常低的。對于涉及長鏈路推理的QA任務,其反饋信號非常稀疏

為此,閆宇坤團隊提出了KARE-RAG,把大模型在推理過程中的知識展開為知識圖譜。通過這種方式,可以知道最終答案的正確與否。同時,也可以讓大模型做同樣知識展開,幫小模型去發現知識整理過程中具體哪里有錯誤,提升監督信號的密度。


閆宇坤團隊進一步探索了多源多模態信息的多輪整合,提出了R1-Router工作,引入動態路由機制,在檢索過程中實現多輪檢索、思考、提問和知識整合。R1-Router不僅搜索文本知識庫,還整合圖像、表格等多模態信息。其訓練過程包括知識庫選擇、查詢語句生成、信息整理和答案輸出等多個環節。通過Step-GRPO的方式進行逐步采樣,實現了多個能力的聯合調優。

林衍凱:《大模型自主智能體及端側應用》


在過去的五年間,研究者們通過不斷增長參數量和訓練數據量,顯著提升了大模型的智能水平。然而,為了邁向AGI(通用人工智能),大模型需要像人類一樣學會使用工具并進行社會分工。


目前,許多研究基于閉源大模型(如GPT-4o、Claude等),通過設計“自主工作流”來激發模型的自主智能體能力。然而,真正的AGI需要模型自主學會使用工具,與環境交互以解決復雜問題。為此,工具學習技術應運而生,目標是讓智能體學會使用搜索引擎等復雜工具,拓展大模型的能力邊界。

自OpenAI發布GPT-3以來,已有大量研究工作探索如何讓大模型學會使用外部工具。當前主流的工具學習范式包括:(1)示范學習,即讓大模型模仿人類使用工具的行為;(2)教程學習,讓大模型閱讀工具使用手冊以理解功能和調用方式;(3)探索學習,通過強化學習讓模型基于環境和人類反饋自主探索工具的使用。

在示范學習方面,林衍凱團隊提出了首個基于交互式網絡搜索的中文問答框架WebCPM,標注了大量人類使用搜索引擎回答問題的數據,并微調了50億參數的CPM模型。結果顯示,僅需5500條數據即可讓模型學會使用搜索引擎,顯著提升其在開放域問題上的能力。然而,這種方法依賴于大量人類使用軌跡的收集,耗時耗力。


為解決這一問題,林衍凱團隊提出了基于教程學習的工具指令微調方法,通過對工具的描述自動生成微調數據集,支持復雜工具調用場景及自動工具推薦和評測。基于此,該團隊構建了Toolbench數據集,并訓練了Llama 2模型,使其能夠高效泛化到新的API上,工具使用能力接近ChatGPT。


一個優秀的智能體應具備自主性、泛化性長程性三個關鍵特性。然而,目前許多智能體缺乏泛化性,僅能在有限環境中運行。為了實現通用自主智能體,林衍凱團隊關注MCP(Model-Controller-Provider)協議,通過標準化協議解決大模型與工具之間的交互問題。在miniCPM上實現MCP能力增強后,通過數據構造和在線強化學習,模型在15個工具上的調用能力超過了Qwen3和GPT-4o。

盡管如此,僅靠MCP仍不足以實現任務層面的泛化。團隊發現獎勵模型在泛化性上優于策略模型,尤其是在OOD(Out-of-Distribution)場景下。因此,團隊通過蒙特卡洛樹采樣訓練過程獎勵模型,引導策略模型解碼,顯著提升了模型在獨立同分布和OOD場景下的性能。

長程任務是大模型面臨的另一挑戰。即使單步成功率很高,多步任務的成功率也會急劇下降。為此,團隊探索了多步強化學習在長報告生成場景中的應用。在長報告生成任務中,團隊設計了規劃型模塊和寫作型智能體協同工作的框架,并通過兩階段強化學習優化模型性能,最終在多個指標上超過了現有方案。在GUI交互場景中,團隊開發了AgentCPM-GUI,通過高質量數據集、強化微調和緊湊的端側機制設計,顯著提升了模型在多模態GUI任務中的性能,超過了現有模型。


為了減少人類介入,林衍凱團隊探索了自主工具智能體,即智能體能夠主動預測人類需求并提供服務。為此,團隊構建了基于環境模擬的主動式任務生成場景,訓練了Llama-3-Proactive模型,使其在代碼編輯、文章寫作和智能家居場景中展現出主動預測人類需求的能力,預測性能超過了現有模型。

王碩:《LLM×MapReduce——基于分治思想的長序列處理》


LLM×MapReduce框架的靈感來源于大數據領域的經典技術MapReduceMapReduce最初由谷歌為處理海量網頁和日志而設計,通過Map操作將數據轉換為中間鍵值對,再由Reduce操作聚合相同鍵的值,從而實現大規模并行處理。這一思想被引入大模型領域,旨在解決大模型在處理超長文本時的挑戰,例如輸入端文本長度增加導致性能下降和計算開銷增大等問題。


面對長文本處理的挑戰,一種思路是提升單個大模型的長序列處理能力,另一種是構建多核系統,基于分治思想讓多個模型協作完成任務。LLM×MapReduce框架采用后者,將長文本切分為短片段,讓模型分別處理后再匯總結果。這種方法可擴展性強,但存在跨片段依賴跨片段沖突問題,可能導致斷章取義。為此,研究者提出了結構化通信協議和上下文置信度校準技術來緩解這些問題。


LLM×MapReduce的工作流程包括:將長文本切分片段,進入Map階段后,模型抽取結構化信息(如答案、理由和置信度分數),若片段無用則被丟棄;接著通過Reduce操作將結果匯總為最終輸出。


在訓練階段,研究者提出Pyramid-Align方法生成高質量對齊數據。該方法利用大模型將長文檔處理成層次化金字塔結構,葉子節點對應原始片段,上層節點是對下層的總結。通過在不同層級采樣生成問題,結合了全局信息整合和局部細節感知的優點,實驗表明其數據合成質量優于現有方法。


LLM×MapReduce不僅適用于長輸入到短輸出的任務,還適用于超長輸入到長輸出的復雜任務,例如根據海量文獻生成長報告。這類任務的挑戰在于資源收集和資源利用。研究者采用聚合式方法,通過Map操作理解單篇素材,再通過類似卷積神經網絡的多層累積操作得到全局特征,并引入信息熵評估方法指導中間過程。


基于LLM×MapReduce框架,研究者開發了“Survey GO”系統,用戶輸入主題或文獻后,系統自動檢索、整理文獻并生成報告。該系統已開源,生成了近萬份長報告,包含40萬參考文獻。

然而,MapReduce存在局限性,如任務調度效率低、執行模型固定、數據交換效率低等。研究者從Spark中獲得啟發,對Survey GO進行優化:一是從批處理到微批處理的演進,顯著縮短任務響應時間;二是將固定線性流程改造成基于DAG的彈性執行模型,支持算法策略的靈活調整和人工干預;三是提升大模型間信息交換效率,通過明文空間的冗余信息消除,設計啟發式搜索算法A*-Thought,提升信息生成密度。

A*-Thought通過雙向重要性估計(BIS)和A搜索算法,在Step-level和Path-level消除冗余信息。BIS結合注意力權重和對數似然估計Token的重要性,A搜索算法通過定義代價函數(包括當前代價和未來代價)在思維鏈中尋找最優路徑,從而提升大模型在處理長文本時的效率和質量。

錢忱:《大模型群體協作的高效化機制》



大模型與智能體在功能和思維方式上存在顯著區別。大模型主要依賴封閉式的快思考,通過序列化模式實現語言生成、翻譯、分類等功能,并在一定程度上進行長程規劃和工具使用。而智能體則更側重于開放性的慢思考,利用長程規劃、工具學習和長短期記憶等能力來完成復雜任務。例如,RAG模式用于解決智能體的長短期記憶問題,分治法則是一種規劃模式,這些都體現了智能體在任務執行中的復雜性和靈活性。


隨著MCP(模型上下文協議)的出現,智能體的工具開發從傳統的push型轉變為pull型,極大地提升了工具的復用率和生態的開放性。這種轉變使得智能體的構建更加容易,也為未來的智能體發展提供了更廣闊的空間。


盡管智能體協作具有巨大的潛力,但也面臨著諸多挑戰。例如,多智能體協作的溝通復雜度呈指數型增長,這使得協作的性價比成為了一個關鍵問題。協作的開銷主要體現在信息交互、行為路由、推理試錯三個方面。為此,我們可以從通信協議、協作模式、推理能力三個角度對多智能體協作進行優化。

為了優化智能體的協作效率,可以從以下幾個方面入手:一是精簡信息交互,通過非自然語言的交流模式減少上下文長度;二是通過訓練方案將高效的交互模式注入智能體參數中,錢忱老師團隊提出了Optima高效智能體溝通的訓練方案,讓智能體做N輪交互模擬,然后在交互模擬的樹上打分;三是采用中心化的編排機制,錢忱團隊在 Puppeteer 中動態調整多智能體協作的任務分配和觸發,通過幕后策略的調控實現高效的協作。在 Co-Saving 中,錢忱團隊探索了資源有限的協作鏈壓縮,實現了具備資源意識的多智能體推理,結合資源信息動態篩選經驗,丟棄冗余的推理過程,縮減推理鏈長,實現推理優化。


經驗的持久化是提升智能體推理能力的重要手段。通過將高獎勵的推理過程存儲下來,供未來檢索和復用,可以顯著提升群體推理的效率,減少推理輪次和資源消耗。MAS-GPT通過大模型生成多智能體協作的workflow,進一步降低了推理消耗,提高了運行效率。這種經驗的積累和復用,不僅能夠提升單個智能體的性能,還能推動整個智能體群體的演化和進步。


未來,智能體的發展可以從以下幾個方向進行探索:一是高效的交互,通過Embedding等方式實現智能體之間的直接交互,但需要解決嵌入空間一致性的問題;二是高效的路由,實現自頂向下與自底向上的結合,讓智能體能夠自主地根據特長進行協同;三是高效的推理,探索智能體的解耦機制,使其能夠像人類一樣在不同團隊中靈活應用所學經驗。

于濟凡:《大模型多智能體驅動的數智教育新生態》


劉慈欣在科幻小說《鄉村教師》中寫道:人類這個群體特別奇怪,他們沒有記憶的遺傳能力,他們所有的記憶都是后天進行習得的,這簡直是不可思議!而且他們沒有記憶遺傳,相互之間是通過聲波這種難以置信的以每秒1-10比特的低速率進行信息傳遞的生物怎么能誕生5B級的文明?后面他們說:這是一個非常古老的詞匯,有一種個體以一定數量分布在各個角落,這群人充當著兩代生命體之間知識傳遞的媒介,他們叫做教師。

這段文字強調了教師在傳遞文明中的關鍵作用,同時也引發了對教育現狀的思考。在全球范圍內,優質教育資源的不足和分配不均仍然是一個重大問題,尤其是在地區經濟發展差異巨大的情況下,教育資源的匱乏更加明顯。


從公元前3500年美索不達米亞平原的第一所學校開始,每一次信息技術的突破都推動了教育生態的重構。從1980年代的廣播電視教育到2010年的在線教育慕課,信息技術不斷拓展優質教育資源的覆蓋面并改變傳授形式。如今,大模型和多智能體技術的發展為教育帶來了新的機遇,有望徹底改變學習資源和交互方式,實現個性化學習。


清華大學嘗試構建了“MAIC”平臺,目標是通過AI智能體實現高效、個性化、低成本、高質量的知識傳播,擴大優質教育資源的覆蓋面。與傳統在線教育相比,該平臺利用大模型和多智能體技術,以更低的成本和更少的時間構建自適應課程,并為每個學習者提供智能體陪伴學習。

在MAIC平臺上,學生不再依賴單一的教師或視頻學習,而是由教師智能體自適應管理課程內容和節奏,助教智能體維持課堂秩序并回應學生問題,同時還有多種個性化定制的同學智能體,如“顯眼包”“好奇寶寶”“筆記員”等,以滿足不同學生的需求。教師只需上傳課件或課程資源,智能體即可協同構建自適應課件,甚至自動生成講解腳本和學習題目。該平臺可以通過符合教育學原理的機制,引導課堂走向更加適合每個同學的狀態。

MAIC平臺的核心優勢在于多智能體的協作和個性化學習體驗。基于大模型的強大生成能力,平臺能夠根據學生的不同背景、專業和需求,提供定制化的學習內容和示例。學生可以自主調整學習進度,隨時隨地學習。此外,平臺還具備情感對齊和價值對齊能力,能夠對學生進行情感關懷,增強學習動力。


構建MAIC平臺涉及多個技術難點,包括教師內隱知識的挖掘、跨模態長文本生成、多智能體協同控制等。例如,生成講稿需要復雜的VoT結構和多智能體協同,以實現課件理解、講稿生成和語法控制等功能。此外,平臺還通過教育學方法指導,構建細粒度的課程講稿,顯著提升了學生的學習效果。

其中,對教師進行的深度對齊的備課輔助,需要建構知識模型;多智能體自適應課堂,需要建構教學模型;高效精準的學生建模則對應于建構學生模型。

在構建講稿生成工作流時,給定教學資源之后需要對其進行拆分講解,生成講稿時需要配上講課、翻頁等等動作,需要構建一套獨特的VoT結構,使用多智能體協同來完成課件理解、講稿生成、控制語法、構建可泛化的異構學習操作。


對于智能體驅動的自適應課堂其實也非常復雜,不僅需要構建一個包括教師、助教、同學多智能體課堂,還需要使它們真正扮演對應的教學和輔助功能。因此,最大難點不僅在于讓系統運轉起來,還需要非常完備的多智能體協同控制算法。

于濟凡老師團隊基于大量學習科學已有的方法論構建自頂向下工作流機制,實現了導演智能體為主體的協同配合方案。他們發現,使用大模型作為核心控制多個智能體去完成課堂模擬,可以使AI助教在認知臨場感、教學臨場感、社會臨場感方面相較傳統方法具有優勢。在多智能體場景下,大模型可以深刻理解過去使用社科方法研究出來的理論規律。


包括我們也基于教育學方法指導,構建了剛剛視頻中所展示的那種,能夠符合學生興趣、認知方式的非常細粒度到每一句的課程講稿。我們也發現,在使用這樣的個性化內容的前后,學生的成績和評測的效果都有了顯著的提升。


于濟凡老師團隊嘗試使用元認知的規律模擬不同學習場景中有困難的學生,在真人介入平臺使用之前,先讓虛擬學生嘗試使用該系統,讓多智能體本身作為一個評測方式參與到平臺使用過程中,提升多智能體生態的服務潛能。

MAIC平臺自2024年1月提出以來,經過多輪校內試點和推廣,取得了顯著成效。在與真人教師授課和線上視頻慕課的對比實驗中,AI教師組的學生在身份感知和學習成效方面表現優于其他組別,顯示出AI在教育領域的巨大潛力。目前,平臺已在清華大學開設多門校內課程,并在中西部地區開展公益活動,為教育資源匱乏地區提供支持。


未來,MAIC平臺的發展將聚焦于更多場景的探索和開源合作。一方面,平臺將繼續服務教育資源匱乏地區,通過公益促進科研;另一方面,平臺將面向科研合作開源,構建大模型多智能體時代教育研究的社群。

劉邦:《構建基礎智能體的認知引擎》


智能體是任何能夠接受環境中的信號并且作出決策、作出行動的實體。其基本架構包括感知環境的傳感器、決策過程以及執行動作的執行器。隨著大模型時代的到來,智能體的自然語言理解和推理能力顯著提升,但其認知核心的構建仍面臨挑戰:如何整合記憶、規劃和多模態能力?


人類大腦是自然界唯一的智能體實例,其與機器智能(如LLM)存在顯著差異。從硬件層面來看,人類大腦由生物細胞組成,功耗低(約20W),而LLM需要大規模集群訓練,功耗高。在意識層面,LLM缺乏人類的主動意識。在學習能力上,人類具有終身學習和快速適應新任務的能力,而LLM在這方面相對不足。然而,機器智能在存儲大量知識和進行高效搜索推理等方面具有優勢。


盡管智能體在語言理解和視覺感知方面取得了顯著進展,但在推理、記憶、規劃等核心認知功能上仍有提升空間。此外,情感處理、多模態交互等能力也相對薄弱。研究者們希望通過對比機器智能和生物智能,探索如何提升智能體的終身學習能力、復雜場景下的推理能力以及情感和多模態交互能力。


劉邦教授認為基礎智能體應該能夠被廣泛應用到不同的場景,有充足的泛化性。此外,智能體需要有強大的感知、認知和行為能力。最后,我們希望智能體有非常強的合作能力,能夠依靠強大的多智能體系統去解決更多復雜任務。

為此,該團隊定義了 Foundation Agent的工作循環(Agent Loop),描述了智能體如何從環境中感知信號、更新內部狀態、并采取行動。智能體的認知結構由一些不同的核心內在狀態組成,這些內在狀態包括世界模型等用于根據當前狀態預測未來的技術模塊、用來存取過往經驗的記憶模塊、驅動智能體的目標模塊、表征即時狀態的情緒模塊、以及綜合長短期目標和當前狀況來給予反饋的獎勵模塊等。研究者試圖構建一個具備模塊化內部狀態和清晰地認知能力定義的智能體:基于這些內在狀態,Foundation Agent框架把認知定義成一個函數,基于上一時刻的內在狀態和上一時刻執行的動作、當前的觀測,推導下一時刻更新的內在狀態以及作出行動決策。進一步,我們可以定義更清晰的認知函數的兩個子函數,一個是學習函數,一個是推理函數。


為了提升智能體的記憶能力,劉邦教授團隊提出了R3MEM架構,旨在解決LLM無狀態、經驗無法被保留的問題。該架構通過將記憶視為信息的壓縮和解壓縮過程,設計了一個可逆的記憶網絡。通過引入讀寫token和層次化的數據壓縮,R3MEM能夠高效地存儲和檢索記憶,同時減少存儲和檢索的延遲。


為了提升智能體的推理能力,劉邦教授團隊提出了System1.5推理框架,旨在結合快速的啟發式推理(System1)和深度推理(System2)的優點。該框架通過動態調整推理過程中的計算資源,避免了冗余和過度思考的問題。通過引入深度捷徑和步驟捷徑,System1.5能夠在推理過程中靈活調整計算深度和步驟,從而提高推理效率。

System1.5的訓練過程包括隱空間蒸餾和捷徑學習。通過讓學生模型的隱層狀態對齊教師模型的推理路徑,System1.5能夠在不生成中間文本的情況下學習推理過程。同時,通過標注關鍵步驟并引入早退損失函數,System1.5能夠動態調整每層的計算資源,從而在保持推理準確性的同時提高效率。

不過這類問題依然存在個關鍵的問題,就是它們對所有的推理步驟一視同仁,無論是同心表達(音譯)問題還是合并兩條事實等等,模型會使用同樣的計算深度,導致效率問題。所以我們希望讓推理過程更加具有動態適應性,在難的地方花更長時間思考,在簡單的地方快速通過。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
風靡一時的蘭州拉面,為何很少人去吃了?4個扎心原因趕跑了顧客

風靡一時的蘭州拉面,為何很少人去吃了?4個扎心原因趕跑了顧客

平祥生活日志
2025-07-24 02:00:43
給近兩年最好的10部犯罪劇排名:《掃毒風暴》第5,第1沒有爭議

給近兩年最好的10部犯罪劇排名:《掃毒風暴》第5,第1沒有爭議

坊聞本尊
2025-07-24 19:03:52
陳佩斯新片《戲臺》首波口碑出爐!觀眾催淚點評:我們不想看他輸

陳佩斯新片《戲臺》首波口碑出爐!觀眾催淚點評:我們不想看他輸

晴晴的娛樂日記
2025-07-24 11:45:17
美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

澎湃新聞
2025-07-25 08:42:32
一問到底丨確診超4000例,基孔肯雅熱啥來頭?總臺專訪中疾控專家

一問到底丨確診超4000例,基孔肯雅熱啥來頭?總臺專訪中疾控專家

環球網資訊
2025-07-25 22:21:31
世衛組織警示基孔肯雅熱疫情風險,呼吁全球加強防控

世衛組織警示基孔肯雅熱疫情風險,呼吁全球加強防控

界面新聞
2025-07-25 19:14:25
《戲臺》上映即翻車,票房大爆卻差評如潮,這種“爛片”別再拍了

《戲臺》上映即翻車,票房大爆卻差評如潮,這種“爛片”別再拍了

銀河史記
2025-07-25 19:38:00
中國是如何識破雙面間諜斯諾登騙局的?

中國是如何識破雙面間諜斯諾登騙局的?

霹靂炮
2025-07-25 13:29:17
杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

小企鵝侃世界
2025-07-25 22:57:39
“內鬼”陳天生被查,曾任反貪局局長

“內鬼”陳天生被查,曾任反貪局局長

政知新媒體
2025-07-25 18:26:27
河北涿州突降暴雨道路積水快沒過車窗,居民稱“開車像開船”,當地:交通正逐步恢復

河北涿州突降暴雨道路積水快沒過車窗,居民稱“開車像開船”,當地:交通正逐步恢復

極目新聞
2025-07-25 20:06:08
馮德萊恩登上離華專機前,中歐發布聯合聲明,特朗普進退兩難

馮德萊恩登上離華專機前,中歐發布聯合聲明,特朗普進退兩難

掌青說歷史
2025-07-25 18:13:45
奧巴馬是用進步文化和平權主義摧毀美國立國之本的“特洛伊木馬”

奧巴馬是用進步文化和平權主義摧毀美國立國之本的“特洛伊木馬”

壹家言
2025-07-25 08:59:54
宗慶后的警覺,狐貍分餅,梅艷芳信托化為了烏有

宗慶后的警覺,狐貍分餅,梅艷芳信托化為了烏有

月滿大江流
2025-07-24 17:44:11
連刷《南京照相館》和《戲臺》,一部超上頭,一部看得昏昏欲睡!

連刷《南京照相館》和《戲臺》,一部超上頭,一部看得昏昏欲睡!

小丸子的娛樂圈
2025-07-24 15:09:55
河南幫扶人員68張白條2.8萬元餐館欠款已結清,縣糧食局簽字人:深表歉意,自己先墊的錢

河南幫扶人員68張白條2.8萬元餐館欠款已結清,縣糧食局簽字人:深表歉意,自己先墊的錢

極目新聞
2025-07-25 11:40:21
53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

粵睇先生
2025-07-23 00:55:58
洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

南宮一二
2025-07-25 16:50:07
村民要求村委會公開多年收支,被通知要交“23萬元復印費”?鎮政府:村委提供查閱機會,對方執意復印

村民要求村委會公開多年收支,被通知要交“23萬元復印費”?鎮政府:村委提供查閱機會,對方執意復印

大風新聞
2025-07-25 21:27:15
兒子高考712分,父親帶出國旅游在海關被攔,父親:我沒這個兒子

兒子高考712分,父親帶出國旅游在海關被攔,父親:我沒這個兒子

球場指揮家
2025-07-25 20:05:13
2025-07-26 02:00:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37239關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

手機
健康
家居
旅游
教育

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

呼吸科專家破解呼吸道九大謠言!

家居要聞

環繞設計 空間動線合理

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黄石市| 固阳县| 朝阳县| 九龙县| 青龙| 东莞市| 上虞市| 北辰区| 瑞昌市| 龙里县| 同心县| 新巴尔虎右旗| 恭城| 建平县| 泗洪县| 永顺县| 合江县| 富蕴县| 崇义县| 神木县| 阜平县| 中阳县| 磐石市| 涞源县| 屯门区| 游戏| 克拉玛依市| 连江县| 和顺县| 体育| 屯昌县| 英山县| 普兰店市| 怀安县| 宜良县| 肥城市| 崇明县| 新平| 康马县| 衡阳县| 汉沽区|