99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球首創(chuàng)!DeepResearcher實(shí)現(xiàn)真實(shí)環(huán)境AI自主研究,性能飆升28.9%

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。


隨著大型語言模型(LLMs)推理能力的飛速發(fā)展,OpenAI、Google 和 XAI 等科技巨頭紛紛推出了備受歡迎的 Deep Research 產(chǎn)品。這些工具能幫助用戶整合海量網(wǎng)絡(luò)信息,解決復(fù)雜問題,大大提升研究效率。

但現(xiàn)有系統(tǒng)存在兩大痛點(diǎn):一方面,商業(yè)產(chǎn)品如OpenAI的Deep Research 完全是 "黑盒",其技術(shù)細(xì)節(jié)不對外公開;另一方面,開源項(xiàng)目往往依賴人工設(shè)計(jì)的工作流程,導(dǎo)致行為僵化、泛化能力差,在復(fù)雜研究場景中表現(xiàn)脆弱。

上海交通大學(xué)與SII聯(lián)合發(fā)布了首個在真實(shí)網(wǎng)絡(luò)環(huán)境中通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI研究模型DeepResearcher。它通過強(qiáng)化學(xué)習(xí)擴(kuò)展(RL scaling)在真實(shí)網(wǎng)絡(luò)環(huán)境中訓(xùn)練,自發(fā)形成了令人驚嘆的研究能力。DeepResearcher已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


模型地址

https://www.wisemodel.cn/models/YuxiangZheng/DeepResearcher-7b

DeepResearcher作為一種先進(jìn)的人工智能,在回答問題時(shí)展現(xiàn)出了類似人類的復(fù)雜行為模式。它能夠自主規(guī)劃研究步驟,動態(tài)調(diào)整搜索策略,并對不同來源的信息進(jìn)行交叉驗(yàn)證,而非簡單地搜索信息。

特別值得注意的是,當(dāng)面對 "誰是電影先驅(qū)" 這類開放性問題時(shí),DeepResearcher 不會盲目接受首次搜索結(jié)果,而是主動開展第二輪更精確的搜索以驗(yàn)證信息準(zhǔn)確性,確保最終答案的可靠性。這種自發(fā)形成的交叉驗(yàn)證行為,是 AI 真正理解 "研究" 本質(zhì)的體現(xiàn)!


雖然近期研究嘗試將強(qiáng)化學(xué)習(xí)與信息檢索結(jié)合,但它們大多基于本地知識庫模擬搜索,而非在真實(shí)網(wǎng)絡(luò)環(huán)境中訓(xùn)練。這就像在"模擬水池" 里學(xué)游泳,而非真正的 "大海" 中歷練。

而 DeepResearcher 嘗試解決這個問題,它直接與實(shí)時(shí)搜索引擎互動,在真實(shí)互聯(lián)網(wǎng)的復(fù)雜環(huán)境中學(xué)習(xí)研究技能。就像人類研究者一樣,它能自主規(guī)劃研究路徑、交叉驗(yàn)證信息、動態(tài)調(diào)整策略,甚至在信息不足時(shí)坦誠承認(rèn)限制。

這一開創(chuàng)性工作不僅填補(bǔ)了開源 Deep Research 領(lǐng)域的關(guān)鍵空白,也為理解如何培養(yǎng) AI 的真實(shí)研究能力提供了全新視角。

在多個問答數(shù)據(jù)集上,DeepResearcher的表現(xiàn)超越所有基線。與基于提示工程的智能體相比,DeepResearcher在研究任務(wù)完成度方面最高可提升到28.9分。相較于基于 RAG 的強(qiáng)化學(xué)習(xí)智能體,DeepResearcher 的提升幅度最高可達(dá) 7.2 分。這在知識范圍超出維基百科的 Bamboogle 測試集上尤為明顯。

事實(shí)證明,與真實(shí)搜索環(huán)境的直接交互,并非只是一個簡單的實(shí)現(xiàn)細(xì)節(jié),而是構(gòu)建能夠在真實(shí)世界應(yīng)用中高效執(zhí)行研究任務(wù)的自主系統(tǒng)的關(guān)鍵要素。通過在真實(shí)環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,DeepResearcher模型展現(xiàn)出規(guī)劃、反思、交叉驗(yàn)證等行為,并且能夠始終保持誠實(shí)回答,體現(xiàn)出了極高的可靠性與實(shí)用性。


01.

真實(shí)環(huán)境做端到端RL Scaling

在開發(fā)真正有效的深度研究代理時(shí),訓(xùn)練環(huán)境的選擇至關(guān)重要。與傳統(tǒng)的基于本地 RAG 的 RL 訓(xùn)練相比,在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練具有本質(zhì)上的優(yōu)勢,這些優(yōu)勢是任何模擬環(huán)境都無法替代的。

真實(shí)網(wǎng)絡(luò)環(huán)境具有高度的不確定性和復(fù)雜性

網(wǎng)絡(luò)上的信息并非靜態(tài)固定的知識庫,而是動態(tài)變化的、多樣化的、有時(shí)甚至是相互矛盾的內(nèi)容集合。在這樣的環(huán)境中訓(xùn)練,模型必須學(xué)會應(yīng)對真實(shí)世界的挑戰(zhàn):評估信息的可靠性、處理不完整或過時(shí)的數(shù)據(jù)、從噪聲中提取有價(jià)值的信號,以及整合來自不同領(lǐng)域的知識。

相比之下,本地 RAG 環(huán)境過于 "干凈" 和可控,它假設(shè)所有必要信息都已存在于固定知識庫中,這一假設(shè)在真實(shí)的深度研究場景中幾乎不成立。

真實(shí)環(huán)境還要求模型發(fā)展復(fù)雜的信息整合能力。模型需要學(xué)習(xí)從多個來源收集信息,并通過批判性思維將這些信息合成為連貫的答案。它必須權(quán)衡不同信息源的可靠性,識別并解決矛盾的觀點(diǎn),并以人類可理解的方式呈現(xiàn)結(jié)果。這種復(fù)雜的信息處理能力只能在面對真實(shí)信息源的多樣性和不可預(yù)測性時(shí)才能真正發(fā)展起來。

RL Scaling是泛能力的保障

RL Scaling 訓(xùn)練是確保模型泛化能力的關(guān)鍵機(jī)制。通過在海量真實(shí)網(wǎng)絡(luò)查詢中不斷試錯和優(yōu)化,模型能夠逐步建立起對搜索策略的深刻理解,而非簡單記憶特定查詢 - 響應(yīng)對。這種理解體現(xiàn)在多個層面:

  • 模型學(xué)會了如何根據(jù)問題性質(zhì)構(gòu)建有效的搜索查詢

  • 它能夠識別哪些搜索結(jié)果值得深入探索,哪些可以忽略

  • 在初始搜索失敗時(shí),它能夠調(diào)整策略,嘗試不同的關(guān)鍵詞或搜索角度

  • 面對復(fù)雜問題,它能夠分解為多個子問題并逐一解決


這些能力使得 DeepResearcher 能夠處理訓(xùn)練中從未見過的問題類型,表現(xiàn)出真正的泛化能力,而非僅依賴于參數(shù)化記憶。

端到端訓(xùn)練讓模型擺脫工作流的桎梏

傳統(tǒng)的提示工程方法通常預(yù)設(shè)了固定的工作流程:先做 A,再做 B,最后做 C。這種方法在處理標(biāo)準(zhǔn)問題時(shí)可能有效,但面對復(fù)雜多變的研究任務(wù)時(shí)往往顯得僵化。通過端到端的 RL 訓(xùn)練,DeepResearcher 能夠:


  • 自主發(fā)現(xiàn)最優(yōu)的研究路徑,而非遵循預(yù)定義的工作流。

  • 根據(jù)問題的實(shí)際需求靈活調(diào)整搜索深度和廣度。

  • 在搜索過程中根據(jù)新發(fā)現(xiàn)的信息動態(tài)調(diào)整研究方向。

  • 發(fā)展出人類設(shè)計(jì)者可能未曾預(yù)料到的創(chuàng)新性問題解決策略。

這種自主性使 DeepResearcher 能夠應(yīng)對各種研究場景,包括那些需要高度創(chuàng)造性和適應(yīng)性的復(fù)雜問題。模型不再被限制在設(shè)計(jì)者的思維框架內(nèi),而是能夠探索更廣闊的解決方案空間。

通過在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行 RL Scaling 和端到端訓(xùn)練,DeepResearcher 打破了傳統(tǒng)研究代理的限制,為 AI 輔助研究開辟了新的可能性。

02.

解決真實(shí)環(huán)境RL Scaling工程挑戰(zhàn)

在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)面臨許多本地 RAG 環(huán)境中不存在的技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)通過創(chuàng)新方法解決了這些問題,確保系統(tǒng)能夠在開放網(wǎng)絡(luò)環(huán)境中穩(wěn)定高效地運(yùn)行。

處理大量并發(fā)請求

強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,特別是使用 GRPO 算法時(shí),系統(tǒng)需要為每個問題并行生成多個獨(dú)立軌跡(在實(shí)現(xiàn)中是 16 個),這產(chǎn)生了海量并發(fā)請求。單一服務(wù)器會被網(wǎng)站反爬措施限流,且這些請求需要實(shí)時(shí)處理以保證訓(xùn)練效率。

為此,研究團(tuán)隊(duì)設(shè)計(jì)了分布式 CPU 服務(wù)器集群架構(gòu),實(shí)現(xiàn)了高效的任務(wù)分配機(jī)制,并建立了請求隊(duì)列和負(fù)載均衡系統(tǒng),保證每臺服務(wù)器所需要處理的任務(wù)量接近。

應(yīng)對網(wǎng)絡(luò)爬取與API限制

真實(shí)網(wǎng)絡(luò)環(huán)境中,網(wǎng)站反爬措施、API 限制和網(wǎng)絡(luò)延遲是不可避免的挑戰(zhàn)。網(wǎng)站可能在檢測到大量請求時(shí)返回?zé)o關(guān)內(nèi)容或拒絕響應(yīng),而搜索引擎 API 通常有嚴(yán)格的頻率限制和使用成本。

為解決這些問題,研究團(tuán)隊(duì)實(shí)現(xiàn)了智能重試機(jī)制,能在遇到臨時(shí)故障時(shí)自動調(diào)整策略;構(gòu)建了高效的緩存命中系統(tǒng),相同查詢在一定時(shí)間內(nèi)(如 7 天)直接從緩存獲取結(jié)果;同時(shí)開發(fā)了請求分散策略,動態(tài)監(jiān)控 API 使用情況并調(diào)整請求節(jié)奏,避免觸發(fā)限制的同時(shí)控制成本。

多代理框架優(yōu)化信息提取

網(wǎng)頁內(nèi)容通常結(jié)構(gòu)復(fù)雜且冗長,與查詢相關(guān)的信息可能只占很小一部分。為高效提取有價(jià)值信息,研究團(tuán)隊(duì)設(shè)計(jì)了多代理協(xié)作框架,讓專門的閱讀代理負(fù)責(zé)內(nèi)容提取工作。系統(tǒng)將長網(wǎng)頁分割成可管理的小段,閱讀代理從頁面開始部分順序處理,基于當(dāng)前查詢和已收集信息動態(tài)決定是否繼續(xù)讀取。

如果前幾部分主要包含無關(guān)內(nèi)容,系統(tǒng)會判斷整個網(wǎng)頁可能不值得深入,從而跳過后續(xù)內(nèi)容。這種漸進(jìn)式處理方法不僅提高了計(jì)算效率,還能更準(zhǔn)確地識別和提取相關(guān)信息。

03.

DeepResearcher訓(xùn)練構(gòu)架


DeepReasearcher 的深度研究軌跡

在 DeepResearcher 的推理軌跡中,智能體會根據(jù)用戶問題和觀測結(jié)果進(jìn)行迭代推理與工具選擇,在動態(tài)的真實(shí)世界環(huán)境中通過網(wǎng)頁搜索解決問題。

  • 推理(Reasoning):DeepResearcher 在執(zhí)行具體動作之前必須先進(jìn)行推理。每次推理過程都被封裝在 標(biāo)簽內(nèi),遵循 DeepSeek-R1 的設(shè)定。

  • 網(wǎng)頁搜索工具(Web Search Tool):DeepResearcher 通過生成JSON 格式的請求來調(diào)用網(wǎng)頁搜索工具。搜索結(jié)果以結(jié)構(gòu)化格式返回,每條結(jié)果包含標(biāo)題(title)、URL 和摘要(snippet)。當(dāng)前實(shí)現(xiàn)使用固定的top-k(如 10)作為搜索結(jié)果的檢索參數(shù)。未來工作可以探索基于 LLM 的動態(tài)參數(shù)優(yōu)化 以提升搜索效率。

  • 網(wǎng)頁瀏覽智能體(Web Browsing Agent):網(wǎng)頁瀏覽智能體為 DeepResearcher 系統(tǒng)提供可靠、與問題相關(guān)、且可增量更新的信息。具體而言,它對每個查詢維護(hù)一個短期記憶庫。當(dāng)收到網(wǎng)頁瀏覽請求時(shí),智能體首先處理 URL 的第一頁內(nèi)容,然后基于查詢、歷史記憶和新獲取的網(wǎng)頁內(nèi)容執(zhí)行兩種操作:

    1. 判斷是否需要繼續(xù)讀取下一個 URL / 頁面片段,或者停止瀏覽。

    2. 將相關(guān)信息追加到短期記憶庫。

    當(dāng)智能體決定停止瀏覽時(shí),它會整理短期記憶庫中的新增信息并將其返回給 DeepResearcher 系統(tǒng)。

  • 回答生成(Answering):當(dāng)模型判斷已獲取足夠信息后,它會生成最終答案,并將其封裝在 標(biāo)簽內(nèi)返回給用戶。

訓(xùn)練方法

該項(xiàng)目采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)訓(xùn)練智能體。本節(jié)概述了具體如何利用 RL 框架進(jìn)行訓(xùn)練,以及在其中使用的具體算法和工具。

GRPO算法

在本研究中,研究團(tuán)隊(duì)采用群體相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)算法。GRPO 通過利用參考策略以及由現(xiàn)有策略,生成的一組 rollout 來優(yōu)化當(dāng)前策略。具體而言,給定 G 個 rollout:


其中,每個輸入 x 服從經(jīng)驗(yàn)分布 D(即 x~D),GRPO 使用這些軌跡來估計(jì)基準(zhǔn)(baseline),而無需單獨(dú)訓(xùn)練一個評論模型(critic)。隨后,通過最大化以下目標(biāo)函數(shù)來優(yōu)化當(dāng)前策略:

觀查掩碼(Make Observations)

工具的輸出是一個觀察結(jié)果,而不是期望模型產(chǎn)生的輸出。因此研究團(tuán)隊(duì)還使用掩碼來防止工具的輸出參與訓(xùn)練,只允許模型的響應(yīng)對訓(xùn)練過程做出貢獻(xiàn)。

獎勵函數(shù)

使用F1 分?jǐn)?shù)作為獎勵函數(shù),并對格式錯誤的回復(fù)處以懲罰。


  • 格式懲罰(Format Penalty):如果答案格式不正確(例如缺少標(biāo)簽或存在結(jié)構(gòu)性錯誤),智能體將受到 -1 的懲罰。

  • F1 獎勵(F1 Reward):如果答案格式正確,獎勵將基于詞級別 F1 分?jǐn)?shù),該指標(biāo)用于衡量生成答案相對于參考答案的準(zhǔn)確性。F1 分?jǐn)?shù)越高,獎勵越高。

04.

實(shí)驗(yàn)結(jié)果解讀

實(shí)驗(yàn)結(jié)果充分證明了 DeepResearcher 的強(qiáng)大性能和泛化能力,同時(shí)明確顯示了在真實(shí)環(huán)境中訓(xùn)練的關(guān)鍵優(yōu)勢。

卓越的性能與強(qiáng)大的泛化能力


DeepResearcher 在各類評估基準(zhǔn)上均表現(xiàn)出色。在訓(xùn)練領(lǐng)域內(nèi)的測試中(包括 NQ、TriviaQA、HotpotQA 和 2Wiki 數(shù)據(jù)集),系統(tǒng)比提示工程 Agent 提高了 28.9 點(diǎn)的性能,比基于 RAG 的 RL Agent 提高了高達(dá) 7.2 點(diǎn)。這一結(jié)果特別顯著,因?yàn)樗砻骷词乖诟叨雀偁幍幕鶞?zhǔn)測試中,真實(shí)環(huán)境訓(xùn)練仍能帶來明顯的性能提升。


更令人印象深刻的是系統(tǒng)在領(lǐng)域外(OOD)數(shù)據(jù)集上的表現(xiàn)。在MuSiQue、Bamboogle 和 PopQA這三個與訓(xùn)練數(shù)據(jù)差異較大的測試集上,DeepResearcher 一致超越所有其他基線方法。

這種跨領(lǐng)域的泛化能力證明系統(tǒng)不只是記住了特定分布的問答模式,而是真正學(xué)習(xí)了通用的研究技能。模型能夠?qū)⒃谝环N問題類型上學(xué)到的推理和搜索策略遷移到全新的問題領(lǐng)域,這對于實(shí)際應(yīng)用至關(guān)重要。

真實(shí)環(huán)境訓(xùn)練的決定性優(yōu)勢

研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)特別突顯了真實(shí)環(huán)境訓(xùn)練相對于模擬環(huán)境的優(yōu)勢。尤其是在 Bamboogle 測試集上,這個基準(zhǔn)特意包含了需要超出維基百科知識范圍的問題。在這一挑戰(zhàn)上,DeepResearcher 顯著優(yōu)于所有僅使用本地 RAG 的方法。

最具說服力的是其中的對比實(shí)驗(yàn):即使允許 R1-Searcher(一個在本地 RAG 上訓(xùn)練的系統(tǒng))在推理階段訪問真實(shí)網(wǎng)絡(luò)搜索,它的性能仍然遠(yuǎn)低于 DeepResearcher。這一結(jié)果清晰地表明,僅僅在推理階段使用真實(shí)搜索是不夠的,真正的關(guān)鍵在于訓(xùn)練過程中直接與真實(shí)環(huán)境互動。

05.

RL Scaling后的涌現(xiàn)行為

此外,研究團(tuán)隊(duì)的定性分析揭示了 DeepResearcher 通過端到端的 RL scaling,DeepResearcher 展現(xiàn)出多種非預(yù)期的認(rèn)知能力,這些能力是自然涌現(xiàn)的,而非人工編程設(shè)計(jì)的結(jié)果。

在問題求解過程中,DeepResearcher 展現(xiàn)出了初步規(guī)劃、跨來源交叉驗(yàn)證答案、通過反思調(diào)整研究方向,以及在無法找到確切答案時(shí)保持誠實(shí)等能力。這些能力構(gòu)成了深度研究智能體的重要特征,并反映了人類研究者所重視的核心技能。

1.規(guī)劃能力

DeepResearcher 能夠在開始搜索前先制定初步計(jì)劃,確定關(guān)鍵子問題和搜索策略,類似人類研究者的工作方法。

2.交叉驗(yàn)證行為

系統(tǒng)會自動從多個來源獲取信息并進(jìn)行交叉驗(yàn)證,在遇到矛盾信息時(shí),會基于可靠性和一致性進(jìn)行判斷,大大提高了答案準(zhǔn)確性。

3.反思和調(diào)整研究策略

當(dāng)發(fā)現(xiàn)當(dāng)前搜索路徑無效時(shí),DeepResearcher 能夠反思已獲取的信息,重新調(diào)整搜索方向。這種自適應(yīng)行為使其能夠克服初始搜索策略的局限性。

4.誠實(shí)與透明

當(dāng)無法找到確切答案時(shí),系統(tǒng)會坦誠表明限制,而不是編造信息。這種誠實(shí)行為對于研究代理至關(guān)重要。



訓(xùn)練演化趨勢

實(shí)驗(yàn)還發(fā)現(xiàn)了幾個有趣的訓(xùn)練動態(tài):


  • 性能隨強(qiáng)化學(xué)習(xí)逐步提升,F(xiàn)1 分?jǐn)?shù)從 0.375 穩(wěn)步增長到約 0.55。模型在強(qiáng)化學(xué)習(xí)過程中性能不斷提高,表現(xiàn)出穩(wěn)步優(yōu)化的趨勢。

  • 隨著訓(xùn)練進(jìn)展,模型處理困難問題時(shí)會使用更多推理步驟和工具調(diào)用,隨著訓(xùn)練的進(jìn)行,不同難度水平下的工具調(diào)用次數(shù)也在增加。其中,4-hop(四跳問題)在 34 輪訓(xùn)練后仍保持增長趨勢,這表明模型在處理更復(fù)雜問題時(shí),仍在學(xué)習(xí)如何檢索更多信息以提高推理能力。

  • 所有推理步數(shù)設(shè)定下,響應(yīng)長度均呈持續(xù)增長趨勢,表明模型在訓(xùn)練過程中不斷擴(kuò)展其推理過程。隨著推理復(fù)雜度的提高,模型能夠適應(yīng)性的生成越來越詳細(xì)的響應(yīng),包括雙重檢查、細(xì)化和規(guī)劃等高級推理行為。



06.

總結(jié)與意義

DeepResearcher 代表了 AI 輔助研究的重大突破,首次在真實(shí)網(wǎng)絡(luò)環(huán)境中成功實(shí)現(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。該研究的意義主要體現(xiàn)在以下幾個方面:

學(xué)術(shù)貢獻(xiàn)

  • 提出了 DeepResearcher,一種突破性的強(qiáng)化學(xué)習(xí)擴(kuò)展方法,使大型語言模型(LLMs)能夠在真實(shí)世界的網(wǎng)頁搜索環(huán)境中高效運(yùn)行。與依賴靜態(tài)知識庫或受控檢索環(huán)境的現(xiàn)有方法不同,DeepResearcher 訓(xùn)練智能體直接與實(shí)時(shí)搜索引擎交互,使其能夠應(yīng)對開放網(wǎng)絡(luò)中固有的復(fù)雜性和動態(tài)變化(如 API 限制、網(wǎng)頁解析、反爬機(jī)制)。這種直接接觸動態(tài)搜索環(huán)境,使 DeepResearcher 在任務(wù)完成度和研究能力方面,相較于基于提示工程(prompt-engineered)和基于 RAG 的強(qiáng)化學(xué)習(xí)方法均實(shí)現(xiàn)了顯著提升。并開展了廣泛實(shí)驗(yàn),證明了真實(shí)環(huán)境訓(xùn)練的顯著優(yōu)勢。

  • 提出了專為真實(shí)網(wǎng)絡(luò)環(huán)境設(shè)計(jì)的 RL 框架,實(shí)現(xiàn)迭代推理、搜索,及多源信息整合。通過采用端到端訓(xùn)練框架,DeepResearcher 突破了人工設(shè)計(jì)的固定流程,使智能體能夠自主學(xué)習(xí)問題求解策略。這種方法不僅克服了真實(shí)世界網(wǎng)頁搜索中的獨(dú)特挑戰(zhàn),如網(wǎng)絡(luò)延遲和反爬蟲機(jī)制,還構(gòu)建了一種穩(wěn)健的多智能體架構(gòu),提升了智能體從網(wǎng)頁中收集多樣化信息的能力。最終,該系統(tǒng)展現(xiàn)出多種高級認(rèn)知行為,包括規(guī)劃(planning)、交叉驗(yàn)證(cross-validation)、反思(reflection)和誠實(shí)性(honesty),這些能力對于自主研究智能體至關(guān)重要。


  • 觀察并分析了系統(tǒng)的涌現(xiàn)行為,為未來研究提供了寶貴見解。DeepResearcher 的成功標(biāo)志著LLM智能體發(fā)展中的重要里程碑。這一方法為構(gòu)建更具適應(yīng)性、智能性的系統(tǒng)提供了前景廣闊的路徑,使其能夠解決復(fù)雜的開放域問題,并應(yīng)用于現(xiàn)實(shí)世界的各類任務(wù)。

真實(shí)意義

  • 為構(gòu)建真正可靠、靈活的深度研究系統(tǒng)提供了新范式。

  • 減少了對人工設(shè)計(jì)固定工作流的依賴,使系統(tǒng)更具自主性、適應(yīng)性和探索行為。

  • 展示了在復(fù)雜、開放環(huán)境中強(qiáng)化學(xué)習(xí)的潛力,證明在真實(shí)環(huán)境中擴(kuò)展強(qiáng)化學(xué)習(xí)可以大幅提升研究性能。

編輯:成蘊(yùn)年

----- END -----


wisemodel相關(guān):

系統(tǒng)升級:

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
宋式大福報(bào),740㎡頂級跳舞野趣,布局循古,方寸間見大千!

宋式大福報(bào),740㎡頂級跳舞野趣,布局循古,方寸間見大千!

里二戶型改造
2025-07-16 18:12:59
遠(yuǎn)東集團(tuán)賺大陸錢捐“臺獨(dú)”?被大陸精準(zhǔn)反制后,發(fā)展如何?

遠(yuǎn)東集團(tuán)賺大陸錢捐“臺獨(dú)”?被大陸精準(zhǔn)反制后,發(fā)展如何?

芳芳?xì)v史燴
2025-07-17 19:25:55
上海多個小區(qū)出現(xiàn),居民苦不堪言!專家:這是心理疾病

上海多個小區(qū)出現(xiàn),居民苦不堪言!專家:這是心理疾病

新民晚報(bào)
2025-07-16 14:29:13
阿塞拜疆的反水,不是臨時(shí)起意,而是俄羅斯的三筆爛賬暴雷了

阿塞拜疆的反水,不是臨時(shí)起意,而是俄羅斯的三筆爛賬暴雷了

林子說事
2025-07-14 11:38:23
美軍率19國布下死局,東大亮出一項(xiàng)世界第一,局勢瞬間逆轉(zhuǎn)

美軍率19國布下死局,東大亮出一項(xiàng)世界第一,局勢瞬間逆轉(zhuǎn)

混沌錄
2025-07-13 21:12:26
辛辛那提主帥:3-0擊敗高水平的邁阿密隊(duì)并不容易,我很滿意

辛辛那提主帥:3-0擊敗高水平的邁阿密隊(duì)并不容易,我很滿意

懂球帝
2025-07-17 12:27:08
男嬰醫(yī)院離世家長獲賠88萬元,律師拿走55萬?廣州律協(xié)通報(bào)

男嬰醫(yī)院離世家長獲賠88萬元,律師拿走55萬?廣州律協(xié)通報(bào)

界面新聞
2025-07-17 19:56:11
“悉尼妹”性感新寫真欣賞 純欲女神蕾絲小黑裙

“悉尼妹”性感新寫真欣賞 純欲女神蕾絲小黑裙

3DM游戲
2025-07-15 16:24:08
丹麥94票通過美軍駐扎協(xié)議,格陵蘭主權(quán)易主,法國暴怒歐盟抗議

丹麥94票通過美軍駐扎協(xié)議,格陵蘭主權(quán)易主,法國暴怒歐盟抗議

掌青說歷史
2025-07-15 22:38:13
3位臺獨(dú)藝人妄圖內(nèi)地?fù)平穑瑳]開始就結(jié)束!演唱會取消,全面抵制

3位臺獨(dú)藝人妄圖內(nèi)地?fù)平穑瑳]開始就結(jié)束!演唱會取消,全面抵制

不似少年游
2025-06-10 10:40:03
Av界蘿莉女神,淺野心愛,第一部作品yyds,是否也征服你

Av界蘿莉女神,淺野心愛,第一部作品yyds,是否也征服你

說真話的小陳
2025-07-06 09:51:02
他是建國以來潛逃級別最高的貪官:至今還未落網(wǎng),逃跑方式成了謎

他是建國以來潛逃級別最高的貪官:至今還未落網(wǎng),逃跑方式成了謎

文史旺旺旺
2024-09-01 01:20:35
外資,爆買A股!

外資,爆買A股!

證券時(shí)報(bào)
2025-07-17 18:28:05
湖南的方案防廣西的火?這事不能再“一改了之”

湖南的方案防廣西的火?這事不能再“一改了之”

看看新聞Knews
2025-07-16 23:55:53
我去了全亞洲最大的小區(qū):天通苑

我去了全亞洲最大的小區(qū):天通苑

真叫盧俊
2025-05-05 09:46:22
向太向華強(qiáng)帶孫探班兒媳!看郭碧婷跳舞滿眼欣賞,4歲小奶黃拍照

向太向華強(qiáng)帶孫探班兒媳!看郭碧婷跳舞滿眼欣賞,4歲小奶黃拍照

戀上瓜果香
2025-07-16 13:36:12
17號午評:滬指維持窄幅震蕩,所有人都注意了,明天行情已無懸念

17號午評:滬指維持窄幅震蕩,所有人都注意了,明天行情已無懸念

春江財(cái)富
2025-07-17 12:11:52
柬埔寨首相洪瑪奈:全部武裝待命!全國清剿電詐!官員包庇撤職!

柬埔寨首相洪瑪奈:全部武裝待命!全國清剿電詐!官員包庇撤職!

通文知史
2025-07-16 20:05:03
1952年連長派戰(zhàn)士去放哨,只因少叮囑一句,他竟堵著美軍打了一整夜

1952年連長派戰(zhàn)士去放哨,只因少叮囑一句,他竟堵著美軍打了一整夜

紀(jì)實(shí)文錄
2025-07-15 09:52:51
豐臺知名美食街將啟動大范圍拆違!

豐臺知名美食街將啟動大范圍拆違!

家住豐臺
2025-07-17 20:04:08
2025-07-18 02:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
309文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產(chǎn)大戰(zhàn)細(xì)節(jié):宗慶后逝世半年3人起訴 矛盾早已發(fā)生

頭條要聞

遺產(chǎn)大戰(zhàn)細(xì)節(jié):宗慶后逝世半年3人起訴 矛盾早已發(fā)生

體育要聞

楊力維和楊舒予,是姐妹,也是戰(zhàn)友

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財(cái)經(jīng)要聞

杭州成立專班介入宗慶后遺產(chǎn)糾紛

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報(bào)信息曝光

態(tài)度原創(chuàng)

手機(jī)
本地
時(shí)尚
公開課
軍事航空

手機(jī)要聞

小米16外觀曝光,或9月發(fā)?

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

宗氏家族爭產(chǎn)案,一個細(xì)節(jié)讓人反感

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美考慮援烏射程1000公里的導(dǎo)彈 特朗普:莫斯科不能打

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 苏尼特左旗| 济宁市| 汉阴县| 麦盖提县| 永嘉县| 肃南| 平昌县| 阿荣旗| 岑溪市| 武宁县| 资源县| 融水| 郑州市| 即墨市| 汝南县| 内江市| 武隆县| 辰溪县| 南雄市| 洪洞县| 平安县| 上林县| 东兰县| 惠东县| 时尚| 中西区| 济阳县| 天台县| 平泉县| 陕西省| 普宁市| 融水| 青阳县| 甘谷县| 齐齐哈尔市| 建始县| 通化县| 观塘区| 宝清县| 独山县| 阜宁县|