編譯 | 傅宇琪
4 月 24 日,OpenAI 宣布所有美國用戶從此可以免費使用 Deep Research(深度研究)。這是一款集成于 ChatGPT 的 AI 研究助手,旨在幫助用戶高效地完成復雜的多步驟研究任務,生成結構化且可驗證的研究報告。那么,Deep Research 和 o3 模型之間有什么區別?智能代理發展過程中存在哪些挑戰?這個模型成功的關鍵因素又是什么?
最近,OpenAI Deep Research 負責人 Isa Fulford 在播客節目中,與主持人 Sarah 細致分享了 Deep Research 的背后故事。她們討論了這一項目的起源、人類專家數據的作用,以及構建具有實際能力甚至品味的智能代理所需的工作。基于該播客視頻,InfoQ 進行了部分刪改。
核心觀點如下:
如果你有一個非常具體的任務,認為它與模型可能已訓練的任務完全不同,或者有一個對業務流程至關重要的任務,這是嘗試強化學習微調(RFT)的好時機。
理想的代理應該能夠為你進行研究并代表你采取行動。當代理的能力和安全性發生交匯時,如果你不能信任它以一種沒有副作用的方式完成任務,那它就變得沒有用處。
Deep Research 的下一步,應該是讓它能夠訪問私有數據,比如能在任何內部文檔或 GitHub 上進行研究。
Deep Research 適合做有具體要求的任務,而對于更一般性的、高層次的事情不那么適用。
Deep Research 的起源
Sarah:你和你的團隊推出了最近最令人興奮的 AI 產品之一——Deep Research。這個產品的創意來源是什么?
Isa:大約一年前,我們對內部在強化學習(RL)算法上的進展感到非常興奮。與此同時,我和我的朋友 Josh 一起做了一些副項目,我們對智能體(agent)非常感興趣,并且想知道是否可以將相同的算法應用于服務普通用戶每天會做的事情。我們最初考慮的兩個方向是在線瀏覽任務(online browsing)和軟件工程方面的應用,因為在很多職業中,人們確實需要做大量的研究,整合大量的信息,然后再寫出報告。
起初,我們從數學和編程問題開始,因為這些問題已經有了現成的數據集,你可以用它們來訓練模型。但是對于瀏覽任務,情況就不太一樣了,因為沒有現成數據集。因此,我們實際上是從明確我們希望最終模型能夠擅長的實際產品用例開始的。我們做的第一件事就是列出一些任務,比如“我希望模型能夠找到這份產品列表,并按 Reddit 上的評論進行排序”或者“我想寫一篇關于這個主題的文獻綜述”。
Sarah:我覺得很多人想到瀏覽和智能體時,往往會停留在那幾個典型的、以交易為主的用例上,比如點一個漢堡之類的常見任務,但我個人并不認為這些用例特別有啟發性。你為什么會提出這樣一組與眾不同的目標呢?
Isa:在之前的工作中,我們希望能夠在從大量來源中合成信息方面變得非常擅長,主要是處理只讀任務。這出于多方面原因,首先,知識工作者大多都從事這類工作,因此對這些人群來說,這將非常有用。其次,我認為 OpenAI 的總體目標是創建能夠進行新的科學發現的通用人工智能(AGI)。我們認為,要實現這一目標,合成信息是一個前提條件。如果你無法撰寫文獻綜述,你就不可能寫出一篇新的科學論文。因此,這與公司更廣泛的目標非常契合。
Sarah:你們幫助創造了一個人工智能,使我在學習上變得更好,而它本身也在學習。
Isa:實際上,這是一個非常龐大的過程。我們最初向人們推介這個想法,沒有任何模型訓練,完全是通過提示模型和用戶界面展示這個產品的愿景。在那之后,我們開始思考如何實現:如何創建數據,如何訓練模型,需要開發什么工具來使模型有效地瀏覽互聯網,這是一個反復迭代的過程。我們還與 RL 團隊進行了大量合作,不間斷地工作了幾個月,有足夠的時間去反復修改和完善,而沒有太大壓力去快速交付,這感覺很好。
Sarah:你有沒有最喜歡的、最重要的任務?
Isa:人們會提出不同的任務,我記得其中之一是找到兩位作者共同寫的所有論文。模型可以找到其中大部分,甚至全部。另外還有一個任務,模型現在可能無法回答了,那就是找到我們一位同事的中間名。個人來說,我自己其實很早就開始用它來查找關于產品推薦和旅行的信息。我認為實際上有很多內部人員也在使用它,Sam 告訴我,他用它買了很多東西,每次模型出現問題時,人們都會發消息問我們:“發生了什么?我們需要使用模型,即使是之前那個版本。”雖然老實說,它并不是那么好。所以,我認為這是一個很好的初步信號。
Sarah:關于工具和數據的創建,你有什么可以分享的嗎?
Isa:關于數據創建,我們使用了人工訓練師來完成其中的一部分工作。我想我們需要設計數據集來訓練模型,幫助它學習我們希望它掌握的技能。我們還必須為這些數據集制定評分標準,在訓練過程中進行評估。我們還需要為模型開發出有效的工具,確保它能夠成功完成任務。
目前,我們有一個瀏覽工具,它能夠查看嵌入的圖片和打開 PDF 文件。它還可以訪問 Python 工具,進行分析、計算和繪制圖表等。在未來的版本中,我們將擴展工具集,模型的能力也會隨之增強。我們還需要創建數據集,使模型能夠使用所有這些不同的工具,并在訓練過程中學習如何靈活應對各種問題。這樣,模型就能在產品中解答用戶提出的新問題。
Sarah:你對那些考慮為特定任務進行 RFT 的初創公司有什么建議嗎?比如,什么時候值得去做 RFT,或者是否可以嘗試采用傳統的方式,利用代理作為一個組件進行微調?
Isa:一般來說,針對某一類任務進行訓練時,模型也能夠很好地泛化到其他領域,但如果針對某個特定任務進行訓練,模型在該任務上的表現會更好。比如,你可以訓練一個推理模型,主要處理數學、編程等問題,同時它也能在寫作方面表現良好。但是如果你將其專門訓練在某個特定任務上,它的表現會更為優秀。
我認為,如果你有一個非常具體的任務,認為它與模型可能已訓練的任務完全不同,并且你自己嘗試了很多次,嘗試了各種不同的提示,模型仍然表現得非常差勁,那么這可能是一個嘗試 RFT 的好時機。比如,如果是一個基因測序任務,或者是某些與模型訓練分布完全不同的任務,RFT 可能會有幫助。
另外,如果你有一個對業務流程至關重要的任務,提升 10% 到 15% 的性能可能是生死攸關的,可以嘗試 RFT。但如果是你認為模型表現已經不錯,但偶爾會出錯,隨著新版本模型發布,它會逐漸改進的任務,可能就不值得花費精力去進行微調,因為模型自然會在這些任務上變得越來越好。
Sarah:你提到過需要依賴人類專家來創建一些數據。你認為在哪些方面需要專業知識?你對瀏覽專業知識或信息收集的理解,有哪些是之前沒有意識到的?
Isa:我想這屬于那種幾乎每個職業都涉及的事情:你需要在某個領域提出問題或進行研究,然后從多個來源收集信息以綜合得出答案。在這個過程中,你必須具備判斷哪些信息源有用、哪些沒有用的專業知識。RL 的一個有趣之處在于,你不需要了解一個人如何進行整個研究過程,你只需要知道任務是什么,結果應該是什么。然后,模型會在訓練過程中學習如何從問題出發,得出一個好的答案。
我認為我們采取了一種相對廣泛的方法,這也是如果你在像 OpenAI 這樣的地方工作,你可以做一些大多數初創公司會被告誡不要做的事情——嘗試聚焦于一大群用戶,招募來自不同領域的專家,看看能否一次性在所有領域都取得進展,這是我們采取的方式。我們還創建了大量的合成數據集等東西,但人類數據無疑是讓這個模型成功的關鍵部分。
Sarah:模型在這些領域中學習到的規劃能力有沒有讓你感到驚訝?模型的路徑是否讓你感到意外?
Isa:有時候,它會使用一些我自己不會選擇的搜索詞,或者說我們沒有教它一開始就進行規劃。有時候,模型會做出聰明的舉動,嘗試繞過你給它設置的限制,所以你必須確保它沒有“作弊”,比如嘗試使用不同的搜索引擎,而不是你指定的那個搜索引擎。你需要時刻留意,以防模型做出你不希望的行為。
Sarah:那我們順便討論下模型的一些失敗情況。你是如何看待代理的累積錯誤、分心,甚至是安全性問題的呢?
Isa:由于 Deep Research 實際上不能采取不屬于典型代理問題的行動,因此這些問題并不完全一樣。但我認為,模型的回答更加全面且耗時較長,這意味著人們可能會更信任它。因此,幻覺問題可能更嚴重。盡管這個模型比我們發布的任何模型都少出現幻覺,但它仍然有可能出現幻覺,通常是因為它從某個來源中錯誤地推斷出某些東西。這也是我們為什么需要引用的原因之一,因為用戶必須能夠檢查信息的來源。
我理想的代理應該能夠為你進行研究并代表你采取行動。當代理的能力和安全性發生交匯時,如果你不能信任它以一種沒有副作用的方式完成任務,那它就變得沒有用處。例如,如果你讓它幫你做某件事,但它在過程中發送了一封尷尬的郵件,這就不是任務的成功完成。
Sarah:你認為人們會需要明確的防護措施嗎?你認為這些特征可以在模型本身中學習到嗎?
Isa:如果你使用過 Operator,我相信你已經經歷過每次確認正確操作的過程。我認為一開始這樣做是非常有意義的,你需要與用戶建立信任。隨著模型變得越來越強大,也許你會看到它成功地做了幾次事情,逐漸開始更加信任它。所以,也許你會允許它,比如發送郵件時,不需要每次都問你。但我確實認為,當這些代理開始推廣時,我們肯定會需要有防護措施和確認機制。雖然這些不一定是最終的能力,但我們仍然希望確保有一個好的監督機制。我認為代理最終會強大到我們愿意信任它們代表我們去做任何事情。
如何構建有品味的智能代理?
Sarah:你認為 Deep Research 作為產品會有哪些明顯的改進?
Isa:理想的狀態可能是擁有一個統一的代理,它能夠做所有這些不同的事情。任何你會委托給同事的任務,它都應該能夠完成。
Sarah:我們如何決定是自己去做這件事,還是讓代理去做?還是說總是先嘗試讓代理去做?
Isa:如果是我的工作的話,我會先嘗試讓代理去做。其實這有點像每當模型變得更強大時,人類的抽象層次也會相應提高。也就是說,你要求它完成的任務層級越來越高,但仍然是“你”在啟動任務。比如說,也許一年前,我讓它為我寫一個函數,而現在,我讓它寫一個完整的文件,或許明年它會幫我做一個完整的 PR 之類的。所以,我認為仍然是“人”掌握主動權。Deep Research 的下一步,應該是讓它能夠訪問私有數據,比如能在任何內部文檔或 GitHub 上進行研究。
一切歸根結底都與檢索有關。接下來,逐步開始采取正確的行動或調用 API,顯然還有很多模型現在做得不完美的事情,我們需要繼續改進。我們與 RL 團隊的合作關系非常好。很多團隊會貢獻數據集,用于他們進行的大規模訓練,我們也這么做了。隨著他們用大量計算資源訓練模型,最終它就成了我們可以繼續訓練的更好的基礎模型。所以我認為,模型的能力是不斷積累的。
Sarah:所以這不是一個低調的研究預覽,而是一個從副項目變成了一個非常有趣的、內部提案的項目。你認為什么樣的產品是 OpenAI 想要獨立開發的,什么又屬于核心研究的方向呢?
Isa:OpenAI 一個很酷的地方是,即使公司在不斷擴展,員工還是能提出想法、驗證想法并推動其實現,我總是受到這樣的動力驅使自己,去做那些我想做的事情。比如說,關于 Deep Research,我確實經常用它來查找各種信息,比如旅行推薦,我幾乎是一個每天都會活躍使用的用戶。
Sarah:有沒有看到一些用戶的使用案例?有沒有什么方式,你會鼓勵人們使用 Deep Research?
Isa:我一直對看到人們在我完全沒有專業知識的領域使用 Deep Research 感到很有興趣,很多不同的科學家都在分享他們如何使用 Deep Research,以及它如何幫助他們完成某些任務。對我來說,這是最有趣的,因為在我們開發它的時候,我顯然無法判斷輸出是否正確。所以看到專家們真正地驗證 Deep Research 的回答是非常有價值的。
讓我感到驚訝的是,有人開始用這個模型做代碼搜索和編程問題。比如說,他們會說,“使用最新的包來幫我寫這個文件”。或者是數據分析方面,這也是模型已經相當擅長的領域:上傳一個文件,然后讓它為你做一些分析或研究,最后生成一個包含數值分析的報告。
Sarah:其實我還沒有嘗試過這個功能。是什么讓模型在這方面特別擅長?它具備了什么能力,能讓它完成多步驟操作、能夠進行規劃和理解任務并最終生成報告呢?
Isa:我認為基礎模型,或者說我們從 o3 開始微調的模型,實際上是一個非常強大的模型。它在許多不同的數據集上進行了訓練,包括大量的編程、推理和數學任務。因此,這種繼承的能力非常強大。當你再加上瀏覽功能,它仍然能夠進行分析。
Sarah:我們談到過關于從用戶那里學習品味或偏好的想法。你認為 Deep Research,或者說代理模型一般如何發展才能考慮到人們的學習方式或他們的信息獲取偏好呢?
Isa:我認為代理的記憶功能肯定會非常重要。如果每次你讓它做一項任務時都必須重復相同的信息,告訴它你希望它如何做任務,以及關于你的所有細節,那將會非常令人煩惱。而目前,Deep Research 確實需要這么做。現在完成一個任務可能需要 5 到 30 分鐘,隨著任務變得越來越復雜,未來可能需要幾個小時或幾天來完成你讓模型做的任務。你肯定希望模型的研究是逐步積累的,而不是每次都從頭開始。
Sarah:一些領先實驗室的許多人,對通向 AGI 的路線,存在一定共識,或者說對此有信心。而且,RL 的回報讓大家非常興奮,認為“這似乎行得通,我們將從中獲得真正的能力”。它的數據效率非常高,但這將是一項艱巨的工作。告訴我一些關于構建 Deep Research 的情感體驗,以及這是否改變了你的看法。
Isa:我覺得看到這個算法的數據效率如此之高,真的令人印象深刻。實際上,篩選這些數據,然后確保模型能夠訪問人類在完成工作時需要的所有工具,都是挑戰。再者,要確保任務的設計能滿足人們在工作中實際需要的,并且能夠評估模型是否完成得好,也很難。而且,在預訓練階段,還有許多其他挑戰,因為你擁有更多的數據,必須處理很多不同的任務。你需要一個非常好的基礎模型才能進行 RL,對于我們的團隊來說,我們就是在做更多的 RL。所有這一切都是互相促進的,大家都能看到一條清晰的路徑,朝著具有廣泛能力的代理邁進。
Sarah:你認為在進展上有大的障礙嗎?就像你說的,可能不完全是將其描述為 Deep Research 的下一次迭代,而是對統一代理能力的信心,覺得它會像一個同事一樣工作。是什么阻礙了我們實現這一目標?
Isa:我們需要解決很多非常棘手的安全問題,我們絕不會發布任何我們沒有非常高信心認為是安全的東西。當模型可以訪問你的 GitHub 庫、密碼和私人數據時,風險就大大增加了。因此,這是一個非常大的挑戰。我想,如果你希望模型能夠執行需要很多小時的任務,那么找到高效的方式來管理上下文就變得尤為重要,這和內存問題有點類似。如果你做一個任務很長時間,你最終會遇到上下文耗盡的問題。那么,處理這個問題的高效方式是什么呢?然后就是創建數據和工具的任務,我已經說過幾次了,這確實是一項艱巨的工作。
Sarah:我剛剛在查看我的查詢歷史,我的用戶請求是想看看我向 Deep Research 提出的要求和向其他模型提出的要求有哪些不同。我曾查找過與個人品味相關的東西,我可能會說,“我喜歡這一系列書籍,原因是……我希望你給我一個長篇總結,列出你認為我應該閱讀的其他書籍,并解釋原因。”我意識到,我并沒有一個非常清晰的心智模型,來判斷什么時候 Deep Research 應該比 o3 更好。你能給我一些建議嗎?
Isa:Deep Research 在你有非常具體或明確的問題時非常有效,也就是說,它可能不適用于一個話題的概述,而是你在尋找一些具體的信息,并且你認為這些信息可以通過現有的在線研究來補充。即使這些信息也包含在模型的基礎訓練數據中,我認為能夠實時訪問這些信息仍然非常有用。所以,我的建議是在特定的檢索或來源上進行聚焦。此外,我們已經訓練它能夠生成比普通模型更長的輸出。因此,如果你需要非常全面的信息,有時候它甚至可能太過詳盡,不適合某些任務。
我曾經用它來找新的品牌。我會說,這些是我喜歡的品牌,幫我找到一些類似的品牌,或者找到像這件外套一樣的具體款式,類似這樣的需求。它在這方面非常擅長。相比之下,我認為基礎模型或普通模型可能會給你一些品牌,但它不會完全符合我提供的所有條件,比如“我要找到一件假毛皮外套,長度是這樣的,是這個季節的”,它是做不到的,因為它沒有最新的信息,而且也無法一次性處理所有查詢的約束條件。如果我在找一個非常具體的東西,可能需要幾個小時才能找到,我會用它。我認為,Deep Research 非常適合做這類任務,而對于更一般性的、高層次的事情,可能就不那么適用了。
Sarah:在 Deep Research 的訓練過程中,是否有某個特別的成功或失敗的時刻?
Isa:我們原本認為,訓練模型進行瀏覽任務會有效。但實際上,當我們第一次用這個算法在一個新的數據集上訓練模型,并看到它真正有效,能夠與模型互動時,還是讓人感到非常驚訝。盡管我們本來就認為它會有效,但它的效果如此好,真的讓人有些意外。
但是有時候,它失敗的地方也讓人感到意外。有時它會做出非常聰明的舉動,然后又犯一個錯誤,我就會想,“你為什么要這么做,停下!”所以我認為它確實還有很大的改進空間,但到目前為止,我們對這個模型還是感到非常印象深刻。
Sarah:我習慣了所有技術工具都能即時響應,而 Deep Research 并不是即時的,它需要思考和使用工具。那么,它能更快嗎?
Isa:有時候你并不需要它做非常深入的研究,但你希望它能夠做得比簡單搜索更多。我認為我們很快會發布一些讓人們感到滿意的功能,填補這個空白。
Sarah:我不知道該怎么表達這個偏好,但我希望有一天能切換到這種模式:“盡你所能,在接下來的五分鐘內做到最好。”因為我會對人類說這個話。
Isa:讓用戶自己做決定似乎是個不好的用戶體驗,模型應該更擅長判斷需要多少時間去思考。我們在訓練模型時做了一個決定,就是每次都盡量讓它有最大的思考時間。所以,我有時會問一個非常簡單的問題,只是為了測試,然后變得相當沮喪,因為它還在思考。所以,我確實認為這是一個改進的領域,即知道應該思考多久。不過,我猜在 Deep Research 中,我們會始終專注于那些需要最長時間的任務,而像 o3 或未來的版本,可能會有更好的折中方案。
Sarah:你能想象未來 Deep Research 會花上一整天完成的任務是什么嗎?
Isa:現在它能在五到三十分鐘內完成一些人類專家需要幾個小時才能完成的任務。所以,我猜在一個小時內,它可以完成一些需要人類幾天才能做的事情,而在一天內,它能做一些需要人類幾周才能完成的工作。當然,要讓它達到這樣的規模會面臨很多挑戰,但你可以想象,它能夠完成一個本來需要幾周才能完成的研究項目,或者寫一篇論文之類的事情。
Sarah:如果你要預測一年后的情,你認為代理能夠做出什么讓人驚訝的事情,并且這些事情實際上會被發布出來,前提是考慮到安全性問題?
Isa:一個通用代理,能夠幫助你完成很多不同領域的任務。對我來說,我希望能夠有一個非常擅長編程的代理,我可以完全信任它,給它一個任務,它應該能夠幫我做出一個 PR 之類的東西,但同時可以讓它幫我預定去韓國的旅行之類的事情。我希望我們能達到一個更加統一的體驗,但我也認為這些模型的進步速度會讓大多數人感到非常驚訝。
Sarah:你為什么認為統一的體驗很重要?顯然,ChatGPT 是一種非常全面的體驗,但人們在不同的場景中使用的模型是不同的,比如編程時會使用專門的下一行補全模型。
Isa:你可能會想要一個體驗,在某些時候你可以覆蓋或中斷模型,說“哦不,我不是這個意思。”或者你可以接管并開始自己輸入東西,尤其是在短期內,因為這些模型在許多領域還沒有達到人類的能力,但在其他領域則更強。所以,我認為這將是一個結合體:你要求模型做某事,但以編程為例,可能你正在使用 VS Code 或其他編輯器,模型已經在幫你做某些事情,但你也可以實際輸入并自己寫一部分。所以,我認為這會是這些元素的組合,但我個人希望它能像一個遠程同事,你可以直接要求它做事情,給它發個消息,它就會開始工作,然后你可以審查它的工作或在某些時候提供幫助。這看起來是一個非常不錯的通用接口,你不需要考慮應該讓哪個代理去做哪個任務,你應該能夠輕松搞定這一切。
Sarah:我的理解是:我更傾向于和少數人一起工作,減少管理上的負擔,因為這樣每個人都有更多的上下文信息,我對他們的理解也更多。所以,從這個角度來看,具有普遍適用性的代理就顯得特別有吸引力。
Isa:而且你只需要告訴它一次,它就會記住并知道你正在做的所有事情。
https://www.youtube.com/watch?v=qfB4eDkd_40
聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止對全文或部分內容進行轉載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.