99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI教你做Agent:2025年,評估標準和如何產品化是Agent的重點

0
分享至

本文轉載自海外獨角獸

AI agent 并不是一個新概念,但從 2024 年到今天,agent 的行動能力和交互方式發生了質變,頭部模型廠商也正在將 agentic 能力融入模型,agentic 能力會成為今年模型競賽的重點之一, tool use 作為 agent 最重要的能力,一直是頭部 AI labs 非常關注的方向。上周,OpenAI 發布了新一代模型 o3,o3 有最豐富的 tool use 方式。

本文是對 OpenAI agent 團隊訪談的編譯,OpenAI agent 產品和工程負責人分享了 OpenAI 在 agent 開發與工具生態方面的技術細節,以及他們對開發者實踐的觀察與見解。他們認為,受益于 CoT 與 tool use 的結合,agent 獲取信息的方式已經發生了巨變,agent 的下一步是能夠接入數百個工具,并能夠自主判斷調用哪個工具并確定如何使用。此外,multi agent 系統的工作效率會更高,且具有更高的可控性和優化潛力。

我們判斷, multi agent 系統會在今年有大的突破,vertical agent 會因此直接受益,在 computer use 會帶來范式創新的背景下,Virtual Machine 將可能是潛在創業機會。

TLDR

?2025 年是 agent 發生重大變化的一年,agent 獲取信息的方式和工作流上已經發生變化

首先,在信息獲取方式上,agent 已經從 2024 年的單次搜索決策模式,轉變為像 Deep Research 這樣完全自主的產品,能從網絡獲取信息、思考內容、重新評估立場,并且同時打開多個網頁來節省時間。

未來幾個月可能會有許多 agent 出現在公共互聯網上,agent 將會接觸到更多互聯網實時數據,而不僅僅是用戶提供的有限 context,這對開發者思考如何整合和使用 API 來說非常重要。

其次,在工作流上,去年大多數 agent 有非常固定的工作流,但得益于 CoT 和 tool use 的結合,今年 agent 在推理過程中已經足夠智能,能夠自己決定如何調用多個工具,如果發現方向不對還能及時調整。

OpenAI 判斷 agent 可調用的工具數量將會在幾個月內從目前的 10 個量級 Scale 到 100 個量級。

?multi agent 系統具備更高的可控性和優化潛力

OpenAI Agents SDK 實現的一個重要設計理念就是將一個任務分拆成多個子任務,分別給多個 agent 處理,每個 agent 專注于完成特定子任務,這樣整體工作效率會大大提升。并且,如果一個 agent 同時處理 100 個任務,稍微改動幾個 prompt 可能就會導致結果完全不同,但分工之后,每個 agent 的修改和調試就會更加獨立。

在 multi-agent 系統下,vertical agent 會直接受益。

? 開發者需要構建 agent 的評估微調飛輪

基于強化微調能力,開發者能夠構建自己領域的評估器,讓模型找到解決特定領域問題的正確 tool use 路徑。目前還沒有看到任何東西能夠完美地在特定領域實現產品化的評分和任務生成,這可能 2 年內最需要解決的問題。

評估器不只是簡單地比對兩個字符串是否相等,而是能夠將模型輸出與權威資料進行對比 ,或者通過執行代碼來驗證數學正確性。

? Computer Use 帶來范式創新

Computer Use 目前仍處在早期階段,Computer Use VM(虛擬機)需要開發者來填補空白,未來可能會有基于不同操作系統生態的 VM,比如專門做 iPhone VM 的公司,就像之前有公司專門做 iOS 測試框架一樣,只不過今天的 VM 是為模型服務。

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01

Agent 未來的交互方式是什么?

Q:未來 5 到 10 年里,用戶和 agent 將如何交互?

Nikunj:目前,用戶與產品的交互方式主要是用戶主動進入 ChatGPT、Deep Research、Operator 等特定的界面進行使用。但隨著底層模型和 API 的開放,agent 將逐漸融入更多產品之中。

例如,computer use agent 可能會直接集成到瀏覽器里,Operator 可能會直接自動化日常工作中的重復性任務,比如點擊、填表和搜索信息等。Agent 將越來越深入地融入各種日常產品之中,而這正是我們構建 API 平臺的目的——讓 agent 無處不在。

Steve:在 API 平臺工作的一大樂趣是,我們無法預測人們會用它來做什么,因為這個生態系統非常垂直。我們可以大致知道用戶會如何使用 ChatGPT,但在 API 領域,開發者對自己的業務場景比我們了解得更深,會創造出超出我們想象的應用。

Q:你們最期待哪種 agent?

Nikunj:我最想要一個 API 設計助手,我們在 API 設計上花了太多時間,每次都要反復討論每個參數的命名。我希望有一個 agent 能深入研究 API 設計案例,并給出好的建議。

Steve:甚至這個 agent 可以用來微調所有的 API 設計。

Q:目前 agent 還處于發展的早期階段,agent 訪問網絡和相互交流的方式仍然是基于過去的技術范式。有人設想過未來可以讓 agent 彼此交流,有一個爆火的 demo 展示了一個場景:當兩個 agent 意識到彼此都是 AI 的時候,就選擇切換到了更高效的通信方式。你們是如何看待這一趨勢的?

Nikunj:Agent 獲取信息的方式已經有了巨大的變化,在 2024 年,agent 一般只能進行單輪交互,比如決定是否要搜索網絡,從網絡獲取信息,并總結成一個回復。

2025 年出現了 Deep Research 這樣的產品,agent 不僅僅是從網絡獲取信息,而且會思考自己獲得的內容,并再次搜索新信息,甚至同時打開多個網頁從而節省時間。chain of thought 與 tool use 的結合,使得 agent 在推理過程中調用外部工具的方式發生了很大的轉變。

未來,agent 會取代部分網頁數據提取的工作,而且這些 agent 可能不需要知道自己正在與另一個 agent 交互,它們只是像調用接口一樣,從對方獲取有價值的信息,并利用這些信息做出決策、回溯或采取完全不同的行動。這一趨勢將在未來幾個月內快速發展,并無縫嵌入到 agent 的 CoT 中,使得 agent 能夠在互聯網以及私有數據和私有 agent 之間自由調用工具。

Q:各大公司是應該等待 agent 自動訪問它們的網站,還是應該主動構建自己的 agent,從而能夠與消費者的 agent 更輕松地交互?

Nikunj:我們發布 Agents SDK 就是因為人們正在創建 multi agent 協作系統,利用多個 agent 來解決各種商業問題。比如在客戶服務上,可能會有一個 agent 專門處理退款,另一個 agent 負責賬單和物流信息,還有一個 agent 決定是調用 FAQ 還是升級到人工。multi agent 架構已經非常流行,OpenAI 的目標就是讓開發者更容易構建 multi agent 架構。

何時將 agent 連接到公共互聯網,以及如何讓它們真正發揮作用,會是一個非常有趣的發展方向。目前,我們還沒有看到太多這樣的案例,但這一定會發生,只是時間問題。

建議各大公司可以先在內部構建 agent ,來解決當下企業面臨的實際問題。如果某一天發現需要將這些 agent 開放給互聯網,并讓外部 agent 與之交互的時候,就可以直接開放。這個時間點也許就在接下來的幾個月內。

Steve:有趣的是,以往模型獲取的數據主要來自用戶自己的數據,比如聊天記錄、文件搜索等。但隨著 agent 越來越多地連接到互聯網,更多的輸入數據來自整個網絡,這將帶來深遠的影響。

Q:怎么判斷 agent 在哪些場景下適用,哪些場景下不適用?

Nikunj:我們首先回顧一下 agent 發展歷程。2024 年的時候,大多數 agent 的工作方式都是一個非常清晰、提前定義好的工作流,通常涉及不到 10 個工具,最多十幾個工具。這種方式是高度編排的,從一個步驟到另一個步驟都經過了精心設計。許多公司基于這種模式開發了一系列出色的 agent ,比如代碼生成 agent 、客戶支持 agent 、Deep Research 等。

2025 年已經進入了一種新的模式:agent 會在 CoT 框架下進行推理。模型在思考過程中變得足夠智能,能夠自行決定何時調用多個工具,并在發現做錯時會及時調整方向,嘗試其他方法,agent 已經逐漸擺脫了完全確定的工作流。OpenAI 也在開發 RL 和 Fine-Tuning 等工具,讓開發者能夠更靈活地利用這些工具。

Agent 下一步的發展方向是如何突破目前 10-15 個工具的限制,即如何讓 agent 接入數百個工具,并能夠自主判斷調用哪個工具、如何使用它們。這將是一個真正的飛躍。

當 agent 擁有足夠的算力,能夠推理不同的工具調用路徑,并且可以訪問大量工具時,就具備了真正的“超級能力”。消除工具數量的限制是未來幾個月最期待的事情之一。不過,以當前的模型水平,這仍然是一個挑戰,但這種情況會很快改變。

Steve :還有一個關鍵因素是需要提升 agent 的運行時間來完成更復雜的任務。人類可以花上一整天來解決問題,并隨意使用各種工具。而目前許多 agent(尤其是 Deep Research 類的 agent)的運行時間通常在幾分鐘內。如果能讓 agent 的運行時間從分鐘擴展到小時甚至天,它們將能發揮出更強大的能力,解決更復雜的問題。

02

AI Fine-Tuning 會發揮什么作用?

Q:2024 年的時候,agent 實踐需要有非常嚴格的限制和緊密銜接的流程,否則很容易失控,但現在似乎允許模型更加自由地發揮了,最終的理想狀態是模型能夠自由探索。人類給模型提供數百種適用于各種任務的工具,模型自己去尋找最佳解決方案。

Nikunj:我們可以期待下一代模型能否具備更強的泛化能力,覆蓋開發者可能遇到的各類用例。現在有一種強化微調的方法,讓模型在特定任務上進行訓練,并通過評分器進行評估。如果開發者能夠創建自己的任務和評分器,讓模型學會如何找到正確的路徑,即調用正確的工具來解決特定領域的問題,那將是非常有價值的。

我對即將推出的新一代模型非常期待。早期結果顯示,強化微調的效果很好,這些技術結合在一起后,可以讓 agent 真正發揮作用。

Steve:強化微調實際上是在引導模型的 CoT,并教會它如何理解特定領域的知識。這種訓練方式類似于讓模型接受一門專業教育,比如如何像法律學者一樣思考,或像醫生一樣做出診斷,就像人類接受大學四年的教育來培養思維模式一樣。

強化微調是一個非常好的方式,將推動模型在特定行業的深入應用,實現更專業化的能力提升。

Q:在基礎架構層面,應該如何為法律、醫療等專業領域的 Fine-Tuning 開發者提供合適的工具?

Steve:這仍然是一個正在推進的工作。目前提供的工具主要是允許開發者構建自己的評分器。假設有一個醫療任務,而某個模型的表現只有 50% 的準確率,你可以通過創建評分器來評估模型的推理過程,并與醫學教科書之類的已知標準答案進行交叉比對。在 Fine-Tuning 過程中,你可以逐步引導模型向更高質量的答案收斂。

目前提供的主要是基礎工具,尤其是高度靈活的評分器,允許開發者用模型的輸出與某種“真實標準”進行比對,或者運行代碼來驗證是否數學上正確,數學上正確不僅僅是簡單的字符串匹配,而是確保在數學或邏輯上是嚴謹的。這是我們正在探索的方向。

Q:目前 AI 領域的一個核心問題是到底什么是可以被評分的。在醫療和法律領域,有人批評某些評估方法過于簡單,比如通過律師資格考試并不等于成為一名真正的律師,通過醫學考試也不意味著能勝任醫生的工作。有沒有什么新方法可以更有效地確定評分機制?

Nikunj:目前這確實是一個挑戰,需要大量的嘗試。市面上還沒有真正成熟的產品能夠完美適用于不同的領域。如何構建高質量的任務和評分器,可能會成為今年甚至明年的一個重要課題。

我們已經看到了一些可行的產品方向,比如 Deep Research,甚至網上也出現了一些類似的嘗試。關鍵問題在于,如何產品化才能使得更多人能夠輕松使用。

03

Computer Use 的應用場景

Q:如何確認哪些場景適用于 computer use?

Nikunj:最初我們以為 computer use 的主要應用場景是在那些沒有 API 的傳統軟件系統中,許多企業一直希望能自動化這些流程,但始終找不到合適的方法。現在,一些醫療行業的客戶在嘗試使用 computer use 來自動化繁瑣的手工操作,比如在多個應用之間切換、點擊等。

還有企業把 computer use 用在 Google Maps 上。Unify GTM 曾使用 computer use 來分析充電網絡的擴展情況,agent 打開 Google Maps,進入街景模式,來查看某個地區是否新增了充電樁。雖然 Google Maps 有 API,但街景模式可能并不容易通過 API 訪問,尤其是確定具體的查看角度。因此,這類任務的自動化非常有價值。


Steve:許多數據并不能簡單地用 JSON 形式表示,也無法通過普通的 Web API 獲取。因此結合視覺和文本理解能力的 AI agent 在這些領域會很有用。

Q:從發布了 agent 這套工具以來,有哪些有趣的應用場景嗎?

Nikunj:在 Alpha 版本發布之后,computer use 相關的應用最讓人興奮。除了 Web 搜索、文件搜索等較為成熟的技術外,computer use 領域仍然處于早期階段,很多企業希望能將軟件部署到云端的虛擬機(Virtual Machine)中,并通過 agent 實現自動化操作。

“Computer Use VM” 指計算機使用虛擬機(Virtual Machine,簡稱 VM)技術,即在計算機上通過軟件模擬出具有完整硬件系統功能的、運行在一個隔離環境中的虛擬計算機系統。

我特別關注平臺型公司的應用,比如 開發了基于瀏覽器的服務,YC 初創公司 Scrapybara 提供了一種開發者體驗極佳的 computer use 模型托管服務。我很期待看到未來會有哪些創新應用構建在這類平臺之上。

成立于 2023 年成立,聚焦瀏覽器自動化場景(如網頁渲染、UI 測試、數據采集前置處理),提供與虛擬機環境深度兼容的輕量化運行框架。

Scrapybara 為 computer use agent 提供遠程桌面托管,通過 Scrapybara 統一的 API,開發者只需一行代碼即可使用任意模型執行 agent,并訪問瀏覽器、文件系統和代碼沙箱等底層控制。



Steve:Arc 開發了一款工具,允許用戶在瀏覽器中打開一個新標簽頁,并輸入指令,agent 在后臺執行任務。這種深度集成的方式非常有意思,agent 不僅僅是一個獨立的插件,而是成為瀏覽器本身的一部分,這個項目稱為 Dia。

Arc 瀏覽器開發公司 The Browser Company 在 2024 年 12 月宣布推出新型瀏覽器 Dia,將提供個性化的 AI 工具,比如智能建議、自動瀏覽,目的是簡化網頁任務和工作流程。


04

開發者實踐 insight

Q:目前,高級開發者是否仍在使用 API?他們是怎么使用這些 agent 開發工具的?

Nikun:這些 agent 開發工具目前還處在相當早期的階段。在 Alpha 階段,有些用戶會先嘗試讓模型和工具協同完成任務。如果效果不理想,他們會不斷調整 prompt,直到找到合適的解決方法。最終,他們通常會將這一部分加入到整體工作流中,比如將網絡搜索作為其中一個步驟,用來獲取信息,然后再傳遞給后續的確定性流程,或者傳遞給另一個 LLM 進行處理。總體來說這一切都還很早,未來幾周會發現更多這方面的模式。

Steve:我們在 Agents SDK 中推出了這樣一個理念:將一個任務分拆成多個任務,讓多個不同的 agent 分別處理。就像單核計算機 VS 多核計算機,每個 agent 專注于完成一個特定任務,并且擁有完整的 context,整體工作效率會大大提升。

如果讓一個 agent 同時處理 100 個任務,稍微改動幾個詞就可能導致結果截然不同。但分工之后,每個 agent 的修改和調試就會更加獨立、風險也更低。

Q:怎么看待圍繞模型構建產品,這些產品是會隨著模型能力的進步被淘汰,還是產品本身仍然會有價值?

Nikunj:Agent 以及工具協同調度是目前最重要的部分。模型本身的能力遠遠超出了目前大多數 AI 應用所能利用的范疇。通過圍繞模型構建一些結構化的工作流,從而使模型更好地發揮作用,這是 AI 初創公司和產品需要重點關注的方向。

比如客戶支持自動化,雖然這個概念已經存在了一段時間,但在 2023 年末到 2024 年初,只有少數幾家公司做得比較好,大多數公司的進展都很慢,這說明精心設計工作流、仔細調試 prompt、建立評估集以防止提示效果衰減等工作是非常重要的。

現階段,如何讓這些模型真正發揮作用,是大家應該關注的重點。

Steve:把任務分解,讓多個 agent 來處理,也大大簡化了整個工作流的調試過程。假如有一個功能強大的模型,并且要執行 100 個指令,一旦改動幾個 prompt,輸出的結果可能就完全不同了。但如果把任務分成一個個小 agent,比如先有一個分診 agent,再有一個轉交 agent,那么對每個部分的微調就可以更加獨立,出錯的影響范圍會更小。

Q:如何看待“讓 API 易于上手”與“提供高度可定制性”之間的平衡?

Steve:“階梯式 API ”(API as ladders)是我們在設計 Responses API 堅持的首要原則之一,核心在于幾個方面:首先,我們希望做到開箱即用;其次,我們希望讓簡單的操作變得更加容易;此外,我們希望用戶投入的每一點努力都能獲得相應的回報。

比如向量搜索的默認使用方式非常簡單,只需要上傳一些文檔,甚至不必通過 API 進行操作,就可以直接在網站上完成,只需要輸入向量 ID,它就能正常運行。但如果默認配置無法滿足需求,那可以進一步調整,例如可以修改分塊大小,默認是 400,可以改為 200 或 1000。這些參數有合理的默認值,但如果想優化搜索效果,就可以手動調整。

再比如文件結構,可以使用元數據過濾、自定義排序等。這些功能并不是強制性的,而是逐步開放的。我們會在文檔中提供這些選項,但對于初次使用 API 的開發者來說,他們不需要一開始就理解自定義排序是什么。

OpenAI 的目標是盡可能簡化入門門檻。比如,在調用 API 時,我們花了大量時間優化“快速入門”示例,最終將代碼精簡到只需 4 行 Python 代碼。我們對這個目標非常執著,調用 API 應該如此簡單。與此同時,我們也提供 50 多個可配置參數,用戶可以自由調整,而這些參數都有合理的默認值。

Q:未來想添加哪些新功能?

Nikunj:對于 Web 搜索工具,希望增加站點過濾功能,這是用戶強烈要求的。目前這個工具只能搜索整個互聯網,或者通過 prompt 來引導搜索。

Steve:還有位置篩選,現在的工具可以設置搜索的城市或國家,未來希望精確到街區甚至更小的范圍,對天氣查詢、活動搜索等場景來說非常重要。

Nikunj:我們希望將 Assistants API 中的功能整合到 Responses API 里,但不強制用戶使用。Assistants API 在 2023 年 11 月發布,支持存儲對話、模型配置等功能,但上手門檻較高。

而 Responses API 采用相反的策略,用戶可以從一個簡單的 API 調用開始,如果想存儲對話,可以選擇使用 Threads Object,如果想存儲模型配置,可以選擇 Assistant Object。這些功能都是可選的,用戶可以按需啟用,不必一開始就被復雜的配置所束縛。這是我們短期內非常希望實現的優化方向。

Q:回顧之前發布的 API,有哪些地方做得很好?又有哪些地方沒有達到預期?

Steve:在 Assistants API 上做得特別好的一點是 tool use,有大量的用戶使用這個功能,尤其是文件搜索工具,這是 API 真正找到了市場契合點的地方——用戶希望將自己的數據接入 API,并讓模型在這些數據上進行搜索。

做得不夠好的地方主要是使用門檻太高了。用戶無法選擇是否存儲 context,很多人不喜歡自動存儲 context,更傾向于使用類似 Chat Completions API 的方式,在每次調用模型時自己提供 context。但 Chat Completions API 也是有局限性的,它只能輸出一個結果,而模型其實能做很多事情。因此,我們希望模型能在后臺執行多個任務,并將所有計算和推理的結果返回給用戶。

所以,我們在新的 API 設計中,嘗試結合 Assistants API 的優勢,比如 tool use、多重輸出等,同時也融入 Chat Completions API 的易用性,以提供更好的開發者體驗。

Q:開發者在使用這一整套開發工具時,應該如何理解它們之間不同的作用?以及它們在生態中的定位是什么?

Nikunj:這些工具實際上是在解決不同的問題。例如,Responses API 主要是為了優化模型的多輪交互體驗,我們提供了一種基礎機制,使模型能夠多次調用自身,同時也可以多次調用工具,最終得到一個完整的答案。

MCP 主要關注的是如何讓模型使用工具,將工具集成到模型中。從某種意義上來說,這兩者是互補的。我們仍在探索如何更好地完善生態系統,但 MCP 確實非常強大,我們接下來需要深入思考的問題就是如何將 MCP 更好地融入到我們的生態中。

Q:如何看待 AI infra 公司的發展前景?

Nikunj:用戶希望有一個一站式的解決方案,讓 LLM 能夠搜索數據、互聯網,因此 OpenAI 正朝著這個方向發展,希望構建用戶所需的開箱即用的工具。

但我認為,未來依然會有許多垂直領域的 AI infra 公司。這些公司在構建底層、靈活性較高的 API 方面做得很好,這類 API 依然有很大的市場需求。例如,有些公司專門為 AI coding 初創企業提供虛擬機,讓他們能快速測試代碼并釋放資源,Runloop AI 就在做這件事。AI infra 的垂直化仍然是一個非常有意義的發展方向。


Steve:有些事情并不是 OpenAI 想要直接涉足的,比如 AIOps(即智能運維,指應用 AI 來自動處理和簡化 IT 服務管理和運營工作流程)。目前有一些 AIOps 公司在做非常有趣的事情,比如幫助開發者管理 Prompt、追蹤 API 計費、分析使用情況等。這些服務并不屬于傳統的底層基礎設施,但對于開發者來說依然非常重要。這些 AIOps 公司通常是跨模型、多供應商(multi-model,multi-provider),比如 OpenRouter。


Q:如何看待目前仍然存在的問題,哪些是最需要解決的關鍵問題?

Nikunj:工具開發是需要重點解決的問題。我們已經有了 Responses API 作為基礎模塊,接下來需要在這上面構建工具生態系統。MCP 在這方面做得非常好,我們需要思考如何在這個方向上進一步發展,這也是目前最重要的任務之一。

Computer use 領域仍然處于初期發展階段,這是另一個重要問題:如何讓企業能夠安全、可靠地在自己的基礎設施上部署虛擬機,并觀察它們的運行,確保 computer use 模型的穩定性和效率。

此外,我認為 computer use 模型會迅速變得非常強大,現在只是處于 GPT-1 或 2 的階段,而這個范式的發展將會非常快速、有用。所以我對這一領域的基礎設施將會如何發展感到非常好奇。

Steve :在 Alpha 期間有一個讓我印象深刻的點,就是人們希望在各種不同的環境中嘗試 computer use。雖然 computer use 模型在瀏覽器環境中表現最佳,因為這是模型的訓練環境,但人們還在嘗試在 iPhone 截圖和 Android 設備中進行使用,這是之前我沒有想到的。

所以未來人們的需求將是無限的。會不會有公司專門做 iPhone 虛擬機,或者,會不會有公司類似以前只做 iOS 測試框架的公司,來為 AI 模型提供類似的框架?不同版本的 Ubuntu 等操作系統的使用,本質上是一個巨大的碎片化問題,而社區如何填補空白會非常有趣。

Nikunj:還有創業公司在嘗試用 computer use 做網絡安全工作,來探測網站和系統中的漏洞,這個過程大約持續 30 分鐘。

Q:在新模型上,有沒有一些功能是你們非常期待的?

Nikunj:很多 YC 初創公司總是說某些東西永遠都不管用,我把這些公司提出的建議都保存了下來,每次有新東西出來時,我都會挑選 3-4 個建議進行測試。這些建議基本都集中在 agent tool use 方面,涉及到六七種比較簡單的工具。我特別關注這些工具在每次執行時的可靠性。我對下一代模型還是很樂觀的,但確實有些 tool use 不太理想。

我還特別有更小、更快的模型,并且能夠很好地處理這些 tool use 的場景。有一些輔助模型支撐著像 o1 系列模型這樣大型模型的生態,它們能做一些非常快速的分類、限流之類的工作,這類輔助模型還有很大的改進空間。能有一個最快、最小的分類器真的會很酷。

Steve:這些模型非常適合微調。

我只想要模型能輸出一個 diff,能干凈地應用到代碼中,而且就直接能正常工作,不需要我去調整。那將會是巨大的進步。模型目前并不太擅長理解代碼行號這些細節。

4 月 15 日,OpenAI 發布了 GPT-4.1,GPT-4.1 使模型能夠更可靠地遵循 diff 格式,開發者只需輸出更改的行,而無需重寫整個文件,節省了成本,減少了延遲。

Q:之前有觀點認為最前沿的 agent 必須依賴最前沿的模型,但最近中國有一些非常令人印象深刻的 agent 工作,他們使用了 Anthropic 模型就取得了很好的成果,對此你們怎么看?

Nikunj:OpenAI 內部一直在說模型的能力已經存在,但很少有人能夠真正利用。我們需要讓開發者在內的每個人都能夠更輕松地使用這些模型,從而構建更強大的東西,而不只有頂尖的 AI 和 ML 人才才能做到。只要給人們合適的工具和模型,幫助他們將這些東西組合起來,讓 Agents SDK 這類工具的使用效果顯露出來,更多的人就能夠創造出像中國展示的 agent 那樣的成果。

Steve:關鍵是要讓飛輪轉得更快,從評估到生產,再到微調,這是一個強大的循環,需要讓這個循環變得更簡單。

Q:讓這個過程變得更簡單,最關鍵的是什么?

Nikunj:OpenAI 的研究團隊一直在做這件事,目前模型在聊天方面變得更好,做深度研究的能力也在提升。下一個模型將比當前的模型更強大,能更好地執行 computer use 任務。

但如何將這個過程產品化,是我們需要解決的問題。通過仔細觀察跟蹤數據,創建正確的評估和評分標準,確實是能奏效的。我們需要優先處理這個問題,找到如何讓這個過程變得更簡單的方法。

Steve:對我來說,最大的挑戰就是如何讓評估任務和工作流程的過程變得更加簡單。

Q:如果你是一個普通企業的 CEO 或消費者,面對這些模型,你會做什么?

Nikunj:首先要做的就是探索這些前沿模型,嘗試使用 computer use 模型,選取幾個內部工作流,建立 multi agent 架構,進行端到端的自動化。最可行的做法就是弄清楚現有的哪些手動工作流需要工具接口,就像剛進入云計算時代時做的數字化和自動化轉型。

用戶有時會說:“我們想自動化整個流程,但 90% 的工作是弄清楚如何獲取某些工具的程序化訪問權限,LLM 只是其中的一小部分。”我覺得完全不是這樣子的,你可以把 computer use 投入生產,但真正需要做的是找到自動化應用的方式,嘗試使用前沿模型。

Steve:作為開發者,我們一直在自動化我們工作中的底層 20%,無論是通過更好的框架、更好的編程語言,還是其他方式。所以,如果我是公司老板,我會問員工每天最不喜歡做的事情是什么,然后想辦法去自動化。

05

Computer Use 的應用場景

Q:今天 AI 是否被過度炒作或被低估?

Nikunj:我們對 agent 技術的討論已經持續了好幾年。它一方面經歷了兩個完整的炒作周期,存在過度炒作的現象;但另一方面,它的真正潛力又常常被低估。只有那些真正理解 AI 本質、并像 Deep Research 那樣將部分人工任務徹底自動化的公司,才真正展現了 agent 的價值。

Q:在過去的一年里,你們在 AI 領域有什么看法改變嗎?

Nikunj:最大的變化是對推理模型的理解。我們一直都知道推理技術會到來,但我沒有意識到它和 tool use 的結合會產生像 Operator 和 Deep Research 這樣的產品。

這種方法不僅可以擺脫傳統工作流程,還能產生

完全基于 agent 的產品,使得 agent 能夠在 CoT 中自我調整并交付出較好的結果。

Steve:對我來說是 fine-tuning 的廣泛應用。我曾經以為所有能加入模型的知識在訓練完成時就已經固定在其中了,但現在還能夠在模型訓練完成后添加大量自定義信息,從而在特定任務上帶來明顯的性能提升。

Q:長期來看,應用開發者之間最大的區別點是什么?是對模型的深入理解,能真正構建 agent 模型?還是對某一領域的深刻了解,知道應該構建什么?

Steve:這兩者的結合很重要,然后重要的是是否擁有某種秘訣,能夠真正把 AGI 的能力從模型中挖掘出來,這個秘訣可能是 prompt,工作流編排,或者其他,這會是一個巨大的區分因素。

Nikunj:我認為開發者之間的差異點是是否擅長編排,編排指的是將工具和數據結合起來,進行多次模型調用,無論是通過強化微調,還是在 CoT 中調用工具,或者是將多個 LLM 串聯起來,并能夠快速高效地評估和優化這一過程。這是未來一年到兩年內,能推動人們進步的最重要的技能。

Q:目前這些模型最被低估的應用是什么?

Nikunj:我還沒看到模型在科學研究方面有什么明顯進展。我們對 O 系列模型最大的期望就是它能明顯加速科學研究的進程。我們已經看到一些早期的報告,但我非常好奇它將如何改變科學研究。

Steve:關于 AI 行業的很多批評都是接口設計還不夠完善,特別是在學術領域,很多事情的處理方式已經維持很久了。找到合適的接口會是關鍵,并且會推動學術界的廣泛采用。

Nikunj:機器人技術也是。可能是時候出現一些大的突破了。

Q:今年的模型進展會比去年更多、一樣還是更少?

Steve:肯定會更多,模型教會我們如何通過更好的數據和方法來改進它們。

Q:除了 OpenAI,你們現在最看好的 AI 初創公司或者公司類型是什么?

Steve:我在加入 OpenAI 之前,曾經在旅游公司工作過,所以我期待有公司能真正打破旅游行業的僵局。這個行業非常固守傳統,只有少數幾家大公司在主導。期待能建立一個真正的 AI 旅游 agent。

Nikunj:我現在經常用 Granola,這是我目前最喜歡的 AI 工具,每次開會幾乎都在用。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國腳曾提出心理輔導,本期集訓邀請了巴黎奧運代表團的心理咨詢師

國腳曾提出心理輔導,本期集訓邀請了巴黎奧運代表團的心理咨詢師

直播吧
2025-05-29 20:57:10
4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰果

4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰果

說天說地說實事
2025-05-29 19:02:12
孫繼海青訓風波!中巴俱樂部發文劃清界限,家長無奈改名字刪視頻

孫繼海青訓風波!中巴俱樂部發文劃清界限,家長無奈改名字刪視頻

夢史
2025-05-29 14:55:39
悲催!網傳去年微軟蘇州裁員去西雅圖的員工,現全部被裁且0賠償

悲催!網傳去年微軟蘇州裁員去西雅圖的員工,現全部被裁且0賠償

火山詩話
2025-05-29 07:24:26
新冠再次爆發,可能不發燒!提醒:出現5個癥狀,病毒或已來敲門

新冠再次爆發,可能不發燒!提醒:出現5個癥狀,病毒或已來敲門

明月聊史
2025-05-29 17:48:39
美國務卿:將狠狠吊銷中國留學生簽證

美國務卿:將狠狠吊銷中國留學生簽證

大象新聞
2025-05-29 10:54:47
莫言:男人過了40歲,不要再去碰20歲的女人,無論她多么楚楚動人;女人過了40歲,不要再去碰不珍惜你的人。

莫言:男人過了40歲,不要再去碰20歲的女人,無論她多么楚楚動人;女人過了40歲,不要再去碰不珍惜你的人。

感覺會火
2025-05-29 12:06:26
淚崩!江蘇05后女生獨自養活3個弟妹,陌生男子轉賬6萬:好好活著

淚崩!江蘇05后女生獨自養活3個弟妹,陌生男子轉賬6萬:好好活著

小人物看盡人間百態
2025-05-29 11:57:25
兩部門:云南西北部、西藏東南部局地發生山洪災害可能性較大

兩部門:云南西北部、西藏東南部局地發生山洪災害可能性較大

界面新聞
2025-05-29 18:05:38
重磅打虎!正部級畢井泉官宣落馬,曾引咎辭職

重磅打虎!正部級畢井泉官宣落馬,曾引咎辭職

新京報
2025-05-29 20:46:34
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
王毅明天簽字,在聯合國見證下,把美國踢出局,宣告一個時代結束

王毅明天簽字,在聯合國見證下,把美國踢出局,宣告一個時代結束

說天說地說實事
2025-05-29 19:54:16
唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

愛意隨風起呀
2025-05-29 00:50:32
鄭欽文:我本該穿著長裙登場的,但我太害羞了就沒這么做

鄭欽文:我本該穿著長裙登場的,但我太害羞了就沒這么做

直播吧
2025-05-29 11:15:17
美國切斷部分對華半導體技術出口,暫停噴氣發動機技術對華出口

美國切斷部分對華半導體技術出口,暫停噴氣發動機技術對華出口

澎湃新聞
2025-05-29 13:04:02
有人員死亡!高架快速路一車道突然斷頭,車輛沖出墜落?官方:是特大事故

有人員死亡!高架快速路一車道突然斷頭,車輛沖出墜落?官方:是特大事故

揚子晚報
2025-05-29 17:35:05
美國衛生部長:美國新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

美國衛生部長:美國新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

風向觀察
2025-05-29 19:26:53
日本研究完印巴空戰后得出結論,中國不講武德!

日本研究完印巴空戰后得出結論,中國不講武德!

局勢帝
2025-05-29 13:44:49
石應康自殺闞全程被抓,兩個標志性人物落幕,預示著一個時代結束

石應康自殺闞全程被抓,兩個標志性人物落幕,預示著一個時代結束

醫院院長
2025-05-29 12:59:40
福建通報4起違反中央八項規定精神問題

福建通報4起違反中央八項規定精神問題

環球網資訊
2025-05-29 19:41:11
2025-05-29 22:03:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

健康
藝術
手機
時尚
公開課

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

全球首款雙2億像素手機被曝光!OPPO要狂卷旗艦機?

鞋子專場|| 舒服到能暴走的鞋,我幫你們找到了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 航空| 陇西县| 永城市| 灵璧县| 冀州市| 沙坪坝区| 静安区| 太仆寺旗| 娄底市| 韩城市| 繁峙县| 凤庆县| 大城县| 苍南县| 揭阳市| 贵定县| 丰原市| 江城| 新河县| 永吉县| 赤壁市| 阳朔县| 乐昌市| 鹤山市| 望奎县| 云霄县| 蓬莱市| 宁都县| 砀山县| 西青区| 峨边| 陇南市| 禹城市| 栾城县| 松潘县| 大埔县| 烟台市| 苗栗县| 宜春市| 玛曲县| 阳朔县|