99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

紅杉專訪 OpenAI Codex 團隊:AI Coding 的未來,應該是異步自主 Agent

0
分享至


OpenAI 5 月份推出的 Codex Agent 跟其他 Coding 產品不太一樣。

全新的 codex-1 編程模型,可以并行處理多個任務,而且能夠獨立完成編程全任務流程,目標是可以作為「任務委托」的助手,接管整個開發流程,而不只是編碼補全。

Sam Altman 對這個產品頗多贊譽,說這是第一次讓他有 「接近 AGI」 感覺的產品之一。

從「代碼補全」到「任務委托」,AI 編程正在朝著新的,更能解放生產力的方向發展。

OpenAI 是如何思考這個產品的,為什么要單獨出一個編程模型?未來 AI Coding 的想象力在哪里?

Codex 的研究員 Hanson Wang 和產品負責人 Alexander Embiricos 近期在接受紅衫資本的專訪中分享了關于 Codex 的核心理念、技術演進、以及對于未來 AI 編碼工具交互方式的設想等內容。

TLDR:

  • 未來最高效的 AI 編程模式,不是 AI 在開發者電腦上進行實時代碼補全(結對),而是開發者將整個任務打包委托給在云端擁有獨立環境的 AI Agent,由其異步完成并交付完整方案。

  • 高效使用 Codex 的關鍵在于「富足心態」,即嘗試并行運行多個任務,以「委托」的思路,而不是用「補全」的線性思維來協同工作。

  • Codex 模型和 o3 同源,但通過額外的強化學習進行了微調。微調的重點是解決偏向「定性」的問題,即如何讓它從一個單純的「優秀程序員」,成長為一個懂得工程實踐的「優秀軟件工程師」。模型需要學習專業開發者的「品味和偏好」。

  • 為編程模型創建一個逼真的訓練環境是一個難題。現實世界的代碼庫缺乏一致的測試框架、文檔標準和開發實踐,Agent 難以依賴。OpenAI 采用通過在訓練和生產中使用完全相同的容器化環境的方法來解決這個問題。

  • AI 不會減少軟件工程師的數量,反而會因為降低了軟件開發門檻、催生更多個性化軟件需求而大幅增加開發者數量。開發者的日常工作將從實際編碼,轉向更側重于審查、驗證和高層規劃等方面。

  • OpenAI 的愿景是,未來將只有一個通用助手(ChatGPT),它能根據需要訪問各種專用工具和接口,而非為不同功能構建單獨的智能體。

  • 未來開發者與 AI 的交互方式將同步與異步體驗相結合,交互方式可能看起來更像 TikTok,而不是現在的集成開發環境(IDE)。

超 6000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產品曝光渠道

01

Codex 的目標是能完全獨立編程的 Agent

主持人:介紹下 Codex 吧。

Hanson Wang:對我來說,「Codex」這個名字很好地呼應了最初的 Codex 模型。當它首次亮相時,我有一種恍然大悟的感覺,因為 GPT-3 已經非常出色了,但 Codex 是第一個讓我覺得「哇,這真的能改變世界」的東西。這其實也算是我進入創業圈的一個契機。我最早做的幾個演示中,有一個就是利用 Codex 進行數據分析。

Alexander Emgiricos:是的,這很符合 OpenAI 的一貫風格,我們喜歡讓命名盡可能簡單易懂。這是 2021 年的 Codex。

主持人是的,那應該是在 ChatGPT 問世之前,對吧?

Alexander Embiricos:完全正確。它其實就是驅動 GitHub Copilot 的模型。最近,在我們開發這款產品時,我們覺得這是一個非常有趣的品牌,名字也很貼切——Code、Codex、Code Execution(代碼執行)。所以我們決定重新啟用這個品牌。

主持人你提到「重新啟用」,所以 Codex 這個品牌是沉寂了一段時間,然后才被你們為新產品重新啟用嗎?

Alexander Embiricos:是的,我們近期沒有使用過這個品牌。

主持人好的,能給我們介紹一下作為Agent的 Codex 是做什么的嗎?

Hanson Wang:Codex 是一個在云端擁有專屬容器和終端的編程 Agent。你交給它一個任務,它會以一次性交付的方式,直接返回一個拉取請求(PR)。我們其實嘗試了很多不同的交互形式,但最終確定了這一種。

Alexander Embiricos:我們一直在開發一系列 Agent 和編程產品。

在我們看來,Codex 就像一個思想實驗:如果AI在它自己的電腦上獨立于你工作,那么與 AI共同編程會是怎樣的體驗?這意味著你是將任務「委托」給它,而不是與它「組隊」編程。在這次的 Codex 發布中,我們引以為豪的幾個方面包括對計算環境的思考,如何設置才能讓 Agent 獨立高效地工作;以及模型的創建,這部分 Hanson Wang 可以談得更多。這個模型不僅擅長編寫看起來不錯或功能正常的代碼,更擅長編寫對專業軟件工程師有用的代碼,理想情況下甚至無需他們在本地修改就能直接合并。

主持人:那么 Codex 和 Codex CLI 有什么區別呢?

Alexander Embiricos:對我們來說,Codex 是我們 Agentic 編程的品牌。我們的愿景是,未來會有一個 Agent,它大部分時間在自己的電腦上工作,但也能夠在任何你使用的工具中與你協作,無論是在終端、IDE 還是任務管理工具里。Codex CLI 就相當于 Codex 在你終端里的化身。「CLI」代表「命令行界面」,所以你可以在終端這個環境中與 Codex 協同工作。而我們所說的 Codex,或 ChatGPT 中的 Codex,則是在它自己的電腦上工作。目前,這兩者是分離的。

順便說一句,在 OpenAI 工作我最喜歡的一點就是,我們非常樂于精簡范圍、快速發布產品。但隨著時間的推移,我們會將這些產品更緊密地整合起來。所以你可以簡單地把它看作是 Codex,它既可以存在于 ChatGPT 中,也可以存在于你的 CLI 中。

02

Codex 模型跟工程師的偏好更對齊

主持人:為了讓模型不僅僅是寫下一行代碼,你們在模型層面做了哪些不同的工作?

Hanson Wang:我認為最有趣的進展之一是,如果你回顧我們發布的第一個推理模型 o1,會發現我們強調了它在數學甚至編程競賽中的出色表現。到目前為止,它在競賽編程方面的能力比我這個曾經的競賽程序員還要強,也比 OpenAI 幾乎所有人都要強。但我們發現一個問題,盡管它在這些編程競賽中表現優異,卻并不擅長生成能夠被直接合并的代碼。我們甚至在關于 o3 模型的博客文章中也強調了這一點,它生成的代碼往往不符合專業軟件工程師的審美或風格。所以,我們訓練這個模型的主要精力,都投入到了讓模型與專業軟件工程師的品味和偏好對齊上。這需要大量專門的訓練。

Alexander Embiricos:我有一個非常產品化的比喻。我們最近的模型雖然非常擅長編程,但它們就像一個早熟的、喜歡競賽編程的大學畢業生,缺乏在團隊中作為專業軟件工程師的工作經驗。所以,我們從 o3 到 codex-1 所做的大量工作,實際上就相當于為它補上了最初三年的工作經驗,比如:一個好的 PR 描述應該是什么樣子?PR 的標題怎么寫?如何讀懂代碼庫的風格并確保你的代碼與之保持一致?如何做好測試?如何展示你已經做好了測試?諸如此類。

主持人用戶在使用 Codex 時,通常在哪個瞬間會感到「恍然大悟」?

Hanson Wang:在我們的入門引導流程中,有一個任務是「在代碼庫中查找并修復一個 bug」。我認為這是 Codex 特別擅長的領域之一,尤其是在修復 bug 方面。因為它不僅能發現看起來不對勁的地方,還能獨立地去驗證,比如嘗試重現某個特定的問題。甚至在 Codex 發布之前,我們自己也遇到過一些棘手的 bug,有時最簡單的解決方法就是把問題描述直接粘貼到 Codex 里,我們常常驚訝于它能頻繁地給出一個可行的修復方案。

Alexander Embiricos:是的,這里有個有趣的故事。在發布前一晚的凌晨一點,我們正在處理一個關于 Lottie 動畫的 bug。這種情況,我們本可以從發布范圍中砍掉它,沒有它也能發布。但我們真的很想把它加進去,卻一直沒能解決。最后,一位工程師描述了 bug 的情況并把它輸入到 Codex 中。這里有一個給所有 Codex 用戶的小技巧:如果任務非常困難,可以嘗試讓 Codex 多試幾次。于是他把描述粘貼進去,運行了四次,任務大意是:「這里有個 bug,我們不知道問題出在哪。」其中三次運行都失敗了。但在發布前的凌晨一點,第四次嘗試就修復了我們卡了好幾個小時的 bug。于是我們提交了修復,部署了代碼,那個動畫最終成功地出現在了發布版本中。

主持人:太棒了。你們在OpenAI內部是如何使用它的?現在是每個工程師、每個研究員都在他們的工作流中使用 Codex 嗎?

Alexander Embiricos:當然,不過我要先分享另一個「神奇時刻」。Codex 的一個有趣之處在于,它的形式可能與人們習慣的非常不同。很多人熟悉的 AI 產品,尤其是在軟件領域,比如 GitHub Copilot,都是與你協同工作的,你們之間無縫地來回交互,像是在代碼補全一樣。我們認為這種方式很棒,Codex CLI 也是一個可以這樣使用的工具。

但對于 Codex,我們真正想推動的是「委托」這個概念。因為我們設想,未來絕大多數的編程工作將由 Agent 獨立完成,而不是由一次只能做一件事的人類在自己的電腦上完成。Agent 將在它們自己的電腦上工作。

委托任務給Agent和與你工具中的AI模型代碼補全是完全不同的。因此,你也需要用不同的方式去使用它。在發布前的 Alpha 測試階段,我們把這個 Agent 交給人們,說:「嘿,隨便用。」我們注意到,很多試用者覺得它不是特別有用。然后我們想:「嗯,這很有趣。讓我們看看 OpenAI 的內部人員是如何使用像 Codex 這樣的工具的。」我們發現了一個巨大的差異,那就是使用的心態。

對 Codex 來說,最有效的心態是一種「富足心態」,就是「嘿,讓我們嘗試任何事情,甚至多次嘗試,看看哪個能行,反正它能為我節省時間。」所以我們改變了引導用戶進入產品的方式,試圖創造這種「恍然大悟」的時刻,也就是并行運行多個任務。對我們來說,如果看到有人在一天或一小時內運行了 20 個任務,那就太棒了,這說明他們基本上已經掌握了如何使用這個工具。

03

編程本來也不是工程師的主要工作

主持人:當你需要審查所有這些代碼時,人類的角色會發生怎樣的變化?如果三個方案中有兩個是可行的,你該如何抉擇?

Hanson Wang:我們非常注重讓輸出結果易于審查。我們引以為豪的一點,也是在其他工具中很少見到的,就是模型能夠引用它自己的工作成果。它不僅會列出修改過的文件,甚至還會提供終端輸出。比如,如果它運行了一個測試但沒成功,它會告訴你,并給出它運行的確切終端命令和輸出結果。這使得驗證輸出變得容易得多。但這確實是一個很好的問題。我們正在進入一個代碼審查將占據我們過去用于編程的大量時間的世界。

主持人我們真的需要人類來審查代碼嗎?因為我認為代碼是那種「要么編譯通過,要么通不過」的東西。一旦編譯通過,你就可以去檢查它是否實現了預期的功能。

Hanson Wang:我認為,至少在可預見的未來,答案是肯定的。很大程度上也是為了與早期用戶建立信任。人們需要對哪些功能好用、哪些不好用有切身感受。而且,總會有一些關于「為什么這段代碼是正確的」的外部上下文信息,而這些信息可能超出了你最初提供給模型的范圍。

Alexander Embiricos:是的。如果你思考開發者的工作,當然這是簡化的說法,首先是提出應該做什么,可能與團隊討論,然后決定做什么,這可以稱之為「構思」。然后是「設計」,即我們具體要做什么。接著是「規劃」,我們將如何實施。然后是「實現」和「驗證」,也就是測試這些變更。這基本上是一個循環。而「實現」和「測試」這個小循環,正是 Codex 目前所擅長的,當然我們也可以探討如何用它來做規劃。

之后是實際部署代碼,可能還包括維護代碼、編寫文檔等等。我忘了確切的統計數據,但我記得最近有個數字說,工程師大約只花 35% 的時間在寫代碼上,這甚至不是他們工作的大部分內容。我們努力構建的未來是,無論你是軟件開發者還是從事任何職業,所有容易自動化的工作,通常是那些比較繁瑣的工作,你都不必親自去做,而是可以委托出去。而那些更有趣的工作,可能因為它們比較模糊,或者因為它們真的很有挑戰性,那才是由你來主導的。

我們正朝著那個世界努力,而且我認為我們必須通過迭代的方式去實現它。例如,現在如果一個人寫了代碼,另一個人會來審查。我們不會一上來就試圖改變這一點,而是說:「好的,讓我們融入這個流程。」所以,產品目前的工作方式是,你作為開發者,被這個工具賦能提速。你提出編寫代碼的需求,然后你來決定它是否足夠好并推送給團隊,接著你的團隊可以審查它。隨著時間的推移,我們會逐步擴展我們能做的事情,比如更多地幫助進行規劃,甚至設計,或者根據應用或工作中發生的事情來思考應該做什么。然后,我們會像 Hanson Wang描述的那樣,努力讓審查變得越來越容易。

Hanson Wang:是的,我確實預見到未來會有多個 Agent 協同工作的場景。比如,Codex Agent 編寫代碼,然后可能有 Operator Agent 來測試它,我們在公司開發的所有不同 Agent 都可以協同工作。

主持人:太棒了。既然現在可以委托編寫代碼,你有觀察到工程團隊之外的人也開始使用 Codex 嗎?隨著我們進入「憑感覺編程」(vibe coding)的時代,你們正在幫助我們在這條路上走得更遠。

Alexander Emgiricos:是的,這其實非常有趣。答案是肯定的,但我可以給你講個故事。當時我們和 Lindsey 一起為發布會的博客文章工作,討論要引用哪些客戶的評價。有一個客戶想說:「我們工程團隊非常喜歡這個工具,而且它對產品經理來說也是一個強大的工具。」我記得看到那句引言時,心想:「這話聽起來真酷。」因為我就是產品團隊的,我經常用它來避免因一些小事或問題去打擾工程師。但我當時看著那句話,又在思考:「我們真的想把這句放在發布會的博客里嗎?」因為我們構建的產品目標受眾是專業的軟件工程師,而不是「憑感覺編程」的人。所以我想我們最后沒有采納那句話。但我認為,隨著時間的推移,當我們有了能幫助我們編程的 Agent 后,我預計會有越來越多的人能夠為代碼庫做出貢獻。

主持人:你認為專業軟件開發者的數量會隨著時間增加還是減少?

Alexander Embiricos:這只是我的個人觀點,但我認為會大幅增加。

主持人:不是憑感覺編程的人,而是專業的軟件開發者?

Alexander Embiricos:是的,我認為是這樣。在我看來,編寫軟件越容易,我們就能擁有越多的軟件。現在,如果我們拿出手機——當然,你們是投資者,但如果不是,我敢打賭,你手機上的大多數應用都是由大團隊為數百萬用戶構建的。而很少有應用是專為我們個人或特定需求量身打造的。所以我認為,隨著為個人或團隊構建定制化軟件變得越來越可行,我們對軟件的需求最終會越來越高。

Hanson Wang:當我思考我如何使用它時,我認為它目前確實是一個效率倍增器,而不是任何形式的替代品。特別是觀察我們內部重度用戶的使用模式,差異非常顯著,頂尖的 Codex 用戶每天能完成 10 個以上的 PR。這真是一個巨大的效率倍增器,以至于我無法想象一個它會降低軟件創造門檻的世界。

Alexander Embiricos:話雖如此,我認為這是一個非常重要的問題。坦白說,我們并不知道答案。所以這是我們公司非常關注的一件事。

04

可以運行半小時的 Agent,怎么做出來的?

主持人:談談技術層面底層發生的事情。你提到,模型本身的一個不同之處在于,你們讓它更擅長專業軟件開發者會做的事情,而不是競賽編程。這是模型方面最大的區別嗎?還是我們應該把它看作是 o3 的近親」模型

Hanson Wang:是的,它和 o3 模型同源,但我們通過額外的強化學習進行了微調。這次微調的重點,更多是解決那些偏向「定性」的問題,即如何讓它從一個單純的「優秀程序員」,成長為一個懂得工程實踐的「優秀軟件工程師」。這包括了代碼風格、注釋規范等許多方面,而這些恰恰是其他模型容易忽略的。

除此之外,我還想強調另一個巨大的難題是,為AIAgent 創造一個足夠逼真的學習環境。現實世界的軟件倉庫極其多樣和復雜,光是搭建和維護一個倉庫就需要大量的 DevOps 工作。」

Alexander Embiricos:這點深有體會,以我昨天給 Hanson Wang 看的多倉庫項目為例。我當時在給 Hanson 展示了我們被 OpenAI 收購的那家初創公司的代碼倉庫。我們一起看著那個倉庫,考慮把它用作一個訓練環境。Hanson 問:「單元測試在哪里?」

因為 Agent 需要用單元測試來驗證。我當時就說:「這是一個真實的初創公司,它沒有單元測試。」

Hanson Wang:是的,你會遇到各種這樣混亂的環境。所以在訓練過程中,我們基本上必須為 Agent 生成這些非常真實的環境來供其學習。我認為,我們之所以能做出這樣一個端到端的產品,原因之一是我們擁有在訓練和生產環境中使用的相同環境,以及相同的容器化基礎設施。我們的用戶在使用 Codex 時,他們運行在與我們用于訓練的完全相同的環境中。

主持人所以 Agent 不會說:「但在我的機器上是好的。」

Hanson Wang:完全正確。

主持人:我認為這些也是我見過的 OpenAI 推出的任務運行時間最長的Agent了。Deep Research 可能是之前運行時間最長的。我的理解是,Codex 有時可以在不同的任務上花費 30 分鐘。在讓推理時間擴展到如此長的查詢上,你們有沒有遇到什么出乎意料的挑戰?

Alexander Embiricos:我先從產品方面談起,模型方面也有很多挑戰。在產品方面,我思考最多的是用戶意圖。如果你想象一個人在他的 IDE 里使用自動補全,預測他在下一微秒想做什么并不一定非常困難。但是對于一個需要 30 分鐘才能完成的任務,幫助用戶描述這個任務實際上相當困難。他們自己可能都不知道在這 30 分鐘的工作里具體想要什么。

所以我們花了很長時間辯論,并且現在仍在持續辯論的一個問題是:用戶交給 Codex 的任務,合適的粒度是什么?我們如何能讓它變得簡單,讓 Codex 足夠靈活,既可以用于單行修改,也可以用于你明確知道要做什么的大型重構,或是你知道想要什么的大型功能開發。或者,當你不太確定自己想要什么時,是否也能使用 Codex?也許你應該先讓 Codex 給你一個計劃,然后讓它建議一些任務,你再執行這些任務。這仍然是我們正在辯論和迭代的主題。

Hanson Wang:我認為這其實是一個使用它的小技巧。它非常擅長制定自己的計劃。有時候,預先詳細指定你想要的一切會非常繁瑣。如果你想讓它工作一個小時,你就必須預先規定很多東西,這意味著你可能要花 10 到 20 分鐘來構思。但如果你先使用「提問模式」生成一個你想要做的高級計劃,然后你可以在把它派出去工作一小時之前,與模型一同迭代這個計劃。

主持人這真的像在和一個實習生一起工作。

Hanson Wang:是的。

主持人:模型方面呢?隨著運行時間變長,模型行為上有什么令人意外的地方嗎?

Hanson Wang:我們的模型在長時間執行任務時,保持「專注」的能力確實提高了很多。不過,確實有些情況下,即使是模型,它的耐心也是有限的。有時這會讓人感到沮喪,比如它運行了 30 分鐘后,就會像人一樣告訴你:「抱歉,這個任務太重了,我實際上沒有足夠的時間來完成。」這是我們正在努力改進的一個方面。

主持人就像是一個實習生一樣。

Hanson Wang:在很多方面都非常像人。

05

編程的「最后一公里」,還是需要人類的

主持人你們如何怎么看正確的交互模式及其演變,以及圍繞于此的產品套件未來如何發展?在工程和產品構建方面,除了 Codex 和 Codex CLI,還有哪些可能性?

Alexander Embiricos:我們發布的 Codex 只是一個研究預覽版,一個有用的實驗,但仍處于非常早期的階段。我們最自豪的是它的模型以及為計算環境打下的基礎。我們發布的 UI 是我們迭代出來的,雖然其中有些有趣的故事,但它絕不是最終形態。

對于聽眾來說,我們發布的 UI 是 ChatGPT 中的一個界面,你可以在那里提交任務,讓 Codex 回答問題或編寫代碼。然后你會看到一個有點像待辦事項列表的界面,可以查看并決定是否合并。我們構建這個界面的初衷是為了深入探索「異步 Agent」和「委托」這一理念。

但我們想要構建的未來是,你無需去思考你是在委托還是在與 Agent 代碼補全。它應該感覺就像與一個無處不在的隊友一起工作,這個隊友存在于你使用的所有工具中。你應該能在任何你正在使用的工具里——無論是終端、IDE、任務管理工具,還是警報或錯誤監控工具——隨時尋求幫助。甚至可能在你到達之前,Codex 就已經看過了問題并有了自己的見解。你可以問任何問題,無論是長是短,它會恰當地決定花多少時間來回答你,并幫助你完成這些變更。所以,我們基本上想融合「補全」和「委托」這兩個概念,但我們首先發布的是這個理念最純粹的思想實驗。

另外我想補充一點,在 OpenAI 工作的獨特之處在于,我們是 ChatGPT 的創造者,這是大多數人使用的AI系統。所以我們并不認為未來你會每天在決定是使用 Codex Agent、購物 Agent 還是打車 Agent。我們認為它應該是一個你可以與之交談的、統一的助手,你可以問它任何關于任何事情的問題,它都能幫你完成。那就是 ChatGPT,它將成為我們的助手。然后,如果你是某一類工具的重度用戶,比如軟件開發者,你花大量時間在特定的功能性工具上,那么你就可以進入那個工具,使用一個帶有按鈕、列表的定制化界面,高效地完成你的日常工作。

主持人:你認為我們還會使用 IDE 嗎?

Alexander Embiricos:當然會,但它們會進化。現在這些工具專注于編寫代碼。而正如 Hanson 所說,未來可能會有越來越多的代碼由 Agent 編寫。因此,重點將會轉向「落地代碼」、審查代碼或驗證代碼,甚至可能會轉向規劃更大的項目。

Hanson Wang:是的,我們已經看到團隊里的很多人,他們早上第一件事就是來公司,沖杯咖啡,然后啟動幾個任務來獲得一個初步方案。等他們吃完早餐回來,看看生成的 PR,然后再接手處理。IDE 就像是那個你接手的地方,它可能會幫你完成 80% 甚至更多的工作,但總有那「最后一公里」,需要你親自上手并根據自己的感覺進行微調。

主持人結合 OpenAI 內部策略的演變(如異步任務整合到ChatGPT)以及外部工具和模型的爆發式增長,你怎么看當前的市場趨勢?

Alexander Embiricos:是的,對于開發者來說,現在是一個瘋狂的時代。有太多新工具都非常有用。最近有個有趣的故事,我在飛機上沒有 Wi-Fi,本想寫點代碼做個東西。但因為沒有 Wi-Fi,我就想:「算了,現在花時間去嘗試寫代碼根本不值得。」然而,我多年前做的那個初創公司,其部分起源就是我在一架沒有 Wi-Fi 的飛機上寫代碼。現在我根本不會再那樣做了,因為市場已經變化太大了。

我認為在接下來的兩年里,我們將看到同樣程度的轉變,編程將變得完全不同。現在,人們覺得最有價值的工具大多是那些與你緊密協作的,基本上是在你的開發環境中進行代碼補全的工具。我認為我們將看到的轉變是大部分代碼將由 Agent 編寫。而這些 Agent 不會在你的環境中工作,因為那里一次只能做一件事,它們將在自己的環境中工作。它們也不會僅僅在你想到具體任務時才被觸發,而是會連接到你使用的工具中,在那里完成工作。

所以我認為我們會看到向 Agent 的轉變。我們將不得不解決很多關于代碼審查的問題,就像你之前問的。我個人并不確切知道那會如何運作,但我知道,即使在 OpenAI 內部,已經有越來越多的代碼由 Agent 合并,甚至有更多的代碼由 Agent 生成,比如人們會一次性啟動四次任務,來挑選他們最喜歡的實現方式。所以,我們該如何管理所有這些被編寫出來的代碼,目前還不是百分之百清楚。

但是,我可以分享一些對聽眾可能有用的東西:你確實可以對你的代碼庫做一些事情,讓它更容易被 Agent 處理。這不一定特別新穎,但使用類型化的語言會非常有幫助。另一件很有幫助的事情是,擁有更小、測試得更好的模塊。

Hanson Wang:或者說,有好的測試就行。

Alexander Embiricos:是的,我們開玩笑說我那家初創公司的代碼庫,但如果放到今天來寫,我敢打賭我們會寫得完全不同。甚至還有一些小細節,比如我們這個項目的代號是 WHAM。這是 Codex 的代號。我們當初命名時是經過深思熟慮的,因為我們知道代碼會存在于服務器、網站以及其他各種地方。我們希望 Agent 能夠輕松地搜索與 WHAM 相關的代碼并找到它。所以我們將項目命名為 WHAM,并事先在代碼庫中檢查了這個詞出現的頻率。如果當時我們叫它「code」、「Codex」或者「agent」之類的名字,你可以想象 Agent 要找到相關代碼會有多困難。

主持人結果你們現在叫它 Codex,所以 Agent 現在要困惑了。

Alexander Embiricos:這正是我要說的重點,有意識地設計。在代碼中,我們大量使用 WHAM 這個詞,因為這對 Agent 來說更容易找到。當然,即使我們不用這樣的詞,Agent 也能找到路徑,但它需要花費更多時間來定位正確的文件。

Hanson Wang:是的,很酷的一點是,很多讓代碼更好懂、更好用的辦法,對 AI 工具來說也一樣管用。比如,完善的測試和清晰的文檔就是很好的例子。現在,我們更有動力去做好這些,因為它不僅能讓自己的工作更輕松,也能讓 Agent 的工作更輕松。

06

OpenAI 關注的是通用和泛化場景的 Agent

主持人跟 Claude Code 和 Jules 這些 Agent 式編程體驗相比,你們有什么優勢?市場最終會趨向于同一個關于同步和異步編程的愿景嗎?如果會,未來 OpenAI 的優勢在哪里?

Alexander Embiricos:我認為我們會看到各種各樣的形態。就像你提到的,有在你的電腦上工作的工具,也有在它們自己電腦上工作的工具。我認為多數工作會由獨立計算的 Agent 承擔但幫助開發者提升本地工作效率依然至關重要。理想情況下,我們能兩全其美,但大部分工作會在 Agent 的計算環境中完成。

Hanson Wang:我的看法是,軟件工程中最困難的部分之一,實際上是吸收來自外部世界的所有上下文信息,并將其編碼成需求和設計文檔。而實現過程,正如我們前面提到的,在整個生命周期中,實際編碼所占的時間并不多。我認為 ChatGPT 的優勢在于,它是一個擁有記憶、能夠連接到你使用的各種不同工具的助手。我們有 Operator、Deep Research 等具備各種不同能力的工具。我認為,當這一切融合在一起時,像 Codex 這樣的工具一旦能夠獲取所有這些知識并加以利用,它就能在編碼這個環節上做得更出色。

Alexander Embiricos:是的,想象一下,你雇傭一個軟件工程師,而他唯一能做的事就是從你這里接一個任務然后生成一個 PR。他只能精確地做那些定義好的事情。然后你讓他做一件隨機的事情,比如:「嘿,團隊要開會,你能不能幫忙訂個會議室并主持一下頭腦風暴?」如果你雇的隊友拒絕做這類工作,那會非常令人沮喪。同樣,我們正在構建的未來是,與你合作的 Agent 會更加通用。就像 Hanson 提到的 Operator 和 Deep Research,Operator 有一個網絡瀏覽器,Deep Research 有另一種形式的網絡瀏覽器,Codex 有一個終端。實際上,你的一個人類隊友也擁有類似的工具。

我們最終的目標是選擇一些我們想要重點投入的特定領域,來取得快速進展。我們正在通過 Codex 在編程領域這么做,我們為開發者生成了特定的評估標準,然后為他們制作了更好的模型。但隨著時間的推移,我們會將這些能力泛化為每個人都能使用的簡單工具。所以,對于我們 OpenAI 和 ChatGPT 來說,我們構建的產品將與那些僅僅專注于特定領域(如編程)的產品非常不同。

主持人:你認為開發者與 Codex 交互的主要 UI 會是什么?會是 ChatGPT、CLI、IDE,還是以上全部?

Hanson Wang:我認為是以上全部的混合體。我們只是想在開發者需要的時候出現在他們所在的地方。所以可能甚至不是在編輯器或終端里,而是在 Slack 上。有人給你發消息說:「嘿,這里有個 bug。」你就可以直接回復:「嘿,去把它修好。」

Alexander Embiricos:我來給你描繪一個我有趣的、不完全嚴肅的未來 UI 設想。如果你是未來的一個創業創始人,你的團隊只有你或者你和幾個聯合創始人,外加許多 Agent,那么與 Agent 的工作方式可能看起來就像 TikTok。你可能有一個垂直信息流,上面是 Agent 生成的視頻,展示一個想法,比如:「嘿,一個客戶提出了這個請求,我認為我們應該修復它。」然后你向右滑動表示:「好,我們來做這個。」向左滑動表示:「不,我們不能做。」

主持人:是 Tinder 還是 TikTok?

Alexander Embiricos:抱歉,是個混合體。我沒說這個設想會很有邏輯。

主持人我喜歡這個想法。

Alexander Embiricos:然后你長按來提供反饋,比如:「是的,做吧,但要確保字體是斜體的。」基本上,你擁有所有這些訂閱了你公司或團隊信息的 Agent,它們會主動提出想法并執行,然后給你更新,而你只是在管理正在進行的工作。

主持人我很喜歡這個設想。

主持人它們還會向你展示世界可能變成什么樣的小預覽。

Alexander Embiricos:是的。這只是個半開玩笑的說法。我認為那將是與 Agent 保持一定距離的工作方式,同時,讓人們能夠親自上手、與 Agent 在各種環境中結對工作也仍然非常重要。

主持人:你們認為哪種新的應用或應用類別會在 2025 年爆發?除了編程之外。

Hanson Wang:我覺得,2025 年絕對是 Agent 之年。我們會看到 Agent 在很多不同領域起飛。

Alexander Embiricos:是的,我同意。

主持人:你們對哪種類型的 Agent 最感興趣?

Hanson Wang:除了編程 Agent 之外?

主持人:是的。

Alexander Embiricos:我的看法是,我們思考 Agent 的方式是,你有一個推理模型,然后你給它接入行業的工具,接著你弄清楚如何訓練這個 Agent 去執行特定的職能。所以這不僅僅是關于寫作,而是關于新聞業;不僅僅是關于編碼,而是關于軟件工程。這就是我們正在做的事情。

在我看來,我今年對 Agent 如此興奮的原因是,我們現在已經有幾個來自 OpenAI 的 Agent 發布了,其他公司也在發布 Agent。所以我們開始看到這個領域的輪廓,并開始識別出一些基本要素。我特別興奮的是,當我們將這些整合起來,你得到的 Agent 就不再需要為每個功能單獨配置,而是一個擁有計算機、瀏覽器和終端的 Agent,它可以做多種事情,而無需你精確地指定「你是我的編程 Agent」之類。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李在明不出席中國閱兵,韓總統室有3個理由,望中方“對等訪問”

李在明不出席中國閱兵,韓總統室有3個理由,望中方“對等訪問”

愛意隨風起呀
2025-07-16 14:51:07
日本真變了,被美國 “毒打” 后,當著王毅面,稱將認真對待歷史

日本真變了,被美國 “毒打” 后,當著王毅面,稱將認真對待歷史

沈言論
2025-07-17 01:25:03
又變卦了!川普禁止烏克蘭襲擊莫斯科,不會提供遠程導彈

又變卦了!川普禁止烏克蘭襲擊莫斯科,不會提供遠程導彈

史政先鋒
2025-07-16 12:19:32
娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

曉踏就是我
2025-07-16 15:35:14
今年405上北大!史上最強撿漏王出現了!498讀華工?445撿漏鐵飯碗大學!

今年405上北大!史上最強撿漏王出現了!498讀華工?445撿漏鐵飯碗大學!

前沿天地
2025-07-16 21:14:13
已砸超10億歐!英超軍備競賽升級,爭冠保級大戰,新賽季五大看點

已砸超10億歐!英超軍備競賽升級,爭冠保級大戰,新賽季五大看點

安海客
2025-07-16 07:24:14
總投資10億元,浙江一條MEMS芯片產線,破產

總投資10億元,浙江一條MEMS芯片產線,破產

感知芯視界
2025-07-16 18:43:50
ESPN:NBA擴軍后西部將增加兩隊,森林狼老板不愿球隊被劃分去東部

ESPN:NBA擴軍后西部將增加兩隊,森林狼老板不愿球隊被劃分去東部

雷速體育
2025-07-16 07:40:23
王皓怒斥林詩棟,一個人背包直接離場!張繼科說正手是乒乓球門面

王皓怒斥林詩棟,一個人背包直接離場!張繼科說正手是乒乓球門面

開成運動會
2025-07-16 23:34:53
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
“別墅里面唱K”怎么就成了臺灣人的跳舞開關

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

網易上流
2025-07-16 14:46:25
汪小菲估計懵了,萬萬沒想到,F4合體卻把他已逝前妻大S送上熱搜

汪小菲估計懵了,萬萬沒想到,F4合體卻把他已逝前妻大S送上熱搜

小娛樂悠悠
2025-07-14 14:05:12
真相大白!最新證據,珠寶是玻璃品值300塊,黃楊鈿甜一家沒問題

真相大白!最新證據,珠寶是玻璃品值300塊,黃楊鈿甜一家沒問題

辣條小劇場
2025-07-16 21:32:35
鹿鼎記演員漸凍癥去世 劉德華曾援助治病

鹿鼎記演員漸凍癥去世 劉德華曾援助治病

環球網資訊
2025-07-16 13:48:30
突傳消息:知名男演員離世!他的作品太經典!又是這種病,治愈率為0……

突傳消息:知名男演員離世!他的作品太經典!又是這種病,治愈率為0……

福建衛生報
2025-07-16 12:16:23
李在明正式向APEC各成員領導人發出邀請

李在明正式向APEC各成員領導人發出邀請

國際在線
2025-07-16 15:07:13
毀了王治郅,逼姚明退役,他憑一己之力讓中國籃球倒退了二十年!

毀了王治郅,逼姚明退役,他憑一己之力讓中國籃球倒退了二十年!

啟娛說
2025-07-07 16:54:03
湖南小伙到上海打工,認上海阿姨當干媽,父母發現秘密后難以接受

湖南小伙到上海打工,認上海阿姨當干媽,父母發現秘密后難以接受

奇事簿
2025-07-13 21:50:02
考慮10多天后,李在明決定不參加中國閱兵,韓方給出兩個理由

考慮10多天后,李在明決定不參加中國閱兵,韓方給出兩個理由

小笛科技
2025-07-16 22:43:20
一外地游客在長沙熱到呼吸性堿中毒,提醒:高溫或誘發呼吸性堿中毒

一外地游客在長沙熱到呼吸性堿中毒,提醒:高溫或誘發呼吸性堿中毒

極目新聞
2025-07-16 18:41:56
2025-07-17 03:35:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
846文章數 134關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

房產
藝術
數碼
家居
旅游

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

三星新一代平板電腦通過3C認證,支持25W快充

家居要聞

浪漫典雅 法式風格別墅

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鹤庆县| 太原市| 同江市| 巴彦县| 海林市| 白城市| 阜新| 元氏县| 盈江县| 华坪县| 康保县| 天台县| 垦利县| 汶川县| 康定县| 津市市| 新密市| 大方县| 杂多县| 紫阳县| 和田县| 和田市| 施秉县| 京山县| 菏泽市| 霞浦县| 克东县| 达孜县| 八宿县| 莱阳市| 囊谦县| 大田县| 鸡东县| 武定县| 永兴县| 新沂市| 卓尼县| 安仁县| 嘉峪关市| 中牟县| 伊宁市|