嘉賓 | 范文棟
對話 | 唐小引
責編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
今年 3 月,Manus 的橫空出世,引爆了新一輪的 AI Agent 熱潮。
人們驚訝地發(fā)現(xiàn),原本復雜繁瑣的任務流,如今一個 Agent 就能自動規(guī)劃、調(diào)用工具、執(zhí)行操作,甚至還能主動 Debug 和自我修復——生成式 AI 從“語言理解”向“任務執(zhí)行”演化,Agent 也不再是只能聊天的大語言模型,而是可以“動手做事”的數(shù)字助手。
然而,在這場技術熱潮中,質(zhì)疑與分歧也接踵而至:“Agent 的 Scaling Law 是否存在”、“通用Agent是否真的可行”,這些問題引發(fā)了廣泛的爭議與探討。一方面,部分研究者堅信,隨著模型技術的進步,Agent 將能實現(xiàn)從特定任務向通用能力的跨越;而另一方面,也有聲音指出,所謂的“通用 Agent”,或許只是一套被過度期許的工程幻象。
為了解答這些技術爭議,由 CSDN 主辦的《萬有引力》欄目在的現(xiàn)場特別邀請到了CAMEL AI核心成員,CAMEL、OWL 開源項目核心開發(fā)者和維護者范文棟。作為一個 96 年出生、從開源社區(qū)一路走到前沿 Agent 工程一線的年輕技術人,范文棟參與了從 CAMEL、OWL 等多個項目,也親歷了這一波 Agent 技術從探索到爆紅的全過程。那么接下來,就讓我們在CSDN &《新程序員》執(zhí)行總編、《萬有引力》主理人唐小引的主持下,看看范文棟眼中的 Agent 未來將如何發(fā)展?
AI 產(chǎn)品爆發(fā),但你的痛點解決了嗎?8.15-16 北京威斯汀·全球產(chǎn)品經(jīng)理大 會 PM-Summit,3000+ AI 產(chǎn)品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對接精準資源!
掃碼登記信息,添加小助手進群,搶占 AI 產(chǎn)品下一波紅利:
進群后,您將有機會得到:
· 最新、最值得關注的 AI 產(chǎn)品資訊及大咖洞見
· 獨家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實戰(zhàn)經(jīng)驗
· 不定期贈送 AI 產(chǎn)品干貨資料和秘籍
以下為對話內(nèi)容(為方便閱讀,進行了適當?shù)奈谋緝?yōu)化):
“0 天復刻Manus”的OWL,十天斬獲 1w+ Star
唐小引:我們今天將圍繞「如何構建 AI Agent」以及「開發(fā) Agent 背后的技術故事與人物」展開分享。文棟,先和大家打個招呼吧,也介紹一下你最近負責的開源項目?
范文棟:大家好,我是范文棟,CAMEL-AI 的核心貢獻者,也是 Eigent AI 的技術負責人(Tech Lead)。
相信大家都知道,前陣子有個叫 Manus 的項目很火。而我們 CAMEL 社區(qū)此前發(fā)布了一個名為 OWL 的開源項目,它在權威評測榜單 GAIA Benchmark 上曾位列第一,是最強的開源 Agent 之一。當時,我們打出了“0 天復刻”的口號,好像這個項目很快就做出來了,但其實有點標題黨——之所以能如此快速發(fā)布 OWL,是因為我們過去已經(jīng)做過相應的工作,才能快速迭代。
其實,CAMEL 做 Agent 已經(jīng)兩年了。可能很多人都不知道,CAMEL 框架是在 23 年 3 月推出的,也是世界上第一個多智能體框架,所以其實我們已經(jīng)有了兩年的積累。當 Manus 項目出來以后,我們看到 CAMEL 框架中已有的模塊能夠非常快速地復現(xiàn)類似能力,所以就很快地推出了 OWL 這個框架。
唐小引:我看到有小伙伴把文棟的項目名字發(fā)出來了,不過拼寫上有點小誤。我來大致梳理一下這個背景:前段時間,大家應該對通用 Agent 項目 Manus 有印象。Manus 是一個閉源項目,它的核心作者季逸超曾表示,未來可能將 Manus 開源,但截至目前我們還沒有看到正式發(fā)布的開源版本。
當時,Manus 的邀請碼異常緊缺,可謂一碼難求。正是在這個背景下,我們看到了開源社區(qū)的力量:包括文棟所在的 CAMEL AI 團隊,以及 MetaGPT 團隊,都在極短的時間內(nèi)完成了對 Manus 的開源復現(xiàn),并將項目發(fā)布到了 GitHub 上。其中,文棟團隊推出的就是 OWL 項目。
范文棟:是的,OWL 作為一個開源項目,在推出以后受到了大量社區(qū)開發(fā)者的關注與反饋,我們也根據(jù)這些意見進行了多輪迭代和優(yōu)化。當然,OWL 在推出之初的整體成熟度確實不如 Manus,畢竟是一個在短時間內(nèi)完成的項目。
但我們構建 OWL 的初衷,也并不是要和 Manus 去比拼產(chǎn)品化能力,而是希望能為開發(fā)者提供一個真正開源、可拓展的基礎框架,讓大家能基于OWL去做二次開發(fā)和構建,例如結合自身業(yè)務需求,去構建更加深入的使用場景和應用。
唐小引:可以跟大家分享一下 OWL 項目開源之后的情況嗎?我記得當時社區(qū)反響非常熱烈,你們在開源 OWL 之后應該特別忙,可以講講你們收到的社區(qū)反饋和那段時間的心路歷程嗎?
范文棟:當時我們項目剛上線,僅十天時間就在 GitHub 上獲得了一萬個 Star,吸引了大量開發(fā)者的關注。這個數(shù)字甚至都反超 CAMEL 了。要知道,作為第一個多智能體框架,CAMEL 積累了兩年的 Star 數(shù),在短短十天內(nèi)就被 OWL 超越,也說明了大家對這個方向的高度關注。
那段時間,很多人加入了我們的社區(qū),反饋非常多,GitHub 上也出現(xiàn)了大量 Issue。我那時還跟團隊的小伙伴開玩笑說,我每天醒來都要多當五六個小時的客服,消息根本回不過來。大家在剛開始使用 OWL 時,確實可能會遇到各種問題,比如與模型部署相關的操作,或者海外 API 使用不便等等。當時,我們在幾天內(nèi)就關閉了 GitHub 上 200 多個 Issue,不過這還只是 GitHub 上的,微信群里的反饋更多,保守估計能有上千、甚至上萬個。
唐小引:在 GitHub 上,有沒有哪些讓你印象深刻的反饋或者 PR提交?
范文棟:OWL 項目剛上線的時候,它還是一個只能通過本地 IDE 運行的形態(tài),并沒有 Web App,所以使用起來不是那么方便,尤其是對于剛開始接觸 Agent 開發(fā)的小伙伴來說。隨后,我們團隊就開發(fā)了一個 Web App,雖然初期版本還不夠成熟,但得到了社區(qū)的積極反饋。例如,有開發(fā)者提交了改進 UI/UX 的 PR,幫我們優(yōu)化了整體的交互體驗。
現(xiàn)在的 Web App 雖然還有提升空間,但相比剛上線時已經(jīng)有了很大進步。這也充分體現(xiàn)了開源社區(qū)的力量,大家都非常踴躍地提交 Issue、貢獻 PR,幫助項目不斷完善。
唐小引:那現(xiàn)在 OWL 的迭代工作,主要是你們團隊在做,還是已經(jīng)可以依靠社區(qū)的力量,由更多開發(fā)者提交 PR,而你們主要負責代碼審核和合并?
范文棟:對,沒錯。OWL 剛推出的時候,我們把一些 Open Issue 放在 GitHub 主頁,現(xiàn)在項目底部也仍然保留了一部分。當時社區(qū)響應非常快,我們有時會一次性發(fā)布三五個Issue,十幾分鐘就會有開發(fā)者在下方留言“認領”,并提交相應的貢獻。
前段時間,我們的主要工作就是在社區(qū)中回復各種 Issue 和用戶問題,同時把一些希望新增的功能以 Issue 的形式加在 README 中。開發(fā)者認領之后,我們會主動聯(lián)系他們并提供一些支持,包括代碼審查等。
唐小引:有沒有哪些比較關鍵的迭代可以和大家分享?或者說,OWL 是否有類似 OpenManus 那樣的Roadmap,對后續(xù)方向有一定的規(guī)劃?
范文棟:有的,我們在 OWL 剛上線時就進行了整體重構。第一版 OWL 是基于 CAMEL 的 RolePlaying 模塊開發(fā)的一個版本,叫 OWL RolePlaying。當時,我們希望它能在 GAIA Benchmark 上取得好成績,所以整體調(diào)教非常注重性能,可在實際使用中用戶會發(fā)現(xiàn)資源消耗很高:為了確保任務順利完成,中間會進行一些重復驗證,導致 Token 消耗偏高。
所以,后來我們進行了一些更平衡的設定和優(yōu)化。如果大家想體驗性能最強的版本,可以切換到 GAIA-58.18 這個分支;而 Main 分支并非性能最優(yōu)版本,但勝在成本控制和穩(wěn)定性,整體更加均衡。這是我們前段時間一個比較重要的更新。
另一個比較核心的是OWL Agent使用工具的更新。例如 Browser 工具,它允許 Agent 打開瀏覽器,執(zhí)行自動化任務,目前這一模塊還在持續(xù)迭代中。此外,Terminal 工具也是非常重要的更新,它支持 Agent 調(diào)用終端,自主安裝依賴庫并執(zhí)行代碼。我們更新完 Terminal Tool Kit 后做了一個測試:讓這個 Agent 自行安裝一個處理 PDF、Slides 相關的庫,然后再讓 Agent 獨立生成一個 PPT,它也很好地完成了任務。
關于 OWL 的 Terminal Tool Kit,其實還有一個故事。很早以前,我們的 Founder 李國豪(CAMEL-AI.org社區(qū)創(chuàng)始人)就在 GitHub 的 Roadmap 里寫下了這個 Tool Kit——那時甚至連模型的工具調(diào)用功能都還沒完善,但他當時就判斷Terminal工具會是一個非常強大的能力。不過這個事情大家之前都沒有意識到,直到后來 OWL 和 Manus 受到廣泛關注以后,我們才發(fā)現(xiàn)這個工具原來真的那么強。
“為愛發(fā)電”走入開源社區(qū),最終全職投身 Agent 研發(fā)
唐小引:接下來,我們來聊聊“人”的故事。文棟是國豪推薦給我的,我最開始就問:“文棟是哪年出生的?”因為我發(fā)現(xiàn)現(xiàn)在 AI 圈里很多核心開源項目的主創(chuàng)都非常年輕,像文棟你就是 1996 年出生,是非常典型的一位新生代代表。
所以文棟,可以請你跟大家分享一下你的成長經(jīng)歷嗎,比如你是如何走上 AI 這條技術路線的?以及,了解到你是遠程工作,你和 CAMEL AI 團隊現(xiàn)在的協(xié)作方式又是怎樣的?
范文棟:好的,我先介紹一下我是怎么一步步從接觸 AI 走到現(xiàn)在的。
我本科讀的是一個比較傳統(tǒng)的工科專業(yè),并非計算機相關。記得我大二那年,正值 AlphaGo 剛剛推出,我當時在看直播,看到最后AlphaGo戰(zhàn)勝李世石,那一刻給我?guī)砹藰O大的震撼——原來 AI 可以做到這種程度,連人類頂尖智慧也能被挑戰(zhàn)。從那時起,我開始對 AI 產(chǎn)生濃厚興趣。
研究生階段,我轉(zhuǎn)向了和算法相關的統(tǒng)計學,并選修了大量計算機相關課程,也開始從事 NLP 相關的研究。之后,我在愛爾蘭中央統(tǒng)計局實習,主要負責文本分類。當大語言模型橫空出世時,我又受到了二次震撼,覺得這個技術太厲害了。
在愛爾蘭中央統(tǒng)計局工作一段時間后,因為疫情、氣候等各種原因,后來我選擇了回國,并加入了巴斯夫中國數(shù)字化中心,擔任 AI 工程師,主要工作是給銷售、市場、生產(chǎn)、供應鏈等業(yè)務線開發(fā) AI 解決方案。不過,在大企業(yè)內(nèi)部,新技術的推進節(jié)奏通常較慢。
當 2023 年初生成式 AI 興起時,我內(nèi)心非常激動。當時我在團隊中承擔了一個利用生成式 AI 撰寫市場宣傳文案的項目,也讓我對這一方向產(chǎn)生了更深的興趣。我還利用業(yè)余時間,用 GPT 的 API 復現(xiàn)了一個我曾經(jīng)苦戰(zhàn)七個月的文本分類項目——僅用半天時間就完成了,準確率還更高。
從那之后,我便主動尋找一些與生成式 AI 相關、有技術挑戰(zhàn)的項目。我一開始用的是 LangChain,因為在前公司中也是用它做開發(fā)。但后面我逐漸意識到 LangChain 的一些局限性,例如抽象層次較多,修改起來也不太方便。
所以,我就開始尋找一些有意思的開源項目,因為我覺得開源才是能快速迭代技術能力、學到很多東西的地方。機緣巧合下,我在小紅書上看到了國豪。他說他當時也看到了我發(fā)的一篇吐槽 LangChain 的帖子,就主動私信我。他給我發(fā)了 CAMEL 的項目鏈接,我看到那個熟悉的駱駝 Logo 才想起來之前見過,但沒有深入了解。而和國豪聯(lián)系上之后,我開始仔細研究 CAMEL 的代碼,發(fā)現(xiàn)這實在是一個非常酷的項目。
當時我剛接觸 Agent,對它的認知還停留在傳統(tǒng)的生成式 AI 應用層面,比如用 LangChain 調(diào)用模型完成自然語言生成。但當時 CAMEL 已經(jīng)實現(xiàn)了多智能體之間的協(xié)同,可以用兩個 Agent 來完成一個復雜任務。我覺得這個東西太酷了,于是開始以志愿者身份在業(yè)余時間參與 CAMEL 的開發(fā)。后來,隨著對項目的投入越來越深,關系也越來越緊密,我最終決定在去年辭職,全職加入了 CAMEL AI 團隊。
唐小引:也就是說,你最開始是在開源社區(qū)中,是作為一個對項目非常感興趣的個人貢獻者參與進來的?
范文棟:對,一開始就是單純的“為愛發(fā)電”。直到現(xiàn)在,我的這份熱愛還在。
唐小引:我能從你身上感受到技術人所具備的那種自我驅(qū)動精神——Just for fun,就像 Linux 之父 Linus Torvalds 提倡的那樣,這也是開源社區(qū)最有魅力的地方。那現(xiàn)在CAMEL AI 團隊大概有多少人?團隊的規(guī)模和大家的分布情況是怎樣的?據(jù)我了解,國豪現(xiàn)在人在倫敦。
范文棟:我們團隊的規(guī)模其實還比較小,也很年輕,成立至今僅一年左右。目前整個團隊大約有 20 多人,這其中還包含了不少實習生和兼職,真正的全職成員只有五位。
核心團隊的人員分布也非常廣,我們還曾說自己是“日不落團隊”:有人在英國倫敦,有人在美國,還有人在澳大利亞,在印度和中國也都有一些小伙伴,涵蓋了全球很多主要時區(qū)。因此,我們的協(xié)作方式基本上是遠程線上為主。
我們的核心成員,大多都是從社區(qū)中轉(zhuǎn)化過來的開源貢獻者,比如我自己。此外,我們也在與很多高校的博士生和研究人員展開合作,希望通過這種方式接觸到更多非常優(yōu)秀、且對 Agent 感興趣的小伙伴,一起去探索和推動這個領域的進展。
探索“AgentScaling Law 是否存在”的實踐
唐小引:能和大家分享一下你在全球機器學習技術大會上的演講內(nèi)容嗎?你的演講主題是“從工具到自主化,構建更強大的 Agent 系統(tǒng)”,那么從“工具”走向“自主化”,這條路徑的技術挑戰(zhàn)和整體思路是怎樣的?
范文棟:我這次的演講主要圍繞我們正在研究的一個方向——AgentScalingLaw。我們都知道,模型的 Scaling Law 對應的是模型的參數(shù)量、訓練數(shù)據(jù)等。而在 Agent 系統(tǒng)中,我們提出了一個類比性的假設:Agent 的數(shù)量是否可能也像模型參數(shù)那樣,成為系統(tǒng)能力提升的關鍵因素?關于這一點,我們 CAMEL 也在 Agent 里探索著去構建環(huán)境與模擬系統(tǒng)等等。
唐小引:所以,你們是已經(jīng)發(fā)現(xiàn)Agent中確實存在類似于Scaling Law的現(xiàn)象了嗎?
范文棟:還不能這么說。我們目前還處在探索階段,不能斷言 AgentScaling Law一定成立。但我們確實在實驗中看到了多智能體的能力比單個智能體要強。比如我們之前在 CAMEL 的研究論文里也提過,在超過 70% 的任務場景中,采用兩個 Agent 協(xié)作的 RolePlaying 框架,任務完成效果明顯要優(yōu)于僅用一個 Agent 的。
唐小引:那你們團隊在探索 Agent Scaling Law 的實踐過程中,有哪些關鍵性的發(fā)現(xiàn)或經(jīng)驗可以和大家分享?
范文棟:首先是剛才提到的Agent 數(shù)量。我們之前參與發(fā)布了一個名為 OASIS 的項目,它是一個以大模型為基座的通用社會模擬平臺,支持多達 100 萬個 Agent 進行交互,我們通過支持大規(guī)模 Agent 的模擬來開展社會模擬研究。例如,在 X 或 Reddit 等海外社交平臺場景中,當部分 Agent 發(fā)表意見后,其他 Agent 會受到何種影響。
另外是環(huán)境相關的內(nèi)容。以剛才提到的 OWL 項目為例,我們讓 Agent 能夠獲取當前瀏覽器上的信息并執(zhí)行操作。實際上,在這之前我們還有一個名為 CRAB 的項目,它是一個跨端項目,可在本地 PC 和手機上執(zhí)行操作,這也是全球首個此類項目。當時,我們還做了一些 Benchmark 來評估多模態(tài)模型的能力。
還有一個我們近期比較專注的方向:利用 Agent 生成合成數(shù)據(jù)。我們認為多智能體系統(tǒng)的構建基于單個智能體,單個智能體的核心在于模型本身,而模型的底層支撐則是數(shù)據(jù)。因此,我們希望從底層出發(fā),通過提升數(shù)據(jù)質(zhì)量來反哺多智能體系統(tǒng)。具體而言,我們可利用 Agent 生成高質(zhì)量的合成數(shù)據(jù),并在 Agent 系統(tǒng)中結合環(huán)境和驗證器等,以提升整體數(shù)據(jù)的生成質(zhì)量。
唐小引:你剛才提到了當前 AI 圈非常關注的幾個 Agent 關鍵命題,其中一個是:Agent 是否存在Scaling Law。我記得,此前智譜在發(fā)布 AutoGLM 時曾明確表示,他們在構建 Agent 系統(tǒng)的過程中發(fā)現(xiàn)了 Scaling Law。那從你的觀察來看,目前國內(nèi)外在做 Agent 開發(fā)時,是否已經(jīng)在這一問題上形成了共識,還是大家仍處于探索期?
范文棟:我個人認為,目前大家整體上還是處于探索階段,還沒有形成非常強的一致性共識。不同的團隊、研究者可能會有不同的看法。
唐小引:那為什么智譜會明確提出 Agent 存在 Scaling Law?
范文棟:可能每個人都有自己的看法。當然,我個人也相信Agent 是有Scaling Law的。
唐小引:你平時除了在 CAMEL AI 團隊工作之外,會關注其他團隊的相關項目嗎?有沒有哪些和你們方向比較相似或完全不同的?
范文棟:我目前大多數(shù)時間還是主要投入在 CAMEL 項目的開發(fā)中,所以像智譜的 AutoGLM,我其實沒有非常深入地了解。不過,我也會定期關注一些其他多智能體框架的進展。
唐小引:如今 AI 圈內(nèi),都在探索從單智能體到多智能體系統(tǒng)的發(fā)展,但不少人指出多智能體面臨著很多困難并難以突破。那么,基于你對多智能體的觀察以及CAMEL AI 團隊實踐的情況,有什么可以分享的嗎?
范文棟:確實,在多智能體系統(tǒng)的開發(fā)過程中,有很多工程層面和研究層面的復雜問題,還可能涉及諸如成本控制等多個維度,許多環(huán)節(jié)都需要進行深度優(yōu)化。
從技術角度來說,搭建一個多智能體系統(tǒng)并不難,但要做得好其實很難——幾乎每個模塊都要去做優(yōu)化。比如,Agent 之間的協(xié)作機制、任務調(diào)度策略、工具調(diào)用流程及 Agent 本身的記憶系統(tǒng)等,要想把這些方面都優(yōu)化到極致,肯定要花很多功夫。
唐小引:你剛才提到,“要做得好其實很難”,這個難度主要體現(xiàn)在哪些方面?你們 CAMEL AI 團隊在這方面的核心實踐又是如何展開的?
范文棟:我打個比方。比如在工具調(diào)用方面,很多人最直觀的做法是:將所有可能被 Agent 調(diào)用的工具,全部添加進 Tool List,然后轉(zhuǎn)換為 OpenAI 的 Schema,再交由大語言模型去完成工具調(diào)用。但實際上,從成本與效益的角度來看,這里有很多優(yōu)化空間。比如,在把所有工具“一股腦”地提供給 Agent 之前,可以先通過語義檢索的方式來篩選工具。如果希望進一步優(yōu)化效果,也可以對用于搜索的 Embedding 模型進行微調(diào)。甚至,你也可以對整個模型進行微調(diào),讓它變成一個在特定工具調(diào)用場景下非常強的模型。
還比如在代碼生成方面,如果我們希望讓 Agent 去寫代碼,其效果很大程度上取決于大模型本身的訓練數(shù)據(jù)質(zhì)量。假設大模型已經(jīng)接觸過大量 NumPy、Pandas 這類成熟庫的使用樣例,那它生成相關代碼可能效果不錯;但如果要讓它寫一些非常小眾的庫,可能就寫不出來了。這時,就需要結合這些小眾庫的數(shù)據(jù),對模型進行針對性的微調(diào)。
在我們的設想中,一個合理的多智能體系統(tǒng),不應該是所有 Agent 共享一個統(tǒng)一的大模型。當然,理論上也可以使用像 Claude 4 這樣非常強大的模型來統(tǒng)一處理所有任務,但成本非常高。對于許多簡單任務,其實只需使用小參數(shù)量的專家模型即可高效完成。所以我們認為,未來的演進方向應該是:不同任務由不同的 Agent 負責,每個 Agent 背后對接不同、特定的模型,每個 Agent 還會接入專屬的工具和知識庫,以此形成一個更加分工明確、組合靈活、成本可控的 Agent 生態(tài)。
“我個人覺得,通用 Agent 一定是存在的”
唐小引:既然談到了模型和工具,讓我想起了 Manus 最早爆火的時候,也引發(fā)了大家對于 Anthropic 在去年發(fā)布的 MCP 的廣泛關注。不過我之前一直有點困惑,因為 Manus 作者明確表示他們并沒有使用 MCP,但 MCP 卻因為 Manus 火了。我之前查看源碼時,發(fā)現(xiàn)其中有涉及 MCP的相關開發(fā),不知道 OWL這邊的情況是怎樣的?
范文棟:我們在剛推出 OWL 時,其實并沒有集成 MCP,但在項目上線后的第五天左右,就加入了對 MCP 的支持。MCP 是一個協(xié)議,它的最大價值在于:開發(fā)者可以通過 MCP 非常方便地接入 MCP 生態(tài)系統(tǒng)中已有的各種工具和服務,這是一個非常好的生態(tài)。
大家都知道,做 Agent 開發(fā)時要接入很多第三方工具,需要做很多適配和重復的開發(fā)工作,把一個工具適配到另一個框架里。而 MCP 作為統(tǒng)一協(xié)議,就很好地解決了這個問題。
目前,我們 CAMEL AI 團隊也在積極擁抱 MCP 生態(tài),計劃將 CAMEL 內(nèi)部已經(jīng)實現(xiàn)的 40 多種常用工具(如搜索、地圖、天氣等相關功能),全部裝進一個 MCP Server 中,方便大家去做外部調(diào)用。
唐小引:那從本質(zhì)上來說,MCP 和 Agent之間的關系是怎樣的?
范文棟:MCP 更多是偏向模型層的一個設計,但由于 Agent 也是基于模型層的,因此也能從中受益。它最大的優(yōu)勢在于:提供了一套統(tǒng)一的協(xié)議和接口,極大簡化了 Agent 的開發(fā)流程,開發(fā)者無需重復造輪子,即可非常便捷地調(diào)用外部那些已接入的MCP Server。
唐小引:今年年初開始,業(yè)內(nèi)有不少聲音提出:2025 年將成為“千 Agent、萬 Agent 大戰(zhàn)”的一年。大家不僅在呼喚通用機器人,也在熱議通用 Agent 的可能性。但關于通用 Agent 是否存在,這其實是一個存在爭議的話題。以 AI Coding 為例,很多人認為通用的 Coding Agent 很難真正實現(xiàn),可能更像是一個美好的幻想。那么,圍繞這個爭議和“通用 Agent”這個話題,你有哪些觀點可以分享嗎?
范文棟:首先,大家確實可以看到在過去一兩年里,市面上陸續(xù)涌現(xiàn)出大量的 Agent 平臺,但不同平臺的切入點有所不同。例如 MetaGPT 更聚焦在 AI Coding領域,通過多智能體協(xié)作完成完整的軟件開發(fā)流程,是一個相對垂直的方向。
而 CAMEL 的定位則更偏向于通用性。我們把 CAMEL 定義為一個通用多智能體框架,雖然我們并沒有針對某些特定的業(yè)務場景去深挖,但我們所構建的工程體系和實踐經(jīng)驗,都為后續(xù)的垂直拓展打下了堅實基礎——開發(fā)者可以用 CAMEL 結合自己的業(yè)務領域去做拓展。
我個人覺得,通用 Agent 一定是存在的。就拿 AI 編碼來說,像 Devin、Cursor 等成功的 Coding Agent 已經(jīng)證明了通用能力的可行性。這些智能體背后的關鍵技術通常包括 RAG,也就是讓 Agent 通過檢索已有的代碼片段,理解上下文后生成新代碼,再整合回當前開發(fā)環(huán)境。簡單來說就是這么一個流程,但它背后依賴的技術也是通用的:就是 Agent + RAG 這一套。
隨著 2025 年 Agent 生態(tài)的爆發(fā),我們可能會看到越來越多的垂直 Agent 項目,但是通用 Agent 一定會作為底層基礎設施而長期存在,并存在著廣泛的優(yōu)化空間。
唐小引:MCP 因 Manus 而迅速走紅,甚至 OpenAI 的 Agent SDK 也支持了 MCP。隨后,雖然 Google 也加入了 MCP 的支持行列,但它還推出了自己的 A2A(Agent-to-Agent)協(xié)議。在此之前,很多人認為 MCP 可能會成為行業(yè)標準,尤其是考慮到許多國內(nèi)的大公司也在采納 MCP。然而,隨著 Google A2A 的推出,現(xiàn)在大家都在比較 MCP 和 A2A,試圖評估兩者間的競爭態(tài)勢。那么從 OWL 的視角來看,Google 的 A2A 是否對 OWL 構成了助力呢?
范文棟:MCP 和 A2A 在本質(zhì)上的切入點有所不同。MCP 已經(jīng)由 Anthropic 成功占據(jù)了一個生態(tài)位,而 Google 可能希望通過 A2A 建立自己的生態(tài)系統(tǒng)。對于任何一種協(xié)議而言,其真正價值在于是否擁有足夠的參與者和一個繁榮的生態(tài)環(huán)境。如果一個協(xié)議參與的人不多、聲音不夠大,它的實際應用價值和影響力也比較有限。
相比之下,A2A 更側(cè)重于統(tǒng)一 Agent 之間的接入范式。無論是對于 OWL 還是 CAMEL 而言,我們都認為這種生態(tài)是非常好的,并且也在積極支持 A2A。
一份面向開發(fā)者的經(jīng)驗總結
唐小引:聽你剛才的分享,我特別有感觸的一點是,AI 技術更迭太快、太容易“過時”了。有些技術發(fā)展很快,比如 AlphaGo 就深深影響了一代人;但也有不少技術還沒真正大火就已經(jīng)“過時”了。像 LangChain,可能有段時間很火,但很多人還沒學透就已經(jīng)意識到它的局限性了。而如今,也有人說傳統(tǒng)的 RAG 已經(jīng)過時,現(xiàn)在是 Agentic RAG 大行其道的時候。
那么作為一個 AI 從業(yè),在學習新技術這件事上,你有沒有一些想法可以分享?
范文棟:AI 的迭代確實非常快。就拿 LangChain 來說,它目前也在不斷迭代,推出了 LangSmith、LangGraph 等新模塊。當然,我自己還沒有花太多時間去深入研究這些更新。
作為開發(fā)者,我認為最核心的一點是要保持充分的學習能力,其次是要有非常強的接納新事物的能力。另外,當一個新的框架或理念出現(xiàn)時,我們也要有一定的辨別能力。有時候一個新Concept看起來熱度很高,實際上不一定有真實價值,可能只是市場營銷的結果。
這種情況下,我們要去了解它底層的原理,判斷它的實際作用,再結合整個技術趨勢來決定是否值得投入時間去深入學習。如果值得,你就應該沉下心來認真研究。只有這樣,我們才能不斷迭代自己的技術體系,讓自己一直站在這個 AI 浪潮的前沿。
唐小引:今年被稱為“Agent 的一年”,對于廣大開發(fā)者,尤其是與你年齡相仿或更年輕的 00 后開發(fā)者來說,如果他們希望投身于 Agent 領域并開展相關開發(fā)工作,你有哪些經(jīng)驗或建議可以分享?
范文棟:對于剛?cè)腴T的學習者來說,我認為從事 Agent 開發(fā),首先應該了解其底層機制,而不是一開始就使用高度抽象化的框架。盡管我們本身也是構建 Agent 框架的團隊,但我還是建議開發(fā)者從模型層面入手,理解模型是如何執(zhí)行工具調(diào)用、記憶系統(tǒng)的工作原理等基礎內(nèi)容,一步步地去學習。如果一開始你就直接依賴高度抽象的框架,可能會在后續(xù)想要深入優(yōu)化或拓展功能時遇到瓶頸。
另外,我知道大家現(xiàn)在用 AI Coding的能力非常強,都在用一些 AI IDE 寫代碼。但我建議大家在使用這些 IDE 寫代碼的時候,要“知其所以然”。對于某些你不理解的代碼片段,一定要去問人,或者問這些 Agent 讓它解釋清楚。千萬不要像最近比較火的“Vibe Coding”——讓 Agent 寫完代碼后,只要程序能跑通就不深究。長此以往,反而會對你的技術成長產(chǎn)生負面影響。
唐小引:你自己是什么時候開始接觸編程的?
范文棟:我敲代碼應該是在讀本科的時候,剛開始學的是C 語言,太難了。
唐小引:那你讀本科到現(xiàn)在有幾年了?
范文棟:差不多十年左右了。
唐小引:哪怕 96 年的開發(fā)者,到現(xiàn)在也有十年編程經(jīng)驗了啊?
范文棟:不過本科的時候,開發(fā)強度很低,只是為了完成學業(yè)。而且那時候?qū)W的語言也比較古早,現(xiàn)在也沒怎么用到。后來學 Python,才開始用得比較多。
唐小引:那現(xiàn)在 OWL 的代碼,有哪些是 AI Coding 來的?
范文棟:CAMEL 做得比較早,那時候 AI Coding 還沒那么興起,很多代碼都是手敲的。但是隨著項目的發(fā)展,我們陸續(xù)加入了一些 AI 輔助功能后,我個人大約有超過 80% 的代碼是通過 AI 生成的。不過生成之后,我會花大量時間進行代碼審查,因為AI 生成的代碼,質(zhì)量需要你自己去把控,而我修改的量大概在 20% 左右。
唐小引:你現(xiàn)在日常已經(jīng)很習慣和 AI Coding 工具一起結對編程了嗎?
范文棟:對,我現(xiàn)在非常習慣這種方式。如果現(xiàn)在去掉 AI Coding 工具,讓我自己手寫,我可能會有點手足無措。
唐小引:但即便如此,你還是會把 AI 生成的代碼詳細地去看,并進行代碼審查,對吧?
范文棟:是的。因為 AI Coding可以做好局部某個點的代碼生成,但如果面對的是結構復雜、層級較多的系統(tǒng)代碼,AI 往往難以理解上下文的完整性,那它給出的可能只是一個局部最優(yōu)解,而不是全局最優(yōu)解。
唐小引:聽了文棟的經(jīng)驗分享,我發(fā)現(xiàn)即便是 96 年的開發(fā)者,也在不斷探索與實踐的過程中積累了豐富的經(jīng)驗,都值得我們借鑒與學習。最后,感謝文棟帶來的精彩分享!
范文棟:好,謝謝大家。
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.