編譯 | 核子可樂、Tina
本周,初創(chuàng)公司 Browser Use 宣布完成 1700 萬美元融資,由 Felicis Ventures 領(lǐng)投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
不少公司已經(jīng)在嘗試開發(fā)智能體工具來自動(dòng)處理各類在線任務(wù)。Browser Use 就是其中之一。這款由 AI 大模型驅(qū)動(dòng)的瀏覽器自動(dòng)化代理,僅靠?jī)擅麆?chuàng)始人,從構(gòu)想到在 Hacker News 上發(fā)布,僅用了四天,然后在短短幾個(gè)月里拿下 1,700 萬美元融資。更令人驚訝的是,這個(gè)項(xiàng)目的核心,僅僅是 8000 行開源代碼。
兩名學(xué)生,
從構(gòu)想到發(fā)布僅用了 4 天
這家公司是“閃電創(chuàng)業(yè)”,從零開始,在幾個(gè)月的時(shí)間里迅速崛起。
Browser Use 的故事始于蘇黎世聯(lián)邦理工學(xué)院的學(xué)生項(xiàng)目之家加速器,這是 Gregor Zunic 和 Magnus Müller 的創(chuàng)意。Müller 本人一直致力于網(wǎng)絡(luò)抓取工具的研究,并于 2024 年結(jié)識(shí)了?uni?,當(dāng)時(shí)二人正在攻讀數(shù)據(jù)科學(xué)碩士學(xué)位。
互聯(lián)網(wǎng)作為世界上最大的非結(jié)構(gòu)化信息來源,對(duì)于 AI 代理而言,其“可讀性”至關(guān)重要。網(wǎng)絡(luò)信息不斷更新,使其成為新鮮信息的重要來源。然而,對(duì)于 AI 代理來說,瀏覽網(wǎng)頁并非易事,需要完成移動(dòng)鼠標(biāo)光標(biāo)、點(diǎn)擊按鈕、填寫表格等復(fù)雜任務(wù)。
目前,AI 代理領(lǐng)域正迅速升溫,吸引了大型科技公司和創(chuàng)新型初創(chuàng)公司的紛紛入局:
OpenAI 的 Operator,于 2025 年 1 月發(fā)布,面向 ChatGPT Pro 訂閱用戶($200/ 月),專注于消費(fèi)級(jí) Web 自動(dòng)化
Convergence 的 Proxy,于 2024 年 12 月發(fā)布,英國(guó)初創(chuàng)公司,提供免費(fèi)試用(每天 5 次會(huì)話),或 $20/ 月的無限訪問
Google 的 Project Mariner,仍處于預(yù)覽測(cè)試階段,用戶需加入候補(bǔ)名單申請(qǐng)?jiān)L問
Anthropic 的 Computer Use,于 2024 年 10 月發(fā)布, 預(yù)計(jì)將很快發(fā)布更新
Microsoft 的 OmniParser V2,于 2025 年 2 月發(fā)布,是一個(gè)開源項(xiàng)目,用于將 UI 截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使 LLM 能夠更好地解析和交互網(wǎng)頁
然而,Magnus Müller 認(rèn)為,當(dāng)前大多數(shù) AI 代理依賴于基于計(jì)算機(jī)視覺的方法來“觀察”和瀏覽網(wǎng)頁,這種方法存在速度慢、成本高,且效果不穩(wěn)定的問題。
“許多代理依賴于視覺系統(tǒng),試圖通過屏幕截圖來理解網(wǎng)站,但這種方式常常出現(xiàn)問題。”他解釋道,“我們將網(wǎng)站轉(zhuǎn)化為代理能夠理解的結(jié)構(gòu)化內(nèi)容。這意味著我們可以以更低的成本重復(fù)執(zhí)行相同的任務(wù)。”
簡(jiǎn)單來說,Browser Use 的核心技術(shù)是將每個(gè)網(wǎng)站轉(zhuǎn)化為大型語言模型能夠以確定性方式處理的結(jié)構(gòu)化文本。通過這種方式,AI 代理可以準(zhǔn)確理解每個(gè)網(wǎng)頁上的可用選項(xiàng),從而更輕松地做出決策。這家初創(chuàng)公司聲稱,其技術(shù)能夠顯著提升 AI 代理的網(wǎng)頁瀏覽速度和 UI 交互的精確度。
Müller 回憶,他們對(duì)現(xiàn)有技術(shù)的深刻反思,催生了將網(wǎng)絡(luò)抓取與數(shù)據(jù)科學(xué)相結(jié)合,以提升 AI 代理網(wǎng)頁任務(wù)執(zhí)行能力的創(chuàng)新想法。這成為了 Browser Use 技術(shù)發(fā)展的最初起點(diǎn)。
最初,Browser Use 還只是一個(gè)周末實(shí)驗(yàn),聯(lián)合創(chuàng)始人 Gregor ?uni? 曾在 X 上分享道:“我們的初衷是探索大模型能否像人類一樣瀏覽網(wǎng)頁。令人驚喜的是,僅僅四天,我們就構(gòu)建了一個(gè)初始原型,并將其發(fā)布在了 Hacker News 上。”
?uni? 透露,這個(gè)想法最初源于一次午餐時(shí)的頭腦風(fēng)暴,但很快被他們視為值得一試的研究方向:“我們可以先構(gòu)建一個(gè)原型,放在 Hacker News 上,看看社區(qū)的反饋?!?沒想到,原型發(fā)布后獲得了熱烈反響,這促使兩位創(chuàng)始人迅速成立公司,幾個(gè)月后便通過 Y Combinator 加速器獲得了早期融資。
火爆似乎純屬偶然?!
Browser Use 目前有兩個(gè)版本,一個(gè)是 Cloud Version,相比 OpenAI 的 Operator($200/ 月),Browser Use 的定價(jià)僅為 $30/ 月。一個(gè)是開源版本,免費(fèi)并兼容多個(gè) LLM 模型,包括 Gemini、Sonnet、Qwen 以及 DeepSeek-R1,并采用 MIT 許可。
有網(wǎng)友指出,這個(gè)項(xiàng)目?jī)H有約 8000 行代碼。從 GitHub 來看,該項(xiàng)目主要采用 Python 編寫,其中 8.2% 的代碼為 JavaScript。例如,較長(zhǎng)的服務(wù)文件 service.py 有 1239 行代碼,而用于構(gòu)建 DomTree 的文件,含 1072 行 JS 代碼。
Browser Use 在本質(zhì)上是將網(wǎng)站的按鈕和元素拆分成更易于智能體理解的“類文本”格式,這有助于智能體理解不同選項(xiàng)并自主做出決策。它能夠提取網(wǎng)站中的元素(按鈕、小部件等),讓 AI 模型與 Web 內(nèi)容交互。該工具可以管理多個(gè)瀏覽器選項(xiàng)卡,設(shè)置保存文件和執(zhí)行數(shù)據(jù)庫(kù)操作等,同時(shí)支持鼠標(biāo)與鍵盤輸入。
由于 Browser Use 基于網(wǎng)絡(luò)爬取,它的功能里還包括應(yīng)對(duì)爬蟲相關(guān)挑戰(zhàn)的部分。網(wǎng)站內(nèi)容的頻繁變動(dòng)可能導(dǎo)致自動(dòng)化腳本失效,而這通常是在問題發(fā)生后才被發(fā)現(xiàn)。與此同時(shí),許多網(wǎng)站會(huì)采用防爬蟲措施,要求用戶更換 IP、解決驗(yàn)證碼,并模擬人類行為以避免封禁。此外,使用 LLM 進(jìn)行網(wǎng)頁抓取時(shí),還可能遇到速率限制、解析錯(cuò)誤以及 API 密鑰管理等問題。而在執(zhí)行有價(jià)值的任務(wù)時(shí),用戶通常需要頻繁登錄,輸入用戶名和密碼,這對(duì)許多人來說也是一個(gè)困擾。
為了解決這些問題,Browser Use 提供了代理輪換功能,幫助用戶避免 IP 被封禁,并支持持久會(huì)話,確保用戶僅需登錄一次即可持續(xù)使用。
他們的發(fā)布略晚于 OpenAI Operator,但根據(jù)他們的自述,Browser Use 在 WebVoyager 基準(zhǔn)測(cè)試中取得了 89.1% 的成功率,覆蓋了 586 項(xiàng)不同的網(wǎng)頁任務(wù),高于 OpenAI Operator 的 87%。
目前,這個(gè)開源項(xiàng)目已有 50,000 個(gè) GitHub 星星,也是增長(zhǎng)最快的開源 AI 項(xiàng)目之一。
值得注意的是,Browser Use 的走紅似乎也帶有一定的偶然性。
其中一次爆發(fā)式增長(zhǎng),是在 AI 智能體平臺(tái) Manus 宣布推出的時(shí)候。當(dāng)時(shí)一篇關(guān)于 Manus 使用 Browser Use 的帖子在 X 上獲得了超 240 萬瀏覽量和大量轉(zhuǎn)發(fā)。Browser Use 成為 Manus 用于執(zhí)行各類任務(wù)的組合之一,例如點(diǎn)擊網(wǎng)站菜單和填寫表格。
這讓 Browser Use 的產(chǎn)品日均下載量從 3 月 3 日的約 5000 次增長(zhǎng)至 3 月 10 日的 2.8 萬次,一周內(nèi)增長(zhǎng)超過五倍。這次爆發(fā)式增長(zhǎng),使 Browser Use 迅速成為行業(yè)焦點(diǎn)。。
“那幾天簡(jiǎn)直是瘋狂?!?uni?回憶道,“我們成為了 GitHub 上最熱門的代碼倉(cāng)庫(kù),下載量和用戶轉(zhuǎn)化率都達(dá)到了前所未有的高度?!?/p>
“我們的愿景是打造一個(gè)基礎(chǔ)層,讓開發(fā)者能夠在此之上構(gòu)建瀏覽器智能體。我們相信,到今年年底,Web 上的智能體數(shù)量將超過全球人口?!?uni?展望道。
這聽起來可能過于樂觀,但部分分析師預(yù)測(cè),未來幾個(gè)月 AI 智能體的市場(chǎng)確實(shí)會(huì)迎來大幅增長(zhǎng)。根據(jù) Research and Markets 公布的數(shù)據(jù),該行業(yè)有望在 2029 年達(dá)到 420 億美元。德勤則預(yù)計(jì),到 2027 年,將有半數(shù)使用 AI 方案的企業(yè)部署 AI 智能體。
根據(jù) Felicis Ventures 投資人 Astasia Myers 的說法,該公司過去幾年來一直在積極關(guān)注 AI 智能體領(lǐng)域,而 Browser Use 似乎是擴(kuò)大該公司投資組合的絕佳機(jī)會(huì)。她強(qiáng)調(diào)稱,之所以決定出手資助,也是看中了 Browser Use 優(yōu)秀的創(chuàng)始團(tuán)隊(duì)及其開源優(yōu)先的指導(dǎo)思想。
Myers 在采訪中總結(jié)道,“我們認(rèn)為 Web AI 智能體將成為下一個(gè)真正有助于實(shí)現(xiàn)端到端自動(dòng)化人工任務(wù)的前沿。Web AI 智能體將成為靜態(tài)預(yù)訓(xùn)練大模型之間的動(dòng)態(tài)橋梁,幫助這些模型在不斷變化的數(shù)字環(huán)境中始終堅(jiān)持以文本為學(xué)習(xí)中心?!?/p>
https://www.ycombinator.com/companies/browser-use
https://venturebeat.com/ai/the-rise-of-browser-use-agents-why-convergences-proxy-is-beating-openais-operator/
https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/
聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議推薦
在 AI 大模型重塑軟件開發(fā)的時(shí)代,我們?nèi)绾伟盐兆兏??如何突破技術(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會(huì)· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無限可能。
本次大會(huì)將匯聚頂尖技術(shù)專家、創(chuàng)新實(shí)踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實(shí)踐經(jīng)驗(yàn),深度參與 DeepSeek 主題圓桌,洞見未來趨勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.