99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI在「賺錢錦標賽」奪冠,比人類還會做生意!躺賺時代要來了?

0
分享至


新智元報道

編輯:LRS

【新智元導讀】Vending-Bench模擬環境可以測試大模型管理自動售貨機的能力,結果顯示,Claude 3.5 Sonnet表現最佳,人類屈居第四!

如何用AI賺錢,可能是這個時代最常見的問題。

有些人選擇用大模型寫小說、寫報告、寫文案等等,但這些場景只是讓模型在執行一些「短期且孤立」的任務。

如果能找到合適的應用場景,比如「用自動駕駛跑網約車」,并且模型還能夠在長時間內保持連貫的輸出,再那豈不是就能躺賺了?

最近,有研究人員提出了一個自動售貨機運營模擬環境Vending-Bench,專門用來測試基于大模型的智能體管理一個簡單、長期運行業務場景的能力。

智能體必須平衡庫存、下訂單、設定價格以及處理日常費用,這些任務單個執行都非常簡單,但綜合起來,在長時間運行(每次運行超過兩千萬個token)的情況下,對大模型持續、連貫決策的能力來說是個很大的挑戰。


論文鏈接: https://arxiv.org/pdf/2502.15840

實驗結果也顯示了不同大模型之間的性能方差很大:Claude 3.5 Sonnet和o3-mini在大多數運行中能很好地管理機器并盈利,但所有模型都出現過運營失誤:

要么是由于誤解配送時間表、忘記訂單,要么是陷入細枝末節的「崩潰」循環,并且很少有模型能解決這些問題,也無法恢復運營。


而且,運營失敗與模型上下文窗口溢出時間沒有明顯的相關性,表明運營失敗并非源于內存限制。

Vending-Bench設計理念

智能體(agent)可以讓生成式AI自主地采取行動來完成指定任務,最簡單的實現方式是「循環」,根據之前的迭代結果和任務目標反復調用工具。


Vending-Bench框架下設計的智能體具有以下特點:

上下文管理:在每次迭代中,智能體都會將歷史記錄中的最后N個(實驗設置為30,000個)token作為輸入傳遞給生成式人工智能進行推理。

記憶工具:智能體可以對三種數據庫(草稿區、鍵值存儲和向量)進行讀取、寫入和刪除,以彌補其記憶能力的限制。其中,向量數據庫基于OpenAI的「text-embedding-3-small」模型計算文本和嵌入向量,并使用余弦相似度進行搜索。

任務相關工具:與自動售貨機業務的運營相關。

一些可以通過遠程操作完成的任務可以直接調用相關工具,比如閱讀和撰寫電子郵件、使用搜索引擎查找產品信息、查看當前的庫存情況以及檢查資金余額等。

對于需要在現實世界中進行物理操作的部分操作,研究人員實現了一個子智能體,模擬了與現實世界中人類的互動,可以完成從倉庫向自動售貨機補充商品、收取現金、設置價格以及獲取自動售貨機的庫存信息。

在技術實現上,研究人員開發了inspect-ai框架的一個擴展模塊,可以讓主智能體將任務委托給子智能體,具體工具包括:

sub_agent_specs:返回子智能體的相關信息,包括可用工具的列表。

run_sub_agent:以字符串形式向子智能體發出指令并執行。

chat_with_sub_agent:向子智能體提問,了解運行過程中完成了什么操作。

系統中也有時間概念,智能體每次采取行動都會推動時間線,也可以選擇使用「wait_for_next_day」工具加速時間流逝。

每天早上,智能體會收到通知,告知購買到哪些商品,以及是否收到了新的電子郵件。

為了成功完成售貨機運營任務,智能體需要做到:

  • 發送電子郵件從供應商處購買商品

  • 將商品補充到自動售貨機中

  • 設置的價格必須在市場上有競爭力

  • 定期收取收入

  • 控制日常運營成本

任務環境還要求智能體模擬人類行為,包括與批發供應商的溝通,以及顧客購買等。

供應商交流


在尋找供應商前,智能體需要使用搜索引擎查找流行的自動售貨機商品,然后尋找地址附近的批發商聯系方式并發送電子郵件,詢問商品信息。

當新的一天開始時,批發商會回復一封由AI生成的電子郵件,回復內容取決于真實數據和請求內容。

決定購買商品后,智能體必須在電子郵件中明確指定要購買的商品名稱和數量、送貨地址以及批發商可以扣款的賬戶號碼。

商品發貨后,幾天就會到達庫存,并收到一封電子郵件通知。

根據預定價格,經濟系統會彈性模擬每天顧客的購買行為,如果商品價格定得過高,銷量就會下降。

環境配置

智能體一開始有500美元的初始資金,并且每天需要支付2美元的費用來運營自動售貨機。

自動售貨機有四排,每排有三個格子,其中兩排用于放置小件商品,另外兩排用于放置大件商品,商品尺寸由GPT-4o在訂購產品時確定。

智能體使用一個工具時,環境中的時間會向前推進5分鐘、25分鐘、75分鐘或5小時,取決于所使用的工具;記憶容量為3萬個token

智能體每天運行2000條消息,如果模型連續10天無法支付每日費用而破產,運營就會提前結束。

評分方法

智能體的主要評分標準是游戲結束時的凈資產,即手頭現金、自動售貨機中尚未取出的現金、已購買但尚未售出的商品的價值。

除了凈資產之外,研究人員還會跟蹤智能體的資金余額、售出的商品數量以及對工具的使用情況。

實驗結果

為了將不同模型的結果與人類表現進行對比,研究人員搭建了一個基于聊天的界面,然后安排了一位人類參與者用五個小時來完成運營任務,參與者在開始之前對任務沒有任何預先了解,僅通過任務提示和與環境的互動來理解任務的運作方式。


每個模型運行五次后,從結果中可以看出,Claude 3.5 Sonnet的凈資產表現最為出色,遙遙領先,而o3-mini則位居第二

在可靠性上,只對模型最差的一次運行進行評估后,發現人類基線表現最好,其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品數量進行的排名通常與凈資產排名一致,但即使是排名靠前的模型,有時也會出現一件商品都賣不出去的情況,凸顯了模型在長周期內的表現波動很大。

研究人員還測量了模型在停滯之前能夠運行的天數,即停止銷售商品的時間。

Claude 3.5 Sonnet在這個指標上排名最高,可以看到如果自動售貨機始終保持有貨,那么運行時間越長,銷售的機會就越多,不過所有模型最終都會停止。

為了更詳細地分析模型在模擬天數上的表現,研究人員主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表現。


當把評估限制在2000條消息,可以發現o3-mini在模擬中持續時間最長,達到了222天。

從圖中陰影部分的不確定性區域(±1個標準差)可以看出,模型在五次運行中都表現出非常高的波動性。


對于所有模型,可以觀察到,隨著時間推移,在大約120天后,每日工具的使用頻率都在下降,其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最為明顯。

工具使用頻率降低通常意味著經濟活動的減少,在凈資產圖表中表現得尤為明顯:o3-mini在初期表現良好,但隨后其凈資產開始停滯甚至下降(沒有銷售且每天仍有費用),與其工具使用頻率的下降模式相似。

相比之下,Gemini 1.5 Pro和GPT-4o在凈資產表現上最差,使用電子郵件功能的頻率也最低。

參考資料:

https://andonlabs.com/evals/vending-bench

https://x.com/emollick/status/1921048218353197470

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
46歲鄧超打球被偶遇,穿8000元科比鞋 眼皮耷拉肌肉下垂老年味重

46歲鄧超打球被偶遇,穿8000元科比鞋 眼皮耷拉肌肉下垂老年味重

悠閑歷史
2025-05-25 18:21:09
騙了全世界!王曼昱極限回球擦邊,媒體搶發“祝賀孫穎莎奪冠”

騙了全世界!王曼昱極限回球擦邊,媒體搶發“祝賀孫穎莎奪冠”

直播吧
2025-05-25 19:36:07
4-0,馬競攬76分獲西甲季軍,阿爾瓦雷斯妙傳,瑟洛特無敵三響炮

4-0,馬競攬76分獲西甲季軍,阿爾瓦雷斯妙傳,瑟洛特無敵三響炮

側身凌空斬
2025-05-25 21:55:27
官媒發文批評!朱媛媛去世僅一周,最令人心寒一幕出現了

官媒發文批評!朱媛媛去世僅一周,最令人心寒一幕出現了

頭號劇委會
2025-05-24 20:48:17
投資180萬開業7天被舉報,“大門”不讓開,老板:干不下去了

投資180萬開業7天被舉報,“大門”不讓開,老板:干不下去了

瀟湘晨報
2025-05-24 22:17:09
沃爾瑪慌了

沃爾瑪慌了

中國新聞周刊
2025-05-25 15:11:23
上海一男子太心痛!價值50萬元信鴿翅膀全被剪了……

上海一男子太心痛!價值50萬元信鴿翅膀全被剪了……

環球網資訊
2025-05-25 22:03:43
中美,最新通話!美國關稅,大消息!利好來了,國常會審議通過!重要指數調整!影響一周市場的十大消息

中美,最新通話!美國關稅,大消息!利好來了,國常會審議通過!重要指數調整!影響一周市場的十大消息

證券時報
2025-05-25 18:45:12
剛剛!馬斯克,突爆大消息!

剛剛!馬斯克,突爆大消息!

證券時報
2025-05-25 10:35:09
上海一美女街頭車震被捉奸,擦拭紙巾扔一地,丈夫一句話信息量大

上海一美女街頭車震被捉奸,擦拭紙巾扔一地,丈夫一句話信息量大

博士觀察
2025-05-25 11:45:09
20歲少女影院賣淫,擦拭紙巾扔一地,價格曝光:顧客多為50歲男子

20歲少女影院賣淫,擦拭紙巾扔一地,價格曝光:顧客多為50歲男子

博士觀察
2025-05-24 14:55:47
688041、603019,兩大半導體巨頭擬合并!明起停牌!

688041、603019,兩大半導體巨頭擬合并!明起停牌!

證券時報e公司
2025-05-25 20:29:12
哈佛4年追蹤1000人發現:每天一粒維生素D,生物年齡倒退3歲!

哈佛4年追蹤1000人發現:每天一粒維生素D,生物年齡倒退3歲!

徐德文科學頻道
2025-05-24 15:58:43
別拿生命去發生性關系!有的人已經瘋狂

別拿生命去發生性關系!有的人已經瘋狂

17譚
2025-05-25 15:16:42
受到黨內嚴重警告兩年后,85后謝勤擬獲提拔

受到黨內嚴重警告兩年后,85后謝勤擬獲提拔

澎湃新聞
2025-05-25 14:46:27
汽車圈的恒大已經出現,資產負債率最高的達到96%

汽車圈的恒大已經出現,資產負債率最高的達到96%

鵬哥投研
2025-05-25 09:38:29
央視曝光!成本2元,卻賣到19800元,不少人被騙,趕緊別用了

央視曝光!成本2元,卻賣到19800元,不少人被騙,趕緊別用了

侃侃娛季
2025-05-22 10:05:24
印度旅游團來上海旅游,落地的瞬間,一個個眉頭緊鎖卻又目瞪口呆

印度旅游團來上海旅游,落地的瞬間,一個個眉頭緊鎖卻又目瞪口呆

說說史事
2025-05-23 17:51:54
王曼昱/蒯曼橫掃奪世乒賽冠軍!全場異常輕松,僅用時21分鐘!

王曼昱/蒯曼橫掃奪世乒賽冠軍!全場異常輕松,僅用時21分鐘!

籃球資訊達人
2025-05-25 22:04:07
俄羅斯防空系統誤將俄機當敵機,連續打爆已方兩架飛機

俄羅斯防空系統誤將俄機當敵機,連續打爆已方兩架飛機

史政先鋒
2025-05-25 19:31:31
2025-05-25 22:55:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12764文章數 66043關注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時工作狀態

頭條要聞

媒體:王楚欽成世乒賽新王 證明自己無需向誰解釋

頭條要聞

媒體:王楚欽成世乒賽新王 證明自己無需向誰解釋

體育要聞

武漢女足:從大學校園,到亞洲之巔

娛樂要聞

朱媛媛只留給女兒一句話,卻字字千金

財經要聞

重組膠原測不到膠原?800億醫美巨頭回應

汽車要聞

賽博風旗艦轎車 全新小鵬P7申報信息曝光

態度原創

房產
本地
時尚
藝術
教育

房產要聞

連續17次提前交付!海口這座頂流紅盤,業主贏麻了!

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

這四條半身裙,現在穿正好!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

如果你使用直接代入的方式來解題,你會陷入誤區

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石门县| 宁南县| 渝中区| 桦南县| 阳西县| 昌黎县| 临湘市| 托克托县| 新蔡县| 广南县| 云林县| 连江县| 施秉县| 达日县| 墨玉县| 会同县| 大厂| 曲麻莱县| 江津市| 垫江县| 钟祥市| 确山县| 交口县| 正定县| 曲麻莱县| 信宜市| 高安市| 大安市| 鸡泽县| 元阳县| 神农架林区| 遵义县| 华安县| 扎兰屯市| 萝北县| 连南| 潼南县| 清水河县| 娄底市| 澜沧| 湘潭市|