99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<xmp id="ukm3d"><p id="ukm3d"></p></xmp>

<s id="ukm3d"><li id="ukm3d"></li></s>

^{<blockquote id="ukm3d"></blockquote>}

<sub id="ukm3d"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI在「賺錢錦標賽」奪冠，比人類還會做生意！躺賺時代要來了？

2025-05-25 12:54:23　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：LRS

【新智元導讀】Vending-Bench模擬環境可以測試大模型管理自動售貨機的能力，結果顯示，Claude 3.5 Sonnet表現最佳，人類屈居第四！

如何用AI賺錢，可能是這個時代最常見的問題。

有些人選擇用大模型寫小說、寫報告、寫文案等等，但這些場景只是讓模型在執行一些「短期且孤立」的任務。

如果能找到合適的應用場景，比如「用自動駕駛跑網約車」，并且模型還能夠在長時間內保持連貫的輸出，再那豈不是就能躺賺了？

最近，有研究人員提出了一個自動售貨機運營模擬環境Vending-Bench，專門用來測試基于大模型的智能體管理一個簡單、長期運行業務場景的能力。

智能體必須平衡庫存、下訂單、設定價格以及處理日常費用，這些任務單個執行都非常簡單，但綜合起來，在長時間運行（每次運行超過兩千萬個token）的情況下，對大模型持續、連貫決策的能力來說是個很大的挑戰。

論文鏈接： https://arxiv.org/pdf/2502.15840

實驗結果也顯示了不同大模型之間的性能方差很大：Claude 3.5 Sonnet和o3-mini在大多數運行中能很好地管理機器并盈利，但所有模型都出現過運營失誤：

要么是由于誤解配送時間表、忘記訂單，要么是陷入細枝末節的「崩潰」循環，并且很少有模型能解決這些問題，也無法恢復運營。

而且，運營失敗與模型上下文窗口溢出時間沒有明顯的相關性，表明運營失敗并非源于內存限制。

Vending-Bench設計理念

智能體（agent）可以讓生成式AI自主地采取行動來完成指定任務，最簡單的實現方式是「循環」，根據之前的迭代結果和任務目標反復調用工具。

Vending-Bench框架下設計的智能體具有以下特點：

上下文管理：在每次迭代中，智能體都會將歷史記錄中的最后N個（實驗設置為30,000個）token作為輸入傳遞給生成式人工智能進行推理。

記憶工具：智能體可以對三種數據庫（草稿區、鍵值存儲和向量）進行讀取、寫入和刪除，以彌補其記憶能力的限制。其中，向量數據庫基于OpenAI的「text-embedding-3-small」模型計算文本和嵌入向量，并使用余弦相似度進行搜索。

任務相關工具：與自動售貨機業務的運營相關。

一些可以通過遠程操作完成的任務可以直接調用相關工具，比如閱讀和撰寫電子郵件、使用搜索引擎查找產品信息、查看當前的庫存情況以及檢查資金余額等。

對于需要在現實世界中進行物理操作的部分操作，研究人員實現了一個子智能體，模擬了與現實世界中人類的互動，可以完成從倉庫向自動售貨機補充商品、收取現金、設置價格以及獲取自動售貨機的庫存信息。

在技術實現上，研究人員開發了inspect-ai框架的一個擴展模塊，可以讓主智能體將任務委托給子智能體，具體工具包括：

sub_agent_specs：返回子智能體的相關信息，包括可用工具的列表。

run_sub_agent：以字符串形式向子智能體發出指令并執行。

chat_with_sub_agent：向子智能體提問，了解運行過程中完成了什么操作。

系統中也有時間概念，智能體每次采取行動都會推動時間線，也可以選擇使用「wait_for_next_day」工具加速時間流逝。

每天早上，智能體會收到通知，告知購買到哪些商品，以及是否收到了新的電子郵件。

為了成功完成售貨機運營任務，智能體需要做到：

發送電子郵件從供應商處購買商品
將商品補充到自動售貨機中
設置的價格必須在市場上有競爭力
定期收取收入
控制日常運營成本

任務環境還要求智能體模擬人類行為，包括與批發供應商的溝通，以及顧客購買等。

供應商交流

在尋找供應商前，智能體需要使用搜索引擎查找流行的自動售貨機商品，然后尋找地址附近的批發商聯系方式并發送電子郵件，詢問商品信息。

當新的一天開始時，批發商會回復一封由AI生成的電子郵件，回復內容取決于真實數據和請求內容。

決定購買商品后，智能體必須在電子郵件中明確指定要購買的商品名稱和數量、送貨地址以及批發商可以扣款的賬戶號碼。

商品發貨后，幾天就會到達庫存，并收到一封電子郵件通知。

根據預定價格，經濟系統會彈性模擬每天顧客的購買行為，如果商品價格定得過高，銷量就會下降。

環境配置

智能體一開始有500美元的初始資金，并且每天需要支付2美元的費用來運營自動售貨機。

自動售貨機有四排，每排有三個格子，其中兩排用于放置小件商品，另外兩排用于放置大件商品，商品尺寸由GPT-4o在訂購產品時確定。

智能體使用一個工具時，環境中的時間會向前推進5分鐘、25分鐘、75分鐘或5小時，取決于所使用的工具；記憶容量為3萬個token

智能體每天運行2000條消息，如果模型連續10天無法支付每日費用而破產，運營就會提前結束。

評分方法

智能體的主要評分標準是游戲結束時的凈資產，即手頭現金、自動售貨機中尚未取出的現金、已購買但尚未售出的商品的價值。

除了凈資產之外，研究人員還會跟蹤智能體的資金余額、售出的商品數量以及對工具的使用情況。

實驗結果

為了將不同模型的結果與人類表現進行對比，研究人員搭建了一個基于聊天的界面，然后安排了一位人類參與者用五個小時來完成運營任務，參與者在開始之前對任務沒有任何預先了解，僅通過任務提示和與環境的互動來理解任務的運作方式。

每個模型運行五次后，從結果中可以看出，Claude 3.5 Sonnet的凈資產表現最為出色，遙遙領先，而o3-mini則位居第二

在可靠性上，只對模型最差的一次運行進行評估后，發現人類基線表現最好，其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品數量進行的排名通常與凈資產排名一致，但即使是排名靠前的模型，有時也會出現一件商品都賣不出去的情況，凸顯了模型在長周期內的表現波動很大。

研究人員還測量了模型在停滯之前能夠運行的天數，即停止銷售商品的時間。

Claude 3.5 Sonnet在這個指標上排名最高，可以看到如果自動售貨機始終保持有貨，那么運行時間越長，銷售的機會就越多，不過所有模型最終都會停止。

為了更詳細地分析模型在模擬天數上的表現，研究人員主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表現。

當把評估限制在2000條消息，可以發現o3-mini在模擬中持續時間最長，達到了222天。

從圖中陰影部分的不確定性區域（±1個標準差）可以看出，模型在五次運行中都表現出非常高的波動性。

對于所有模型，可以觀察到，隨著時間推移，在大約120天后，每日工具的使用頻率都在下降，其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最為明顯。

工具使用頻率降低通常意味著經濟活動的減少，在凈資產圖表中表現得尤為明顯：o3-mini在初期表現良好，但隨后其凈資產開始停滯甚至下降（沒有銷售且每天仍有費用），與其工具使用頻率的下降模式相似。

相比之下，Gemini 1.5 Pro和GPT-4o在凈資產表現上最差，使用電子郵件功能的頻率也最低。

參考資料：

https://andonlabs.com/evals/vending-bench

https://x.com/emollick/status/1921048218353197470

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型亂試錯、盲調用？KnowSelf讓智能體有「知識邊界感知」能力

機器之心Pro 2025-05-21 16:32:57
0 跟貼 0
首發AI眼鏡專屬大模型，掏出“零級智能體”，李未可連發三款智能眼鏡，799元起

智東西 2025-05-25 16:23:35
4 跟貼 4

論壇報名已啟動，速來鎖定席位！解碼具身智能模型革命

機器之心Pro 2025-05-23 16:23:24
0 跟貼 0

斯坦福團隊開發AI數據提取框架，為能源領域數據獲取難題提供方案

DeepTech深科技 2025-05-24 22:20:14
0 跟貼 0
10分鐘教你機器學習建模的6大步驟

醫咖會 2025-03-14 19:53:09
0 跟貼 0

統計可控數據合成！新框架突破大模型數據生成局限

量子位 2025-05-25 13:14:30
0 跟貼 0

騰訊推出Agent開發工具，來搶字節阿里的B端客戶

財天COVER 2025-05-23 13:54:02
2 跟貼 2
DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？

量子位 2025-03-04 20:07:47
0 跟貼 0

19歲少年「破解」谷歌新AI？每秒1479 token，擴散再戰GPT!

新智元 2025-05-23 18:15:53
0 跟貼 0
騰訊首個全模態模型混元O將發布，正面硬剛DeepSeek和字節豆包｜AGI獨家

鈦媒體APP 2025-05-25 11:53:11
16 跟貼 16
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
AI智能體獨立搞科研：2.5個月找到新療法填補人類盲區

財聯社 2025-05-25 12:08:13
0 跟貼 0
打破思維鏈推理瓶頸！“軟推理”讓大模型學會人類抽象能力

量子位 2025-05-24 12:53:47
1 跟貼 1
對話創始人兼CEO茹憶：為什么說李未可是一家AI公司？

智東西 2025-05-25 17:39:06
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
ChatGPT日耗50萬度，數據中心等電恐排隊7年，AI“電荒”倒逼美國核能產業或迎50年來最大拐點

每日經濟新聞 2025-05-25 17:50:04
2 跟貼 2
AI攻擊變異率每24小時達93% 全球AI安全損失逼近235億美元：攻防博弈如何破局？

每日經濟新聞 2025-05-25 16:29:08
0 跟貼 0
最強編碼模型Claude4，24小時暢玩寶可夢

量子位 2025-05-23 19:24:47
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
解決擴展和遷移難題，華為新加坡提出InstructRAG，提升高達19%

機器之心Pro 2025-05-23 15:47:21
1 跟貼 1
原來布達拉宮腳下真有地宮，模型可以看清地宮構造，真的太神奇！

愛搞笑的圖圖 2025-05-21 12:54:55
96 跟貼 96
李工，私藏、閱看有嚴重政治問題的書籍

新京報 2025-05-25 12:42:06
39226 跟貼 39226
殲-10CE模型在海外被圍觀，周錫瑋：大陸空中預警機也備受關注

海峽導報社 2025-05-23 17:46:35
0 跟貼 0
國產瀏覽器，終于放下「門戶網站」的殘念，徹底擁抱 AI

愛范兒 2025-05-23 17:59:22
1 跟貼 1
用什么武器能摧毀自動售貨機

壹說軍武 2025-05-24 12:47:37
0 跟貼 0
安義引入江西首臺疫苗儲發機器人，接種流程智能升級！

江西都市現場 2025-05-24 10:26:01
0 跟貼 0
亮點實在太多，L9空懸只占驚喜的1/5？理想汽車智能煥新版

蝸牛車志V 2025-05-23 11:55:21
0 跟貼 0
杜克大學陳怡然：大學培養的是初級工程師，而AI時代可能只需要資深工程師

搜狐科技 2025-05-25 16:14:15
2 跟貼 2
35歲程序員失業？真相來了！這行真不靠青春吃飯！

城事精選 2025-05-25 14:02:48
6 跟貼 6
開MPV能“偷懶”？傳祺向往M8乾崑版輔助駕駛+智能泊車實測！

汽車鵬友 2025-05-22 10:53:59
3 跟貼 3
這道題可不是常見的0+0=0的模型，那該怎么做呢？

三樂大掌柜 2025-05-23 23:19:53
1 跟貼 1
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
美國政府暫停哈佛大學招收國際學生資格

央視新聞客戶端 2025-05-23 07:05:20
13614 跟貼 13614
蘇州市公積金中心與支付寶簽訂合作協議，共同創新打造MCP協議多模智能體

現代快報 2025-05-23 22:42:17
0 跟貼 0
山東動物園內灰鶴誤入虎園被七只老虎搶食

新京報 2025-05-25 18:26:30
130 跟貼 130
005號航母模型曝光，排水量或將迎來升級，超越福建艦

深度解析熱點 2025-05-23 02:36:19
0 跟貼 0
全都是毛時代的極品圖片，很少見！

深度報 2025-05-23 15:01:48
11047 跟貼 11047
給雞鍛煉身體的機器

靈犬影視 2025-05-21 09:14:07
1 跟貼 1
機器按壓鐵樁，這個到底有著什么作用呢？

六個小鈴鐺 2025-05-21 12:32:14
1 跟貼 1
如果臺北市議員黃瀞瑩來大陸能活幾集？

ConfusionMax 2025-05-25 08:27:48
10970 跟貼 10970

46歲鄧超打球被偶遇，穿8000元科比鞋眼皮耷拉肌肉下垂老年味重

46歲鄧超打球被偶遇，穿8000元科比鞋眼皮耷拉肌肉下垂老年味重

悠閑歷史

2025-05-25 18:21:09

騙了全世界！王曼昱極限回球擦邊，媒體搶發“祝賀孫穎莎奪冠”

騙了全世界！王曼昱極限回球擦邊，媒體搶發“祝賀孫穎莎奪冠”

直播吧

2025-05-25 19:36:07

4-0，馬競攬76分獲西甲季軍，阿爾瓦雷斯妙傳，瑟洛特無敵三響炮

4-0，馬競攬76分獲西甲季軍，阿爾瓦雷斯妙傳，瑟洛特無敵三響炮

側身凌空斬

2025-05-25 21:55:27

官媒發文批評！朱媛媛去世僅一周，最令人心寒一幕出現了

官媒發文批評！朱媛媛去世僅一周，最令人心寒一幕出現了

頭號劇委會

2025-05-24 20:48:17

投資180萬開業7天被舉報，“大門”不讓開，老板：干不下去了

投資180萬開業7天被舉報，“大門”不讓開，老板：干不下去了

瀟湘晨報

2025-05-24 22:17:09

沃爾瑪慌了

中國新聞周刊

2025-05-25 15:11:23

上海一男子太心痛！價值50萬元信鴿翅膀全被剪了……

上海一男子太心痛！價值50萬元信鴿翅膀全被剪了……

環球網資訊

2025-05-25 22:03:43

中美，最新通話！美國關稅，大消息！利好來了，國常會審議通過！重要指數調整！影響一周市場的十大消息

中美，最新通話！美國關稅，大消息！利好來了，國常會審議通過！重要指數調整！影響一周市場的十大消息

證券時報

2025-05-25 18:45:12

剛剛！馬斯克，突爆大消息！

證券時報

2025-05-25 10:35:09

上海一美女街頭車震被捉奸，擦拭紙巾扔一地，丈夫一句話信息量大

上海一美女街頭車震被捉奸，擦拭紙巾扔一地，丈夫一句話信息量大

博士觀察

2025-05-25 11:45:09

20歲少女影院賣淫，擦拭紙巾扔一地，價格曝光：顧客多為50歲男子

20歲少女影院賣淫，擦拭紙巾扔一地，價格曝光：顧客多為50歲男子

博士觀察

2025-05-24 14:55:47

688041、603019，兩大半導體巨頭擬合并！明起停牌！

688041、603019，兩大半導體巨頭擬合并！明起停牌！

證券時報e公司

2025-05-25 20:29:12

哈佛4年追蹤1000人發現：每天一粒維生素D，生物年齡倒退3歲！

哈佛4年追蹤1000人發現：每天一粒維生素D，生物年齡倒退3歲！

徐德文科學頻道

2025-05-24 15:58:43

別拿生命去發生性關系！有的人已經瘋狂

別拿生命去發生性關系！有的人已經瘋狂

17譚

2025-05-25 15:16:42

受到黨內嚴重警告兩年后，85后謝勤擬獲提拔

受到黨內嚴重警告兩年后，85后謝勤擬獲提拔

澎湃新聞

2025-05-25 14:46:27

汽車圈的恒大已經出現，資產負債率最高的達到96%

汽車圈的恒大已經出現，資產負債率最高的達到96%

鵬哥投研

2025-05-25 09:38:29

央視曝光！成本2元，卻賣到19800元，不少人被騙，趕緊別用了

央視曝光！成本2元，卻賣到19800元，不少人被騙，趕緊別用了

侃侃娛季

2025-05-22 10:05:24

印度旅游團來上海旅游，落地的瞬間，一個個眉頭緊鎖卻又目瞪口呆

印度旅游團來上海旅游，落地的瞬間，一個個眉頭緊鎖卻又目瞪口呆

說說史事

2025-05-23 17:51:54

王曼昱/蒯曼橫掃奪世乒賽冠軍！全場異常輕松，僅用時21分鐘！

王曼昱/蒯曼橫掃奪世乒賽冠軍！全場異常輕松，僅用時21分鐘！

籃球資訊達人

2025-05-25 22:04:07

俄羅斯防空系統誤將俄機當敵機，連續打爆已方兩架飛機

俄羅斯防空系統誤將俄機當敵機，連續打爆已方兩架飛機

史政先鋒

2025-05-25 19:31:31

AI產業主平臺領航智能+時代

12764文章數 66043關注度

往期回顧全部

科技要聞

馬斯克宣布回歸7x24小時工作狀態

頭條要聞

媒體：王楚欽成世乒賽新王證明自己無需向誰解釋

頭條要聞

媒體：王楚欽成世乒賽新王證明自己無需向誰解釋

體育要聞

武漢女足：從大學校園，到亞洲之巔

娛樂要聞

朱媛媛只留給女兒一句話，卻字字千金

財經要聞

重組膠原測不到膠原？800億醫美巨頭回應

汽車要聞

賽博風旗艦轎車全新小鵬P7申報信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

本地

時尚

藝術

教育

房產要聞

連續17次提前交付！海口這座頂流紅盤，業主贏麻了！

本地新聞

巴黎沒有倍兒甜，但天津巧克力腦袋倍兒多

這四條半身裙，現在穿正好！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

教育要聞

如果你使用直接代入的方式來解題，你會陷入誤區

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：石门县| 宁南县| 渝中区| 桦南县| 阳西县| 昌黎县| 临湘市| 托克托县| 新蔡县| 广南县| 云林县| 连江县| 施秉县| 达日县| 墨玉县| 会同县| 大厂| 曲麻莱县| 江津市| 垫江县| 钟祥市| 确山县| 交口县| 正定县| 曲麻莱县| 信宜市| 高安市| 大安市| 鸡泽县| 元阳县| 神农架林区| 遵义县| 华安县| 扎兰屯市| 萝北县| 连南| 潼南县| 清水河县| 娄底市| 澜沧| 湘潭市|

<em id="5y3lg"></em>

<center id="5y3lg"><input id="5y3lg"></input></center>

<sup id="5y3lg"></sup>

<style id="5y3lg"></style>

<sub id="5y3lg"></sub><sub id="5y3lg"></sub>