99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

紅杉中國,準備這樣預測下一個AI獨角獸 | 筆記

0
分享至

我們去年底發了一篇展望2025年AI的文章,其中第2條提到了AGI,認為2025年將提出更難的基準,但AGI仍然很難跨越莫拉維克悖論。

這種悖論,部分體現在那些前沿AI模型可以解出奧數題,卻難以完成實際工作中初級員工的任務。而智能體的實際應用,恰恰是從完成簡單的工作任務開始。

紅杉中國想跨越這個悖論,推出了xBench,測評專業領域智能體的表現——從完成簡單的任務開始。


(招聘和營銷兩個專業智能體的xBench測評結果)

如果說當初ChatGPT帶給人們的驚喜來自實際對話的體驗,GPT-4的發布所引發的震撼,基本上是來自其刷題的分數。

它的技術報告中,用一系列學術和專業資格試題來測試GPT-4,得分達到甚至超過了人類的平均水平;在一系列美國大學本科和研究生入學,律師資格考試等專業領域,以及有關科學和數學的通識,初步的視覺和推理能力,編程能力等方面,實現了對GPT-3.5的大幅度提升。

配合這個模型的發布,微軟發布了一篇論文稱,GPT-4呈現了早期的“火花”;而OpenAI請了幾位經濟學家,發布一篇論文,根據GPT-4在各職業崗位技能上廣泛的可替代程度,提出了(General Purpose Technologies),即GPTs are GPTs。

論文調查了美國1016種職業,包括工作行為的具體描述,將其進一步分解為每種職業的具體任務,共計19265種。對應GPT所訓練出的基礎能力,微調出來的具體專業領域的能力,以及融合其他技術的能力,與目前所有職業技能進行對照,劃分其對GPT “暴露”的程度。

調查結果表明,大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的影響,而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的暴露風險。這個硬幣的另外一面是,AI如果能接管現有的許多工作技能,將會創造巨大的價值。

今天回頭看來,AI大模型通的通用智能,可以通過刷題獲得高分,達到大學生甚至博士的水平,可以在對話中侃侃而談,學識淵博,而在真實世界的應用中卻顯得“低能”。大模型過分依賴這類測評獲得存在感,在一定程度上會陷入了刷題與刷榜的游戲。

OpenAI o3的發布再一次,在編程、數學、科學等一系列基準測試中成為學霸中的學霸,讓測評分數都不夠用了,迅速趨于飽和。

這個評價體系的創始人Fran?ois Chollet 認為,o3可以解出奧數題,卻在一些非常簡單的任務上仍然會失敗,新出一道小學數學可能輕松拿捏它,“這表明它與人類智能存在根本性的差異。”

與此同時,大模型也在撞上數據墻,各種圍繞刷題和刷榜的demo,在經過了近兩年的“核彈”、“王炸”級別的不斷的炒作之后 ,令人產生疲勞感,人們越來越關注AI大模型的“高分低能”問題。

應該把大模型當成一個智能體,投入到實際工作中,并對其表現進行考評,而不是僅僅停留在教室和實驗室里測試它們的分數。已經有一些開創性的測評方式,如硅谷研究機構METR,對OpenAI及Anthropic大模型完成的1460項任務,根據其所用的時長、完成程度和成本進行分析,初步得出了。

紅杉中國也走過了同樣的路。2022年ChatGPT推出后,紅杉中國密切追蹤AGI的進程,每個月測評主流模型,在內部匯報和投資參考。他們在中國同樣也遇到了測試基準快速“飽和”的問題,主流模型從20-30分在18個月內提升到90-100分。

2024年10月,OpenAI推出推理模型o1之后一個月,紅杉中國大規模更新了xbench題庫,換掉了所有都得滿分的題,新增的試題主要針對Chatbot復雜問答及推理,以及簡單的模型外部工具調用能力。結果這一次題庫被大模型更快地刷爆,僅用了6個月。

2025年3月,紅杉開始第三次對xbench題庫進行升級,這一次,他們開始停下來質疑現有評估方式,思考兩個核心問題:

模型能力和AI實際效用之間的關系:“我們出越來越難的題目意義是什么,是否落入了慣性思維?AI落地的實際經濟價值真的和AI會做難題正相關嗎?” 舉個例子,程序員工作的Utility Value很高,但AI做起來進步非常快,而“去工地搬磚”這樣的工作AI卻幾乎無法完成。

不同時間維度上的能力比較:“每一次xbench換題,我們便失去了對AI能力的前后可比性追蹤,因為在新的題集下,模型版本也在迭代,我們無法比較不同時間維度上的單個模型的能力如何變化。” 這樣的測評,在判斷創業項目的時候,尤其是在評估AI能力這件事上,可能已經失靈。

這次紅杉中國決定從水平到垂直,進入一個個行業領域,去發現智能體的勞動生產率,基于AI技術與市場匹配(Technology Market Fit,TMF),甚至預測AI技術將率先在哪些領域實現大規模應用,從而盡早發現優秀的產品和團隊。

xBench既測試AI的系統能力上限與技能邊界,即AGI能力,也會量化AI系統在真實場景中的效用值(Utility Value)。如果說前者是對齊人類的抽象思維范式和價值觀,那么后者則動態對齊現實世界的真實需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。

xbench還采用長青評估(Evergreen Evaluation)機制,通過持續維護并動態更新測試內容,以確保時效性和相關性。xBench將定期測評市場主流智能體產品,跟蹤模型能力演進,捕捉智能體產品迭代過程中的關鍵突破,進而預測下一個智能體應用的TMF。

紅杉中國要構建 xbench 指數,服務于它的AI獨角獸捕獲機器。通過長期更新的評估追蹤并預測代理產品之間的競爭格局:“我們可以追蹤交替領先的產品,同時也希望發現能力在短期內迅速提升的新秀產品。”

紅杉中國稱之為AI“下半場的評估”,目前已經被證明了的賽道是AI編程,接下來,招聘和市場營銷可能是基于深度搜索技術而產生的兩個充滿機會的AI應用賽道。

33位中美頂尖名校中國博士組成的團隊,與這兩個行業專家合作,提煉出了真實的需求和工作流程,具體到時間分配,并且計算出每個工作環節和模塊的市場價值。

行業專家對具體的工作提出要求,通過搜索智能體輸出結果,如應聘候選人專業表現,然后由大型語言模型進行評判,得出分數。


(對招聘智能體工作流程的打分)

基于這樣的方法,紅杉在5月份對前沿模型的最新版本的招聘和營銷智能體的能力進行了測評,推出了榜單,并且首次對外公開xBench。紅杉想以此來建立一個動態的榜單和指標體系,對模型研究者和垂直智能體的開發者開放測評結果。

具體到抽象的過程,比較能反應中國創業者的特點,尤其是是在進入智能體創業的階段,是不是還要“通用”,什么是“通用”。從MANUS等中國創業者最早提出通用智能體這個概念,并且引發出現象級的主張之后,我們可以看到,它實際上把“通用”建立在一系列創造經濟價值的的典型行業與場景之上,它是一個演變泛化的過程。它與硅谷創業者所擅長的從抽象到具體形成互補。

參考報告:

https://xbench.org/#/reports

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
熊磊要搬出許敏萬達的房子了!這還不是結尾, 許敏還將繼續上告

熊磊要搬出許敏萬達的房子了!這還不是結尾, 許敏還將繼續上告

魔都姐姐雜談
2025-06-27 11:32:04
開播第一晚熱度破22000!好評如潮,觀眾放話:“一集就淪陷!”

開播第一晚熱度破22000!好評如潮,觀眾放話:“一集就淪陷!”

夢涵說體育
2025-06-27 08:50:49
離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

壹月情感
2025-06-25 23:23:29
一口氣拿下3人,勇士連做兩筆交易!曾計劃撿漏楊瀚森+兜售庫明加

一口氣拿下3人,勇士連做兩筆交易!曾計劃撿漏楊瀚森+兜售庫明加

鍋子籃球
2025-06-27 12:20:02
驚險!新疆2名小學生在鐵軌擺石頭逼停高鐵

驚險!新疆2名小學生在鐵軌擺石頭逼停高鐵

極目新聞
2025-06-27 14:24:01
中國最大沙漠到底有多深?如果把沙子全挖光,地下會是什么?

中國最大沙漠到底有多深?如果把沙子全挖光,地下會是什么?

半解智士
2025-06-17 17:07:54
傅首爾與兒子合拍,瘦了有20斤狀態真好,15歲多樂180個頭高又帥

傅首爾與兒子合拍,瘦了有20斤狀態真好,15歲多樂180個頭高又帥

八怪娛
2025-06-27 09:55:06
女研究生公然侮辱四川人后續,正臉曝光,身份被扒,難怪這么囂張

女研究生公然侮辱四川人后續,正臉曝光,身份被扒,難怪這么囂張

寒士之言本尊
2025-06-26 12:11:10
馬英九:我不希望臺灣成為第2個香港!

馬英九:我不希望臺灣成為第2個香港!

老范談史
2025-06-24 21:07:05
ESPN7月11日直播獨行俠vs湖人 新科狀元弗拉格預計首秀對決布朗尼

ESPN7月11日直播獨行俠vs湖人 新科狀元弗拉格預計首秀對決布朗尼

直播吧
2025-06-27 09:12:24
媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

動物奇奇怪怪
2025-06-27 11:37:30
阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當最富裕的風流寡婦

普覽
2025-06-18 20:33:08
伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

小院之觀
2025-06-25 05:30:05
一個急救員眼中,民營長途轉運救護車的“利”與“亂”

一個急救員眼中,民營長途轉運救護車的“利”與“亂”

澎湃新聞
2025-06-27 07:04:27
“以伊沖突”的3個贏家,兩個輸家

“以伊沖突”的3個贏家,兩個輸家

史政先鋒
2025-06-24 16:45:07
清朝的嬪妃為什么要戴長指甲?除了方便皇上,還有一個重要的作用

清朝的嬪妃為什么要戴長指甲?除了方便皇上,還有一個重要的作用

大千世界觀
2025-06-04 21:00:07
韓國人仇視中國,不僅因為經濟被超越,最大原因是對宿命的不甘

韓國人仇視中國,不僅因為經濟被超越,最大原因是對宿命的不甘

大道無形我有型
2025-06-27 12:24:40
中央紀委國家監委通報!5月全國查處違反中央八項規定精神問題21843起

中央紀委國家監委通報!5月全國查處違反中央八項規定精神問題21843起

每日經濟新聞
2025-06-27 11:30:21
當年越南為何非要跟中國過不去?越軍說出實情,3點原因令人心寒

當年越南為何非要跟中國過不去?越軍說出實情,3點原因令人心寒

大千世界觀
2025-05-14 10:30:08
吹捧美國空氣香甜的楊舒平,已被驅逐出境,如今回國下場大快人心

吹捧美國空氣香甜的楊舒平,已被驅逐出境,如今回國下場大快人心

跳跳歷史
2025-06-06 16:41:00
2025-06-27 16:07:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數 38關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網傳白玉蘭最佳男女主獎將“爆冷”

財經要聞

1萬就能刪行政處罰?信用修復江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

親子
本地
時尚
房產
公開課

親子要聞

腸漏是怎么形成的應該如何修復

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曲靖市| 新营市| 平潭县| 平果县| 嘉祥县| 武威市| 浮山县| 丰原市| 农安县| 毕节市| 灵宝市| 中卫市| 保德县| 沂源县| 会泽县| 武安市| 宿迁市| 商城县| 阳朔县| 观塘区| 台中县| 宜章县| 许昌市| 吴旗县| 句容市| 罗定市| 金堂县| 奈曼旗| 深州市| 敖汉旗| 沈阳市| 利川市| 乐清市| 安吉县| 泰顺县| 夏河县| 都江堰市| 山阴县| 澜沧| 青海省| 呼玛县|