99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

人類的考試,考驗不了AI了

0
分享至


撰文 | 李信馬

題圖 | 豆包AI

2017年5月,當時世界圍棋排名第一的柯潔慘敗于AlphaGo,在機器是否會比人類更聰明這個事關全人類尊嚴的問題上,我們第一次有了一個確定性的答案。

一年前尚且能贏一局的李世石,成為人類棋手在AI面前最后的夕陽。

不過,人類善于尋找理由,比如將智力轉換為更復雜且難以解釋的“智慧”,那就顯得我們還在贏,還有是更“高級的”贏法。而且作為在智慧這條路徑上的先行者,人類可以既做選手又做裁判,給出一套套的測試標準,美其名曰測試AI,AI超過了人類水平,那是人類推動的科技進步,AI沒有超過人類,那人類再次贏贏贏。

但“青出于藍而勝于藍”這件事,雖然人類希望AI快點做到,可當快到像迎面而來的一陣冰雹猛地砸到臉上時,絕大多數人還是會不適應到懵逼。

最初,我們輕松地用游戲來測試AI,現在,人類能參與地最難的考試,也即將無法用來考驗AI了。

在一個周前,馬斯克發布了最新版的Grok-4,這款大模型,用老馬的話來說,“比所有領域的博士都聰明”。

而其在各項考試中的成績,可以說是怪物般的存在:

我們比較熟悉的SAT和GRE考試幾乎滿分,不太熟悉但更難的考試,GPQA(研究生水平問答)準確率為88.9%,AIME25(美國數學邀請賽)準確率為100%,USAMO25(美國數學奧林匹克競賽)準確率為61.9%。

最引人注目的是“人類最后的考試”(Humanity’s Last Exam,簡稱“HLM”),聽這個名字,大家就能知道它代表的意思。

這個考試是由 Scale AI 和 Center for AI Safety(CAIS)發布的,包含3000個高難度的問題,涉及超過100個學科,題目來自數百位不同領域的專家,可以說,這套試題涵蓋了人類智力任務中最具挑戰性的部分,足以用來衡量AI是否具備“類人智能”。

其中題目分為兩類,一類是簡答題(Exact-Match Questions),需要輸出一個完全匹配的字符串作為答案,另一類是選擇題(Multiple-Choice Questions),需要從五個或更多選項中選擇一個正確答案。

不過,前者占到了80%,而且數學相關的題目占到了全部問題的42%,所以不要指望碰運氣能刷出高分。


來自題庫的題目之一,感受一下無知的痛苦吧

據說,以普通人的水平,大概能答對5%的題目,而當時的大模型也紛紛折戟,沒有一個能超過10%。你問人類最多能打多少分?這不重要,反正題目也是人類出的。

但Grok-4的出現,卻讓AI通過“人類最后的考試”的時間大大縮短了,達到了50.7%的準確率,成為首個突破50%的大模型。

這個分數,高的驚人,但因為考試的難度過大,距離大家的生活又太遠,所以很難直觀的說明有多難得,不過好在,后來筆者找到了一個差不多所有中國人都能理解的參考系。

在Grok-4發布的差不多同一時間,上海交大聯合深勢科技團隊,使用 DeepSeek-R1-0528 作為驅動智能體的推理模型,在“人類最后的考試”上拿下了32.1%的新紀錄,可以說代表著國內大模型的最高水平。(雖然立刻就被趕超了)


而大概一兩周之前,國內的大模型正在集體測試另一套“國民考試”——高考試題。

比如,字節跳動 Seed 團隊就用最新推出的通用模型 Seed1.6 對2025年山東卷高考真題(題目源自網絡)進行測試,語數外采用新課標全國Ⅰ卷,其余科目為山東省自主命題,滿分750分,并找來了兩位來自重點高中、有聯考判卷經驗的高中老師進行匿名評估和多輪質檢。

最終, Seed1.6 在理科和文科分別考取了648和683的高分,這個分數在山東省分別是4005名和211名,理科成績可以沖擊武漢大學,穩妥些也能去華中科技大學;而文科成績,更是有把握沖擊清北,保底也能去上海交大和復旦大學。作為參照的 DeepSeek-R1-0528 ,理科和文科分別考取了615和631,上到985(個別名校除外)下到211也是選擇多多。(排名信息及志愿推薦來源:中國教育在線)


也有媒體用國產大模型測試了下高考遼寧卷,顯示騰訊元寶(混元T1)文科卷的分數還要更勝一籌,筆者查詢了下,其文科成績排到了全省第11名,屬于是清北招生辦爭相打電話,理科成績就遜色多了,但上個985還是沒問題的。至于DeepSeek,大致是沖擊985保底211的水平。


所以,以高考試卷為標準,那么DeepSeek和豆包、混元間幾十分的差距,是考上985和考上清北的差距;而以HLM為標準,DeepSeek和 Grok-4 差了接近40%的分值……

“比所有領域的博士都聰明”的真假還不確定,但在剛剛高考完的這一屆高三考生中,文科成績能超過AI的真的不多了。也許下一年,大模型們的高考成績,就要徹底吊打人類考生了,能考上清北的人被稱為天才,但天才努力跨過的門檻,只是AI的保底志愿。

但我更傾向于認為,就像人們對AI在圍棋領域對人類的碾壓再無興趣一般,高考,還有其他人類能參與的考試,包括“人類最后的考試”,最終都會呈現AI一邊倒的絕對優勢,以至于讓人習以為常。

可能到時候,人類會制定新的考試,但不再考慮將人類和AI進行對比,而是AI之間純粹的競賽;也可能將不存在這樣的考試或者變得很少,人們將更關注AI的應用落地和性價比,畢竟人類也好,AI也好,考試都只是過程之一,創造出價值才是最終的目的和結果。

不過到那時,人類在智慧上的優越感,又要靠什么來維持呢?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官方:帶頭辱罵球員的津門虎球迷已被行拘7日,并被責令禁止觀賽

官方:帶頭辱罵球員的津門虎球迷已被行拘7日,并被責令禁止觀賽

懂球帝
2025-07-20 19:39:04
29日起全市禁行,深圳交警通告,涉這類車

29日起全市禁行,深圳交警通告,涉這類車

星島記事
2025-07-20 14:24:21
毀掉中國女籃的是誰?不是李夢,真正的罪魁禍首有三個!

毀掉中國女籃的是誰?不是李夢,真正的罪魁禍首有三個!

老骾體育解說
2025-07-20 07:24:26
明星情侶官宣結婚!

明星情侶官宣結婚!

廣州生活美食圈
2025-07-19 16:07:12
媒體人:這支中國女籃不進決賽就是失敗,恭喜奪得季軍但本不該如此

媒體人:這支中國女籃不進決賽就是失敗,恭喜奪得季軍但本不該如此

雷速體育
2025-07-20 18:52:00
中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

律便利
2025-07-03 15:20:03
以色列敗了!朱拉尼棋高一籌,敘當局收復蘇韋達省,比伊朗強多了

以色列敗了!朱拉尼棋高一籌,敘當局收復蘇韋達省,比伊朗強多了

桑啟紅原
2025-07-20 13:29:46
看完電視劇《長安的荔枝》,再看電影,想說:沒有對比就沒有傷害

看完電視劇《長安的荔枝》,再看電影,想說:沒有對比就沒有傷害

小丸子的娛樂圈
2025-07-18 10:09:05
一夜情用力過猛,女子當場去世,男子被判兩年

一夜情用力過猛,女子當場去世,男子被判兩年

書畫藝術收藏
2025-07-11 19:25:03
復讀市場的天塌了!網傳毛坦廠中學只招不到100個班,同比銳減50%

復讀市場的天塌了!網傳毛坦廠中學只招不到100個班,同比銳減50%

火山詩話
2025-07-20 10:25:27
54歲王琳自曝“家丑”,被兒子打的牙出血,曾一星期打一次電話

54歲王琳自曝“家丑”,被兒子打的牙出血,曾一星期打一次電話

洲洲影視娛評
2025-07-18 19:28:56
打臉不:歐盟爆出中國車真實銷量

打臉不:歐盟爆出中國車真實銷量

艾米手工作品
2025-07-20 11:33:54
徹底裝不下去了,楊議終于露出狐貍尾巴!這次,他徒弟立下了大功

徹底裝不下去了,楊議終于露出狐貍尾巴!這次,他徒弟立下了大功

小故事娛樂
2025-07-20 19:18:42
周薪超32.5萬!DO:巴薩承擔拉什福德100%薪水,交易中包含該條款

周薪超32.5萬!DO:巴薩承擔拉什福德100%薪水,交易中包含該條款

直播吧
2025-07-19 23:19:04
9000萬!恭喜利物浦!夏窗第六簽誕生,23歲新星高價加盟

9000萬!恭喜利物浦!夏窗第六簽誕生,23歲新星高價加盟

體育小龍說
2025-07-20 14:31:58
中國最大忽悠,再次震驚全球

中國最大忽悠,再次震驚全球

大佬灼見
2025-07-20 08:10:20
震驚!暑假幼兒“割包皮”成風,一天超百例,家長稱孩子是受害者

震驚!暑假幼兒“割包皮”成風,一天超百例,家長稱孩子是受害者

火山詩話
2025-07-19 15:52:36
每踩一腳都在燒錢!共享單車10年漲7倍,騎客淪為“人肉充電寶”

每踩一腳都在燒錢!共享單車10年漲7倍,騎客淪為“人肉充電寶”

毒sir財經
2025-07-19 11:37:30
女友考公成功立馬把我甩了,我冷靜放手,在單位看到我時她傻眼

女友考公成功立馬把我甩了,我冷靜放手,在單位看到我時她傻眼

城事錄主
2025-07-14 09:33:22
忻口戰役有多激烈,閻錫山掏空家底,晉綏軍9個炮兵團全部參戰

忻口戰役有多激烈,閻錫山掏空家底,晉綏軍9個炮兵團全部參戰

小童歷史
2025-07-17 16:36:37
2025-07-20 23:03:00
DoNews incentive-icons
DoNews
中國互聯網行業的風向標
102346文章數 26702關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

藝術
健康
親子
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

親子要聞

金龜子女兒竟然沒有辦婚禮,娃都一歲半了才補辦,網友認為沒必要

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通河县| 平原县| 兴山县| 徐闻县| 西丰县| 涡阳县| 宁德市| 咸阳市| 武邑县| 河南省| 北碚区| 彝良县| 阿瓦提县| 社旗县| 察雅县| 邯郸市| 青浦区| 上犹县| 罗田县| 临武县| 梓潼县| 金川县| 汉阴县| 台东县| 英吉沙县| 萨迦县| 安龙县| 清镇市| 石门县| 哈尔滨市| 花垣县| 肇源县| 鹿泉市| 华池县| 仁怀市| 全椒县| 浙江省| 白水县| 连云港市| 志丹县| 古田县|