99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

六款A(yù)I大模型高考數(shù)學(xué)PK:AI界“高考狀元”,太讓人意外了

0
分享至



為了防止高考生使用AI作弊,今年高考期間,騰訊混元、通義千問(wèn)、Kimi、豆包等國(guó)內(nèi)知名AI大模型的圖片識(shí)別問(wèn)答功能均暫停服務(wù)。對(duì)于這些企業(yè)的做法,小雷卻有一些質(zhì)疑,之前小雷測(cè)試AI大模型做高考題,大多表現(xiàn)不佳,暫停圖片識(shí)別問(wèn)答服務(wù)似乎過(guò)于高看自家AI大模型的能力。

到截稿時(shí),2025年高考全國(guó)一卷僅有語(yǔ)文、英語(yǔ)和數(shù)學(xué)三套試卷公布,其中語(yǔ)文高考題目曝光后,已有多家媒體實(shí)測(cè)AI大模型撰寫(xiě)作文。不過(guò)作文寫(xiě)得如何,每個(gè)人的觀點(diǎn)可能不同,小雷看到的幾篇評(píng)測(cè)基本是截取AI大模型撰寫(xiě)的文章,沒(méi)有給出點(diǎn)評(píng),文章質(zhì)量需要讀者評(píng)判。



(圖源:百度搜索截圖)

慎重起見(jiàn),小雷選擇了有標(biāo)準(zhǔn)答案的數(shù)學(xué)科目,測(cè)試AI大模型的能力,所選的AI大模型分別為DeepSeek、豆包、訊飛星火、文心一言、Kimi、通義千問(wèn),它們能考上985、211嗎?

六款大模型PK,誰(shuí)才是AI界的高考狀元?

首先說(shuō)一下測(cè)試環(huán)境和題目,考慮到部分AI大模型不支持手動(dòng)開(kāi)關(guān)聯(lián)網(wǎng)模式,因而所有AI大模型啟用聯(lián)網(wǎng)搜索,深度思考功能也全部打開(kāi)。

所選的數(shù)學(xué)題,包含一道單選題、一道多選題、一道填空題、一道簡(jiǎn)答題,最終會(huì)按照題目的分?jǐn)?shù)進(jìn)行打分。

第一題(5分):
若雙曲線C虛軸長(zhǎng)是實(shí)軸長(zhǎng)的√7倍,則C離心率為(正確答案:D)
A:√6 B:2 C:√7 D:2√2

第一道題屬于開(kāi)胃小菜,難度不算大,參與測(cè)試的六款A(yù)I大模型也沒(méi)有令小雷失望,全部計(jì)算出了正確答案,而且給出了詳細(xì)推理過(guò)程。本題測(cè)試中,所有AI大模型均獲得滿分5分。(圖片從左往右以此為:DeepSeek、訊飛星火、豆包、Kimi、文心一言、通義千問(wèn),下圖同)



(圖源:App截圖)

盡管這道題難度不算高,但這六款A(yù)I大模型的表現(xiàn)令小雷眼前一亮。此前測(cè)試AI大模型的數(shù)學(xué)計(jì)算能力時(shí),面對(duì)稍微復(fù)雜一些的問(wèn)題,AI大模型很難計(jì)算出正確答案。

僅一輪測(cè)試,DeepSeek、訊飛星火、豆包、文心一言、Kimi、通義千問(wèn)六款A(yù)I大模型就證明了它們的能力,存在被高考生用于的作弊的可能性,暫停圖片識(shí)別問(wèn)答功能絕非為了蹭高考的熱度。

第二題(6分):
若cos 2A+cos 2B+2sin C=2,SΔABC=1/4,cos Acos Bsin C=1/4,則(正確答案:ACD)
A:sin C=sin2A+sin2B B:AC2+BC2=3 C:AB=√2
D:sin A+sin B=(√6)/2

這道題難度相當(dāng)高,僅有豆包在兩分鐘內(nèi)計(jì)算出正確答案,訊飛星火和通義千問(wèn)耗時(shí)略長(zhǎng)一些,其他幾款A(yù)I大模型用時(shí)更長(zhǎng),尤其是DeepSeek,耗時(shí)足足572秒,接近10分鐘。



(圖源:App截圖)

若是AI大模型像考生一樣每次只做一道題,推理較慢的三款A(yù)I大模型,存在兩小時(shí)時(shí)間做不完題的可能性。

盡管本輪測(cè)試中所有AI大模型均正確回答出了問(wèn)題,但結(jié)合推理所需時(shí)長(zhǎng)來(lái)看,豆包、訊飛星火、通義千問(wèn)表現(xiàn)較好。

第三題(5分):
若一個(gè)等比數(shù)列的前4項(xiàng)和為4,前8項(xiàng)和為68,則該等比數(shù)列的公比為(正確答案:±2)

與上一題相比,這一題的難度有所下降,訊飛星火、文心一言、Kimi、通義千問(wèn)、DeepSeek五款大模型均迅速計(jì)算出了正確答案,文心一言幾乎是秒算。豆包雖計(jì)算出了正確答案,但在輸出答案時(shí)卻犯了迷糊,排除了-2。因此,小雷不得不扣掉豆包的三分,該題豆包只能得2分。



(圖源:App截圖)

在本輪測(cè)試中,DeepSeek服務(wù)器繁忙的問(wèn)題頻繁發(fā)生,小雷不得不借助第三方應(yīng)用。好在,現(xiàn)階段許多AI應(yīng)用已接入DeepSeek,小雷使用的騰訊元寶App,無(wú)論是推理速度,還是穩(wěn)定性,都遠(yuǎn)高于DeepSeek網(wǎng)頁(yè)版或App。

第四題(17分):
設(shè)數(shù)列{an}滿足a?=3,(an+1)/n=(an/(n+1))+(1/(n(n+1)))
(1)證明:{n an}是等差數(shù)列;(正確答案:n an是an=3,公差為1的等差數(shù)列)
(2)設(shè)f(x)=a?X+a?X2+a?X3+...+amX^m,求f′(-2)。(正確答案:f′(-2)=(7/9)-((3m+7)/9)·(-2^m))

前三道題,幾款A(yù)I應(yīng)用僅在體驗(yàn)上存在一定的差異,能力基本沒(méi)有表現(xiàn)出區(qū)別,第四道題不同,它的復(fù)雜度遠(yuǎn)超前面三道題,也是檢驗(yàn)AI大模型能力最重要的一項(xiàng)挑戰(zhàn)。

在本輪測(cè)試中,豆包、訊飛星火、Kimi、文心一言、DeepSeek依然表現(xiàn)出色,正確計(jì)算出了兩道題的答案。通義千問(wèn)解答這道題時(shí),能夠推理出第一道小題的答案,但第二道小題卻給出了錯(cuò)誤答案,表現(xiàn)稍遜一籌。



(圖源:App截圖)

豆包、訊飛星火、文心一言、Kimi、DeepSeek可以在本輪測(cè)試中拿到滿分17分,通義千問(wèn)因答錯(cuò)了第二道小題,只能獲得7分。

依靠公式和邏輯推理的數(shù)學(xué)題,似乎更符合AI的特性,但往年的評(píng)測(cè)中,AI大模型通常做閱讀理解和寫(xiě)作文效果較好,面對(duì)復(fù)雜的數(shù)學(xué)題找不到答題方法。

光明網(wǎng)在去年6月的報(bào)道中提到,復(fù)旦大學(xué)NLP實(shí)驗(yàn)結(jié)果顯示,AI大模型在做2024年高考題時(shí),在語(yǔ)文領(lǐng)域的表現(xiàn)遠(yuǎn)強(qiáng)于數(shù)學(xué),部分?jǐn)?shù)學(xué)題AI大模型甚至全軍覆沒(méi),沒(méi)有一個(gè)能夠正確計(jì)算出答案,遇到多選題時(shí)也是錯(cuò)誤頻出。究其原因,數(shù)學(xué)失之毫厘差之千里,不能出一丁點(diǎn)錯(cuò)誤,文史類內(nèi)容則可以允許出現(xiàn)部分錯(cuò)誤和較為模糊的答案。

一年時(shí)間過(guò)去,AI大模型進(jìn)步神速,深度思考模式的加入、針對(duì)數(shù)學(xué)題的專項(xiàng)優(yōu)化,令A(yù)I大模型在處理高考數(shù)學(xué)題時(shí)更加游刃有余。

比學(xué)霸更牛,但大模型做題能力已拉開(kāi)差距

四道題目測(cè)試下來(lái),最終得分如下:

  • DeepSeek:33分;
  • 訊飛星火:33分;
  • 豆包:30分;
  • Kimi:33分;
  • 文心一言:33分;
  • 通義千問(wèn):23分。

經(jīng)過(guò)測(cè)試,DeepSeek、訊飛星火、Kimi、文心一言均獲得滿分,豆包表現(xiàn)不錯(cuò),因一時(shí)疏忽,遺憾丟了三分,痛失高考狀元。通義千問(wèn)計(jì)算較為簡(jiǎn)單的問(wèn)題時(shí),都保持了極高的水準(zhǔn),但處理較難的問(wèn)題時(shí)出現(xiàn)了計(jì)算錯(cuò)誤,需要再接再厲。



(圖源:豆包AI生成)

總是向AI行業(yè)潑冷水的蘋果,日前在論文中表示,AI推理模型只是「假思考」,根本沒(méi)有穩(wěn)定、可理解的推理過(guò)程,更像是記憶,處理復(fù)雜任務(wù)時(shí)可能會(huì)崩潰。AI研究者Lisan al Gaib復(fù)刻蘋果測(cè)試方法后表示,模型不是因?yàn)橥评砟芰Σ钍。且驗(yàn)樘O果限制了輸出token。

或許AI大模型推理能力仍存在上限,但我們看得到它們的進(jìn)步。去年復(fù)旦大學(xué)NLP實(shí)驗(yàn)室測(cè)試AI大模型時(shí),它們面對(duì)高考數(shù)學(xué)題表現(xiàn)糟糕,小雷在幾次AI大模型橫評(píng)測(cè)試中,也得到了類似的結(jié)果。今年的測(cè)試中,AI大模型基本都能計(jì)算出問(wèn)題的正確答案,曾經(jīng)難住AI大模型的多選題,也未能再對(duì)AI大模型造成困擾。

AI大模型數(shù)學(xué)題解答能力提升,最大受惠者可能是學(xué)生群體。國(guó)內(nèi)學(xué)習(xí)機(jī)廠商和教育輔導(dǎo)平臺(tái),已陸續(xù)加入AI答題能力,但許多設(shè)備的AI大模型僅能解答中小學(xué)問(wèn)題,例如行業(yè)翹楚小猿搜題,題目庫(kù)不包含大學(xué)課程。

這六款A(yù)I大模型的優(yōu)秀表現(xiàn),證明了國(guó)內(nèi)頭部AI企業(yè)的實(shí)力,高考數(shù)學(xué)題已被征服,高等數(shù)學(xué)也不會(huì)遠(yuǎn)了。學(xué)習(xí)機(jī)廠商、教輔平臺(tái)可以與頭部AI企業(yè)合作,增強(qiáng)產(chǎn)品AI答題的能力,繼續(xù)強(qiáng)化AI教育硬件業(yè)務(wù)。

夏日麗六月,金榜題名時(shí)。
又是一年高考季,雷科技「高考畢業(yè)季」專題上線,滿足學(xué)生粉絲的信息需求,涵蓋搜索、AI等工具推薦,和手機(jī)、PC等選購(gòu)攻略。
敬請(qǐng)關(guān)注!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你還敢集郵嗎?清朝郵票從122萬(wàn)跌至26萬(wàn)!猴票從1.2萬(wàn)跌至4千!

你還敢集郵嗎?清朝郵票從122萬(wàn)跌至26萬(wàn)!猴票從1.2萬(wàn)跌至4千!

愛(ài)下廚的阿釃
2025-06-13 15:02:18
女生除了面膜居然還有胸膜?兄弟曬女友胸膜尷尬現(xiàn)場(chǎng):中間這倆孔是什么鬼

女生除了面膜居然還有胸膜?兄弟曬女友胸膜尷尬現(xiàn)場(chǎng):中間這倆孔是什么鬼

經(jīng)典段子
2025-06-13 23:30:35
19分鐘轟15分!中國(guó)女籃又一23歲王牌崛起:李夢(mèng)替身變張子宇絕配

19分鐘轟15分!中國(guó)女籃又一23歲王牌崛起:李夢(mèng)替身變張子宇絕配

李喜林籃球絕殺
2025-06-14 07:43:29
伊朗用高超音速導(dǎo)彈轟炸以色列國(guó)防部,目前看到的視頻有兩枚擊中

伊朗用高超音速導(dǎo)彈轟炸以色列國(guó)防部,目前看到的視頻有兩枚擊中

大道無(wú)形我有型
2025-06-14 11:27:15
《人民日?qǐng)?bào)》推薦:成年人惜命的最好方式,就是睡覺(jué)

《人民日?qǐng)?bào)》推薦:成年人惜命的最好方式,就是睡覺(jué)

有書(shū)
2025-06-10 17:05:22
華裔前員工遭特斯拉起訴,竊取機(jī)器人商業(yè)機(jī)密

華裔前員工遭特斯拉起訴,竊取機(jī)器人商業(yè)機(jī)密

車林外傳
2025-06-13 11:01:34
還得排隊(duì)搖號(hào)!澎湃:蘇超贊助費(fèi)飆升至300萬(wàn),仍一席難求

還得排隊(duì)搖號(hào)!澎湃:蘇超贊助費(fèi)飆升至300萬(wàn),仍一席難求

直播吧
2025-06-14 12:10:32
你無(wú)意中看到過(guò)啥辣眼睛的東西?網(wǎng)友:小時(shí)候?qū)﹂T阿姨在盆里洗澡

你無(wú)意中看到過(guò)啥辣眼睛的東西?網(wǎng)友:小時(shí)候?qū)﹂T阿姨在盆里洗澡

娛樂(lè)圈人物大賞
2025-05-08 00:10:06
獨(dú)行俠自媒體曬SGA和福斯特圖片:雷霆雙核今晚太無(wú)解了

獨(dú)行俠自媒體曬SGA和福斯特圖片:雷霆雙核今晚太無(wú)解了

直播吧
2025-06-14 11:40:21
這次不會(huì)被拒了,Shams:尼克斯將在下周面試詹金斯和邁克-布朗

這次不會(huì)被拒了,Shams:尼克斯將在下周面試詹金斯和邁克-布朗

懂球帝
2025-06-14 11:01:14
浙江“蛇王”救治3萬(wàn)多人!被咬后這8字能救命

浙江“蛇王”救治3萬(wàn)多人!被咬后這8字能救命

極目新聞
2025-06-14 10:52:54
歷史性突破:只差1.7%,中芯國(guó)際就成全球二大芯片代工廠?

歷史性突破:只差1.7%,中芯國(guó)際就成全球二大芯片代工廠?

互聯(lián)網(wǎng).亂侃秀
2025-06-14 13:39:18
北大、清華回應(yīng):已督促下架

北大、清華回應(yīng):已督促下架

都市快報(bào)橙柿互動(dòng)
2025-06-13 12:24:02
伊朗:擊落以色列F-35戰(zhàn)機(jī),俘獲飛行員

伊朗:擊落以色列F-35戰(zhàn)機(jī),俘獲飛行員

每日經(jīng)濟(jì)新聞
2025-06-14 09:53:10
島內(nèi)三路人馬前往大陸,賴清德急召集人開(kāi)會(huì),侯友宜露出真面目

島內(nèi)三路人馬前往大陸,賴清德急召集人開(kāi)會(huì),侯友宜露出真面目

大歪歪
2025-06-13 21:22:32
加長(zhǎng),7座,大號(hào)Model Y真要來(lái)了

加長(zhǎng),7座,大號(hào)Model Y真要來(lái)了

小怪吃美食
2025-06-13 18:37:14
A股:情緒是交易的天敵!所有人都注意了,下周市場(chǎng)開(kāi)始這么看!

A股:情緒是交易的天敵!所有人都注意了,下周市場(chǎng)開(kāi)始這么看!

春江財(cái)富
2025-06-14 08:40:21
曝上海七寶中學(xué)高三學(xué)生自殺,差6分考滿分,清北無(wú)望而跳樓

曝上海七寶中學(xué)高三學(xué)生自殺,差6分考滿分,清北無(wú)望而跳樓

180視角
2025-06-12 15:22:45
最后的調(diào)整?真的怕了!A股下周迎新一輪行情!

最后的調(diào)整?真的怕了!A股下周迎新一輪行情!

龍行天下虎
2025-06-14 12:22:57
能不能長(zhǎng)壽,先查心率!醫(yī)生坦言:60歲后,心率盡量別超這個(gè)范圍

能不能長(zhǎng)壽,先查心率!醫(yī)生坦言:60歲后,心率盡量別超這個(gè)范圍

觀星賞月
2025-06-13 10:37:49
2025-06-14 14:59:00
雷科技 incentive-icons
雷科技
專注AI硬科技
33421文章數(shù) 810985關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

摩薩德在伊朗境內(nèi)建立無(wú)人機(jī)基地 部署精確制導(dǎo)武器

頭條要聞

摩薩德在伊朗境內(nèi)建立無(wú)人機(jī)基地 部署精確制導(dǎo)武器

體育要聞

32隊(duì)爭(zhēng)10億獎(jiǎng)金,全新世俱杯來(lái)了!

娛樂(lè)要聞

鳳凰傳奇曾毅手表引爭(zhēng)議 含性暗示元素

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
教育
游戲
本地

在時(shí)尚中國(guó)之夜,共赴榮耀東方時(shí)刻

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

教育要聞

小學(xué)數(shù)學(xué)競(jìng)賽題,班級(jí)上一半以上的同學(xué)不會(huì)做

別的賽道還在卷 ,《率土之濱》居然又憑借“開(kāi)荒節(jié)”再度翻紅?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 岳西县| 蓬溪县| 普陀区| 蒙城县| 会昌县| 泰宁县| 九寨沟县| 玉林市| 阿合奇县| 靖江市| 久治县| 阿拉善右旗| 基隆市| 启东市| 兴安县| 夏河县| 根河市| 鹰潭市| 英德市| 临城县| 岳西县| 绥化市| 永泰县| 崇阳县| 翁源县| 广汉市| 犍为县| 大化| 故城县| 富锦市| 承德县| 鄂尔多斯市| 石棉县| 姚安县| 大竹县| 三亚市| 珠海市| 平顶山市| 日照市| 松阳县| 乌什县|