網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里數(shù)學(xué)競(jìng)賽決賽落幕，宣告AI大模型短期內(nèi)仍是文強(qiáng)理弱？

2024-06-28 10:12:14　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

此為臨時(shí)鏈接，僅用于預(yù)覽，將在短期內(nèi)失效。關(guān)閉

數(shù)學(xué)能否成為人機(jī)大戰(zhàn)的新戰(zhàn)場(chǎng)？

85/801，801/60000。

這兩個(gè)數(shù)字，分別是本屆「阿里巴巴全球數(shù)學(xué)競(jìng)賽」決賽和初賽晉級(jí)選手比例。

6月22日，伴隨著數(shù)學(xué)競(jìng)賽決賽結(jié)束，宣告這場(chǎng)總周期5個(gè)月，來(lái)自全球60多個(gè)國(guó)家和地區(qū)、代表100多所大學(xué)的參賽者智力角逐，終于迎來(lái)收官時(shí)刻。

接下來(lái)競(jìng)賽將進(jìn)入專家組獨(dú)立閱卷階段，最終結(jié)果將于8月公布，金銀銅及優(yōu)秀獎(jiǎng)等四類得主共同分享約400萬(wàn)元人民幣獎(jiǎng)金。

這一競(jìng)賽由馬云于2018年發(fā)起，由阿里巴巴公益、達(dá)摩院（阿里全球性研究機(jī)構(gòu)）聯(lián)合舉辦，采用線上答題方式，出發(fā)點(diǎn)是激發(fā)更多年輕人對(duì)數(shù)學(xué)的興趣，進(jìn)而培養(yǎng)出更多具有創(chuàng)新思維的科技人才。如今競(jìng)賽舉辦至第六屆，已成長(zhǎng)為最大的國(guó)際性數(shù)學(xué)競(jìng)賽之一，累計(jì)吸引超過(guò)25萬(wàn)人參賽。

在社會(huì)聲量方面，這一競(jìng)賽每年都能引發(fā)社會(huì)熱議。

譬如今年來(lái)自江蘇省漣水中等專業(yè)學(xué)校的17歲女生姜萍入圍初賽；去年獲得優(yōu)秀獎(jiǎng)的20歲華裔漸凍癥少年樓印根；往屆年齡最大的81歲吉大退休教授洪恒令；連續(xù)三屆參賽的95后河南監(jiān)獄警察呂致遠(yuǎn)；2018年拿下分析與微分方程賽道金獎(jiǎng)的北大“掃地僧”韋東奕。

姜萍、樓印根、洪恒令、呂致遠(yuǎn)、韋東奕

不設(shè)國(guó)界、不分年齡、不問(wèn)職業(yè)，阿里全球數(shù)學(xué)競(jìng)賽的立意，歡迎每一個(gè)熱愛(ài)數(shù)學(xué)的人。

值得關(guān)注的是，在本屆的競(jìng)賽組委會(huì)中，張益唐和印臥濤二人的名字位列其中。

他們一位是“半生潦倒”，在58歲證明數(shù)學(xué)界最著名的猜想之一——孿生素?cái)?shù)猜想，從此躋身于世界重量級(jí)數(shù)學(xué)家的傳奇人物；

一位是放棄美國(guó)終身數(shù)學(xué)系教授身份，加入達(dá)摩院從頭組建團(tuán)隊(duì)，閉關(guān)四年研制“商用通用求解器”的帶頭人。

在本屆競(jìng)賽中，他們也分別為理論數(shù)學(xué)和應(yīng)用數(shù)學(xué)的重要代表。

張益唐、印臥濤

最終，阿里全球數(shù)學(xué)競(jìng)賽的意義，不僅僅體現(xiàn)在獎(jiǎng)金和榮譽(yù)上，也遠(yuǎn)超解題本身，而是面向全球數(shù)學(xué)愛(ài)好者，集競(jìng)賽、培訓(xùn)、交流于一體，在于它對(duì)數(shù)學(xué)文化的推廣、對(duì)數(shù)學(xué)精神的弘揚(yáng)，以及對(duì)全球數(shù)學(xué)教育事業(yè)和科技創(chuàng)新的深遠(yuǎn)影響上。更近一步說(shuō)，從科技追求到人才培養(yǎng)，從社會(huì)影響到企業(yè)文化，數(shù)學(xué)競(jìng)賽儼然成為達(dá)摩院乃至阿里集團(tuán)戰(zhàn)略布局的一部分。

用它們自己的話來(lái)說(shuō)：把數(shù)學(xué)的故事講下去，就贏了。

▋ 本屆競(jìng)賽看點(diǎn)：AI全體無(wú)緣入圍決賽，AI文強(qiáng)理弱？

伴隨著過(guò)去一年大模型的火熱，本屆阿里數(shù)賽首次允許AI參賽--任何形式的AI都可以，無(wú)論是自己從頭訓(xùn)練的模型，還是調(diào)用API。

這場(chǎng)史無(wú)前例的阿里AI數(shù)學(xué)挑戰(zhàn)賽吸引了來(lái)自全球知名高校院所與企業(yè)的563支隊(duì)伍報(bào)名。但初賽結(jié)果顯示，AI最高分僅為34分，AI隊(duì)伍的平均分達(dá)到了人類選手平均水平，離數(shù)學(xué)高手仍有較大差距，宣告AI全體無(wú)緣入圍決賽。

這一現(xiàn)象引發(fā)了人們對(duì)“AI是否呈現(xiàn)文科強(qiáng)于理科”的討論。

6月24日，在極客公園最新發(fā)布的“高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告”中：GPT-4o 以562分排名文科總分第一。本次大模型高考評(píng)測(cè)與河南省考卷完全相同，河南高考錄取分?jǐn)?shù)線顯示，文科本科一批錄取分?jǐn)?shù)線為521分，有三款國(guó)產(chǎn)AI成功沖上一本線。

與文科相比，大模型的理科成績(jī)要差很多，最高分還不到480分，多數(shù)大模型的理科總分在400分以下。相比河南理科511分的一本線，大模型尚有較大差距。

另一場(chǎng)讓AI進(jìn)行高考的測(cè)試也引發(fā)關(guān)注。由上海人工智能實(shí)驗(yàn)室推出的司南評(píng)測(cè)體系OpenCompass，選取了零一萬(wàn)物、智譜AI、阿里云通義等6個(gè)開(kāi)源模型及GPT-4o進(jìn)行高考“語(yǔ)數(shù)外”全卷能力測(cè)試。

據(jù)悉，參與評(píng)測(cè)的所有開(kāi)源模型開(kāi)源時(shí)間均早于高考，以確保“閉卷”性，評(píng)測(cè)采用全國(guó)新課標(biāo)I卷，由具有高考評(píng)卷經(jīng)驗(yàn)的教師人工評(píng)判，更加接近真實(shí)閱卷標(biāo)準(zhǔn)。

一個(gè)明顯的趨勢(shì)是，大部分模型“考生”出現(xiàn)了偏科現(xiàn)象，其中語(yǔ)文、英語(yǔ)科目表現(xiàn)良好，但在數(shù)學(xué)方面全軍覆沒(méi)，連及格分都拿不到。

盡管如此，針對(duì)本屆阿里數(shù)學(xué)競(jìng)賽，AI的表現(xiàn)也有可圈可點(diǎn)之處。

近期硅星人Pro的文章中提到：AI選手的表現(xiàn)令人類選手和閱卷老師都感到意外。一些AI在面對(duì)難題時(shí)會(huì)隨機(jī)猜測(cè)答案，類似于人類在考試中的無(wú)奈之舉；甚至于即便解題過(guò)程偏離正軌，某些AI仍能得出正確答案；閱卷老師注意到，AI還能獲得一些未曾預(yù)想到它能解答正確的知識(shí)點(diǎn)分?jǐn)?shù)。

此外一個(gè)有趣的現(xiàn)象是，AI在解題時(shí)傾向于展開(kāi)冗長(zhǎng)的推理過(guò)程，與人類跳過(guò)B直接從A推導(dǎo)到C的方式不同，AI似乎需要經(jīng)過(guò)每個(gè)中間步驟。

這種獨(dú)特的解題方法讓AI似乎對(duì)數(shù)學(xué)有了自己獨(dú)到的“理解”，類似于大型語(yǔ)言模型通過(guò)預(yù)測(cè)下一個(gè)詞元(token)來(lái)重新理解語(yǔ)言。這種差異顯著到讓一些閱卷老師懷疑AI是否作弊。但這種懷疑并非因?yàn)樗鼈儽憩F(xiàn)得像機(jī)器，而是因?yàn)樗鼈兲袢祟惲恕?/p>

然而，AI的偏科現(xiàn)象也提醒我們，目前的人工智能技術(shù)還存在一定的局限性和不足。或許其差異在于--AI和人類在解題和思維方式上存在本質(zhì)的不同。AI的解題過(guò)程更傾向于遵循固定的算法和規(guī)則，而人類則能夠運(yùn)用直覺(jué)、經(jīng)驗(yàn)和創(chuàng)造力來(lái)解決問(wèn)題。

這不禁讓人想起最近一年來(lái)學(xué)術(shù)界和業(yè)界持續(xù)討論的一個(gè)話題：大模型出現(xiàn)的幻覺(jué)，或許正體現(xiàn)了大模型的創(chuàng)造力。

▋ 阿里達(dá)摩院為什么提倡數(shù)學(xué)？起底達(dá)摩院的研究版圖

數(shù)學(xué)可以做什么？數(shù)學(xué)對(duì)阿里意味著什么？

在關(guān)注本屆競(jìng)賽之余，這兩個(gè)問(wèn)題成為理解阿里以及達(dá)摩院長(zhǎng)期規(guī)劃的重要切入點(diǎn)。

尤其是達(dá)摩院，作為阿里集團(tuán)的全球性科研機(jī)構(gòu)，自2017年10月成立，一直致力于前沿科技的研究與開(kāi)發(fā)。成立次年，達(dá)摩院響應(yīng)馬云號(hào)召，舉辦阿里數(shù)學(xué)競(jìng)賽、設(shè)立達(dá)摩院青橙獎(jiǎng)，兩大動(dòng)作瞬間打開(kāi)了達(dá)摩院的局面，第一波關(guān)注群體就是全球數(shù)學(xué)愛(ài)好者和中國(guó)青年學(xué)者。

實(shí)際上，達(dá)摩院在一眾互聯(lián)網(wǎng)大廠研究院中，成立時(shí)間并不算早。

華為“2012實(shí)驗(yàn)室”（華為的“總研究組織”），成立于2011年底，其前身是成立于1996年的華為中央研究院。

騰訊研究院，2007年開(kāi)始組建，傳言在2012年的組織架構(gòu)大變構(gòu)中被拆分，而后主要以“實(shí)驗(yàn)室”命名，如騰訊AI Lab、優(yōu)圖實(shí)驗(yàn)室、量子實(shí)驗(yàn)室、視頻（多媒體）實(shí)驗(yàn)室。

百度研究院的發(fā)展可以追溯到2013年初，當(dāng)時(shí)組建了深度學(xué)習(xí)研究院，即百度研究院的前身。2014年，百度研究院正式成立。

滴滴研究院成立于2016年，由2015年成立的滴滴機(jī)器學(xué)習(xí)研究院升級(jí)而來(lái)。

京東探索研究院作為京東權(quán)重最大的多個(gè)研究院之一，于2020年11月成立。

不同之處在于，馬云作為阿里最大的話事人，早已為達(dá)摩院定下長(zhǎng)期愿景--活得要比阿里巴巴長(zhǎng)、服務(wù)全世界至少20億人口、3年投資1000億作為啟動(dòng)資金。一定程度上說(shuō)，這種行事上的決絕，與從事基礎(chǔ)科研研究的青年才俊志趣相投。

回到本屆數(shù)學(xué)競(jìng)賽的主題上，數(shù)學(xué)能為達(dá)摩院帶來(lái)什么？

長(zhǎng)期以來(lái)，大眾的直觀感受是數(shù)學(xué)距離實(shí)際生活太過(guò)遙遠(yuǎn)。但在達(dá)摩院的回答，答案卻并非如此。

一方面，數(shù)學(xué)是科學(xué)和技術(shù)發(fā)展的基礎(chǔ)工具。

數(shù)學(xué)與其他學(xué)科如物理、工程、生物等的交叉，推動(dòng)了新理論、新技術(shù)的發(fā)展。在當(dāng)下信息時(shí)代，算法和數(shù)據(jù)科學(xué)的發(fā)展極大地推動(dòng)了互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能的興起。這些技術(shù)背后都離不開(kāi)數(shù)學(xué)的支撐，如算法設(shè)計(jì)、機(jī)器學(xué)習(xí)等。

另一方面，數(shù)學(xué)在解決工業(yè)、經(jīng)濟(jì)、金融、管理等領(lǐng)域的實(shí)際問(wèn)題中發(fā)揮著關(guān)鍵作用。

在物流、供應(yīng)鏈管理等領(lǐng)域，數(shù)學(xué)規(guī)劃和優(yōu)化算法幫助提高效率和降低成本。在國(guó)防安全領(lǐng)域，如彈道導(dǎo)彈防御系統(tǒng)的攔截問(wèn)題研究中，解決尖端數(shù)學(xué)問(wèn)題。甚至于歷史上，數(shù)學(xué)在經(jīng)濟(jì)、產(chǎn)業(yè)或社會(huì)發(fā)生根本性變化時(shí)，常常起到先導(dǎo)作用。一個(gè)典型例子是，第一次工業(yè)革命期間，微積分在分析運(yùn)動(dòng)和力的應(yīng)用，為機(jī)械設(shè)計(jì)和制造提供了理論基礎(chǔ)。

可以說(shuō)，數(shù)學(xué)的一端連接基礎(chǔ)研究，另一端則連接產(chǎn)業(yè)應(yīng)用。在這個(gè)過(guò)程中，達(dá)摩院的使命是打通中間墻，既要技術(shù)產(chǎn)品化、還要產(chǎn)品市場(chǎng)化。

目前達(dá)摩院的研究布局分為「智能」、「計(jì)算」兩大分支。

前者包含了視覺(jué)技術(shù)、語(yǔ)言技術(shù)、視頻技術(shù)、決策智能、醫(yī)療AI、智慧育種六個(gè)板塊，推動(dòng)了AI技術(shù)的發(fā)展，也為各行各業(yè)提供了智能化解決方案；

后者包含了計(jì)算技術(shù)、RISC-V兩個(gè)板塊，為硬件發(fā)展和軟件優(yōu)化提供了強(qiáng)大的支持。

上文提到本屆競(jìng)賽委員會(huì)成員，擁有數(shù)學(xué)背景的印臥濤，正是如今達(dá)摩院決策智能實(shí)驗(yàn)室主任，長(zhǎng)期致力于數(shù)學(xué)的其中一個(gè)分支--運(yùn)籌優(yōu)化研究。

他曾這樣說(shuō)道：“這一領(lǐng)域?qū)⒄麄€(gè)經(jīng)濟(jì)社會(huì)描繪為無(wú)數(shù)個(gè)交織的方程組。機(jī)場(chǎng)航班的起降時(shí)間、物流的路徑規(guī)劃、金屬冶煉的原料配比、工廠店鋪的選址……”而這些方程組的價(jià)值在于，“為了實(shí)現(xiàn)經(jīng)濟(jì)學(xué)最簡(jiǎn)單而又最權(quán)威的目標(biāo)——對(duì)稀缺資源進(jìn)行最佳利用，必須快速求出這些方程組的最優(yōu)解。 ”

求解，研發(fā)一款計(jì)算此類復(fù)雜數(shù)學(xué)題的“求解器”的底層工業(yè)軟件，打破國(guó)外廠商壟斷，這是屬于印臥濤這樣的應(yīng)用數(shù)學(xué)人的選擇。

當(dāng)然，數(shù)學(xué)的世界遠(yuǎn)不止于此，理論數(shù)學(xué)作為數(shù)學(xué)的另一大分支，同樣扮演著不可或缺的角色。

理論數(shù)學(xué)家們致力于探索數(shù)學(xué)的內(nèi)在邏輯、結(jié)構(gòu)和美。他們研究抽象的概念，如數(shù)論、代數(shù)幾何、拓?fù)鋵W(xué)和微分方程等，這些領(lǐng)域雖然看似與現(xiàn)實(shí)世界的距離較遠(yuǎn)，但它們?yōu)閿?shù)學(xué)的深度和廣度提供了堅(jiān)實(shí)的基礎(chǔ)。

在達(dá)摩院的設(shè)想里，這些都不應(yīng)該缺失。

▋ 數(shù)學(xué)能否成為人機(jī)大戰(zhàn)的新戰(zhàn)場(chǎng)？

歷史上，人機(jī)大戰(zhàn)一直是AI發(fā)展的重要里程碑。從國(guó)際象棋到圍棋，再到圖靈測(cè)試，每一次的對(duì)決都標(biāo)志著人工智能在特定領(lǐng)域的突破和進(jìn)步。

現(xiàn)在，隨著AI技術(shù)的飛速發(fā)展，數(shù)學(xué)領(lǐng)域似乎成為了下一個(gè)人機(jī)大戰(zhàn)的關(guān)鍵點(diǎn)。

數(shù)學(xué)作為一門嚴(yán)謹(jǐn)?shù)目茖W(xué)，其內(nèi)在的邏輯性和普適性為AI提供了一個(gè)理想的競(jìng)技場(chǎng)。與棋類游戲不同，數(shù)學(xué)問(wèn)題的解決不僅需要策略和模式識(shí)別，更需要深層次的理解和創(chuàng)新。

在阿里數(shù)學(xué)競(jìng)賽中，AI的參與不僅僅是為了解決數(shù)學(xué)問(wèn)題，更是對(duì)其智能的一次全面檢驗(yàn)。正如圖靈測(cè)試中的機(jī)器需要通過(guò)對(duì)話來(lái)模仿人類，AI在數(shù)學(xué)競(jìng)賽中也需要展現(xiàn)出對(duì)數(shù)學(xué)概念的理解和解題能力。這不僅是對(duì)AI計(jì)算能力的考驗(yàn)，更是對(duì)其邏輯推理、創(chuàng)新思維甚至直覺(jué)的挑戰(zhàn)。

What‘s next Human-AI battle, is it math?

歡迎一起討論。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.