2024年第三屆釘釘杯大數(shù)據(jù)競(jìng)賽初賽將于7月26日正式開(kāi)賽,近期不少伙伴都在關(guān)注釘釘杯大數(shù)據(jù)競(jìng)賽到底難度如何?其實(shí)釘釘杯大數(shù)據(jù)競(jìng)賽整體難度適中,也適合各種基礎(chǔ)的學(xué)生參加。
主要有以下幾點(diǎn):
賽題方向與數(shù)學(xué)建模一致
釘釘杯是數(shù)據(jù)科學(xué)類(lèi)競(jìng)賽,主要考察機(jī)器學(xué)習(xí)方面相關(guān)技能,主要分為數(shù)據(jù)分析和數(shù)據(jù)挖掘兩大賽道,和數(shù)學(xué)建模競(jìng)賽相比,數(shù)據(jù)科學(xué)競(jìng)賽核心不是論文撰寫(xiě)為主要依據(jù),而是是使模型泛化能力的優(yōu)劣性,與解決方案匹配的完整代碼、創(chuàng)新性等。和數(shù)學(xué)建模國(guó)賽C類(lèi)題型吻合,釘釘杯中得到鍛煉,國(guó)賽相當(dāng)于就拿下了入場(chǎng)券資格
賽題難度低于主流大數(shù)據(jù)競(jìng)賽
因考慮到目前很多大數(shù)據(jù)競(jìng)賽由于門(mén)檻較高,對(duì)一些新手極其不友好。所以為了激起同學(xué)們對(duì)大數(shù)據(jù)學(xué)習(xí)的興趣以及熱情,讓更多的同學(xué)參與進(jìn)大數(shù)據(jù)競(jìng)賽,釘釘杯大數(shù)據(jù)競(jìng)賽會(huì)在賽題難度上低于其他主流的大數(shù)據(jù)競(jìng)賽!
賽制與數(shù)學(xué)建模相同
大賽分為初賽、復(fù)賽和決賽三個(gè)階段,每只隊(duì)伍自由選擇A、B賽題的其中一個(gè)進(jìn)行比賽,其中初賽和復(fù)賽均要求參賽者在規(guī)定時(shí)間內(nèi)根據(jù)問(wèn)題提交一份論文對(duì)項(xiàng)目進(jìn)行說(shuō)明;決賽要求參賽者進(jìn)行線(xiàn)上答辯,競(jìng)賽是基于大數(shù)據(jù)分析處理進(jìn)行相關(guān)建模。
備賽提供學(xué)習(xí)資源
提供歷年真題、優(yōu)秀論文及等學(xué)習(xí)材料,為參賽者提供了充分的備賽資源。組委會(huì)還為參賽同學(xué)準(zhǔn)備了賽前培訓(xùn)課程及公益講座等培訓(xùn)學(xué)習(xí)資料,有助于0基礎(chǔ)的同學(xué)進(jìn)行系統(tǒng)學(xué)習(xí)。
獲獎(jiǎng)率高
釘釘杯大數(shù)據(jù)競(jìng)賽的獲獎(jiǎng)率高達(dá)50%。相比較國(guó)賽、美賽來(lái)看,拿獎(jiǎng)會(huì)更容易一些,決賽還有千元獎(jiǎng)金可拿。即使未進(jìn)入復(fù)賽也有機(jī)會(huì)獲得獎(jiǎng)項(xiàng),這樣的設(shè)置鼓勵(lì)了更多學(xué)生積極參與。
賽事含金量
一般認(rèn)定為國(guó)賽,屬于國(guó)家級(jí)競(jìng)賽,但不同的學(xué)校認(rèn)定標(biāo)準(zhǔn)不同,具體情況請(qǐng)咨詢(xún)自己學(xué)校的相關(guān)負(fù)責(zé)老師。
證書(shū)蓋內(nèi)蒙古創(chuàng)新教育學(xué)會(huì)、內(nèi)蒙古基礎(chǔ)教育研究院、釘釘(中國(guó))信息技術(shù)有限公司三個(gè)章,在國(guó)內(nèi)高校中是作為保研、綜合測(cè)評(píng)、創(chuàng)新獎(jiǎng)學(xué)金等評(píng)定競(jìng)賽之一,也可以豐富簡(jiǎn)歷,面試直通車(chē)、大廠(chǎng) offer的敲門(mén)磚。
釘釘杯大數(shù)據(jù)競(jìng)賽基本參賽流程
常規(guī)線(xiàn)路一般是:數(shù)據(jù)清洗->特征挖掘/特征工程 ->搭建模型->訓(xùn)練模型->給出預(yù)測(cè) ->提交論文及結(jié)果。
釘釘杯大數(shù)據(jù)挑戰(zhàn)賽賽題方向?yàn)閿?shù)據(jù)分析和數(shù)據(jù)挖掘倆大類(lèi)。題目來(lái)自國(guó)內(nèi)大數(shù)據(jù)資深專(zhuān)家、企事業(yè)單位實(shí)際應(yīng)用場(chǎng)景應(yīng)用題目。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的相似之處:
- 數(shù)據(jù)挖掘和數(shù)據(jù)分析都是對(duì)數(shù)據(jù)進(jìn)行分析、處理等操作進(jìn)而得到有價(jià)值的知識(shí)。
- 都需要懂統(tǒng)計(jì)學(xué),懂?dāng)?shù)據(jù)處理一些常用的方法,對(duì)數(shù)據(jù)的敏感度比較好。
- 數(shù)據(jù)挖掘和數(shù)據(jù)分析的聯(lián)系越來(lái)越緊密,很多數(shù)據(jù)分析人員開(kāi)始使用編程工具進(jìn)行數(shù)據(jù)分析,如SAS、R、SPSS等。而數(shù)據(jù)挖掘人員在結(jié)果表達(dá)及分析方面也會(huì)借助數(shù)據(jù)分析的手段。二者的關(guān)系的界限變得越來(lái)越模糊。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的相似之處:
- 數(shù)據(jù)挖掘和數(shù)據(jù)分析都是對(duì)數(shù)據(jù)進(jìn)行分析、處理等操作進(jìn)而得到有價(jià)值的知識(shí)。
- 都需要懂統(tǒng)計(jì)學(xué),懂?dāng)?shù)據(jù)處理一些常用的方法,對(duì)數(shù)據(jù)的敏感度比較好。
- 數(shù)據(jù)挖掘和數(shù)據(jù)分析的聯(lián)系越來(lái)越緊密,很多數(shù)據(jù)分析人員開(kāi)始使用編程工具進(jìn)行數(shù)據(jù)分析,如SAS、R、SPSS等。而數(shù)據(jù)挖掘人員在結(jié)果表達(dá)及分析方面也會(huì)借助數(shù)據(jù)分析的手段。二者的關(guān)系的界限變得越來(lái)越模糊。
數(shù)據(jù)挖掘
數(shù)學(xué)預(yù)備知識(shí)
概率論:支撐整個(gè)數(shù)據(jù)挖掘算法和機(jī)器學(xué)習(xí)算法的數(shù)學(xué)基礎(chǔ),要熟悉常見(jiàn)的一些概率分布。
矩陣論:線(xiàn)性代數(shù)中對(duì)數(shù)據(jù)挖掘最有用的部分,還有一些線(xiàn)性空間相關(guān)知識(shí)也很重要。
信息論:將信息和數(shù)學(xué)緊密連接在一起并完美的表達(dá)的橋梁,需要掌握信息熵、信息增益等相關(guān)知識(shí)。
統(tǒng)計(jì)學(xué):數(shù)據(jù)分析最早的依賴(lài)基礎(chǔ),通常和概率論一起應(yīng)用,現(xiàn)在的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘很多都是基于統(tǒng)計(jì)的,常見(jiàn)的均值、方差、協(xié)方差等都要熟練掌握。
編程基礎(chǔ)
數(shù)據(jù)挖掘需要一定的編程基礎(chǔ),因?yàn)橐獙?shí)現(xiàn)模型以及數(shù)據(jù)的處理很多工作都是需要程序來(lái)進(jìn)行的,數(shù)據(jù)挖掘常用的編程語(yǔ)言如下:
SQL:數(shù)據(jù)庫(kù)的熟練使用是任何數(shù)據(jù)挖掘人員必不可少的技能。
C++ :有很多的標(biāo)準(zhǔn)模板庫(kù)以及機(jī)器學(xué)習(xí)模型庫(kù)進(jìn)行調(diào)用可以方便編程實(shí)現(xiàn)。
Python:對(duì)字符串處理有極大的優(yōu)勢(shì),是解釋型語(yǔ)言,實(shí)現(xiàn)簡(jiǎn)單,而且有很多開(kāi)源的機(jī)器學(xué)習(xí)模型庫(kù)的支持,可處理大規(guī)模數(shù)據(jù)。
Matlab:擁有強(qiáng)大的矩陣運(yùn)算,也是解釋型語(yǔ)言,有很多發(fā)展較成熟庫(kù)可以直接調(diào)用,支持?jǐn)?shù)據(jù)結(jié)果的可視化表示,但是處理數(shù)據(jù)量有限。
R:近年興起的數(shù)據(jù)分析編程語(yǔ)言,數(shù)據(jù)可視化做的比較好,語(yǔ)法簡(jiǎn)單,學(xué)習(xí)成本很低,很多非程序設(shè)計(jì)人員都可以數(shù)量掌握。
Java:使用范圍最廣的編程語(yǔ)言,有很多社區(qū)進(jìn)行交流,進(jìn)行編程實(shí)現(xiàn)具有靈活高效的特點(diǎn),不足之處就是實(shí)現(xiàn)功能的代碼量較大(相對(duì)于其他數(shù)據(jù)挖掘編程語(yǔ)言)。
Scala:一種具有面向?qū)ο箫L(fēng)格、函數(shù)式風(fēng)格、更高層的并發(fā)模型的編程語(yǔ)言。同時(shí)Scala是大數(shù)據(jù)處理平臺(tái)Spark的實(shí)現(xiàn)語(yǔ)言。
數(shù)據(jù)挖掘的模型知識(shí)
機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘是緊密相關(guān)的,要進(jìn)行數(shù)據(jù)挖掘需要掌握一些機(jī)器學(xué)習(xí)所用的方法和模型知識(shí),通過(guò)模型的訓(xùn)練可以得到處理數(shù)據(jù)的最優(yōu)的模型。數(shù)據(jù)挖掘常用的模型如下:
監(jiān)督學(xué)習(xí)模型:決策樹(shù)、貝葉斯方法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)、集成學(xué)習(xí)分類(lèi)模型等
無(wú)監(jiān)督學(xué)習(xí)模型:K-means聚類(lèi)、層次聚類(lèi)方法、基于密度的聚類(lèi)、譜聚類(lèi)
半監(jiān)督學(xué)習(xí):Multi-view algorithm(多視角算法)、Graph-Based Algorithms(基于圖的算法)
文本處理模型:分詞模型、TF-IDF模型、LDA模型
數(shù)據(jù)分析
數(shù)學(xué)和專(zhuān)業(yè)的預(yù)備知識(shí)
概率論:數(shù)據(jù)分析的重要數(shù)學(xué)基礎(chǔ),要熟悉常見(jiàn)的一些概率分布。
統(tǒng)計(jì)學(xué):數(shù)據(jù)分析最早的依賴(lài)基礎(chǔ),通常和概率論一起應(yīng)用,數(shù)據(jù)分析要掌握常見(jiàn)的均值、方差、協(xié)方差等。
心理學(xué):數(shù)據(jù)分析往往要結(jié)合不同的學(xué)科知識(shí)進(jìn)行分析,在數(shù)據(jù)分析的過(guò)程中,要結(jié)合用戶(hù)的心理進(jìn)行結(jié)果的調(diào)整和分析。
專(zhuān)業(yè)知識(shí):一般來(lái)說(shuō),數(shù)據(jù)分析人員是對(duì)某一特定領(lǐng)域進(jìn)行分析,這就要求分析人員具備一定的行業(yè)的專(zhuān)業(yè)知識(shí)。
使用數(shù)據(jù)分析軟件
SPSS:功能非常強(qiáng)大非常專(zhuān)業(yè)的數(shù)據(jù)統(tǒng)計(jì)軟件,界面友好,輸出結(jié)果美觀漂亮。SPSS軟件具有信息的采集、處理、分析進(jìn)行全面評(píng)估和預(yù)測(cè)等功能。包含廣義線(xiàn)性混合模型、自動(dòng)線(xiàn)性模型、一個(gè)統(tǒng)計(jì)網(wǎng)頁(yè)入口portal和直復(fù)營(yíng)銷(xiāo)direct marketing功能。
SAS:是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng),由數(shù)十個(gè)專(zhuān)用模塊構(gòu)成,功能包括數(shù)據(jù)訪(fǎng)問(wèn)、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開(kāi)發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等等。
Excel:辦公套件中最能勝任數(shù)據(jù)分析的軟件,簡(jiǎn)單實(shí)用。
Sql:非計(jì)算機(jī)專(zhuān)業(yè)的數(shù)據(jù)分析人員要操作數(shù)據(jù)必備的數(shù)據(jù)庫(kù)語(yǔ)言。
R:近年興起的數(shù)據(jù)分析編程語(yǔ)言,數(shù)據(jù)可視化做的比較好,語(yǔ)法簡(jiǎn)單,學(xué)習(xí)成本很低,很多非程序設(shè)計(jì)人員都可以數(shù)量掌握。
數(shù)據(jù)分析模型選取
數(shù)據(jù)分析人員可以借助一些現(xiàn)場(chǎng)的分析軟件進(jìn)行分析,這些軟件集成了一些良好的分析模型,可以根據(jù)自己的實(shí)際應(yīng)用場(chǎng)景進(jìn)行合適的模型選擇。
基本的分析方法有:對(duì)比分析法、分組分析法、交叉分析法、結(jié)構(gòu)分析法、漏斗圖分析法、綜合評(píng)價(jià)分析法、因素分析法、矩陣關(guān)聯(lián)分析法等。
高級(jí)的分析方法有:相關(guān)分析法、回歸分析法、聚類(lèi)分析法、判別分析法、主成分分析法、因子分析法、對(duì)應(yīng)分析法、時(shí)間序列等。
7月份數(shù)模人都在打的釘釘杯大數(shù)據(jù)建模競(jìng)賽
7月份接下來(lái)數(shù)模人人都在打的由阿里巴巴釘釘舉辦的釘釘杯大數(shù)據(jù)建模挑戰(zhàn)賽,認(rèn)可度高,綜測(cè)加分有保障,大廠(chǎng)面試敲門(mén)磚,賽題主要包含數(shù)據(jù)挖掘和數(shù)據(jù)分析兩大類(lèi),數(shù)模國(guó)賽與美賽中C題每年選題占比最大的大數(shù)據(jù)題型,涉及建模中常用到的數(shù)據(jù)預(yù)處理、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,決策樹(shù)等等,都是和大數(shù)據(jù)相關(guān)知識(shí)緊密相連的,作為國(guó)賽前大型熱身練手的絕佳機(jī)會(huì)。
大賽官網(wǎng):http://www.nmmcm.org.cn/match_detail/33
證書(shū)樣式
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.