2024年第三屆釘釘杯大數(shù)據(jù)競賽初賽將于7月26日正式開賽,近期不少伙伴都在關注釘釘杯大數(shù)據(jù)競賽到底難度如何?其實釘釘杯大數(shù)據(jù)競賽整體難度適中,也適合各種基礎的學生參加。
主要有以下幾點:
賽題方向與數(shù)學建模一致
釘釘杯是數(shù)據(jù)科學類競賽,主要考察機器學習方面相關技能,主要分為數(shù)據(jù)分析和數(shù)據(jù)挖掘兩大賽道,和數(shù)學建模競賽相比,數(shù)據(jù)科學競賽核心不是論文撰寫為主要依據(jù),而是是使模型泛化能力的優(yōu)劣性,與解決方案匹配的完整代碼、創(chuàng)新性等。和數(shù)學建模國賽C類題型吻合,釘釘杯中得到鍛煉,國賽相當于就拿下了入場券資格
賽題難度低于主流大數(shù)據(jù)競賽
因考慮到目前很多大數(shù)據(jù)競賽由于門檻較高,對一些新手極其不友好。所以為了激起同學們對大數(shù)據(jù)學習的興趣以及熱情,讓更多的同學參與進大數(shù)據(jù)競賽,釘釘杯大數(shù)據(jù)競賽會在賽題難度上低于其他主流的大數(shù)據(jù)競賽!
賽制與數(shù)學建模相同
大賽分為初賽、復賽和決賽三個階段,每只隊伍自由選擇A、B賽題的其中一個進行比賽,其中初賽和復賽均要求參賽者在規(guī)定時間內(nèi)根據(jù)問題提交一份論文對項目進行說明;決賽要求參賽者進行線上答辯,競賽是基于大數(shù)據(jù)分析處理進行相關建模。
備賽提供學習資源
提供歷年真題、優(yōu)秀論文及等學習材料,為參賽者提供了充分的備賽資源。組委會還為參賽同學準備了賽前培訓課程及公益講座等培訓學習資料,有助于0基礎的同學進行系統(tǒng)學習。
獲獎率高
釘釘杯大數(shù)據(jù)競賽的獲獎率高達50%。相比較國賽、美賽來看,拿獎會更容易一些,決賽還有千元獎金可拿。即使未進入復賽也有機會獲得獎項,這樣的設置鼓勵了更多學生積極參與。
賽事含金量
一般認定為國賽,屬于國家級競賽,但不同的學校認定標準不同,具體情況請咨詢自己學校的相關負責老師。
證書蓋內(nèi)蒙古創(chuàng)新教育學會、內(nèi)蒙古基礎教育研究院、釘釘(中國)信息技術有限公司三個章,在國內(nèi)高校中是作為保研、綜合測評、創(chuàng)新獎學金等評定競賽之一,也可以豐富簡歷,面試直通車、大廠 offer的敲門磚。
釘釘杯大數(shù)據(jù)競賽基本參賽流程
常規(guī)線路一般是:數(shù)據(jù)清洗->特征挖掘/特征工程 ->搭建模型->訓練模型->給出預測 ->提交論文及結果。
釘釘杯大數(shù)據(jù)挑戰(zhàn)賽賽題方向為數(shù)據(jù)分析和數(shù)據(jù)挖掘倆大類。題目來自國內(nèi)大數(shù)據(jù)資深專家、企事業(yè)單位實際應用場景應用題目。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的相似之處:
數(shù)據(jù)挖掘和數(shù)據(jù)分析都是對數(shù)據(jù)進行分析、處理等操作進而得到有價值的知識。
都需要懂統(tǒng)計學,懂數(shù)據(jù)處理一些常用的方法,對數(shù)據(jù)的敏感度比較好。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的聯(lián)系越來越緊密,很多數(shù)據(jù)分析人員開始使用編程工具進行數(shù)據(jù)分析,如SAS、R、SPSS等。而數(shù)據(jù)挖掘人員在結果表達及分析方面也會借助數(shù)據(jù)分析的手段。二者的關系的界限變得越來越模糊。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的相似之處:
數(shù)據(jù)挖掘和數(shù)據(jù)分析都是對數(shù)據(jù)進行分析、處理等操作進而得到有價值的知識。
都需要懂統(tǒng)計學,懂數(shù)據(jù)處理一些常用的方法,對數(shù)據(jù)的敏感度比較好。
數(shù)據(jù)挖掘和數(shù)據(jù)分析的聯(lián)系越來越緊密,很多數(shù)據(jù)分析人員開始使用編程工具進行數(shù)據(jù)分析,如SAS、R、SPSS等。而數(shù)據(jù)挖掘人員在結果表達及分析方面也會借助數(shù)據(jù)分析的手段。二者的關系的界限變得越來越模糊。
數(shù)據(jù)挖掘
數(shù)學預備知識
概率論:支撐整個數(shù)據(jù)挖掘算法和機器學習算法的數(shù)學基礎,要熟悉常見的一些概率分布。
矩陣論:線性代數(shù)中對數(shù)據(jù)挖掘最有用的部分,還有一些線性空間相關知識也很重要。
信息論:將信息和數(shù)學緊密連接在一起并完美的表達的橋梁,需要掌握信息熵、信息增益等相關知識。
統(tǒng)計學:數(shù)據(jù)分析最早的依賴基礎,通常和概率論一起應用,現(xiàn)在的機器學習和數(shù)據(jù)挖掘很多都是基于統(tǒng)計的,常見的均值、方差、協(xié)方差等都要熟練掌握。
編程基礎
數(shù)據(jù)挖掘需要一定的編程基礎,因為要實現(xiàn)模型以及數(shù)據(jù)的處理很多工作都是需要程序來進行的,數(shù)據(jù)挖掘常用的編程語言如下:
SQL:數(shù)據(jù)庫的熟練使用是任何數(shù)據(jù)挖掘人員必不可少的技能。
C++ :有很多的標準模板庫以及機器學習模型庫進行調(diào)用可以方便編程實現(xiàn)。
Python:對字符串處理有極大的優(yōu)勢,是解釋型語言,實現(xiàn)簡單,而且有很多開源的機器學習模型庫的支持,可處理大規(guī)模數(shù)據(jù)。
Matlab:擁有強大的矩陣運算,也是解釋型語言,有很多發(fā)展較成熟庫可以直接調(diào)用,支持數(shù)據(jù)結果的可視化表示,但是處理數(shù)據(jù)量有限。
R:近年興起的數(shù)據(jù)分析編程語言,數(shù)據(jù)可視化做的比較好,語法簡單,學習成本很低,很多非程序設計人員都可以數(shù)量掌握。
Java:使用范圍最廣的編程語言,有很多社區(qū)進行交流,進行編程實現(xiàn)具有靈活高效的特點,不足之處就是實現(xiàn)功能的代碼量較大(相對于其他數(shù)據(jù)挖掘編程語言)。
Scala: 一種具有面向對象風格、函數(shù)式風格、更高層的并發(fā)模型的編程語言。同時Scala是大數(shù)據(jù)處理平臺Spark的實現(xiàn)語言。
數(shù)據(jù)挖掘的模型知識
機器學習和數(shù)據(jù)挖掘是緊密相關的,要進行數(shù)據(jù)挖掘需要掌握一些機器學習所用的方法和模型知識,通過模型的訓練可以得到處理數(shù)據(jù)的最優(yōu)的模型。數(shù)據(jù)挖掘常用的模型如下:
監(jiān)督學習模型: 決策樹、貝葉斯方法、神經(jīng)網(wǎng)絡 、支持向量機(SVM)、集成學習分類模型等
無監(jiān)督學習模型:K-means聚類、層次聚類方法、基于密度的聚類、譜聚類
半監(jiān)督學習:Multi-view algorithm(多視角算法)、Graph-Based Algorithms(基于圖的算法)
文本處理模型:分詞模型、TF-IDF模型、LDA模型
數(shù)據(jù)分析
數(shù)學和專業(yè)的預備知識
概率論:數(shù)據(jù)分析的重要數(shù)學基礎,要熟悉常見的一些概率分布。
統(tǒng)計學:數(shù)據(jù)分析最早的依賴基礎,通常和概率論一起應用,數(shù)據(jù)分析要掌握常見的均值、方差、協(xié)方差等。
心理學:數(shù)據(jù)分析往往要結合不同的學科知識進行分析,在數(shù)據(jù)分析的過程中,要結合用戶的心理進行結果的調(diào)整和分析。
專業(yè)知識:一般來說,數(shù)據(jù)分析人員是對某一特定領域進行分析,這就要求分析人員具備一定的行業(yè)的專業(yè)知識。
使用數(shù)據(jù)分析軟件
SPSS:功能非常強大非常專業(yè)的數(shù)據(jù)統(tǒng)計軟件,界面友好,輸出結果美觀漂亮。SPSS軟件具有信息的采集、處理、分析進行全面評估和預測等功能。包含廣義線性混合模型、自動線性模型、一個統(tǒng)計網(wǎng)頁入口portal和直復營銷direct marketing功能。
SAS: 是一個模塊化、集成化的大型應用軟件系統(tǒng),由數(shù)十個專用模塊構成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應用開發(fā)、圖形處理、數(shù)據(jù)分析、報告編制、運籌學方法、計量經(jīng)濟學與預測等等。
Excel:辦公套件中最能勝任數(shù)據(jù)分析的軟件,簡單實用。
Sql:非計算機專業(yè)的數(shù)據(jù)分析人員要操作數(shù)據(jù)必備的數(shù)據(jù)庫語言。
R: 近年興起的數(shù)據(jù)分析編程語言,數(shù)據(jù)可視化做的比較好,語法簡單,學習成本很低,很多非程序設計人員都可以數(shù)量掌握。
數(shù)據(jù)分析模型選取
數(shù)據(jù)分析人員可以借助一些現(xiàn)場的分析軟件進行分析,這些軟件集成了一些良好的分析模型,可以根據(jù)自己的實際應用場景進行合適的模型選擇。
基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯(lián)分析法等。
高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
7月份數(shù)模人都在打的釘釘杯大數(shù)據(jù)建模競賽
7月份接下來數(shù)模人人都在打的由阿里巴巴釘釘舉辦的釘釘杯大數(shù)據(jù)建模挑戰(zhàn)賽,認可度高,綜測加分有保障,大廠面試敲門磚,賽題主要包含數(shù)據(jù)挖掘和數(shù)據(jù)分析兩大類,數(shù)模國賽與美賽中C題每年選題占比最大的大數(shù)據(jù)題型,涉及建模中常用到的數(shù)據(jù)預處理、神經(jīng)網(wǎng)絡、機器學習和深度學習算法,決策樹等等,都是和大數(shù)據(jù)相關知識緊密相連的,作為國賽前大型熱身練手的絕佳機會。
報名網(wǎng)址:http://www.nmmcm.org.cn/match_detail/33
掃碼進入官方參賽群(組隊+獲取歷年真題及論文)
證書樣式
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.