目前時(shí)間序列領(lǐng)域常用的數(shù)據(jù)集有6個(gè),分別是Electricity、ETT、Exchange、ILI、Traffic、Weather,涵蓋了用電量、溫度、外匯、流感、交通和天氣領(lǐng)域,本文共包含6大類時(shí)間序列研究方向,21+論文標(biāo)準(zhǔn)數(shù)據(jù)集以及支持標(biāo)準(zhǔn)數(shù)據(jù)集的1份SOTA時(shí)間序列完整項(xiàng)目源碼,助力時(shí)序領(lǐng)域的漲點(diǎn)與創(chuàng)新!
無償分享給大家,歡迎掃碼獲取。
1. Electricity
電力數(shù)據(jù)集包含了320位客戶從2016年7月至2019年7月每小時(shí)的電力消耗情況,數(shù)據(jù)集第一列給出了時(shí)間戳,其實(shí)時(shí)間本身也是非常重要的特征,NIPS24就有一篇專門研究時(shí)間戳的文章還挺有意思的。
【數(shù)據(jù)情況】數(shù)據(jù)集沒有丟失的值,每1H的數(shù)值以kW為單位,數(shù)據(jù)時(shí)間段為2016/07/01 2:00—2019/07/02 1:00,共26304條數(shù)據(jù)。所有時(shí)間標(biāo)簽都以葡萄牙小時(shí)為單位。所有天都有24點(diǎn)數(shù)據(jù)(24*4)。每年3月的時(shí)間變化日(23個(gè)小時(shí)),凌晨1點(diǎn)到凌晨2點(diǎn)之間的值對所有點(diǎn)都為零。每年10月的時(shí)間變化日(25個(gè)小時(shí)),凌晨1點(diǎn)到2點(diǎn)之間的值合計(jì)兩個(gè)小時(shí)的消耗量。
2. weather
2020 年全年每 10 分鐘記錄一次天氣,其中包含氣溫、濕度等 21 項(xiàng)氣象指標(biāo)。
【數(shù)據(jù)簡介】Jena Climate時(shí)間序列數(shù)據(jù)集中基于多變量的歷史氣象數(shù)據(jù),對氣溫變化的趨勢進(jìn)行預(yù)測
【數(shù)據(jù)情況】變量個(gè)數(shù):21,時(shí)間步:52696 個(gè)樣本,時(shí)間粒度:10分鐘,包括2020年至 2021年Weather Station, Max Planck Institute for Biogeochemistry in Jena, Germany的天氣要素?cái)?shù)據(jù),包括溫度、壓力、濕度等14個(gè)特征指標(biāo)。
掃碼獲取數(shù)據(jù)集
3. ETT
ETT是英文“Electricity Transformer Temperature”縮寫,即 “電力變壓器溫度”,數(shù)據(jù)集有小時(shí)級別ETTh1、ETTh2和分鐘級別ETTm1、ETTm2,所以總共四個(gè)數(shù)據(jù)表。ETT時(shí)間范圍為2016年7月至2018年7月,涵蓋電力變壓器負(fù)載和油溫等信息,可用于分析電力變壓器運(yùn)行狀態(tài),為研究電力變壓器相關(guān)問題以及模型訓(xùn)練評估等提供了重要的數(shù)據(jù)基礎(chǔ)。
【數(shù)據(jù)背景】電力分配問題是指根據(jù)其連續(xù)使用情況將電力分配到不同區(qū)域。然而,預(yù)測特定區(qū)域的未來需求是困難的,因?yàn)樗鼤S著工作日、節(jié)假日、季節(jié)、天氣、溫度等因素而變化。然而,目前沒有現(xiàn)有方法能夠基于超長期真實(shí)世界數(shù)據(jù)進(jìn)行長期預(yù)測,并且具有高精度。任何錯(cuò)誤的預(yù)測都可能損害電力變壓器。因此,目前沒有有效的預(yù)測未來電力使用的方法,我們搭建了一個(gè)真實(shí)世界平臺,并收集了2年的數(shù)據(jù),預(yù)測電力變壓器的油溫并研究極端負(fù)載能力。
【字段說明】數(shù)據(jù)集使用.csv格式保存,共包含8維特征,包括數(shù)據(jù)點(diǎn)的記錄日期、預(yù)測值“油溫”以及6個(gè)不同類型的外部負(fù)載值,其中第一行是數(shù)據(jù)頭,包括了"HUFL"、"HULL"、"MUFL"、"MULL"、"LUFL"、"LULL"和"OT",每一列的詳細(xì)意義如下:
4. ILI疾病數(shù)據(jù)集
包括 2002 年至 2021 年美國疾病控制和預(yù)防中心每周數(shù)據(jù)。描述了患有流感疾病的患者與患者數(shù)量的比率。(WEIGHTED ILI:加權(quán)比率,UNWEIGHTED ILI:非加權(quán)比率,AGE 0-4:0-4歲患者數(shù)量,AGE 5-24:5-24歲患者數(shù)量,ILITOTAL:患有流感疾病的患者總數(shù),NUM. OF PROVIDERS:提供人數(shù),OT:患者數(shù)量)
5. Exchange
【數(shù)據(jù)情況】金融外匯相關(guān)的數(shù)據(jù)集其實(shí)是比較難預(yù)測的,這里收集了 1990 年至 2016 年 8 個(gè)國家的每日匯率(國家編號從0-6-OT,0:澳大利亞匯率,1:英國匯率,2:加拿大匯率,3:瑞士匯率,4:中國匯率,5:日本匯率,6:新西蘭匯率,OT:新加坡匯率)。
掃碼獲取數(shù)據(jù)集
6. Traffic
【數(shù)據(jù)情況】數(shù)據(jù)集沒有丟失值,每1H的數(shù)值顆粒度,數(shù)據(jù)時(shí)間段為2016/07/01 02:00—2018/07/02 01:00,共17544條數(shù)據(jù),包含 2015 年至 2016 年舊金山高速公路傳感器記錄的每小時(shí)數(shù)據(jù),數(shù)值描述了不同傳感器測量的道路占用率(介于0和1之間)。
周期性非常明顯,有些類似“異常值”的點(diǎn),但是否是異常值并不能直接下結(jié)論,因?yàn)樵谔囟ü?jié)假日,確實(shí)會出現(xiàn)集中放假,集中外出的情況,所以最近的一些研究就從時(shí)間戳的角度做工作,強(qiáng)化這方面的特征。
本文同樣整理了80篇時(shí)序+擴(kuò)散模型篇代表性的paper。同樣免費(fèi),歡迎掃碼下載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.