2025年5月6日,在法國巴黎舉辦的全球開源創(chuàng)新論壇(GOSIM,Global Open-Source Innovation Meetup)上,智源研究院正式發(fā)布中文互聯(lián)網(wǎng)語料庫CCI 4.0(Chinese Corpora Internet,簡稱 CCI),并同步在智源DataHub、魔搭社區(qū)、Huggingface等平臺進行逐步開源。
CCI 4.0-M2 V1(Multilingual-2,中英雙語言)包含 CCI4.0-M2-Base V1、CCI4.0-M2-CoT V1和CCI4.0-M2-Extra V1共3個數(shù)據(jù)集。其中,CCI4.0-M2-Base V1數(shù)據(jù)量為35000GB,為中英雙語,中文數(shù)據(jù)5000GB,與CCI3.0相比數(shù)據(jù)規(guī)模增加了5倍。CCI4.0-M2-CoT V1 包含了用于提升推理能力的4.5億條逆向合成人類思考軌跡數(shù)據(jù),總token數(shù)量達425B(4250億),與現(xiàn)有全球最大的已開源的合成數(shù)據(jù)集Cosmopedia(由Hugging Face開源)相比,規(guī)模提升了近20倍。
CCI 4.0下載地址:
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-CoT-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Extra-v1
智源 CCI 系列數(shù)據(jù)集:從 1.0 到 3.0 的創(chuàng)新進階
自2023年10月起,智源研究院作為中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會數(shù)據(jù)集工作組的組長單位,牽頭建設與開放了“中文互聯(lián)網(wǎng)語料庫(CCI)”系列高質量數(shù)據(jù)集,旨在為國內大數(shù)據(jù)及人工智能行業(yè)提供一個安全、可靠的語料資源,共同推動大數(shù)據(jù)和人工智能領域的健康發(fā)展。
回顧CCI系列數(shù)據(jù)集的發(fā)展,CCI1.0、CCI2.0和CCI3.0 分別于 2023 年 11 月、2024 年 3 月及 10 月相繼亮相,數(shù)據(jù)總量達 1.6T Byte。截至目前,CCI 系列數(shù)據(jù)集在國內外數(shù)據(jù)開放平臺上的下載量已突破 14 萬次,為 500 多個企事業(yè)單位的大模型研發(fā)提供了有力支持,極大地助力了高質量中文大模型的建設,也推動了中文語料和價值觀在全球范圍的輸出,在國內外取得良好的反響。
CCI4.0數(shù)據(jù)集基本情況
(一)建設背景
從大模型發(fā)展趨勢來看,大規(guī)模高質量的預訓練語料庫越來越成為大型語言模型取得成功的關鍵。DeepSeek-V3和Qwen3等工作都指出在預訓練階段加入大規(guī)模合成的推理數(shù)據(jù)很重要。為此,智源研究院聯(lián)合多家機構和企業(yè)建設了具備大規(guī)模的優(yōu)化推理能力的預訓練數(shù)據(jù)集CCI4.0。
(二)數(shù)據(jù)來源
CCI4.0的原始數(shù)據(jù)包括Nemotron-CC、CCI系列、ChineseWebText2.0和FineWeb-2等中英文開源數(shù)據(jù)集以及多語言數(shù)據(jù)集等多個來源。開源數(shù)據(jù)集方面,嚴格遵守原始數(shù)據(jù)開源協(xié)議,不符合開源要求的數(shù)據(jù)另行開源。合作數(shù)據(jù)方面,與百度、阿里、華為、百川智能、出門問問、金山辦公、昆侖萬維、面壁智能、奇虎科技、上海人工智能實驗室、美團、稀宇科技、月之暗面、紫東太初、中科聞歌、科大訊飛、智譜華章共17家工作組成員單位逐一溝通,確認各成員單位貢獻的數(shù)據(jù)可進行開源。
(三)數(shù)據(jù)處理與安全審查
CCI4.0經(jīng)過了嚴格的數(shù)據(jù)處理,按照規(guī)則進行過濾、去重、質量評分、Loss分領域分桶過濾,形成了6T Token數(shù)據(jù)(6萬億個詞元)。英文數(shù)據(jù)集的處理上,在開源數(shù)據(jù)集基礎上進行了領域分類和分領域流暢度過濾等處理。中文數(shù)據(jù)集進行了常規(guī)過濾和安全敏感詞過濾、全局去重和分領域來源字符串去重、分領域流暢程度過濾、多種質量打分和分檔等處理;合成數(shù)據(jù)集進行了語義分段及摘要、總結思維鏈及合成問題等處理。經(jīng)過以上嚴格的數(shù)據(jù)處理,可以有效提升模型基礎的推理能力。同時,智源研究院就CCI4.0的發(fā)布進行了安全合規(guī)評審,確保CCI4.0數(shù)據(jù)集開源到公共平臺時,滿足安全合規(guī)所必須的條件。
未來工作計劃
接下來,智源研究院將持續(xù)開展中文預訓練語料庫建設,不斷提升語料庫質量,擴展語料庫的語言和內容覆蓋度,助力我國大模型產(chǎn)業(yè)發(fā)展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.