智源研究院發(fā)布中英文高質量數(shù)據(jù)集CCI4.0，推動全球人工智能開源創(chuàng)新

2025-05-07 22:06:30　來源: AI科技大本營

北京舉報

分享至

2025年5月6日，在法國巴黎舉辦的全球開源創(chuàng)新論壇（GOSIM，Global Open-Source Innovation Meetup）上，智源研究院正式發(fā)布中文互聯(lián)網(wǎng)語料庫CCI 4.0(Chinese Corpora Internet，簡稱 CCI)，并同步在智源DataHub、魔搭社區(qū)、Huggingface等平臺進行逐步開源。

CCI 4.0-M2 V1（Multilingual-2，中英雙語言）包含 CCI4.0-M2-Base V1、CCI4.0-M2-CoT V1和CCI4.0-M2-Extra V1共3個數(shù)據(jù)集。其中，CCI4.0-M2-Base V1數(shù)據(jù)量為35000GB，為中英雙語，中文數(shù)據(jù)5000GB，與CCI3.0相比數(shù)據(jù)規(guī)模增加了5倍。CCI4.0-M2-CoT V1 包含了用于提升推理能力的4.5億條逆向合成人類思考軌跡數(shù)據(jù)，總token數(shù)量達425B（4250億），與現(xiàn)有全球最大的已開源的合成數(shù)據(jù)集Cosmopedia（由Hugging Face開源）相比，規(guī)模提升了近20倍。

CCI 4.0下載地址：

https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-CoT-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Extra-v1

智源 CCI 系列數(shù)據(jù)集：從 1.0 到 3.0 的創(chuàng)新進階

自2023年10月起，智源研究院作為中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會數(shù)據(jù)集工作組的組長單位，牽頭建設與開放了“中文互聯(lián)網(wǎng)語料庫（CCI）”系列高質量數(shù)據(jù)集，旨在為國內大數(shù)據(jù)及人工智能行業(yè)提供一個安全、可靠的語料資源，共同推動大數(shù)據(jù)和人工智能領域的健康發(fā)展。

回顧CCI系列數(shù)據(jù)集的發(fā)展，CCI1.0、CCI2.0和CCI3.0 分別于 2023 年 11 月、2024 年 3 月及 10 月相繼亮相，數(shù)據(jù)總量達 1.6T Byte。截至目前，CCI 系列數(shù)據(jù)集在國內外數(shù)據(jù)開放平臺上的下載量已突破 14 萬次，為 500 多個企事業(yè)單位的大模型研發(fā)提供了有力支持，極大地助力了高質量中文大模型的建設，也推動了中文語料和價值觀在全球范圍的輸出，在國內外取得良好的反響。

CCI4.0數(shù)據(jù)集基本情況

（一）建設背景

從大模型發(fā)展趨勢來看，大規(guī)模高質量的預訓練語料庫越來越成為大型語言模型取得成功的關鍵。DeepSeek-V3和Qwen3等工作都指出在預訓練階段加入大規(guī)模合成的推理數(shù)據(jù)很重要。為此，智源研究院聯(lián)合多家機構和企業(yè)建設了具備大規(guī)模的優(yōu)化推理能力的預訓練數(shù)據(jù)集CCI4.0。

（二）數(shù)據(jù)來源

CCI4.0的原始數(shù)據(jù)包括Nemotron-CC、CCI系列、ChineseWebText2.0和FineWeb-2等中英文開源數(shù)據(jù)集以及多語言數(shù)據(jù)集等多個來源。開源數(shù)據(jù)集方面，嚴格遵守原始數(shù)據(jù)開源協(xié)議，不符合開源要求的數(shù)據(jù)另行開源。合作數(shù)據(jù)方面，與百度、阿里、華為、百川智能、出門問問、金山辦公、昆侖萬維、面壁智能、奇虎科技、上海人工智能實驗室、美團、稀宇科技、月之暗面、紫東太初、中科聞歌、科大訊飛、智譜華章共17家工作組成員單位逐一溝通，確認各成員單位貢獻的數(shù)據(jù)可進行開源。

（三）數(shù)據(jù)處理與安全審查

CCI4.0經(jīng)過了嚴格的數(shù)據(jù)處理，按照規(guī)則進行過濾、去重、質量評分、Loss分領域分桶過濾，形成了6T Token數(shù)據(jù)（6萬億個詞元）。英文數(shù)據(jù)集的處理上，在開源數(shù)據(jù)集基礎上進行了領域分類和分領域流暢度過濾等處理。中文數(shù)據(jù)集進行了常規(guī)過濾和安全敏感詞過濾、全局去重和分領域來源字符串去重、分領域流暢程度過濾、多種質量打分和分檔等處理；合成數(shù)據(jù)集進行了語義分段及摘要、總結思維鏈及合成問題等處理。經(jīng)過以上嚴格的數(shù)據(jù)處理，可以有效提升模型基礎的推理能力。同時，智源研究院就CCI4.0的發(fā)布進行了安全合規(guī)評審，確保CCI4.0數(shù)據(jù)集開源到公共平臺時，滿足安全合規(guī)所必須的條件。

未來工作計劃

接下來，智源研究院將持續(xù)開展中文預訓練語料庫建設，不斷提升語料庫質量，擴展語料庫的語言和內容覆蓋度，助力我國大模型產(chǎn)業(yè)發(fā)展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.