網易首頁 > 網易號 > 正文申請入駐

千億參數大模型再突破，數據質量為何是關鍵？

2024-01-12 19:28:18　來源: dobigdata

北京舉報

分享至

“模型誠可貴，算力價格高。”--百模大戰的硝煙尚未散去，算力緊缺的呼聲似猶在耳。

如今，哪怕強如OpenAI也會處于算力緊缺的狀態。這也衍生出產業界共同的挑戰：即當算力資源愈發寶貴時，如何在同等算力當量的情況下，更高效地訓練模型，進而獲得更好的模型精度和更好的智能涌現效果。

目前看，在“預訓練+微調”成為大模型發展新范式的趨勢下，數據層面的創新正變得愈發關鍵。事實上，OpenAI CEO Sam Altman去年就強調，增加大模型的參數量不再是提升大模型能力的最有效手段，大規模、高質量數據和數據高效處理工程化才是關鍵。

無獨有偶，國內以源2.0為代表的大模型亦走在數據創新的最前沿，通過數據質量的提升，讓算力、算法、數據三位一體產生更好的化學反應，從而驅動基礎大模型的創新普惠。

數據質量：大模型的短板

數據質量正成為千億參數大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”（scaling law），即獨立增加訓練數據量、模型參數規模或者延長模型訓練時間，預訓練模型的效果會越來越好。

但從GPT4起，情況開始發生變化。OpenAI GPT3.5 從基于預訓練的范式下開展轉向“預訓練+微調”的范式，微調的重要性愈發突出，在這種新的情況下，是否依舊還是我們投入的算力規模越大，模型的效果就越好？我們投入的數據規模越大，模型效果就越好？

答案顯然是否定且值得需重新思考的。高質量、大規模、多樣性的數據集對于提高模型精度、可解釋性和減少訓練時長大有裨益。正如著名人工智能專家吳恩達所言，AI發展正在從“以模型為中心”加速轉向“以數據為中心”，高質量的訓練數據集決定著模型的精度與表現。

因此，數據層面需要適應“預訓練+微調”范式下不同階段的需求，追求數據質量將會成為所有大模型接下來的重點。

但數據質量的提升絕非易事，尤其是高質量數據的匱乏可能成為一種常態。以GPT3為例，其開發文檔顯示，45TB純文本數據經過質量過濾之后獲得570GB文本，有效數據僅僅只有1.27%；同樣，浪潮信息在源2.0的訓練中，清洗了12PB規模的原始網頁數據，最后提取跟數學相關的數據僅僅只有10GB不到。

眾所周知，高質量數據可以帶來更好的模型性能，包括推理能力，但高質量數據也將在未來一段時間消耗殆盡。根據《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預測，語言數據將于 2030~2040 年耗盡，其中能訓練出更好性能的高質量語言數據將于 2026 年耗盡。此外，視覺數據將于 2030~2060 年耗盡。

如何在數據層面彌補大模型發展的短板？此時此刻，增加數據來源，采用數據增強以及合成數據的新技術方法，逐漸成為牽引數據質量提升的關鍵所在。

提升數據質量：突破的鑰匙

高質量數據是大模型能力躍遷的關鍵鑰匙。

要想獲得高質量數據，首先需要讓多樣性數據比例更加合理。過去，大模型的訓練往往過于依賴互聯網數據，書籍、科學論文等專業語言數據占比較少。但互聯網公開數據集的數據質量往往低于書籍、科學論文等更專業的語言數據，增加專業數據占比就成為提升數據質量的一大關鍵路徑。

事實上，國家也意識到增加專業數據集對于發展大模型的重要價值。最新的《“數據要素×”三年行動計劃（2024—2026年）》就明確指出以科學數據支持大模型開發，深入挖掘各類科學數據和科技文獻，建設高質量語料庫和基礎科學數據集，支持開展人工智能大模型開發和訓練。

對于大模型廠商而言，增加百科、書籍、期刊等高質量數據的比重已是大勢所趨。浪潮信息也是最早有意識增加高質量數據來源的廠商之一，其源 2.0大模型有意識地減少互聯網公開數據集，增加百科、書籍、期刊等高質量數據，同時引入代碼和數學數據，甚至針對120PB海量規模的社群數據也進行有針對性的清洗和提純，從而達到廣泛增加高質量數據的目的。

另外，考慮到中國人工智能領域數據供給產業生態不完善、獲取成本高等真實情況，利用人工方式來獲得高質量數據的的方式就像“刀耕火種”，成本高昂且效率低下，對于很多大模型猶如杯水車薪。因此，采用技術手段自動合成數據的方法成為彌補高質量數據不足的重要手段。

所謂生成數據，即通過大模型生成新的數據，補充模型訓練中真實數據的不足。Gartner就預測，2024 年用于訓練大模型的數據中有60%將是合成數據，到2030年大模型使用的絕大部分數據將由人工智能合成。

OpenAI GPT-4就非常看重合成數據，其技術文檔中重點提到生成數據在訓練中關鍵作用。目前，合成數據在自動駕駛、金融欺詐、醫療等場景有著巨大需求。

在國內，目前真正使用合成數據的大模型相對較少。其中，源2.0大模型是注重合成數據的代表，已通過豐富實踐形成了一套數據構建的方法論，實現利用大模型的數據生產及過濾方法，在保證數據多樣性的同時，在每一個類別上提升數據質量，從而獲取高質量的訓練數據。

綜合來看，AGI絕不僅僅局限在語言與文字，發展多模態大模型已經成為大勢所趨，無疑會進一步加大構建高質量數據集的難度，通過擴大真實數據來源、構建高質量的合成數據集在未來會越來越重要。

開源+共訓：大模型高質量發展的關鍵

經歷了2023年的百模大戰，高質量發展已成為大模型產業界的共識。

事實上，在算力資源、高質量數據資源日趨寶貴的今天，我們再也不能陷入重復造輪子的商業陷阱了，大模型走向開源+共訓符合未來的高質量發展需求。

以數據層面為例，IDC預測，到2025年中國有望成為全球最大的數據圈。但國內開源意識不足，數據開放程度依然較低，雖然已有不少企業與科研機構構建了開源數據集，但與我國整體數據龐大體量相比顯得極為渺小。而通過開源開放的生態，有利于帶動高質量數據集的利用效率，提升模型泛化應用能力。

當下，浪潮信息的源2.0是“開源+共訓路線”的堅定實踐者。去年11月，浪潮信息正式發布源2.0基礎大模型，包括1026億、518億、21億等三種參數規模的模型，在編程、推理、邏輯等方面展示出了先進的能力，并且宣布全面開源。據相關數據統計，源大模型的開放數據集目前已經被國內50家大模型所采用。

據悉，浪潮信息在“源2.0”的研發過程中，針對算法、數據和計算方面進行了創新，包括新型的注意力算法結構、數據合成方法、非均勻流水并行策略等，并采取開源+共訓模式，將產業鏈各個環節有效串聯起來，實現整個產業的快速協同發展，為國內大模型高質量發展開辟了一條有效路徑。

例如，浪潮信息接下來會圍繞開源社區，廣泛收集開發者需求推動大模型能力與實際應用場景的適配，加速大模型在不同行業、場景中的商業化落地。

總體來看，AGI時代的奇點已經由大模型開啟，但大模型“大力出奇跡”的時代已經結束。正如一句與數據相關的名言：Garbage in，Garbage out，數據質量的高低也是大模型高質量發展的關鍵所在。面向未來，開源+共訓有利于大模型匯聚包括算法、數據等在內的技術創新力量，形成創新與成長的土壤，真正激發大模型無窮的能力。

附：源2.0大模型已經與GitHub社區最受歡迎的微調框架LLaMA-Factory完成全面適配，輕松實現“零代碼訓練專屬大模型”。欲了解詳情，可通過以下鏈接前往體驗，也可以點擊“閱讀原文”。

https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2_llama-factory.md

BREAK AWAY

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.