99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

千億參數大模型再突破,數據質量為何是關鍵?

0
分享至

“模型誠可貴,算力價格高。”--百模大戰的硝煙尚未散去,算力緊缺的呼聲似猶在耳。

如今,哪怕強如OpenAI也會處于算力緊缺的狀態。這也衍生出產業界共同的挑戰:即當算力資源愈發寶貴時,如何在同等算力當量的情況下,更高效地訓練模型,進而獲得更好的模型精度和更好的智能涌現效果。

目前看,在“預訓練+微調”成為大模型發展新范式的趨勢下,數據層面的創新正變得愈發關鍵。事實上,OpenAI CEO Sam Altman去年就強調,增加大模型的參數量不再是提升大模型能力的最有效手段,大規模、高質量數據和數據高效處理工程化才是關鍵。

無獨有偶,國內以源2.0為代表的大模型亦走在數據創新的最前沿,通過數據質量的提升,讓算力、算法、數據三位一體產生更好的化學反應,從而驅動基礎大模型的創新普惠。

01

數據質量:大模型的短板

數據質量正成為千億參數大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”(scaling law),即獨立增加訓練數據量、模型參數規模或者延長模型訓練時間,預訓練模型的效果會越來越好。

但從GPT4起,情況開始發生變化。OpenAI GPT3.5 從基于預訓練的范式下開展轉向“預訓練+微調”的范式,微調的重要性愈發突出,在這種新的情況下,是否依舊還是我們投入的算力規模越大,模型的效果就越好?我們投入的數據規模越大,模型效果就越好?


答案顯然是否定且值得需重新思考的。高質量、大規模、多樣性的數據集對于提高模型精度、可解釋性和減少訓練時長大有裨益。正如著名人工智能專家吳恩達所言,AI發展正在從“以模型為中心”加速轉向“以數據為中心”,高質量的訓練數據集決定著模型的精度與表現。

因此,數據層面需要適應“預訓練+微調”范式下不同階段的需求,追求數據質量將會成為所有大模型接下來的重點。

但數據質量的提升絕非易事,尤其是高質量數據的匱乏可能成為一種常態。以GPT3為例,其開發文檔顯示,45TB純文本數據經過質量過濾之后獲得570GB文本,有效數據僅僅只有1.27%;同樣,浪潮信息在源2.0的訓練中,清洗了12PB規模的原始網頁數據,最后提取跟數學相關的數據僅僅只有10GB不到。

眾所周知,高質量數據可以帶來更好的模型性能,包括推理能力,但高質量數據也將在未來一段時間消耗殆盡。根據《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預測,語言數據將于 2030~2040 年耗盡,其中能訓練出更好性能的高質量語言數據將于 2026 年耗盡。此外,視覺數據將于 2030~2060 年耗盡。

如何在數據層面彌補大模型發展的短板?此時此刻,增加數據來源,采用數據增強以及合成數據的新技術方法,逐漸成為牽引數據質量提升的關鍵所在。

02

提升數據質量:突破的鑰匙

高質量數據是大模型能力躍遷的關鍵鑰匙。

要想獲得高質量數據,首先需要讓多樣性數據比例更加合理。過去,大模型的訓練往往過于依賴互聯網數據,書籍、科學論文等專業語言數據占比較少。但互聯網公開數據集的數據質量往往低于書籍、科學論文等更專業的語言數據,增加專業數據占比就成為提升數據質量的一大關鍵路徑。

事實上,國家也意識到增加專業數據集對于發展大模型的重要價值。最新的《“數據要素×”三年行動計劃(2024—2026年)》就明確指出以科學數據支持大模型開發,深入挖掘各類科學數據和科技文獻,建設高質量語料庫和基礎科學數據集,支持開展人工智能大模型開發和訓練。

對于大模型廠商而言,增加百科、書籍、期刊等高質量數據的比重已是大勢所趨。浪潮信息也是最早有意識增加高質量數據來源的廠商之一,其源 2.0大模型有意識地減少互聯網公開數據集,增加百科、書籍、期刊等高質量數據,同時引入代碼和數學數據,甚至針對120PB海量規模的社群數據也進行有針對性的清洗和提純,從而達到廣泛增加高質量數據的目的。


另外,考慮到中國人工智能領域數據供給產業生態不完善、獲取成本高等真實情況,利用人工方式來獲得高質量數據的的方式就像“刀耕火種”,成本高昂且效率低下,對于很多大模型猶如杯水車薪。因此,采用技術手段自動合成數據的方法成為彌補高質量數據不足的重要手段。

所謂生成數據,即通過大模型生成新的數據,補充模型訓練中真實數據的不足。Gartner就預測,2024 年用于訓練大模型的數據中有60%將是合成數據,到2030年大模型使用的絕大部分數據將由人工智能合成。

OpenAI GPT-4就非常看重合成數據,其技術文檔中重點提到生成數據在訓練中關鍵作用。目前,合成數據在自動駕駛、金融欺詐、醫療等場景有著巨大需求。

在國內,目前真正使用合成數據的大模型相對較少。其中,源2.0大模型是注重合成數據的代表,已通過豐富實踐形成了一套數據構建的方法論,實現利用大模型的數據生產及過濾方法,在保證數據多樣性的同時,在每一個類別上提升數據質量,從而獲取高質量的訓練數據。


綜合來看,AGI絕不僅僅局限在語言與文字,發展多模態大模型已經成為大勢所趨,無疑會進一步加大構建高質量數據集的難度,通過擴大真實數據來源、構建高質量的合成數據集在未來會越來越重要。

03

開源+共訓:大模型高質量發展的關鍵

經歷了2023年的百模大戰,高質量發展已成為大模型產業界的共識。

事實上,在算力資源、高質量數據資源日趨寶貴的今天,我們再也不能陷入重復造輪子的商業陷阱了,大模型走向開源+共訓符合未來的高質量發展需求。

以數據層面為例,IDC預測,到2025年中國有望成為全球最大的數據圈。但國內開源意識不足,數據開放程度依然較低,雖然已有不少企業與科研機構構建了開源數據集,但與我國整體數據龐大體量相比顯得極為渺小。而通過開源開放的生態,有利于帶動高質量數據集的利用效率,提升模型泛化應用能力。

當下,浪潮信息的源2.0是“開源+共訓路線”的堅定實踐者。去年11月,浪潮信息正式發布源2.0基礎大模型,包括1026億、518億、21億等三種參數規模的模型,在編程、推理、邏輯等方面展示出了先進的能力,并且宣布全面開源。據相關數據統計,源大模型的開放數據集目前已經被國內50家大模型所采用。


據悉,浪潮信息在“源2.0”的研發過程中,針對算法、數據和計算方面進行了創新,包括新型的注意力算法結構、數據合成方法、非均勻流水并行策略等,并采取開源+共訓模式,將產業鏈各個環節有效串聯起來,實現整個產業的快速協同發展,為國內大模型高質量發展開辟了一條有效路徑。

例如,浪潮信息接下來會圍繞開源社區,廣泛收集開發者需求推動大模型能力與實際應用場景的適配,加速大模型在不同行業、場景中的商業化落地。

總體來看,AGI時代的奇點已經由大模型開啟,但大模型“大力出奇跡”的時代已經結束。正如一句與數據相關的名言:Garbage in,Garbage out,數據質量的高低也是大模型高質量發展的關鍵所在。面向未來,開源+共訓有利于大模型匯聚包括算法、數據等在內的技術創新力量,形成創新與成長的土壤,真正激發大模型無窮的能力。

附:源2.0大模型已經與GitHub社區最受歡迎的微調框架LLaMA-Factory完成全面適配,輕松實現“零代碼訓練專屬大模型”。欲了解詳情,可通過以下鏈接前往體驗,也可以點擊“閱讀原文”。

https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2_llama-factory.md

BREAK AWAY

01

02

03

04

05

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
熱火成杜蘭特頭號熱門下家!火箭拒送阿門申京 KD不想加盟森林狼

熱火成杜蘭特頭號熱門下家!火箭拒送阿門申京 KD不想加盟森林狼

羅說NBA
2025-06-17 06:04:51
美國商務部:在美國的制裁下,中國休想制造出數量龐大的AI芯片

美國商務部:在美國的制裁下,中國休想制造出數量龐大的AI芯片

史行途
2025-06-16 08:32:22
肋骨紋身真的不疼嗎?以前沒發現周冬雨有紋身,而且面積還挺大

肋骨紋身真的不疼嗎?以前沒發現周冬雨有紋身,而且面積還挺大

小嵩
2025-06-07 08:51:34
一夜之間,特朗普對華態度大變

一夜之間,特朗普對華態度大變

奇聞異評
2025-06-16 19:51:00
足球報:申花考慮夏窗引進外援前鋒,米內羅已基本賽季報銷

足球報:申花考慮夏窗引進外援前鋒,米內羅已基本賽季報銷

懂球帝
2025-06-17 12:45:18
美論壇:若中國禁止美加入中國空間站,美國有權將其擊落

美論壇:若中國禁止美加入中國空間站,美國有權將其擊落

泠泠說史
2025-06-16 09:26:41
辦252桌婚宴,欠50萬酒席錢不給,知情人講更多細節,新娘不簡單

辦252桌婚宴,欠50萬酒席錢不給,知情人講更多細節,新娘不簡單

子芫伴你成長
2025-06-15 22:29:09
不許石油過境,中俄分歧擺上臺面,一架專機將離京,中核集團牽頭

不許石油過境,中俄分歧擺上臺面,一架專機將離京,中核集團牽頭

聞識
2025-06-17 11:43:46
92年我和嫂子去看望大哥,回家路過小樹林時,她突然說了一句話

92年我和嫂子去看望大哥,回家路過小樹林時,她突然說了一句話

林林故事揭秘
2025-06-10 16:27:03
某女星穿“清趣內衣”被噴上熱搜:誰讓她這么燒!”

某女星穿“清趣內衣”被噴上熱搜:誰讓她這么燒!”

健身迷
2025-06-15 10:59:03
淮海戰役,一位農夫上前線送子彈時,竟從敵軍陣地又捎回一車炮彈

淮海戰役,一位農夫上前線送子彈時,竟從敵軍陣地又捎回一車炮彈

搞定歷史
2025-06-17 11:23:53
麥康納盡力了杰倫威一屁股坐下去冠軍的天秤傾向雷霆

麥康納盡力了杰倫威一屁股坐下去冠軍的天秤傾向雷霆

直播吧
2025-06-17 11:31:21
伊朗終于等到了,中方罕見8字表態回應,以色列這次闖下大禍

伊朗終于等到了,中方罕見8字表態回應,以色列這次闖下大禍

野山歷史
2025-06-17 08:23:22
安徽銀行人員被客戶請吃15元面算違規嗎?新華社:圈子再小也不行

安徽銀行人員被客戶請吃15元面算違規嗎?新華社:圈子再小也不行

楊哥歷史
2025-06-17 10:12:50
莫迪到達加拿大,加拿大接機沒有紅地毯!印希望與加重啟關系!

莫迪到達加拿大,加拿大接機沒有紅地毯!印希望與加重啟關系!

大道無形我有型
2025-06-17 12:22:09
86年洪學智訪美遭提問:什么學校畢業?洪學智笑答:美軍空軍大學

86年洪學智訪美遭提問:什么學校畢業?洪學智笑答:美軍空軍大學

尋途
2025-06-16 16:23:32
再降薪就沒人踢了!前國腳暴怒發聲:國足已經降到日韓的三分之一

再降薪就沒人踢了!前國腳暴怒發聲:國足已經降到日韓的三分之一

涵豆說娛
2025-06-17 14:19:26
我花2萬找小姐要求處女,在酒店以為遇到仙人跳,最后動了真心

我花2萬找小姐要求處女,在酒店以為遇到仙人跳,最后動了真心

葉天辰故事會
2024-06-07 18:02:04
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
17歲天才亞馬爾新女友曝光,大他13歲,是超百萬粉絲的西班牙網紅

17歲天才亞馬爾新女友曝光,大他13歲,是超百萬粉絲的西班牙網紅

凌空倒鉤
2025-06-17 06:07:01
2025-06-17 14:59:00
dobigdata incentive-icons
dobigdata
科技推動商業
719文章數 305關注度
往期回顧 全部

科技要聞

日賺1億、存貨1544億,比亞迪的實力與枷鎖

頭條要聞

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

頭條要聞

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

體育要聞

FMVP之爭?杰倫40+6創紀錄 決戰連獻關鍵分

娛樂要聞

52歲楊坤戀情疑曝光,前女友已去世

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

手機
本地
房產
公開課
軍事航空

手機要聞

蘋果上線iOS 18.6 Beta版本 國行版AI遙遙無期

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

內塔尼亞胡:不排除干掉哈梅內伊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海晏县| 庆云县| 疏勒县| 贵阳市| 砀山县| 祁阳县| 平和县| 通化县| 九寨沟县| 大邑县| 嵩明县| 龙南县| 德庆县| 巧家县| 碌曲县| 昆山市| 资源县| 平江县| 民权县| 东平县| 卫辉市| 津市市| 巴彦淖尔市| 申扎县| 雷波县| 昌江| 英吉沙县| 阿拉尔市| 吉木萨尔县| 丽水市| 河津市| 河北省| 同德县| 那坡县| 凤阳县| 磐石市| 河津市| 沅陵县| 行唐县| 南澳县| 梅河口市|