99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型是全球科技競爭的核心領域,我國下一步往哪走?|智庫觀察

0
分享至

設置星標 關注,從此你的世界多點科學~

智庫觀察

OBSERVER

人工智能(AI)是新質生產力的典型代表,大模型是全球科技競爭的核心領域,也是引領新一輪產業革命的重要推動力。當前,國內大模型公開語料數據資源匱乏,高質量私域語料數據供給不暢,未形成大模型語料數據優質生態。針對這類問題,我國應率先完善語料數據生態,搶先研發下一代基礎大模型,促進人工智能與經濟社會發展的深度融合,引領和推動我國新一代人工智能的健康發展。

國內大模型語料數據供給面臨三大困境

根據中國國家數據局數據統計,截至2024年3月底,我國10億參數規模以上的大模型已超100個,全球累計發布大模型超過200個。下一階段,大模型的競爭將進一步聚焦在性能表現和應用落地的能力上,能否有足夠充分和高效的大規模、高質量的語料數據供給是搶占大模型產業爆發先機的關鍵。

美國早在2016年出臺的《國家人工智能研發戰略計劃》 (該計劃分別于2019年和2023年兩次更新) 中,就明確提出將“開發適用于人工智能訓練和測試的共享公共數據集和環境”作為七大戰略計劃之一,而我國的語料數據發展起步較晚,數據資源整合能力、數據資源價值挖掘能力、數據治理能力的基礎薄弱,數據交易市場培育較為滯后,導致當前我國大模型語料數據供給還存在三大困境。

困境之一:

大模型公開語料數據資源匱乏

由于大模型的擴展速度比數據集快3倍,全球大模型普遍存在數據荒的問題。

紀元 (Epoch) AI 研究團隊 (由麻省理工學院團隊和阿伯丁等大學學者組成) 的研究結果表明,高質量的語言數據存量將在2026年耗盡,低質量的語言數據和圖像數據的存量則分別在2030年至2050年、2030年至2060年枯竭。其中,中文語料成全球數據荒重災區。

中國工程院院士高文指出,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。一些主流數據集如Common Crawl、Books Corpus、WiKipedia、ROOT等都以英文為主。最受好評的Common Crawl數據集中,中文數據也只占其4.8%。

雖然國內已有機構發布開源數據集,例如百度DuReader數據集、阿里天池數據集等,但總體來看數據質量相對較低,存在噪聲、偏差或過時等問題,需要自行抓取并進行預訓練才可使用,且行業專業度不深。當然,隨著DeepSeek帶來的“鯰魚效應”,文心一言、ChatGPT等紛紛效仿其采取開源生態,免費開放給所有用戶使用,這在一定程度上促進了全球的大模型語料獲取。

困境之二:

高質量私域語料數據供給不暢

私域數據的領域性和專業針對性較強,可靠性與實用性較高,適合與行業大模型深度結合。

近年來,我國高度重視數據開放,推進數據交易,國家組建數據管理局,地方上也紛紛設立數據交易中心,但總體上,企業和科研機構“尋找數據”的積極性較高,“共享和開放數據”的能動性較弱。

一方面,專業領域知識積累的專業門檻高、時間周期長,企業出于商業利益和知識產權考慮,對領域知識共享意愿度低;另一方面,由于存在隱私、安全等合規性問題,部分行業缺少優質的數據供給。

困境之三:

大模型發展與數據處理技術不平衡

高質量的大模型語料數據建設既有機制問題,又有技術問題。從技術層面看,大模型的有效運行需要從數據采集、清洗、處理、存儲和銷毀全生命周期進行數據技術的支撐,從頂層設計、標注規范、標注質量把控以及發布后更新升級等各個方面嚴格把關。

目前國內訓練行業大模型所需要使用的工業、醫療、金融、交通等領域的垂直數據還較為缺乏。這主要是因為這些行業數據多聚焦于某些單一場景,需要經過聚合整理后方能作為訓練大數據的數據集。

此外,高效的安全技術保障也不足,雖然已有一些動態加密、聯邦機器學習等方式可以幫助脫敏,或者做到“原始數據不出域,數據可用不可見”,但總體效率不高,無法大批量地保障大模型訓練語料的安全。

國際上大模型語料數據開放供給的經驗

各國對大模型語料數據開放供給都在持續探索的過程中。從實踐效果看,美國“政府-社會協同”的數據資源生態對大模型產業發展助力較大;歐盟通過完善法律試圖擴大人工智能領域的“布魯塞爾效應”,有效推動大模型賦能科研;而英國和日本受制于法律困境,進展較為有限。

美國:

加快形成“政府-社會協同”

數據資源生態

為了進一步鞏固AI領域的競爭優勢,美國聯邦政府在公共數據中承擔了“應開盡開”的職責,并以開放的公共數據服務于訓練語料,社會力量通過融合公共數據和網絡公開數據提升語料廣度、精細度和專業性。

政府開發了專門針對AI訓練數據的開放平臺 (www.data.gov.cn) ,除了隱去涉及國家秘密和個人隱私的信息,聯邦和地方法院都實現了數據公開,并針對公共數據和科研數據進行質量維護和運營管理,在保證數據可用性的同時降低公眾使用門檻。

為使AI促進科研,美國還出臺了為期6年的國家人工智能研究資源 (NAIRR) 計劃,通過建立數據資源服務平臺,匯聚社會力量建立統一的數據匯聚標準,規范數據描述格式,促進多方數據融合,并通過打造運營數據集社區等,推動多方協作的數據資源開發利用。

同時,為促進公眾參與,美國政府數據開放平臺列出政府亟待解決的數據問題,并設立獎金,調動全社會的力量共同解決。

歐盟:

強化數據戰略并尋求監管平衡

2020年,歐盟發布了《數據戰略》,并確定了九大戰略性行業和領域的數據空間,后為加強數據賦能科學研究,增添歐洲開放科學 (EOSC) 作為科研領域的數據空間。同時設立歐盟數據開放平臺,通過其元數據質量儀表板評估歐盟各國國家數據開放的可訪問性和可用性。

在2024年出臺的《人工智能法案》中,更加注重人工智能創新發展與監管平衡,以規范來促進高質量語料數據建設。法案通過確立數據多樣性和可追溯性的要求,并設立語料來源黑名單,確保語料的廣泛性和可驗證性。

在語料版權上,歐盟國家雖強調了AI版權的透明性,但是對科研使用優先豁免,例如,德國最新版《著作權及鄰接權法》規定了科研使用的豁免 (出于非商業目的、將所有利潤再投資于科學研究或根據國家授權為實現公共利益的研究機構允許為科學研究目的進行文本和數據挖掘而制作復制品) 。

英國和日本:

尚未突破法律困境

英國于2012年成立了開放數據研究所 (ODI) ,以促進商業界、學術界、政府和社會在開放數據方面的合作,構建開放、可信任的數據生態。同時,英國官員們也正在考慮有關版權和人工智能的新法律。

為了盡快吸引人工智能企業和技術進入英國,政府曾提出一項新的版權法豁免建議,但在藝術家的強烈反對下,不得不放棄該計劃。這凸顯了英國政府在迎合人工智能方面所面臨的挑戰。

相似地,2023年5月,日本內閣府發布了《關于人工智能和版權的關系》文件,并在人工智能戰略會議小組上討論使用。但日本關于AI訓練數據集版權豁免問題的相關討論局限于人工智能戰略會議小組及眾議院內部,尚未出臺正式法律文件。

結 語

我國人工智能已經進入快速發展的階段,而兼具開放性、高效性和易用性的DeepSeek的出現,不僅展現了中國團隊在技術優化和資源利用上的突破,同時也極大推動了人工智能應用領域的創新。在算力和數據供給方面,浙江大數據計算中心為其提供強大的算力支持,每日互動為其提供海量且豐富的用戶行為語料數據,一些廠商也在主動謀求與幻方量化 (DeepSeek的母公司) 的合作,為其提供金融等專業領域的數據支持,推動了AI在各行各業的高度滲透。

未來,我國的大模型語料數據可以重點在以下幾個方面進行優化。

首先,集中戰略資源,協同建設“大模型語料”大基礎設施。依托具有強公信力的研發機構,設立資源共享-技術研發平臺,鏈接各個主體,匯聚各類公開和私域數據,實現資源的內部整合。同時,加大數據關鍵技術的研發攻關,通過AI大模型技術與大數據架構的深度融合,利用多源多態數據融合治理、多云多存儲數據操作抽象、跨中心協同大數據融合計算、多模態數據智能分析等技術,充分挖掘全國領域內數據要素價值,及時支撐下一代基礎大模型的研發攻關。

其次,提高數據供給質量,豐富垂直類數據供給。探索建立大模型訓練數據需求清單和供給目錄,建立數據供需高質量對接機制。探索建設可用于大模型訓練的公共數據專欄和社會數據專區,以場景需求為牽引梳理數據,推動公共數據和社會數據定向有條件開放。加強社會數據應用引導,鼓勵鏈主企業、行業組織發揮效能,打造有吸引力的行業專用數據庫。運用先進技術打破數據安全保護與數據交易流通矛盾,搭建“數據可用不可見”的數據可信流通技術平臺。

第三,優化數據治理,促進創新與安全的均衡發展。挪威、法國、新加坡等國家在人工智能領域均采取了“監管沙盒”等平衡監管與創新的治理工具。我國在大模型語料數據監管上建議“宜疏不宜堵”,探索對基于純粹科學研究目的、來自主流媒體和專業領域知識機構等多種數據資源匯聚使用的版權進行豁免,以加速推進原創研究的進程。健全數據流通共享交易制度,探索建立正面引導清單、負面禁止清單和第三方機構認證評級相結合的數據市場準入管理制度,完善數據交易共享的技術保障、檢測認證、風險評估、信息披露和監督審計等相關制度規范。

-本文作者張苑是上海市科學學研究所高級經濟師,主要研究方向為科技金融、企業創新、人工智能;瞿晶晶是上海人工智能實驗室副研究員,主要研究方向為人機交互、人工智能治理;姚景怡是上海市科學學研究所助理研究員,主要研究方向為科技政策、科技管理-

《世界科學》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發代號:4-263

方式三

機構訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官方最新通報!“耳環事件”大反轉了?網友扒出3條漏洞打臉

官方最新通報!“耳環事件”大反轉了?網友扒出3條漏洞打臉

禾寒敘
2025-07-17 13:31:24
早報|黃仁勛大談中國AI,還稱想買小米汽車/加長版 Model Y 亮相/「雪糕刺客」鐘薛高被申請破產

早報|黃仁勛大談中國AI,還稱想買小米汽車/加長版 Model Y 亮相/「雪糕刺客」鐘薛高被申請破產

愛范兒
2025-07-17 09:59:20
收到訪華邀請,特朗普定下9月行程,除了英國,還可能去兩個國家

收到訪華邀請,特朗普定下9月行程,除了英國,還可能去兩個國家

趣味八卦
2025-07-18 09:45:21
北約這張老臉丟盡了:嚇不住中國就算了,還被印度人罵是狗!

北約這張老臉丟盡了:嚇不住中國就算了,還被印度人罵是狗!

顧史
2025-07-18 23:21:21
李湘“愛女”人設崩塌!11年前就懷上二胎,渴望王詩齡進上流社會

李湘“愛女”人設崩塌!11年前就懷上二胎,渴望王詩齡進上流社會

林輕吟
2025-07-18 09:21:41
美國為何敢肆無忌憚的挑戰中國的紅線,也許問題的根本出在這里

美國為何敢肆無忌憚的挑戰中國的紅線,也許問題的根本出在這里

林子說事
2025-07-19 02:10:12
是最后的【葵司】|向死而生我來過,浪花寫就我年華

是最后的【葵司】|向死而生我來過,浪花寫就我年華

孤獨的獨角獸影視
2025-07-18 09:55:03
成都一公交站點被調侃為漢語八級聽力考試,如今許多站點已經簡化

成都一公交站點被調侃為漢語八級聽力考試,如今許多站點已經簡化

男女那點事兒兒
2025-07-18 10:07:49
宗慶后出軌小21歲女下屬,私照膚白貌美能力出眾,難怪他把持不住

宗慶后出軌小21歲女下屬,私照膚白貌美能力出眾,難怪他把持不住

南南說娛
2025-07-14 11:01:34
TVB視后返美探親!醫生弟弟親自接機,公屋出身供弟大學

TVB視后返美探親!醫生弟弟親自接機,公屋出身供弟大學

熱鬧吃瓜大姐
2025-07-17 22:10:16
6號臺風路徑北調!新一輪降雨升級:6省大暴雨,4省局地特大暴雨

6號臺風路徑北調!新一輪降雨升級:6省大暴雨,4省局地特大暴雨

行走的知識庫
2025-07-19 02:12:23
背娃擺攤的林靜,終于火上央視,把她趕出門的婆婆,腸子都悔青了

背娃擺攤的林靜,終于火上央視,把她趕出門的婆婆,腸子都悔青了

愛侃娛的丁丁
2025-05-28 17:08:37
中國汽車出口的真相,連歐洲前十都丟了,誰沒了遮羞布?

中國汽車出口的真相,連歐洲前十都丟了,誰沒了遮羞布?

柏銘銳談
2025-07-18 15:09:12
若不出意外,2025年下半年開始,大部分家庭可能面臨“四大難題”

若不出意外,2025年下半年開始,大部分家庭可能面臨“四大難題”

新語愛八卦
2025-06-28 16:59:17
體育界奧斯卡引爭議,美國冬奧女星紅毯翻車,裙子出糗成ESPY焦點

體育界奧斯卡引爭議,美國冬奧女星紅毯翻車,裙子出糗成ESPY焦點

藝兔體壇
2025-07-18 07:00:03
毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

巡史天下
2025-06-26 16:40:30
985高校集體“爆冷”,剩余大量名額,家長看到專業名稱卻傻眼了

985高校集體“爆冷”,剩余大量名額,家長看到專業名稱卻傻眼了

教育導向分享
2025-07-17 21:47:08
外媒:巴西對中國稀土出口量激增

外媒:巴西對中國稀土出口量激增

參考消息
2025-07-18 21:32:29
海南省擬任干部人選公告(2025年7月18日)

海南省擬任干部人選公告(2025年7月18日)

這里是儋州
2025-07-18 21:51:34
長城汽車披露2025年上半年業績:凈利潤63.37億元,下降10.22%

長城汽車披露2025年上半年業績:凈利潤63.37億元,下降10.22%

PChome電腦之家
2025-07-18 17:38:44
2025-07-19 03:36:49
世界科學 incentive-icons
世界科學
《世界科學》編輯部運營賬號
1739文章數 26866關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

體育要聞

夏聯-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

房產
健康
親子
旅游
軍事航空

房產要聞

一梯一戶純板樓!斷貨三年,海口這一核心區,硬貨出場!

呼吸科專家破解呼吸道九大謠言!

親子要聞

兒科醫生反向科普:如果你想讓孩子慢慢變笨,應該怎么做? #睡個好覺

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 闽侯县| 黑山县| 夏河县| 盈江县| 恭城| 宜君县| 松溪县| 曲松县| 牙克石市| 峨眉山市| 托克逊县| 天长市| 蓬安县| 玉屏| 福清市| 嘉兴市| 黎川县| 梅州市| 顺平县| 凤城市| 寿光市| 田阳县| 津南区| 锡林浩特市| 济南市| 肥东县| 泰安市| 章丘市| 翁牛特旗| 山东省| 苏尼特右旗| 平远县| 宜昌市| 玉林市| 崇仁县| 马鞍山市| 根河市| 伊金霍洛旗| 定结县| 铜鼓县| 沂水县|