近期,以“數智互聯·產業蝶變”為主題的2025行業先鋒論壇在上海交通大學安泰經濟與管理學院舉行。上海庫帕思科技有限公司首席執行官黃海清在論壇上圍繞主題《大模型時代下高質量語料數據的研究及趨勢》作了精彩分享。
點擊觀看演講視頻
“語料”一詞在近一兩年風靡起來,它實際上是一個語言學的概念,語料就是語言的材料,眾多語言材料集合構成語料庫。在大模型時代下,可以通過大模型直接訓練和推理的數據我們稱之為語料。大模型發展到現在,算力與算法固然重要,但未來,高質量數據集才是制約大模型發展水平、決定其優劣的關鍵因素。
一、大模型發展趨勢研判及庫帕思戰略定位
1.1大模型發展趨勢研判
百模大戰基模數量會變成10模以內。2023年百模大戰后,除了BAT、華為、字節以外,已經從人工智能“四小龍”發展到現在的大模型“六小虎”,其中三小虎在上海,三小虎在北京。
千帆競發的行業垂類模型是主賽道。未來大模型主要戰場應該在千行百業、千帆競發的行業垂類大模型。根據調研,我們發現目前在全國已經有大概400家行業垂類大模型公司,預測到2025年底會超過一千家。
Scaling Law 規則速度開始減速。隨著算力的增強、數據量的擴充以及模型參數的增多,模型能夠實現自動化學習,從量變到質變,涌現出更多能力。但現在速度開始放緩了,一方面因為算力提升受限,另一方面則是因為缺少高質量數據。
2B(面向企業端)市場是盈利模式的主要探索方向。為企業和政府服務的2B市場將會成為行業大模型未來最主要的賽道,但目前為止還沒有形成成熟的商業模式,仍有待探索。
從大語言模型向多模態大模型演變。從2023年開始,Chat GPT大語言模型開始在往多模態大語言模型發展,多模態相對于大模型而言,就像人從只用語言溝通到將眼耳鼻舌聲音五官全部調動起來的這樣一個演變趨勢。
大模型時代將往AI for Data方向轉換。人工智能三要素分別是語料、算力和算法,在其發展過程中面臨著多種挑戰。相較于算力、算法上的差距,我們覺得在語料數據算料這一塊,中國更有機會實現換道超車。
1.2庫帕思愿景使命
基于此背景,陳吉寧書記去年在上海率先牽頭成立了庫帕思,作為一家語料公司,意在解決缺少方法論、成本高、勞動密集型等數據產業問題,降低語料成本,提供高質量的,具備鮮活度、真實性、大樣本、完整性、多樣性、高知識密度的語料數據服務,讓大模型觸手可及。
二、大模型語料建設方法論
2.1基于世界知識體系的語料魔方
語料數據到底怎么構建?在之前數據語料構建是沒有方法論的,當下我們正攜手上海圖書館以及眾多高校,基于世界知識體系來搭建方法論。在未來,行業語料庫、大模型以及機模所需的數據語料,都會被封裝好,就像圖書館里的一個個小抽屜,搭配智能導引,能直接提供給用戶,無需其操心,這便是首套基于世界知識體系的構建方法。
2.2多維度價值對齊的語料體系
倫理價值觀非常重要,但光有德有倫理是遠遠不夠的,為此我們推出了人工智能價值對齊“五有”體系,包括有德、有趣、有品、有序和有用五個方面,已經成為國家數據集基石語料庫建設標準。大模型要實現良好發展,語料數據必須具備共情能力,并且要有豐富的知識含量,有趣性在語料中也極為關鍵。有品代表要有內容,要將中國社會主義優秀價值觀、中華文明以及中華元素融入語料,通過大模型帶向全球,同時還要把全球其他先進文明都放進來。有序則是指不能涉黃、涉政、涉恐,有用則是要保證數據的安全、隱私等等。
2.3基于三個同心圓的行業語料匯聚
行業垂類大模型會是未來大模型領域的主戰場,為此我們提出“三個同心圓”方法論。利用“三個同心圓”,能夠將世界通識、行業知識、專業知識中80%的語料數據標準化,并一次性做好。像與金融機構合作的內部支付數據這類獨有的,通過私有化部署,配合工具鏈平臺,就能將整體數據用于訓練、微調與推理?;诖朔椒ㄕ?,能助力行業語料庫建設,推動中國大模型發展。
三、打造國際領先的語料工具鏈平臺
在人工智能時代和大模型時代,用幾萬人工去標注已經不合時宜,為此我們提出采用AI自動標注與清洗的理念,打造“采、洗、標、測、用”工具鏈平臺,解放人工進行標注的困境。通過自動算子、標注算子和清洗算子實現標注與清洗工作,聚焦高效率的采集、更智能的清洗、更精準的標注、更科學的測試,更個性的應用,極大提升工作效率與質量。
通過發揮語料力量,我們希望能夠助力和賦能數據服務行業,推動行業發展壯大,促進大模型產業加速協同發展。
*本文根據嘉賓的演講內容整理
2025年1月20日,安泰EE學員參訪上海庫帕思科技有限公司↑
課程咨詢
公開課:孫老師 021-52301088
政府、企業定制:李老師 021-52301043
閱讀更多
關注“交大安泰高管教育”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.