中美都在押注,數據標注為什么站到C位
文|任曉漁
編|徐鑫
“親愛的特朗普總統(tǒng),美國必須贏得AI戰(zhàn)爭。”今年年初,年僅 28 歲的 Alexandr Wang在川普就職典禮第二天,在華盛頓郵報為自己的數據標注服務公司Scale AI打出了整版廣告。
Alexandr Wang這個看起來頗為“加戲”的動作,讓數據標注第一次走進普羅大眾視野。它也凸顯一個現(xiàn)實——在AI三要素里,相比模型和算力領域里的硝煙滾滾,大眾對數據領域的演進缺乏更多的認知。
不過,兩周前,Meta以143億美金收購Scale AI 49%股權,這讓AI數據服務領域真正成為了全球關注焦點,也引發(fā)了美國數據標注產業(yè)的一場大地震。
無獨有偶,除了美國巨頭押注AI數據服務價值,國內數據標注產業(yè)過去一年多里熱度也在不斷攀升,頂層設計和市場端都有不小的動作。7大國家級數據標注基地試點城市落地,國家數據局還集中發(fā)布了47個數據標注優(yōu)秀案例集,同時,一批數據標注服務公司則迎來了業(yè)績的快速攀升。
不過,在產業(yè)界的頻繁動作之外,業(yè)界又流行一個說法,數據標注正在加速自動化,技術進步正在許多標注任務逐漸消失。
這讓人好奇,中美都在押注的領域,到底是怎樣一個產業(yè)?當下這一領域處在怎樣的發(fā)展階段?自動化會讓數據標注走開嗎?接下來競爭將如何展開?
01
并購案背后,AI基礎數據服務站上C位
“數據是人工智能中最有價值的資產之一”,這句人工智能時代的共識,在Scale AI并購以及隨之而來的AI基礎數據服務產業(yè)震蕩中得到了絕佳的驗證。
143億美金的并購金額,在Meta的并購歷史里僅次于收購whatsApp。Meta愿意支付這個價碼,背后是Meta對在當下大模型競爭里掉隊的焦慮。
過去幾個月里,這家硅谷巨頭面臨著不小的壓力。今年4月,Meta發(fā)布的Llama 4 模型反饋不及預期,更大的模型Behemoth也被延期發(fā)布。
被收購一方,Scale AI之所以能叫出天價,既要從這家公司在AI基礎數據服務領域的地位說起,又與數據標注和挖掘在當下的模型訓練中的重要位置密不可分。
Scale AI成立于2016年,它最初是一個提供眾包服務的平臺,幫助企業(yè)完成一些內容審核、數據提取等需要人工操作的任務。之后隨著自動駕駛領域對數據審核與標注的龐大需求。Scale AI開始專注在數據標注領域,幫助客戶收集、清理、標注和管理大規(guī)模數據,助力自動駕算法研發(fā)。
大模型浪潮來臨后,Scale AI收入從2022年的2.9億美元一下子飆升到2023年的7.6億美金,2024年繼續(xù)增長到8.7億美金。有消息稱預計2025年這家公司的營收將達到20億美金水平。
如果你對它的營收沒有太多的概念,OpenAI 2024營收為37億美元。而根據Grand View Research數據顯示,2023年全球數據標注和服務市場規(guī)模達140.7億美元。其中,美國的市場規(guī)模達42億美元,全球占比近30%。Scale AI的收入規(guī)模,稱得上是數據基礎服務領域里的賣水人之一。
Scale AI的客戶包括谷歌、蘋果、xAI、Meta、微軟和亞馬遜等在內的一眾硅谷巨頭。去年谷歌在Scale AI的花費約 1.5 億美元,是它的第一大客戶。
科技媒體BI報道,今年4月,Scale AI為Google運行了至少38個活躍項目,占當時Scale AI在該列表上的107個生成式AI項目的三分之一以上。而服務xAI的數據項目里包含了一個名為Xylophone 的項目,主要是幫助訓練xAI的聊天機器人,提升其在廣泛話題上的對話能力。
廣泛的客戶網絡,其實反映了數據標注和AI基礎數據服務在當下模型訓練中的重要位置。
人工智能行業(yè)有一個提法,“垃圾進,垃圾出”,數據的質量十分影響模型的表現(xiàn)。而數據標注本質上是要把大量機器無法理解的非結構化數據翻譯成機器能理解的結構化數據。大模型浪潮下,由于數據參數規(guī)模空前,為了提升模型智能水平,圍繞著數據標注和處理的預算也在飆升。
據AI 基礎數據服務廠商LXT2024年對322家有AI 項目經驗的美國企業(yè)的調研,整個2023年企業(yè)在訓練數據上的資金投入占這些企業(yè)的AI整體建設投入的15%。此前行業(yè)內還流傳一個說法,高質量的標注數據是ChatGPT效果區(qū)別于其他競爭對手的原因之一。
重重因素之下,Meta做出了大手筆并購Scal AI的決定。也許在當下的Meta看來,通過與數據服務領域領頭羊合作,有助于其更好地獲得模型訓練的專有數據,并且能基于數據來訓練更高智能的模型,從而在當下大模型競爭中跟上節(jié)奏。
這項大手筆收購也使得數據標注產業(yè)和人工智能供應鏈條發(fā)生了一系列連鎖反應。
首先是,一大批與Meta的模型存在競爭關系的廠商紛紛開始切斷與ScaleAI的合作。比如Scale AI的最大客戶谷歌就在交易達成后立即暫停了兩個代號為"Genesis"和"Beetle Crown"的項目合作。
其次是,與Scale AI競爭的一批數據標注廠商們則趁機開拓客戶,比如Sapien,Appen、Prolific 和 Turing等企業(yè)成為不少AI廠商多元化數據標注供應商選擇時的候選。Sapien AI的CEO Rowan Stone還表示,在 Meta 交易后 48 小時內,他們平臺新增 4 萬名數據標注注冊者,服務器都崩了。
在人們對Meta收購影響Scale AI標注數據中立性以及對商業(yè)機密泄漏的擔憂中,Scale AI也發(fā)表了平臺中立性聲明。
但聲明發(fā)布并未止住行業(yè)內的各種爭議。一場行業(yè)大洗牌已經在進行中。
02
政策市場雙驅動,國內市場狂飆猛進
海外數據標注產業(yè)大洗牌之際,過去一兩年里,中國作為全球人工智能產業(yè)增速最快的國家之一,數據需求快速增長,數據標注領域也隨之演進。
首先是政策端的加持非常明顯,去年開始國內接連出臺與數據標注相關的政策法規(guī),從頂層設計上為數據標注產業(yè)提供催化劑。
去年6月,國家數據局發(fā)布首批7家數據標注基地試點城市名單,七個城市在數據標注產業(yè)的生態(tài)構建、能力提升和場景應用等方面扮演了先行先試的角色。
IDC告訴數智前線,這一政策初衷是為了推動高質量數據集建設,目標也是為了更好的推動AI發(fā)展、為數據要素流通提供標準數據支持,在城市選擇上會綜合考慮城市需求、人才結構等因素。
去年12月,數據標注領域又迎來了重磅綱領性文件。國家四部委聯(lián)合發(fā)布《關于促進數據標注產業(yè)高質量發(fā)展的實施意見》,明確提出了到2027年產業(yè)規(guī)模年均復合增長率超過20%的發(fā)展目標,為國內的數據標注產業(yè)構建起了產業(yè)發(fā)展的“四梁八柱”。
同時,各地過去一年也不斷出臺相關的法規(guī)和政策,指導產業(yè)發(fā)展。
圖表來源:東北證券研報
同時,行業(yè)主管部門還積極樹標桿,推動行業(yè)標準化建設。今年4月,國家數據局在第八屆數字中國建設峰會“高質量數據集和數據標注主題交流活動”上發(fā)布了47個數據標注優(yōu)秀案例集,涉及到醫(yī)療、交通、農業(yè)、能源等20余個領域。這些標桿案例提供了可復用的實踐范本,也為相關領域的標準統(tǒng)一、經驗共享打下了基礎
政策加持的同時,隨著大模型落地應用浪潮的到來,數據標注市場側熱度和規(guī)模也由明顯的提升。一批企業(yè)如海天瑞聲,澳鵬等都迎來了業(yè)績的快速增長。
以澳鵬為例,今年2月澳鵬發(fā)布2024年年報顯示,去年其中國區(qū)業(yè)務營收突破4.2億,年增長達到71% ,其中的大模型/AIGC業(yè)務增長了526%。澳鵬披露,許多AI龍頭,特別是大模型 AI企業(yè)成為了澳鵬的客戶,大模型及大模型相關業(yè)務已經占據了澳鵬中國營收的40%。
AI數據服務創(chuàng)業(yè)公司整數智能CEO林群書則告訴數智前線,去年隨著多模態(tài)模型的快速演進,他們感受到市場的數據標注需求呈現(xiàn)出指數級增長。
一位行業(yè)資深人士認為,數據標注領域市場端的熱鬧,與過去一年多人工智能領域的結構性變化有關。以DeepSeek為代表的國產開源模型正極大拉平國內與海外的模型方面的差距,同時國產模型進步,對算力的消耗降低,緩解了許多企業(yè)的算力焦慮,使得數據層面重要性被提到更高位置。
“數據的質量、規(guī)模和精準性將直接決定模型能力的上限,也成為模型落地效果的關鍵。”該人士告訴數智前線。
產業(yè)的想象空間在快速打開。艾瑞咨詢的數據顯示,2024年中國人工智能基礎數據服務市場規(guī)模為58億元,2028 年規(guī)模將達到170億元,年復合增長率為30.84%。
而IDC告訴數智前線,目前模型應用走向垂直領域,數據標注的場景需求主要圍繞自動駕駛、教育、醫(yī)療、金融、零售、政務等展開。
市場熱度增加,數智前線觀察到,行業(yè)內的參與主體也在變多,競爭正變得激烈,同時,產業(yè)鏈上中下游界限也逐漸模糊起來。
比如模型廠商可能從提供更完整的模型能力配套角度,在數據標注領域有相關的產品服務。典型的有智譜AI,去年它推出的Batch API,利用大模型技術來解決數據標注問題。百度智能云等數據標注服務。
也有應用企業(yè)從AI落地的角度,在應用中推出了一些運營工具標注一些數據,降低場景內的幻覺。典型有瓴羊在智能客服Quick Service應用里推出AI運營中心,針對智能客服場景里的幻覺問題,通過訓練中心進行標注,將高質量數據來反哺模型,讓問答更加準確。
“應用內的標注緩解模型幻覺服務于模型微調的環(huán)節(jié),是基模現(xiàn)階段能力不足的一個補充或臨時方案”,一位數據標注行業(yè)人士告訴數智前線。
03
技術演進,讓數據標注走開?
全球數據標注產業(yè)快速發(fā)展之際,也有一種聲音認為,數據標注領域可能會因為技術進步,面臨新的挑戰(zhàn)。比如就有人指出,未來AI會自動完成許多標注任務,標注領域的企業(yè)可能需要加速轉型。
針對這一趨勢,數智前線同多位行業(yè)人士交流,業(yè)界普遍認為大模型時代,數據標注正逐漸走向復雜化、自動化和專業(yè)化。自動化浪潮并不意味著不需要標注。
首先是數據標注的復雜化趨勢,它與大模型技術演進帶來的數據標注需求變化有關。
主流大模型普遍采用了無監(jiān)督自動學習機制,在預訓練環(huán)節(jié)大量使用無標注數據,而之后的監(jiān)督微調(SFT)和基于人類反饋的強化學習(RLHF)階段,仍需要人工標注。
一位數據標注行業(yè)人士介紹,基于人類反饋的強化學習(RLHF)環(huán)節(jié),企業(yè)的數據需求,需要人去對機器給出的答案去做排序和對齊,把人文的傾向、三觀、喜好給機器學習。相比此前拉框畫圈式的簡單標注,在微調和RLHF環(huán)節(jié),數據標注的復雜度變得更高,對標注團隊的要求也更高。
行業(yè)內此前還傳說,在RLHF環(huán)節(jié),一些團隊有博士團來完成標注任務。比如Scale AI就在RLHF環(huán)節(jié)招聘過幾十名博士來提供數據標注服務,而OpenAI內部同樣有幾十名博士來配合,在Scale AI標注之后做這些標注的質量檢測。
而標注的自動化趨勢則與大模型技術進步用到數據標注領域有關,數據標注本身利用模型也實現(xiàn)了提質增效。海外的開源數據標注及清洗平臺Refuel AI此前就做過測試,AI能顯著提升數據標注的質量,也能降低數據標注的成本。
各種NLP任務中模型標注相比人類標注的標簽準確度(與真實標簽的吻合度)明顯更高。每一列中數值最高者以綠色突出顯示。
數智前線觀察到,目前,國內和海外數據標注廠商都在提升數據標注的自動化水平,將數據標注的任務從人工手動操作的勞動密集型向平臺化的自動標注方向去轉變。海外的Scale AI、海天瑞聲、澳鵬以及整數智能,都有自己的自動化數據標注平臺。
除了專業(yè)數據服務商,一些企業(yè)內部的標注場景也在自動化。以自動駕駛場景為例,特斯拉此前組建了規(guī)模龐大的企業(yè)內數據標注團隊,但從2022年它們開始裁撤輔助駕駛系統(tǒng)開發(fā)的數據標注團隊規(guī)模,通過Dojo超級計算機來對海量視頻數據做無人監(jiān)管標注和訓練。
數據智能服務商每日互動總裁劉宇告訴數智前線,在當前激烈市場競爭下,對數據標注服務商而言,將自己的服務能力沉淀為標準化產品,對企業(yè)而言能提升競爭的門檻,“同樣的勞動力能更高效標注,標注質量以及供應穩(wěn)定度更高”。
不過,行業(yè)內也認為,這種自動化的趨勢并不意味著標注任務和專業(yè)服務商沒有了用武之地。實際上,隨著AI朝向垂直場景落地,專業(yè)領域里復雜任務對人工標注的需求是在增加的
“數據標注難度越來越高,當數據自動化程度越高,例如AI可以完成90%自動標注,剩下10%也更加關鍵。” IDC中國高級分析師李浩然告訴數智前線。
一家AI應用廠商此前也告訴數智前線,單點的拉框打標工作,AI可能也能完成,但許多更專業(yè)的領域知識標注,只能通過人工完成。
另外推理模型出現(xiàn)后,也非常需要思維鏈相關的數據。“它非常需要理解業(yè)務的專業(yè)人員,通過規(guī)則和模型參數的配置,來更好的拆解問題。“
李浩然也提到,當數據可以被自動化標注、合成時,其可以為模型帶來的價值也會更低,企業(yè)會投入更多資源來人工標注更復雜的問題。“之前的教育題目可能是初高中,現(xiàn)在可能是大學題目,另外之前的圖片標注只需要圈出人臉,現(xiàn)在還需要輸入文本來理解圖片表達的含義,以及其中的結構關系。”
這些趨勢下,數據標注領域的演進方向也變得明晰。
一方面,行業(yè)的準入門檻從勞動密集性向技術密集型以及更高專業(yè)門檻演進。另外,由于玩家競爭的重心向技術能力、場景資源等復合性能力轉變,在更多玩家入場的同時,行業(yè)內的淘汰賽也已經同步展開,市場的競爭已經變得更加激烈。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.