智東西
編譯 李水青
編輯 心緣
智東西6月20日報道,多年來,數據標注在AI產業都處于較邊緣地帶。近期隨著Meta斥資143億美元收購Scale AI 49%股份,該領域成為人們關注的焦點。但此類公司中營收規模最大的一家并非Scale AI,而是由一位80后華人埃德溫·陳(Edwin Chen)創立的Surge AI。
Surge AI創立于2020年,定位高端數據標注服務,是谷歌、OpenAI、Anthropic等科技巨頭的合作伙伴。 Surge AI的商業模式以高定價和高質量著稱,收費是Scale AI的2-5倍;2024年營收已達到10億美元,高于Scale AI的8.7億美元。但Surge AI至今仍未融資,且員工數僅為Surge AI的約1/10。
一、約1/10員工,實現超Scale AI的營收規模
37歲的埃德溫·陳沒有投資者,完全靠自己白手起家創辦了這家至今已成立五年的公司。Surge AI擁有110名員工,在紐約和舊金山設有辦事處。
▲Surge AI創始人埃德溫·陳(Edwin Chen)
據員工最新透露,該公司去年的營收超過10億美元,超過了Scale AI公司同期8.7億美元的營收。該員工稱,埃德溫·陳表示Surge AI與Scale AI公司不同,從一開始就盈利。
Surge AI的其他關鍵財務指標目前尚不清楚,比如Surge AI在支付其主要由外包工人組成的員工工資后還能剩下多少錢。如果Surge AI能從投資者那里獲得與Scale A相近的估值,那么陳將成為一位億萬富翁,至少在賬面上是這樣。
Surge AI主營數據標注業務。其會雇傭大批外包工作人員對AI模型的響應進行評分,并編寫數千個編程、數學和法律等領域的問題和答案,將其輸入到這些AI模型中,本質上是在教會它們什么是好的答案。Surge AI的子公司Data Annotation Tech在其網站上提到,員工可以“按照自己的時間表訓練AI并獲得報酬”,起薪為每小時20美元。
陳將Surge AI打造成一家高端公司,收取高額費用,通常是Scale AI的2-5倍。Surge AI以其行業領先的聲譽證明了定價的合理性。一位Scale AI前員工稱,在客戶對標簽質量的審核中,Surge AI的表現通常優于Scale AI。而其競爭對手凱鵬華盈投資的Handshake公司的老板加勒特·洛德 (Garrett Lord) 也欣然承認,陳是“頭號玩家”。
相比于Scale AI超1000多名員工的組織規模,Surge AI在沒有外部資本的情況下雖然營業規模超Scale AI,但員工人數只是Scale AI的約1/10。
二、對數據行業失望后,80后硅谷華人親自下場創業
埃德溫·陳曾在麻省理工學院(MIT)學習語言學和數學,大學畢業后親眼目睹了大公司在數據方面的困境,于是萌生了創業的想法。在創辦Surge AI之前,陳曾在Facebook、Dropbox、Google和Twitter(現X平臺)擔任機器學習工程師,開發推薦和搜索算法并幫助收集訓練這些算法所需的數據。
盡管這些公司資源雄厚,陳還是遇到了不少難題。例如,在Facebook,陳受命幫助打造一款Yelp的競品。他的團隊需要訓練一個能夠正確分類商家的模型,例如區分餐館和雜貨店。為此,他們需要一個包含5萬家準確標注商家的數據集,而他發現,如果找一家外部公司來搭建這個數據集,需要六個月的時間。
“除了等待,我們別無選擇。”陳說,“所以我們只能等。” 數據回來后,陳卻發現不對勁。比如系統會把餐館標注為咖啡店,又把咖啡店標注為醫院。“這些數據完全是垃圾。”陳說。
2020年,陳離開Twitter轉而創立了Surge AI。為了讓Surge AI順利啟動,陳招募了之前工作中認識的數據標注承包商,并用自己的積蓄資助了這家初創公司。巧合的是,陳專注的正是語言建模,相比之下,Scale AI最初是評估自動駕駛汽車的視覺數據。
不到一年后,OpenAI聘請了Surge AI來對其模型進行微調,方法是根據兩家公司共同發表的一篇研究論文,教這些模型如何避免產生有害回應,比如帶有種族偏見的語言。
到2022年,Anthropic也成為了Surge AI的客戶,依靠Surge AI來評估大型語言模型是否能夠幫助人類監控其他AI,試圖建立類人AI背景下的安全檢查機制。
數據標注還可以確保模型的響應在風格上保持一致。例如,據一位參與該流程的人士透露,一家企業科技公司曾聘請Surge AI編寫代碼及其附帶的解釋。
有客戶稱,Surge AI能如此快速地生成高質量數據,但其對內部流程諱莫如深。“我和云提供商合作的時候也是一樣。”這位企業技術客戶說,“我不知道他們的服務為什么這么好用,內部原因是什么。我按下按鈕,就很高興看到內部工作實現了這一點。”
數據標注公司通常會使用各種技術來確保標注員在回答問題時不會盲目跟風。例如,這些公司會隨機插入沒有正確答案的問題,或者確保多個標注人員對某個問題的正確答案達成一致。
審核人員也很重要,模型開發人員日益需要更具專業素養的人,在計算生物學、理論物理學等前沿領域撰寫問答示例。
陳不愿透露公司如何管理標注員回復的質量,但他稱,Surge AI在初步審核流程之外,還會持續評估其員工;公司可以利用多種指標來判斷回復是否高質量,例如員工使用的詞語或光標的移動方式。
Meta在投資Surge AI之前也曾將業務交給Scale AI,但Meta也在Surge AI身上投入了巨額資金。據一位知情人士透露,去年,Meta的生成式AI團隊向Surge AI花費了超過1.5億美元,用于數據標注工作,Surge AI將負責從頭到尾的整個流程。這位知情人士透露,這與Meta在Scale AI花費的2億美元左右相差無幾。
三、四大隱憂:員工訴訟、產能飽和、客戶壓價、技術替代
雖然Surge AI最近確實取得了長足的發展,但它還面臨著許多障礙。
首先是潛在的法律糾紛問題,比如員工訴訟。曾起訴過Surge AI和Scale AI的律師達納斯,把目前的情況比作過去十年里員工與網約車公司之間持續多年的法律糾紛。
上個月,Surge AI在加州遭遇了一場來自外包員工的集體訴訟 ,被指控之所以收入龐大是因為違法經營。訴訟稱,該公司將員工歸為外包的做法不合理,應該支付他們培訓課程、資格考試等投入的費用,以確保高質量工作。Scale AI和其他數據標簽公司也面臨類似的訴訟。
但陳認為,許多外包員工,特別是擁有博士和碩士學位的人員,經常選擇Surge AI而不是其他競爭對手,因為它可以提供他們想要的東西:與他們花費多年時間研究的領域相關的源源不斷的項目。
然后是產能飽和限制問題。一些客戶反映,Surge AI經常處于滿負荷預訂狀態,承接項目需要客戶承諾投入數百萬美元。與此同時,包括OpenAI在內的模型開發者,正越來越多地通過Mercor等招聘公司,尋找外包人員來完成標注工作。
此外還有價格下行壓力。例如,據一位前谷歌AI技術主管稱,谷歌是Surge AI的長期客戶,但為了避免被鎖定,谷歌一直在與更多供應商合作,最終能夠以更低的價格與Surge AI達成交易。
還有技術替代問題。AI開發人員還找到了更便宜的方法來改進他們的模型,這些方法不需要人工勞動,例如蒸餾,即使用更高級模型的答案來改進較小模型的過程。
但陳對Surge AI的繼續快速增長并未表示擔憂。“人們往往低估了這個領域。”他說,“他們認為人類很聰明,普通的博士也很聰明,所以你可以招募10萬人,讓他們自由發展。但我們發現事實并非如此。”
結語:Scale AI被并購之際,數據標準賽道迎來新機遇
隨著Scale AI被Meta投資,OpenAI等許多公司取消與其交易,其他數據標注公司有望迎來新機遇。在資本驅動、規模優先的AI行業中,Surge AI憑借精準的高端定位、零融資高收入的模式,超越行業領頭羊Scale AI的營收規模,有望接住新的機遇。
然而Surge AI面臨的并非坦途,它正面對來自員工訴訟、產能飽和、客戶議價壓力以及AI技術自身演進帶來的替代風險等多重挑戰。Surge AI能否在保持其核心競爭力的同時有效應對這些挑戰,值得關注。
來源:The Information
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.