隨著 Meta 豪擲 143 億美元收購數據標注公司 Scale AI 近半股份,所有目光都集中在 Scale AI 創(chuàng)始人亞歷山大·王(Alexandr Wang)身上。
他年紀輕輕、身披“數據標注領域領軍人物”的光環(huán),受邀加入 Meta 核心 AI 團隊,已然成為新晉“硅谷紅人”。
然而,在數據標注領域,無論是行業(yè)認可度還是營收規(guī)模,風頭正勁的 Scale AI 都不是真正的老大。
這個寶座屬于 Surge AI:一家成立五年沒有融資、過去兩年幾乎不發(fā)新聞稿、員工僅為對手十分之一的神秘公司,卻悄悄實現(xiàn)了超過 10 億美元的營收。
而它的創(chuàng)始人同樣是華人,只不過選擇了一條“大隱隱于市”的路線。
(來源:The Information)
Surge AI 的創(chuàng)始人兼 CEO 埃德溫·陳(Edwin Chen)似乎是一位低調且富有詩意的工程師。
他為 Surge AI 的工作設定了一個崇高的目標:用真正的“創(chuàng)造力和偶然性”來開發(fā) AI。
圖 | 埃德溫·陳(Edwin Chen)(來源:資料題)
37 歲的埃德溫擁有美國麻省理工學院數學與計算機科學背景,曾在 Facebook、Dropbox、Google 和 Twitter 擔任研究員、機器學習工程師等職位,負責開發(fā)推薦和搜索算法,并幫助收集訓練這些算法所需的數據。
(來源:LinkedIn)
在 Facebook,他曾因等待 6 個月仍無法獲得可靠標注數據而感到無奈,而且在他看來,最后獲得的數據“完全是垃圾”。正因如此,這段挫敗經驗成為了日后創(chuàng)辦 Surge AI 的動力之一。
(來源:Quora)
埃德溫在 2020 年離開 Twitter,并自掏腰包創(chuàng)立 Surge AI,至今未接受任何風險投資(也有一種說法是拿到了 2500 萬美元融資)。
他希望打造一套新型的人類數據平臺,不只是提高標注效率,更要讓 AI“理解”人類語言中的情感與風格?!霸诶硐胧澜缰?,一個模型可以接受一個關于月亮的八行詩的提示,并寫出一首讓人落淚的詩。”
圖 | Surge AI 的使命(來源:Surge AI 官網)
值得一提的是,Surge AI 另一位核心創(chuàng)始成員約瑟夫·李(Jefferson Lee)同樣是華人,目前領導數據標簽和內容審核產品,涵蓋幫助客戶評估大語言模型、內容審核,以及訓練垃圾郵件和仇恨言論分類器。
他曾是 Airbnb 信任與安全機器學習團隊的早期工程師,本科畢業(yè)于美國哈佛大學計算機科學系。
圖 | Surge AI 創(chuàng)始團隊(來源:Surge AI,官網機翻)
目前,成立五年的 Surge AI 僅有 110 名員工,卻已成為數據標注領域的頭部公司,不僅入選了福布斯 2023 AI50 榜單,還持續(xù)保持盈利。
2024 年,Surge AI 營收首次突破 10 億美元,超過了 Scale AI 的 8.7 億美元。
Surge AI 的客戶包括 OpenAI、Anthropic、Meta、Google、Microsoft 等 AI 行業(yè)巨頭。
與其他高調的硅谷 AI 初創(chuàng)公司相比,Surge AI 幾乎不做公開宣傳,創(chuàng)始人很少高調出席活動,不在 X 等社交平臺上活躍(上次更新時間甚至追溯到 1-2 年前),也極少接受采訪。
(來源:X)
一位曾與之合作的科技公司高管這樣形容他們:“無聊,但無聊得讓人安心。他們很擅長把事情做好,我也不用擔心 CEO 突然有一天上了新聞頭條。”
Surge AI 主要從事大語言模型訓練所需的數據標注工作,完美踩中生成式 AI 發(fā)展的主線,其核心能力在于“通過人類反饋數據實現(xiàn)強化學習”,即所謂的 RLHF。
Surge AI 尤其擅長構建高質量的人類反饋數據,提升模型的安全性、風格一致性與復雜任務應對能力。其客戶任務覆蓋編程、數學、法律等專業(yè)領域。
圖 | Surge AI 回應 Scale AI 被收購一事(來源:Surge AI)
與傳統(tǒng)標注公司最大不同在于:Surge AI 并非僅提供數據,而是提供“理解”。
比如,在協(xié)助企業(yè)訓練代碼生成模型時,其標注者不僅要寫出正確代碼,還要給出邏輯清晰、格式統(tǒng)一、語言風格一致的解釋,以確保 AI 產出也能“寫得像人”。
Surge AI 的具體工作流程外界知之甚少,但綜合公開資料來看,他們會采用多重交叉審核、故意設置無正確答案的題目、跟蹤鼠標軌跡、用詞分析等手段監(jiān)控標注質量。
同時,其對標注人員和團隊成員的選擇極為嚴苛,強調領域知識背景,尤其青睞具有碩博學位的人才。
圖 | Surge AI 的合作案例(來源:Surge AI)
OpenAI 三年前發(fā)布的知名 GSM8K 數據集,就是 Surge AI 的代表性案例之一。
Surge AI 為 OpenAI 的強化學習團隊制作了一個包含 8,500 道小學數學題的數據集,用于訓練 GPT-3 等模型理解自然語言數學問題的解題邏輯。
Surge AI 不僅負責設計題目,還為每道題編寫詳細解法,確保數據既符合邏輯也具備教學性。該數據集隨后也被 Google 等用于 PaLM 和 Chain-of-Thought 研究中。
圖 | Surge AI 展示的數據標注案例(來源:Surge AI)
為了確保問題的邏輯性與多樣性,Surge AI 建立了由數學或 STEM 背景人員組成的標注團隊,并對前期提交結果進行雙人交叉審核。同時,通過語義相似度計算機制剔除重復或結構雷同的題目,確保訓練數據的廣泛覆蓋與風格一致性。
另一個代表性案例是與 Anthropic 的合作:Surge AI 是 Anthropic 開發(fā) Claude 過程中 RLHF 數據采集的主要平臺,Anthropic 研究員稱其為“研究突破的關鍵因素之一”。
Surge AI 介紹稱,其提供的解決方案包括:
- 專有質量控制技術,用于規(guī)避低質量數據對模型訓練的長期影響;
- 高學歷領域專家團隊,可處理包括數學、編程、法律、醫(yī)學在內的復雜標注任務;
- 快速實驗接口,允許研究團隊靈活迭代新任務,無需長時間撰寫指導文檔;
- 紅隊工具,用于模擬攻擊行為并測試現(xiàn)有安全防線;
- RLHF 專業(yè)能力,將團隊在多個實驗中總結出的經驗用于保證數據的一致性與效果。
(來源:Surge AI)
據透露,Surge AI 的標注費用通常為行業(yè)水平的 2 至 5 倍,但客戶仍愿意為其服務質量與交付穩(wěn)定性買單。
其競爭對手、凱鵬華盈(Kleiner Perkins)投資的 Handshake 公司的創(chuàng)始人加勒特·洛德(Garrett Lord)也承認,Surge AI 是“行業(yè)龍頭”。
Surge AI 主要采用全流程交付模式,從數據任務定義、標注者篩選、界面工具提供、質量審查到最終輸出,均由 Surge AI 承擔,客戶可實現(xiàn)“按下按鈕即獲得結果”。
據透露,2023 年 Meta 的生成式 AI 團隊向 Surge AI 支付超過 1.5 億美元用于數據標記工作,而后者負責“從頭到尾”的整個流程。
這種模式使其成為 OpenAI、Anthropic、Meta 等大模型頂級玩家的長期合作方。盡管沒有公開估值,但若以 Meta 對 Scale AI 的 290 億美元估值為參考,Surge AI 的估值基本是同一水平。
不過,隨著行業(yè)的成熟,Surge AI 也面臨內外部競爭壓力。
一方面,越來越多廠商采用模型蒸餾(distillation)等自動方法減少對人工標注依賴,也有客戶因 Surge AI 產能有限而尋求其他渠道。
另一方面,數據標注公司越來越多,價格競爭加劇。同時,Surge AI 也在今年 5 月卷入了訴訟,被指控“故意”將數據標注員定義為獨立合同工,剝奪了他們“享受正式員工福利”的權利。
盡管如此,Surge AI 的行業(yè)地位仍難以撼動。
“人們往往真的低估了這個領域?!卑5聹卦诮邮懿稍L時說,“他們認為人類很聰明、普通的博士也很聰明,所以他們招募 10 萬個標注員,讓他們肆意發(fā)揮。但我們發(fā)現(xiàn)事實并非如此。”
在“爆款故事+創(chuàng)始人 IP”的硅谷創(chuàng)業(yè)游戲里,Surge AI 反其道而行之:不講融資神話、不追逐新聞頭條,靠極致產品實力走出了一條成熟的 AI 基礎設施之路。
如果說 Scale AI 代表了數據標注領域的硅谷敘事范式,那 Surge AI 就代表了一種更安靜、更務實、更接近底層價值創(chuàng)造的技術信仰。
也許,這才是那條通往 AGI 的路。
參考資料:
https://web.archive.org/web/20250405111034/https://www.Surge AIhq.ai/blog/how-we-built-it-openais-gsm8k-dataset-of-8500-math-problems
https://web.archive.org/web/20250405110902/https://www.Surge AIhq.ai/blog/anthropic-Surge AI-ai-rlhf-platform-train-llm-assistant-human-feedback
https://web.archive.org/web/20250403191504/https://www.Surge AIhq.ai/customers
https://web.archive.org/web/20250603224155/https://www.Surge AIhq.ai/about
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.