昨天,創(chuàng)立僅 6 個月的 AI Coding 產(chǎn)品 Base44 以 8000 萬美金被 Wix 收購的新聞《,讓我們再次感受到了 AI 正在成為一個新的財富杠桿。
當所有人都在關注大模型公司之間的較量以及 Scale AI 時,還有一家公司已經(jīng)悄然崛起,成為了 AI 訓練數(shù)據(jù)領域的隱形冠軍。
它在沒有任何外部投資、只有 100 人左右團隊的情況下,已經(jīng)成長為 10 億美金 ARR 的數(shù)據(jù)標注公司,而且從一開始公司就是盈利狀態(tài),其同時期的收入甚至超過了估值 290 億美金的 Scale AI。
其創(chuàng)始人與 Scale AI 創(chuàng)始人 Alexandre Wang 一樣,也是一位華人。公司官網(wǎng)更是簡單的只有一個簡介,并且他個人在社交媒體上也很低調(diào),以至于外界沒有多少人知道。
這就是 Surge AI,創(chuàng)始人 Edwin Chen 曾在 MIT 讀數(shù)學和語言學專業(yè)。這個看似奇特的學科組合,為他日后在 AI 領域的成功奠定了獨特的基礎。數(shù)學賦予了他對算法的深度理解,語言學讓他洞察了人類語言的復雜性——這正是現(xiàn)代大語言模型最核心的挑戰(zhàn)所在。
從 MIT 畢業(yè)后,Edwin 在硅谷各大互聯(lián)網(wǎng)公司工作過一段時間。他先后在 Google、Facebook、Twitter、Dropbox 擔任重要職務,負責機器學習、內(nèi)容審核和人工計算團隊。在這些公司,他不僅積累了寶貴的技術經(jīng)驗,更重要的是,他發(fā)現(xiàn)了一個被整個行業(yè)忽視的巨大問題:高質量的人工標注數(shù)據(jù)極其稀缺。
在 Facebook 和 Google 的工作經(jīng)歷中,Edwin 發(fā)現(xiàn):即使是這些擁有無限資源的科技巨頭,也在數(shù)據(jù)標注上面臨著巨大的挑戰(zhàn)。
他曾在接受采訪時提到:"獲得可信的人工標注數(shù)據(jù)一直是我最大的障礙。在 Google 或 Facebook,要獲得用于訓練ML 模型的真實數(shù)據(jù),以及測量模型相關性和精確度的數(shù)據(jù),通常需要幾個月的時間等待內(nèi)部標注團隊。"
更糟糕的是,現(xiàn)有的數(shù)據(jù)標注質量令人擔憂。Edwin 的團隊曾經(jīng)調(diào)查了 Google 的 GoEmotions 數(shù)據(jù)集,發(fā)現(xiàn)其中30% 的標注都是錯誤的。這些錯誤標注不僅影響了模型的性能,更重要的是,它們讓整個 AI 訓練過程失去了意義。
于是 Surge 誕生了
2020 年,當疫情席卷全球時,Edwin 看到了一個前所未有的機會。大量受過教育的人群失業(yè)或居家辦公,這為建立一個高質量的標注工作隊伍提供了很好的時機。
基于他在各大公司建立的內(nèi)部標注平臺經(jīng)驗,Edwin 創(chuàng)立了 Surge AI。公司的核心理念是:"為了構建日益復雜的現(xiàn)實世界 AI——解決仇恨言論和錯誤信息等復雜問題——我們需要技能嫻熟、積極主動的人工隊伍來測量和訓練它們。"
Surge AI 從一開始就定位為"人工智能時代的 AWS"——為 AI 訓練提供人工智能基礎設施。2021 年他在 Medium 上的一篇文章里說了他創(chuàng)立 Surge 的原因:
我創(chuàng)立 Surge AI 是為了解決我一直遇到的獲取大規(guī)模高質量人工標注數(shù)據(jù)的問題。它類似于 MTurk 2.0,但更加注重質量和速度,并擁有一支值得信賴的精英團隊。
他們?yōu)?Surge AI 構建了四個核心技術優(yōu)勢:
1. 專有的質量控制技術大語言模型對低質量數(shù)據(jù)極其敏感,這往往會讓訓練工作倒退數(shù)年。Surge AI 開發(fā)了先進的人工/AI 算法和技術,由曾在這個問題上工作數(shù)十年的科學家和研究人員團隊構建。
2. 領域專家標注團隊隨著語言模型變得越來越先進,它們需要越來越復雜的人工反饋來教授它們。Surge AI 的領域專家標注團隊涵蓋了法律、醫(yī)學、商業(yè)和 STEM 學科等各個領域,為訓練 LLM 提供了人類語言的廣度和深度。
3. 快速實驗界面作為快速發(fā)展領域的研究人員,客戶需要能夠快速設計和啟動新任務,而不是花費數(shù)月編寫冗長的指導方針。Surge AI 的 API 和 RLHF 界面允許客戶集成自己的工具和平臺。
4. 紅隊工具為了保持 LLM 的安全性,Surge AI 的團隊會對客戶當前的安全防御進行紅隊測試,以發(fā)現(xiàn)需要修補的新漏洞。
與 Anthropic 合作成為其崛起的一個關鍵
Surge AI 真正的突破來自與 Anthropic 的深度合作。Anthropic 的聯(lián)合創(chuàng)始人 Jared Kaplan 對 Surge AI 給出了高度評價:"Surge AI 團隊理解訓練大語言模型和 AI 系統(tǒng)的獨特挑戰(zhàn)。他們的人工數(shù)據(jù)標注平臺專門為前沿 AI 工作提供獨特的高質量反饋。Surge AI 是我們在支持技術 AI 對齊研究方面的優(yōu)秀合作伙伴。"
通過與 Anthropic 的合作,Surge AI 參與了 Claude 3 模型的訓練過程,這個模型甚至在某些方面超越了GPT-4。這種合作不僅驗證了 Surge AI 的技術實力,更重要的是建立了其在 AI 安全和對齊領域的權威地位。
與 Scale AI 等競爭對手不同,Surge AI 從一開始就定位為"高端"數(shù)據(jù)標注服務。Edwin 將公司定位為"其他數(shù)據(jù)標注初創(chuàng)公司的高端替代品",專注于最復雜、最有挑戰(zhàn)性的 AI 訓練任務。
這讓 Surge AI 在創(chuàng)立后 6 個月時間實現(xiàn)了 10 倍級增長,據(jù) The Information 的報道,Surge AI 去年的 ARR 做到了 10 億美金,超過了同時期 Scale AI 的 8.7 億美金收入。
與此同時,一個只有 16 歲的少年,已經(jīng)完成了 100 萬美金的融資,他自學編程做的產(chǎn)品,號稱要通過 AI 重新定義人機交互方式,與 ChatGPT 等現(xiàn)有產(chǎn)品不同的是,其原理是通過……
全 文 共2786 字
后續(xù)內(nèi)容為付費會員專屬,會員掃碼登錄直接閱讀
Memo: Signal, not noise!
訂閱 Memo
Pro
Memo(vcsmemo.com)是一個基于付費訂閱模式的創(chuàng)投內(nèi)容平臺,已得到大量 VC、企業(yè) CEO 以及高管的支持,我們希望幫助你捕捉最具價值的行業(yè)信號、過濾噪音(Signal,Not Noise)。
訂閱 Memo
Pro
你將獲得:
1.解鎖未來一年以及之前的所有會員專屬內(nèi)容
2.郵件訂閱功能:付費內(nèi)容+最新行業(yè)快訊+...
3.優(yōu)先體驗 Memo 新產(chǎn)品和新功能
限時 799 元/年(原價 999 元/年),掃碼立即訂閱
1.
2.
3.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.