作者|Eric,編輯|伊凡
誰在喂養“AI巨獸”?
3月19日,OpenAI在其開發人員API上推出了o1-pro——o1推理AI模型更強大的版本。
所向披靡的Open AI,正在“創飛”一部分創業公司,只要Open AI想做某個業務,就會有一批初創公司宣告倒閉。不過,也有另一批小公司,正在OpenAI的生態之下生長。
Turing原本專注于遠程的開發人才招聘,現在成為AI代碼服務商——即組織工程師團隊為OpenAI等公司提供代碼支持。今年3月,Turing完成1.11億美元的E輪融資,公司估值翻倍達到22億美元,在數據標注領域僅次于Scale AI。
業績方面,Turing創始人兼CEO Jonathan Siddharth 在社交平臺高調宣布:公司2024年收入增長3倍,ARR(年度經常性收入)突破3億美元,并成為“全球增長最快且盈利的AGI基礎設施公司”。
我們試圖從Turing的成長故事,挖掘大模型時代下,小企業的生存指南——在做原來業務的過程中,發現了新的機會,迅速切入AI,瞄準垂直而細分的市場。
Turing:從人才中介到AI“數據礦場”
Siddharth的創業故事,充滿硅谷式傳奇色彩。
2017年,Siddharth與斯坦福校友Vijay Krishnan創立的機器學習公司Rover被收購,這是一家利用機器學習進行深度個性化興趣分析的公司。第二年,Siddharth就創立了Turing,利用AI技術為其客戶優化人才匹配。
2020年的疫情期間,Turing獲得迅速發展。因為疫情讓許多公司不得不居家辦公,同時也需要在線上招聘人才和管理團隊,由此對Turing產生旺盛的需求。當時,Turing平臺上有上百萬的工程師和開發人員。對于雇主而言,使用Turing招聘可以節省50多個小時的面試時間,匹配成功率高達97%。
轉折點發生在2022年。
當時Siddharth被邀請到OpenAI開會,他本來以為是去討論招募工程師,去了之后才發現是要談合作。OpenAI的研究人員發現,將代碼添加到訓練數據集中有助于提高模型的推理能力。比如,用Python代碼解釋“如何設計橋梁”,模型更易抽象出工程學原理。
為什么添加代碼這么有用?因為代碼有著嚴密的語法和邏輯結構,同時包含了大量的算法、數據結構等知識,有助于AI大模型學習到更抽象的語言規律。
在OpenAI眼中,Turing憑借龐大的工程師資源成為理想的“代碼礦場”。OpenAI方面詢問Siddharth是否可以組建一支程序員隊伍完成特定的軟件工程任務,以便推動OpenAI的下一個項目:GPT-4。
右:Siddharth
“我清楚地記得,他們當時的雄心壯志有多大,”Siddharth在接受 Semafor采訪時說道。“他們對我們的要求非常高,想在短時間內獲得大量數據。”
后來Siddharth接受了OpenAI提出的合作,一位知情的OpenAI前員工透露,Turing在幫助OpenAI提升性能方面發揮了重要作用。
當然,這場合作也為Turing開啟了全新的業務方向。與 OpenAI合作以來的近三年里,許多基礎模型提供商以及AI模型公司都成為了Turing的客戶,而且其數據標注的能力范圍已超越了編程代碼領域,逐漸涉及各行業的專業數據。
比如,谷歌就從2023年下半年開始跟Turing合作。從編程代碼任務開始,二者達成了價值數百萬美元的合作。
目前,Turing大約60%的收入來自希望訓練及提升AI模型能力的客戶,40%的收入來自為利用AI升級業務的客戶提供咨詢服務。
“資源-效率-社區”三板斧,筑牢護城河
隨著Turing跟AI公司的合作逐漸深入,資本也對其產生了興趣。
Turing的E輪融資,由馬來西亞主權財富基金 Khazanah Nasional Berhad領投,其他參投方包括 WestBridge Capital、Sozo Ventures、UpHonest Capital威誠資本、AltaIR Capital、Amino Capital豐元創投、Plug and Play、MVP Ventures、Fortius Ventures、Gaingels 和 Mastodon Capital Management。
這些投資機構之所以押注Turing,在于它的幾大優勢。
首先,AI大模型的整個訓練和運行,其實都非常依賴數據標記和數據投喂。
數據標記,其實就是對圖像、文本、語音等數據進行標注,以便機器學習模型能夠識別和分類這些數據。盡管自動化工具涌現,但數據標注仍高度依賴人類。目前,Scale AI已經成為頭部的數據標注服務商。其擁有龐大的數據標記師團隊,大多是來自非洲、印度和菲律賓的廉價勞動力。根據The information報道,Scale AI的年化收入至2024年5月已經突破10億美元,估值突破138億美元。
不過,人類對大模型推理能力要求在不斷提高。大模型除了需要傳統的數據標注,還需要代碼輸入,說白了就是從“體力勞動”轉向“腦力協作”。Bloomberg Research指出預計到2032年模型訓練市場價值2470億美元,模型推理市場價值2970億美元,總價值超過5000億美元。Turing就是處在在這一趨勢上,即通過代碼生成優化大模型的推理能力,資本自然對其抱有期望。
另外,Turing自身的“資源-效率-社區”特性,也筑牢了發展的護城河,提升了資本的信心。
資源領域,Turing擁有覆蓋140個國家、超400萬程序員貢獻的代碼,涵蓋金融、生物、制造等垂直領域,能夠形成差異化語料庫。效率領域,在龐大資源的基礎上,Turing憑借算法能夠提升客戶跟工程師的匹配效率,降低撮合成本。社區領域,工程師通過貢獻代碼獲得高薪和成長,形成“貢獻越多→技能越強→收入越高→吸引更多工程師”的正循環,從而推動Turing平臺的壯大。
隨著大模型的加速發展,資本認為Turing憑借這三板斧能夠開拓更廣闊的成長空間。更何況,AI基建賽道是個極為燒錢的領域,但Turing罕見地實現盈利,這也是吸引資本的重要一點。
DeepSeek時代:數據標記會消失嗎?
雖然Turing發展地如火如荼,但很多人質疑其未來的發展空間。
他們認為越來越多的AI大模型能自動標技數據和生成代碼,比如DeepSeek就能對數據進行自動標記和整理,還能通過自然語言描述生成代碼。這意味著,Scale AI旗下的數據標記師、Turing旗下眾多的程序員會面臨淘汰風險。
事實上,完全拋開人類實現大模型的迭代是不現實的。
因為模型越復雜,越需要人類進行精準且高效的“數據指導”。比如,自動駕駛模型需要標注極端場景數據,醫療模型需專家驗證病理特征,這些都無法完全依靠自動化的機器。另外,AI生成的代碼仍需人類審核與優化。最優秀的AI代碼生成器,一定由人類編寫的代碼訓練而成。
Siddharth就描繪了一幅人類和AI共同推動大模型發展的圖景,比如如果要求大模型分析頂級風險投資公司,它首先會利用金融專業人士的知識了解要尋找哪種數據,然后利用人類的編碼知識編寫一個腳本,訪問相關數據并將其轉換為正確的格式,接著做出深度的分析。
Siddharth表示,OpenAI的最新模型是給程序員的禮物,而不是生存威脅。
事實上,AI不是取代人類,而是放大人類的智慧。人類跟AI是可以共同協作的——人類進行數據標注和提供專業知識,AI將其轉化為數據和邏輯,二者共同喂養更強大的模型。
數據就是數字化時代的原料,是21世紀的石油。當資本瘋狂涌入大模型時,Turing的崛起揭示了一個趨勢:
AI的“靈魂”不止于數據和算法,還在于數據背后的人類痕跡。工程師的每一行代碼、醫生的每一次診斷,都能成為喂養AI的養料。人類和AI之間是共生關系,而不是零和博弈。
參考資料:
1、Jonathan Siddharth的領英2、Inside the company that gathers ‘human data’ for every major AI firm(Semafor)3、Turing, a key coding provider for OpenAI and other LLM producers, raises $111M at a $2.2B valuation(TechCrunch)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.