新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】不要只盯著明星AI研究員!為了打造ASI,Meta、貝索斯等狂砸百億,招聘專家當(dāng)AI的「老師」。在此背景下,數(shù)據(jù)標(biāo)注員的角色逐漸從基礎(chǔ)任務(wù)轉(zhuǎn)向更高技能的領(lǐng)域,門檻水漲船高。
最近,Meta成立了「超級智能」AI實驗室,四處砸錢挖人。
網(wǎng)上流傳著一份44人「超級智能」成員名單,
這收入水平可能性非常大。據(jù)報道,為了從OpenAI挖走他們的首席研究官Mark Chen,扎克伯格提供了高達(dá)10億美元的薪酬提議。
值得關(guān)注的是,除了Yann LeCun等部分Meta的「AI元老」,名單里大部分都是這個月新入職的員工;而且名單里有一半本科畢業(yè)于國內(nèi)的大學(xué)。
而這些「中國大學(xué)生」中,清華校友Yuanzhi Li又是比較獨特的一位:之前,他是卡內(nèi)基梅隆大學(xué)的助理教授,沒有業(yè)界工作經(jīng)驗。
這份名單里另一位教授是圖靈獎得主、現(xiàn)紐約大學(xué)教授Yann LeCun
普通人只能像網(wǎng)友Meet一般感嘆:平庸與卓越差距如此之大!
不過,即便是清華的畢業(yè)生、即便也是美國的教授,也不是人人都有機(jī)會參加Meta的這波「AGI選秀」。
剛剛,清華校友、杜克大學(xué)教授陳怡然發(fā)微博如此表示。
小扎這是用實際行動證明:「知識就是財富」!
和Yann LeCun同榜的前教授
Yuanzhi Li入職Meta已有4個月,任研究科學(xué)家;入職Meta之前,他是卡內(nèi)基梅隆大學(xué)(CMU)的助理教授。
他沒有產(chǎn)業(yè)界的工作經(jīng)歷,主要研究深度學(xué)習(xí)理論。
目前,他的谷歌學(xué)術(shù)被引次數(shù)超過了4萬,特別是2023年后,被引數(shù)開始爆發(fā)。
他是LLM微調(diào)方法低秩自適應(yīng)LoRA的合著者。
論文鏈接:https://arxiv.org/pdf/2106.09685
他還參與了微軟語言模型Phi系列的研發(fā),包括Phi-2、Phi-3、Phi-4等模型。
他還是「語言模型物理學(xué)」(Physics of Language Models)研究項目的主要參與者。
2014年,他獲得了清華大學(xué)計算機(jī)科學(xué)學(xué)士學(xué)位;2018年,他獲得了普林斯頓大學(xué)計算機(jī)科學(xué)博士學(xué)位。
不過,除了AI頂尖的研究人才,Meta在數(shù)據(jù)上也下了血本。
據(jù)報道,國際上頂級AI集團(tuán)正在用高薪的行業(yè)專家替代非洲和亞洲低成本的「數(shù)據(jù)標(biāo)注員」。
特別是,Meta和貝索斯狂砸百億,招聘物理學(xué)家、生物學(xué)家當(dāng)「AI的老師」,打造超越人類的「超級大腦」。
數(shù)據(jù)標(biāo)注行業(yè),悄悄來了一次產(chǎn)業(yè)升級。沒學(xué)歷,數(shù)據(jù)標(biāo)注都干不了?
推理模型大爆發(fā)
AI數(shù)據(jù)成關(guān)鍵
Scale AI、Turing和Toloka等AI數(shù)據(jù)服務(wù)商,正在聘請生物學(xué)和金融等領(lǐng)域?qū)<遥瑤椭麄儎?chuàng)建更復(fù)雜的訓(xùn)練數(shù)據(jù)。
隨著OpenAI o3和谷歌Gemini 2.5之類的推理AI模型的崛起,企業(yè)加速淘汰肯尼亞、菲律賓等國每小時薪酬不足2美元的低成本標(biāo)注員。這些工人此前主要從事耗時的人工標(biāo)注工作,為AI模型訓(xùn)練提供海量數(shù)據(jù)集。
荷蘭的AI數(shù)據(jù)商Toloka的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Olga Megorskaya說:
「AI行業(yè)曾長期專注于模型和計算,而數(shù)據(jù)一直被忽視。終于,(AI行業(yè))開始意識到數(shù)據(jù)在訓(xùn)練中的重要性?!?/p>
這一轉(zhuǎn)變導(dǎo)致投資者對數(shù)據(jù)標(biāo)注初創(chuàng)公司興趣大增。
例如,在6月,Meta向美國的Scale AI投資了150億美元,使其估值翻倍至290億美元,以追趕競爭對手。
同樣地,位于加州的Turing AI在3月以22億美元的估值籌集了1.11億美元資金。
貝索斯的個人公司Bezos Expeditions則在5月領(lǐng)投了Toloka的7200萬美元融資輪次。
產(chǎn)業(yè)升級,專家加薪20%
過去,數(shù)據(jù)標(biāo)注員處理的任務(wù)比較簡單,比如在圖像上畫框來識別對象、描述圖像內(nèi)容、選擇流利的表達(dá)方式以及從常包含暴力或圖形內(nèi)容的數(shù)據(jù)集中剔除不良答案。
由于AI模型需要海量數(shù)據(jù)提升性能,這些工人需在數(shù)秒內(nèi)處理單個任務(wù),日均完成數(shù)百項任務(wù)以構(gòu)建龐大數(shù)據(jù)庫。
然而,隨著許多任務(wù)已自動化,這些需求已經(jīng)大幅下降。這些過去從事AI最底層的工人,某種意義上被AI取代了。
肯尼亞數(shù)據(jù)標(biāo)注員協(xié)會(Data Labelers Association)主席Joan Kinyua表示,工人們現(xiàn)在被要求處理依賴本地語言技能和知識的任務(wù)。
該協(xié)會還發(fā)現(xiàn),部分任務(wù)要求標(biāo)注員對AI生成的內(nèi)容進(jìn)行最終質(zhì)量控制檢查。
隨著OpenAI、Anthropic和谷歌等AI巨頭努力開發(fā)ASI,而這些模型或?qū)⒊饺祟愔悄埽袠I(yè)正在加大對數(shù)據(jù)集質(zhì)量的關(guān)注,雇傭?qū)<襾斫鉀Q復(fù)雜問題。
Turing AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Jonathan Siddharth表示:「現(xiàn)在需要的是人類使用模型完成腦力工作的真實數(shù)據(jù),以及模型出錯時的反饋。」
為了確保模型在從編程到物理學(xué)、金融等多個領(lǐng)域的表現(xiàn),資金雄厚的AI公司現(xiàn)在愿意支付費用,獲取更復(fù)雜的數(shù)據(jù)集,從而聘請全球的專家。
Siddharth透露,Turing為跨行業(yè)專家提供比原職高20%-30%的薪酬。盡管數(shù)據(jù)預(yù)算僅占AI公司算力支出的10%-15%,但這仍是「一筆巨款」。
Toloka的Olga Megorskaya表示,諸如「思維鏈」之類的新功能,要讓人類專家演示如何拆解問題,之后才開發(fā)出來的。
經(jīng)驗豐富的軟件工程師可能還需根據(jù)自身領(lǐng)域設(shè)計任務(wù),并通過編寫代碼、調(diào)試程序及檢查安全漏洞來解決問題。
與此同時,驗證物理學(xué)理論需要多方協(xié)作:物理學(xué)家負(fù)責(zé)闡述如何構(gòu)建模擬器來檢驗理論真?zhèn)?,軟件工程師編寫模擬器代碼,數(shù)據(jù)科學(xué)家則分析模擬結(jié)果。
Turing AI的Siddharth指出:「由此產(chǎn)生的模型不僅會超越物理學(xué)家,更將超越物理學(xué)、計算機(jī)科學(xué)與數(shù)據(jù)科學(xué)三大領(lǐng)域頂尖人才的疊加能力?!?/p>
參考資料:
https://archive.ph/Slzih
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.