五一,打工人的節日;搞錢,打工人的標簽。對普通人來說,到底哪些新職業還有“掘金”的空間?《財經天下》特別策劃了“黃金打工人”專題,將目光聚焦在五大新職業群體身上。通過他們的故事,來呈現一些新的就業趨勢觀察。本篇講述的是,用數據標注來“馴化”大模型的四位工程師,他們如何將用戶需求與模型嫁接起來,讓大模型變得更加聰明。
2023年初,看到國內不斷涌現的大語言模型,研究生剛畢業的萬玉磊感到AI潮流勢不可當,做出了人生最重要的選擇。
他毅然放棄了某互聯網大廠OCR(圖片文字識別)工程師的offer,以提示詞工程師的身份,加盟了一家多模態大模型初創公司。他的任務是訓練AI,讓它更加聰明,不斷提升和人類對話的能力。
作為大模型的智能基礎,AI和用戶的交互能力,以及數據做得如何,直接決定了大模型的上限。DeepSeek的超強性能和驚人表現背后,便離不開它更強大的語義理解能力和高質量數據的支持。業界甚至傳出,梁文鋒也親自參與了數據標注工作。
智聯招聘數據顯示,今年2月,算法工程師、機器學習、深度學習等崗位招聘量同比大幅增加。其中,承擔“AI訓練”的數據標注崗位,招聘需求同比增長超50%,平均招聘月薪也突破了2萬元。
《財經天下》注意到,近期不少大廠特別為“AI訓練師”開出了高薪。如字節跳動給AI訓練崗開出了月薪2萬~4萬元、15薪;小紅書也對“AI標注產品”崗開出了2萬~4萬元、16薪的標準。
“有良好產品意識、了解模型訓練”是這些崗位的基本要求,更令不少求職者心動的是,其中不少大廠職位還對文科生相當友好,不同專業背景都可入行。
“AI訓練師”的行業壁壘有多高,在AI技術的高速迭代中,其行業前景和含金量能保持多久?《財經天下》找到了四位不同行業、年齡的“AI訓練師”,他們對于數據標注有著或樂觀、或焦慮的思考。
01、年薪百萬,并不罕見
“就像訓練貓抓老鼠,你需要不斷試探模型的觸發機制。”這個五一前兩天,在位于北京海淀五道口的辦公室里,萬玉磊向《財經天下》描述了他們經歷過的提示詞與大模型的早期碰撞。
在他看來,2023年前后,提示詞與大模型的碰撞還充滿“神秘”色彩。萬玉磊團隊曾嘗試通過“情緒激勵”的方式,提升模型表現。“給予大模型小費獎勵”,或者讓工程師扮演“殘障程序員”等人格化設定,竟能讓模型輸出質量大幅提升。
隨著DeepSeek-R1等長序列推理模型問世,思維鏈(Chain-of-Thought)技術普及讓強化學習技術飛速突破,給大模型投喂簡單“咒語”的方法逐漸失效,提示詞工程也朝向數據自動化的方向深化。
“我們現在已經在用母提示詞(預先設計好的、可復用的提示詞框架)生成上千條候選指令,通過自動評估系統篩選出最優解。”萬玉磊介紹道。
在他看來,基于Transformer架構的大模型技術革命,會將傳統AI領域的知識體系徹底顛覆。之所以選擇以提示詞工程師的身份擁抱變革:“因為提示詞是新世界的敲門磚,它用最低成本,讓普通人接觸到大模型核心能力。”
萬玉磊觀察,不少頭部企業確實正在以百萬年薪爭奪提示詞優化專家,數據策略崗需求激增。據其透露,字節在瘋狂招各個領域的博士生來幫他們調數據;小紅書則嘗試組建“藝術+代碼”的跨學科人才團隊,試圖更好地解決圖文生成的審美瓶頸。
在萬玉磊領導的7人團隊中,5名數據標注員都是本科應屆生,工作要完成大量語義標注。另外2位提示詞工程師則要兼具代碼能力與跨學科視野。不過在他看來,當下能勝任AI訓練的人,持續學習的能力是核心門檻。
技術人員每月都要不斷消化頂級會刊論文,這種高壓環境也催生了獨特的學習文化。每周一的論文研討會上,萬玉磊都會專門讓團隊成員拆解一份最新的模型技術報告,互相探討。“上周面試時,我們最關注候選人是否第一時間體驗過Claude 3的新版本。”
比起設計母提示詞,評估體系的數字化正在成為工作的新焦點。“評估標準的制定比寫提示詞更關鍵,這也決定了系統的進化方向。”
“比如,我們團隊搭建的自動化評測系統包含30余個量化指標:從回答相關性、中立性到情感親和力,每個維度的權重會隨業務場景動態調整。”目前,他所在團隊中已經有70%的工作集中到了評估模型優化,僅有30%的工作放到了提示詞生成。
特別是當大模型走向商業化后,大量垂類模型讓針對性的提示詞訓練變得更加不可或缺。“B端用戶需求非常明確,用戶數據有效,提示詞也會更加明確。”
萬玉磊目前已做過電力運營、城市治理等垂直模型,在某個電網AI項目中,對方提供了百萬量級的故障樣本和精準工況描述,這也讓提示詞的設計效率大幅提升。
與之形成鮮明對比的,是設計C端產品的迷茫。面對數億用戶千奇百怪的提問,萬玉磊曾因用戶需求“過度發散”而苦惱不已。“C端的用戶場景不明確,你也不知道他到底要什么,這種提示詞做起來就會很難。”他苦笑道。
雖然提示詞工程師總要跟枯燥的數據打交道,但隨著模型能力的進化,萬玉磊也會時不時地被震撼到。尤其是DeepSeek的“頓悟時刻(AHA moment)”閃現,讓他印象極深。
在DeepSeek的論文中提到,模型讓作者“見證了強化學習的力量和美感”。在開發DeepSeek-R1-Zero的中間版本時,模型曾學會了以人類的語氣進行反思,領悟到了訓練數據里完全沒有的東西。
“我們正在經歷技術史上的‘亂紀元’。”萬玉磊用《三體》中的故事比喻當前行業態勢:當大模型每月突破一個技術里程碑,傳統的職業規劃已失去意義,唯有構建“終身學習”的能力,才能保持競爭力。
02、行業需要工程師變成產品經理
2022年11月,ChatGPT橫空出世時,張遠辰還在準備研究生備考。
2023年初,一位專欄作者與New Bing(微軟基于GPT-4模型的AI搜索引擎)進行了數輪對話,意外發現New Bing不僅會表達感情,還會PUA甚至威脅人類,看起來似乎擁有了“自我意識”。這讓張遠辰大為震撼,“我第一次真切感受到AI的擬人化潛力,甚至產生過退學、投身AI行業的想法。”
不久后,張遠辰通過實習進入了AI領域,首份工作便是用封裝提示詞實現產品化。比如,根據用戶輸入的書名和字數,生成讀后感。這也讓張遠辰第一次意識到,提示詞對于模型質量提升的關鍵作用。
“特別是模型能力較弱時,提示詞工程與模型訓練同等重要。一份完整的結構化提示詞屬于核心資產,可以拿到網上去做售賣。”
張遠辰暗下決心,將畢業后的求職目標對準大廠。但當時間撥到2025年,在面試字節、阿里等公司的過程中,張遠辰發現,大廠對提示詞工程師的需求每年都在變化。
“2023年,大廠會選擇直接招一些AI產品經理來做相關的探索,對于提示詞沒有太重視。到2024年初,專門的提示詞工程師已經出現,大模型行業開始細致分工。”
而到了2025年,DeepSeek讓普通用戶通過自然語言就能玩轉AI。“大廠也更傾向于將提示詞能力視為產品經理、研發等崗位的基礎技能,而非獨立崗位。”這也讓張遠辰意識到,提示詞工程師正在向通用技能遷移,甚至可能逐漸 “消失”,其職責會被其他崗位吸收。
張遠辰結合自身和周圍的情況粗略判斷,2024年,大廠給1~3年經驗從業者的薪資約在月薪2.2萬~3.5萬元之間。
但她也表示,對于提示詞工程師高薪、高學歷的標簽要理性看待。單純的提示詞撰寫,已經難以構成長期壁壘。提示詞工程師水平的高低,本質取決于能否直擊問題本質、識別模型輸出的價值。
“提示詞工程師的工作并非單純的提示詞撰寫技巧,而是對用戶需求的洞察、跨領域知識儲備,以及利用模型特性創新解決方案的能力。”張遠辰說。
在她看來,提示詞工程師的崗位職能正在遷移,發展路徑更可能朝向AI產品經理——理解用戶需求、拆解任務流程,這都和產品經理的核心能力高度重合。
而面對全新領域的提示詞需求,張遠辰表示并無標準的調研流程,而是更多依賴于實踐驗證。
令她印象深刻的是,2024年上半年 ,她在參與一部AI小說寫作時,需要將小說拆解為題目、提綱、大綱、正文等多個環節。每個環節的提示詞都要抽象提煉為前文已生成過的內容(如題目、文風要求),才能確保上下文連貫。
雖然聽著簡單,但實際處理過程中難題不斷,如模型輸出格式錯誤、模型崩塌(重復輸出單個字符)和截斷(內容未完成即終止)等。
光是解決格式問題,張遠辰就測試了20多個模型。她也因此發現,DeepSeek雖然能穩定輸出格式,但對于中文網文的風格支持不足。最終,她是通過流程切分(如將2萬字的小說拆分為10個2000字左右的段落生成),才降低了模型處理壓力。
張遠辰事后總結道,提示詞的設計往往充斥著很多不確定性,“有效定義AI的工作流程,比提示詞設計本身更有用”。這也讓她將職業規劃開始沿著AI產品經理的方向深化:“AI終將成為工具,而把握用戶痛點、設計出真正解決問題的產品,才是核心競爭力。”
03、離職率高,分化明顯
2020年,于洪未曾預料到,她會在幾年后站在AI浪潮的十字路口,重新思考職業的意義。作為一名金融行業數據分析師,于洪曾在投行與咨詢公司深耕量化分析領域,卻在AI技術迭代中感受到了前所未有的危機。
“ChatGPT剛開始連基礎爬蟲都寫不好,現在它已經能處理完整的機器學習項目。我的工作中80%的內容,都可能被AI替代。”
于洪坦言,這種焦慮驅使她開始探索轉型路徑,而招聘網站上鋪天蓋地的“AI訓練師”崗位,引起了她的注意。
起初,螞蟻金服等大廠對于“AI訓練師”的要求是,不僅要有頂尖學歷,還要有CFA(特許金融分析師)持證。這讓于洪誤以為,這是一個與金融業務深度結合的復合型技術崗。但在多方打聽后,于洪發現提示詞訓練本質是“數據標注”,與金融知識幾乎無關。
“即便是名校畢業生,進去后也只是按機器規則打分,沒有主觀判斷的空間。”更令她意外的是,不少從事該崗位的從業者竟來自牛津、劍橋等頂級學府。
可以說,數據標注崗因大廠光環吸引著眾多求職者們。特別是它基礎月薪過萬,也面對文科專業招聘,更讓不少名校畢業生一度將其視為“人生奔頭”。
于洪表示,不少企業正在自建標注團隊,但工作的高重復性讓這一行離職率驚人。“許多大廠的數據標注崗都是外包性質的,許多人心理落差太大,干一兩個月就走了。”
在技術沖擊、行業震蕩的雙重壓力下,于洪開始重新評估自己的職業護城河。她曾親歷AI工具從“初級輔助”到“威脅替代”的轉折:早期使用ChatGPT時,于洪曾經借助信息差,高效完成工作,享受過“拿著工資摸魚”的一小段紅利時光。
但隨著DeepSeek的崛起,老板們對開源工具的接受度提升,人力成本壓縮成為必然。“當AI能獨立完成數據清洗、分析甚至生成報告時,我的角色將只剩下審核與糾錯。”
在技術洪流中,于洪試圖尋找新錨點。她坦言曾考慮轉向AI算法領域,但與資深工程師的交流讓她望而卻步。思來想去,于洪最終決定回歸學術路徑,計劃攻讀計算社會科學方向的博士,研究大語言模型與社會科學、金融分析的交叉應用。
“未來的機會或許會出現在技術與業務的結合點,比如提升AI對網絡話語、金融文本的解析能力。”
目前,她的工作依舊每天與爬蟲和文本情緒識別模型打交道。而對于AI技術的未來,于洪表現出了矛盾心態,她計劃在歐洲攻讀博士并尋求工作簽證,努力朝學術領域發展。
和于洪類似,身處數據標注崗的王晨,也遇到了作為“AI數據打工人”的職場焦慮。2022年,王晨加入了一家創業公司,投身于智能體研發的數據標注。
王晨表示,當下AI訓練師的專業門檻已發生質的躍遷。人才需求向垂直領域拓展,薪資梯度也呈現出結構化差異。醫療、法律等專業領域的AI訓練師年薪可達20萬以上,相較去年薪資漲幅達30%以上。
“不過,醫療領域標注崗位要求執業醫師資質,影像類項目需要醫學碩士背景,美學設計相關崗位更看重從業者的專業審美積淀。”
伴隨高薪而來的是更嚴峻的挑戰。王晨透露,某大廠曾為特定項目半年燒掉了500萬元標注預算,卻在完成后立即解散團隊,“這種不確定性也在倒逼從業者構建核心競爭力”。
每次面試新人時,王晨都會建議新人選擇垂直賽道深耕,將數據標注視為理解AI底層邏輯的入口,逐步向產品設計、質量評估等上游環節拓展。但他自己還沒有徹底想清楚,他只是感覺,無論如何都不能輕易下了AI這趟高速列車。
(文中王晨、于洪為化名)
(作者 | 豆蔻,編輯 | 李不清,圖片來源 | 視覺中國,本內容來自財經天下WEEKLY)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.