99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

訓練人工智能的中國縣城工人

0
分享至



作者|林石

插畫|AI繪圖工具Disco Diffusion

原創首發|藍字計劃

全文字數|約4300

全世界都在談論ChatGPT將帶來顛覆性的技術革命,但人工智能訓練師李杰卻一點也激動不起來。

為了完成單價4分錢的計件工作,李杰和幾十個人坐在一間擺設如同初代網吧的屋子里,每天對著電腦劃拉鼠標幾千次。

他的職責是為訓練人工智能模型準備“飼料”,將大量的文字、語音、圖像打上標記——“眼珠”、“四川話”、“綠化帶”。只有被標注過的數據,才能被人工智能模型識別,訓練出它的分辨能力。

李杰做得最多的是道路圖片標注,亦即給道路圖片上的物體標注好名稱、顏色等詳細信息,業內俗稱“拉框”。

效率高的時候,他一天可以拉2000-3000個框,按照一個框4分錢計算,他一個月能賺三千塊左右。對于職校畢業、身在西北縣城的青年來說,這份收入還過得去。



| 一家數據標注工廠

同樣的場景也出現在非洲的肯尼亞。該國首都內羅畢有30多名工人,成為了ChatGPT的數據標注員,他們每天工作9個小時,閱讀150-200段文字,并標注出其中包含性、暴力與仇恨言論的內容。由于每天閱讀大量極具沖擊力的文字,有人會因為一段描寫而做上一周噩夢。

這些工人能獲得每小時1.32美元的稅后收入,如果完成既定的任務,時薪可以上升至1.44美元,并有大約70美元的獎金,相當于一個月掙2500元—3000元人民幣,比當地一般藍領工作強些。

在人工智能產品卷起巨浪的時候,從肯尼亞、烏干達再到印度、中國,水下還有一群不被看見的“人工智能訓練師”,在簡陋的工作環境下,以最簡單的技能,與最前沿的技術產生了聯系。



人工智能

李杰對人工智能的理解,是手機上的智能語音助手,“就好像蘋果的Siri”。

他在職校念電子商務,同學大多去了電商公司當客服,他時常聽到同學對工作的抱怨。相較之下,數據標注的工作枯燥,卻也純粹,他只需要按部就班地完成任務、“可以在辦公室吹空調,也沒什么難度,就是有點費眼睛”



| 給汽車進行“拉框”,一張圖片就要重復數次類似操作

在2021年版的《人工智能訓練師國家職業技能標準》中,對該職業的能力特征描述是“具有一定的學習能力、表達能力、計算能力;空間感、色覺正常”,普遍受教育程度寫的是“初中畢業”。言外之意,這是一份幾乎零門檻的職業。

年過50歲的郭梅,原本在山西當地的煤礦上班,“抬頭是山,低頭是煤”。離開煤礦之后,她長時間找不到工作,最后成為數據標注基地中的一名員工,每天要拉兩千個以上的框。“我從來沒有想過自己會和無人駕駛、人工智能有關系。”



| 正在給汽車拉框的數據標注員

除了“拉框”,李杰也會接到語音標注的項目,通常是甲方采集到的不同地域、不同人群的語音,李杰必須戴上耳麥,仔細地辨認出每一個聲音的含義。

一天下來,他要聽來自幾百個陌生人在不同場景下的發言,可能是伴隨著車流聲、喇叭聲的中年男人在馬路上大聲質問,可能是講著廣東普通話的阿姨對著麥克風發出指令,有時候,他甚至會聽到臟話。

這些聲音被李杰一一轉錄成準確的文字,有時還需要打上說話人的性別、情緒等更細分的標簽,最后教會人工智能模型理解人類的語言,用于智能客服、智能音箱、地圖導航等產品中。

人工智能的三大基石是數據、算力與算法,數量越多質量越高的數據,往往越能夠訓練出更“聰明”的模型。

人工智能的主流方向是深度學習。在過去,由人來告訴機器,貓身上都有哪些特征,機器根據這些特征判斷一個物體是不是貓;深度學習則是通過“喂養”大量不同貓的圖片,機器就能自行歸納出貓的特征。這就需要大量經人工標注的圖片,俗話說,有多少智能,就得付出多少人工。

數據標注領域有過一個神話——ImageNet項目。這個項目數據庫擁有超過1400萬張已被標注的圖片,其中識別出的物體種類超過20000種——包括120個不同品種的狗。



| ImageNet圖片集中有1400多萬張標注圖片,其中超100萬張帶有邊框

項目源于斯坦福大學的人工智能專家李飛飛。2009年,業內普遍研究方向都是模型與算法,她另尋蹊徑,改進數據質量。如今,ImageNet已經是世界上最大的圖像識別數據庫,被用于成千上萬個人工智能研究項目和實驗。

而在ImageNet項目背后,是來自167個國家的5萬名數據標注員,他們足足花了三年時間才完成了全部圖片的標注。

李杰算是圖片標注的老手了,通常發給他的數據包內通常會有數百張不等的道路拍攝照片,李杰需要按照項目方的要求,對道路上的車輛、行人、綠化帶等物體標注。另外還有一種常見的標注任務,則是標注道路的車道線。

這種數據標注要求特別多,“框框不能超過也不能小于,更不能漏點,一出錯誤驗收不合格就得重新拉”。這些數據的最大流向是用于自動駕駛的機器學習,要確保駕駛安全,通常需要提供數以百萬計的標注數據對人工智能加以訓練——背后則是無數在電腦前點擊鼠標、敲擊鍵盤的李杰們。



互聯網版富士康

貴陽,大數據之城。

在距離貴陽市中心約50公里的惠水縣百鳥河數字小鎮,有一家擁有超過500名數據標注員的公司夢動科技——其中的一半人,是附近盛華職業學院的學生。

大三學生鄭成安在夢動科技實習,公司里的全職員工只有十來個人,管理層也是學校里的老師,“上課就是上班,老師就是經理”



| 位于百鳥河數字小鎮的盛華職業學院

他很熱愛這份工作,數據標注給了他生活多一種選擇。他在上高職之前甚至沒碰過電腦,現在卻可以憑借一份電腦前的兼職,一個月能拿到1500元以上的收入。

鄭成安所在的惠水縣,在貴陽88個縣區中經濟水平排在中游,2020年時的GDP為139.16億元,農村常住居民人均可支配收入12924元——相當于每月1000元出頭。

有時候為了多掙一些生活費,碰上緊急的項目,鄭成安會主動加班。他清楚地知道,標注員的工作很難一直做下去,他暗自下定目標,要成為管理標注員的人。

像貴陽這樣的城市,中國不止一個。

數據標注產業的誕生最早可以追溯到2005年。當時,著名計算機視覺專家、人工智能專家朱純松從美國回到了故鄉湖北鄂州,創辦了蓮花山研究院,籌建據稱是當時世界上最早的大數據標注團隊。

在深度學習成為人工智能主流之后,日益增長的互聯網大數據成為了人工智能的最好養分。

據數據公司IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%都是原始數據數據。這些在經過清洗和標注后,變成標準化格式數據,才能被人工智能所理解。

作為勞動密集型產業,數據標注企業更多地選在三四線城市落地,地方政府無論是為了扶貧或是搭上互聯網的順風車,都能與互聯網公司們一拍即合。

2018年,位于太原的山西轉型綜合改革示范區就與百度達成合作,打造了號稱“全國范圍內人員和產值規模最大的單體數據標注基地”,基地占地面積超1萬平米,已經引進了至少35家數據標注公司,超過2000名數據標注員。



| 百度山西數據標注基地

在新疆和田,有4000人在當地的數字經濟產業園從事數據標注工作,和田地區更是拋出了“數據標注產業之都”和10萬人數據標注就業基地的目標。

在河南,數百家數據標注公司從無到有;在濟南,山東第一個數據標注基地,已經容納了1500名“人工智能訓練師”;在新三板上市的數據堂,也在保定、合肥,分別建立了容納數百名數據標注員同時工作的基地。

而數據標注員身上的標簽是“互聯網民工”、“賽博流水線”。而對于絕大多數身在其中的人而言,一個互聯網版的富士康,已經是當下不可多得的選擇。



“教會徒弟,餓死師傅”

當數據標注成為“風口”,淘金者也隨之而來。

2017年,周華偶然在朋友口中得知,做數據標注能賺錢,剛剛創業失敗的他,決定再賭一把。

他算過一筆賬,一名數據標注員一個月的產值能到7000元,除掉3000元的工資和質檢、場地設備等費用,還能賺1500元。“如果招100個人,一個月就賺15萬元。”

他找來合作伙伴,采購電腦、確定場地,又迅速地招聘了一批沒有學歷、工作經驗要求的數據標注員,緊鑼密鼓地接單。



| 正在工作的數據標注員

此時的數據標注產業,趕上人工智能創業潮。根據前瞻產業研究院統計,數據標注公司從2014年開始不斷增加,并在2017年達到高峰,當年數據標注相關融資事件達到9起,到2021年4月,已經有有18家公司獲得融資,投融資事件39起。

數據標注行業有三種不同的公司,一種是大型互聯網公司內部的數據標注部門,處理公司內部的數據;一種是像數據堂這類有自己基地的數據標注公司,他們有獨立承接訂單的能力,甚至外包給第三方;數量最多的則是以工作室形態存在的小公司,他們通常只能在眾包平臺上接單,或者第三方中介公司轉過來的層層分包的訂單——在平臺上,他們或被稱為“公會”、“團隊”。

周華的工作室便屬于最后一種,當時主要依賴百度眾測的平臺訂單,平臺上會分發各類任務,在行業內稱為“放題”,包括數據采集、圖片標注、文本標注等。據百度眾測的數據,平臺上有2500萬的注冊用戶。

但百度眾測上的單并不是都能到周華的手里。有時候他必須主動承接一些二手乃至三手的訂單,那些掌握渠道的公司則可以賺取差價。

同樣和他一樣撞上風口的,還有當時還是創業公司的星塵數據。

星塵數據的創始人章磊,在華爾街、硅谷工作10年,曾在投資平臺CircleUp擔任資深數據科學家。2017年回國時,他本想繼續在投資領域創業,嘗試打造一個投研機器人——通過對大量公司年報、招股書等金融文檔的學習,輔助投資人決策。當時國內的數據標注往往往往只能機械化地完成客戶需求,這種“新穎”的數據標注要求,業內難以實現。章磊卻看到了機會。

他創辦的星塵數據,號稱為客戶量身打造數據標注方案。這家位于北京三里屯的公司,早在2018年1月就完成1000萬元人民幣的Pre-A輪融資,最新在去年8月又完成了5000萬人民幣的A輪融資,如今更多是做“數據標注平臺”的生意——他們會去競標大公司給出的數據標注訂單,再分包給類似一些小型的“數據工廠“,周華是他們的其中一個合作伙伴。

2005年成立的海天瑞聲,在此次生成式人工智能風潮中更是“賺麻了”。這家在業內以語音數據標注著稱的公司,21年在科創板成功上市,今年一月以來,股價從每股60元左右暴漲到了每股超過200元。



| 海天瑞聲最早從語音標注項目起家

畢竟對于國內眾多研發人工智能的大廠而言,基礎的數據標注是剛需,卻不可能永遠自己來做。那么只要有訂單,無論是周華這樣的工作室,還是海天瑞聲、星塵數據這樣的大公司,都能賺個盆滿缽滿。并非所有入局者都能有周華的運氣,周華就知道不少同行,因為訂單缺乏、結算周期長,公司早早退場。

當然,隨著GPT-4和文心一言的陸續出場,人工智能正“升級換代”,數據標注行業也伴隨著新的變化。

人工智能研究者們已經開始嘗試向機器“喂養”未標注的數據與部分標注數據,亦即“半監督學習”,而不依賴于人工標注的自監督學習與數據標注,也在業界開始出現實踐。

去年6月底,美國加州圣馬特奧縣的特斯拉辦公室,多名特斯拉員工在一次會議中被告知,他們被裁員了。最終被裁員的200人中,大多數都是數據標注員。特斯拉目前正在開發的計算機Dojo,就采用自監督學習技術,用于訓練人工智能模型,對數據標注的需求正越來越低。



| 非洲的數據標注員

騰訊、阿里、字節跳動等一眾大廠,也都在研發自監督學習的算法,甚至有些數據標注公司也都已經有60%內容來自于機器的自動化標注。

李杰聽過一個說法,數據標注員是“人工智能的老師”,是他和同事們日復一日的拉框,教會了人工智能理解人類世界。

但他從沒想過,當人工智能時代真正到來的那一天,取代他們的,恰恰會是自己曾經的學生。

(為保護隱私,文中人物均為化名)

參考資料:

TIME《OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic》

財經《火爆“智能”下的慘淡“人工”》

第一財經《人工智能背后的“人工”:誰在訓練AI?》


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子河邊散步被毒蛇咬傷,及時注射抗蛇毒血清獲救 當事人:第二天就好轉可慢慢走動

女子河邊散步被毒蛇咬傷,及時注射抗蛇毒血清獲救 當事人:第二天就好轉可慢慢走動

極目新聞
2025-06-08 19:30:00
20歲女子影院里賣淫:男女照片流出,事發詳細過程披露,價格曝光

20歲女子影院里賣淫:男女照片流出,事發詳細過程披露,價格曝光

博士觀察
2025-06-08 19:17:11
2025上半年新生人口預測結果出爐:結局令人難以想象

2025上半年新生人口預測結果出爐:結局令人難以想象

巢客HOME
2025-06-08 10:56:33
美媒:美國恢復處理哈佛國際學生簽證

美媒:美國恢復處理哈佛國際學生簽證

新京報
2025-06-08 09:16:06
1947年,藥廠刊登了一則普通廣告,卻陰差陽錯地害死多名地下黨員

1947年,藥廠刊登了一則普通廣告,卻陰差陽錯地害死多名地下黨員

茅舍品史
2025-06-07 22:35:03
瘋了!周鴻祎挑戰1人發布會,要裁360市場部全員,可以省下幾千萬

瘋了!周鴻祎挑戰1人發布會,要裁360市場部全員,可以省下幾千萬

火山詩話
2025-06-08 08:35:32
3年巨虧700多萬,15萬每平米到9萬,廣州天河第一豪宅也扛不住了

3年巨虧700多萬,15萬每平米到9萬,廣州天河第一豪宅也扛不住了

小人物看盡人間百態
2025-06-07 22:48:44
名場面!高考奇葩女生喝得爛醉姍姍來遲:把我的考試證還給我

名場面!高考奇葩女生喝得爛醉姍姍來遲:把我的考試證還給我

小人物看盡人間百態
2025-06-08 10:13:01
互聯網有記憶 騙人只能騙一時!董明珠:格力改變100多年空調歷史 讓它風不吹人

互聯網有記憶 騙人只能騙一時!董明珠:格力改變100多年空調歷史 讓它風不吹人

快科技
2025-06-07 11:23:33
17歲女孩確診癌癥!買衣服時店員看出端倪……這個細節很重要!

17歲女孩確診癌癥!買衣服時店員看出端倪……這個細節很重要!

環球網資訊
2025-06-08 10:57:17
盧旺達宣布退出中部非洲國家經濟共同體

盧旺達宣布退出中部非洲國家經濟共同體

新華社
2025-06-08 20:19:08
年僅53歲!985大學一高層次人才逝世

年僅53歲!985大學一高層次人才逝世

超級數學建模
2025-06-07 22:31:48
歐陽娜娜海邊大脫僅穿Bra,泄雪白辣照引網友熱議

歐陽娜娜海邊大脫僅穿Bra,泄雪白辣照引網友熱議

葫蘆哥愛吐槽
2025-06-09 00:05:31
我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

媛來這樣
2025-06-01 00:20:57
記者:因演唱會破壞的深圳專業足球場草坪,歷時1個月修復完成

記者:因演唱會破壞的深圳專業足球場草坪,歷時1個月修復完成

直播吧
2025-06-08 11:07:14
別再作妖了!穿旗袍、紫內褲、讓高鐵減速,請家長們停止奇葩行為

別再作妖了!穿旗袍、紫內褲、讓高鐵減速,請家長們停止奇葩行為

白面書誏
2025-06-06 18:42:00
美軍這下絕望了,不止空警3000,解放軍反隱身無人預警機也要來了

美軍這下絕望了,不止空警3000,解放軍反隱身無人預警機也要來了

胖福的小木屋
2025-06-08 23:52:32
路人機場偶遇王楚然,遭網友吐槽身材管理差,腰粗贅肉明顯

路人機場偶遇王楚然,遭網友吐槽身材管理差,腰粗贅肉明顯

阿廢冷眼觀察所
2025-06-08 19:18:53
這打得過?日本男籃亞洲杯預告海報發布 河村永輝領銜首發五虎

這打得過?日本男籃亞洲杯預告海報發布 河村永輝領銜首發五虎

胖子噴球
2025-06-08 16:12:44
河南省委派出15個巡視組

河南省委派出15個巡視組

政知新媒體
2025-06-08 20:44:29
2025-06-09 00:47:00
藍字計劃 incentive-icons
藍字計劃
記錄智能時代的每一次浪潮!前沿科技捕手,AI產品深度洞察。
154文章數 3838關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

家居
數碼
教育
藝術
公開課

家居要聞

現代風格 意式奢華空間

數碼要聞

預計蘋果不會在 2025 年 WWDC 上推出任何新硬件

教育要聞

尹燁對話武志紅:如何養出有生命力的孩子

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海南省| 会泽县| 屏东市| 类乌齐县| 娄烦县| 左权县| 东乡| 新宾| 土默特右旗| 商都县| 长垣县| 称多县| 双城市| 洪江市| 施甸县| 阿勒泰市| 依兰县| 包头市| 樟树市| 河南省| 中山市| 聂拉木县| 井陉县| 铁岭市| 徐州市| 双流县| 裕民县| 阿拉尔市| 永昌县| 洛南县| 志丹县| 永登县| 安阳县| 鄂州市| 胶州市| 友谊县| 临漳县| 巴马| 汉阴县| 于都县| 清新县|