□作者 梁斌(清華大學人工智能博士、北京八友科技創始人)
我是北京八友科技創始人梁斌,一名清華大學人工智能專業的工學博士,在數據采集和處理領域創業10年,服務了很多國內AI大模型企業。想給大家介紹下AI人工智能相關的數據行業,希望能為同學們在填報大學志愿時提供一些參考。
我們正處在一個數據爆炸的時代。數據的重要性,怎么強調都不為過。數據的多樣性和數量決定了AI大模型的泛化力,高質量的數據決定了AI大模型的智能下限,數據的時效性決定了AI大模型的信息迭代能力。
在數據行業中,數據采集和數據處理是兩個最重要的環節,它們分別對應著爬蟲工程師和ETL工程師。爬蟲工程師,主要負責從互聯網上抓取海量、高質量的原始數據,需要巧妙運用各種合法技術手段,從公開渠道獲取所需信息;ETL工程師的任務是,將爬取到的原始數據進行清洗、轉換、合成,使其符合分析和模型訓練的需求。這就像一個“數據煉金師”,將雜亂的原始數據合成符合AI需要的高質量數據。
這兩個崗位,從編碼角度來看,入門門檻并沒有那么高,并不需要一定是計算機專業科班出身。事實上,在我們公司里,采集工程師中真正科班出身的很少,數據處理工程師中科班出身的就更少了。不少跨專業的同學,特別是理工類專業的同學,通過自學和實踐,都能夠勝任這些重要的工作。
關于行業風險,國家已出臺《關于構建數據基礎制度更好發揮數據要素作用的意見》,為行業發展提供制度保障。只要合法采集公開數據,不采取非法手段,不觸碰紅線,相關工作是受到法律保護的。一定要選擇去正規的公司,守住職業道德和法律底線。
數據相關工作的職業長期性毋庸置疑,比如在以下三個方面,AI大模型是無法獨立完成的。一是大模型無法獨立整理訓練語料,需要加上人的認知。特別是一些垂直大模型,更需要有專家和特定數據的參與;二是大模型無法獨立決定哪些數據在不同階段以什么方式參與進來。預訓練、微調、推理階段都需要不同的數據,推理階段更加復雜,需要復雜的知識庫,而知識庫的構建大模型無法獨立完成,同樣需要人的認知;三是數據質量的反饋需要人的反饋。有知名公司就號稱通過人類反饋的標注方式提高數據質量,這也是大模型無法獨立完成的。
大模型,或許可以替代部分行業,但給其提供數據支持的行業則難被替代。數據采集和處理的崗位,我認為將長期穩定。
如果沒有選擇計算機專業,又想加入數據行業,我認為需要快速學習以下東西:學習和掌握現有基礎設施。學會使用大模型的工具,比如Copilot、Cursor,我們公司現在90%的代碼都是用這些工具寫的。同時,要學會使用各種開源工具,如任務隊列、內存數據庫等;爭取機會到公司參與實習,在實際的項目中學習是提升最快的途徑;掌握最先進的想法。過去我們常說“Talk is cheap, show me your code”(少說多做,用代碼說話);現在,我認為更應該是“Code is cheap, show me your talk”(代碼易得,想法更重要)。因為有太多的工具可以幫助你實現想法,所以開拓思維,不要給自己設限至關重要。很多數據采集和處理的方法,都需要非凡的創意和想法。
數據行業是一個充滿活力和機遇的領域,它正在為人工智能的未來奠定基礎。如果你對數據充滿熱情,渴望在人工智能時代發揮自己的價值,那么無論你目前的專業是什么,其實都有機會在這個領域找到屬于自己的一片天地。祝愿同學們都能找到自己熱愛并愿意為之奮斗的方向。
編輯 趙瑜
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.