本文轉載自公眾號“看天下實驗室”,文章原標題:《華人科學家李飛飛:從洗衣妹到“AI教母”》
嗨,歡迎關注看天下實驗室!《看天下》雜志原創出品。人的一生都在成長,一起去過有趣而豐盈的人生。
導讀:
在AI領域,華人也發揮著巨大影響力。2月24日,芯片巨頭英偉達宣布成立一個新研究部門——通用具身智能體研究實驗室。該實驗室的領導者是兩位華人90后博士——范麟熙(Jim Fan)和朱玉可(Yuke Zhu)。
而這兩人的導師,則更為重要——被稱為“AI教母”的華人科學家李飛飛。
為了賺錢,李飛飛在飯店刷過盤子,在干洗店打過工,整個高中和大學時代,她的衣服都是從別人丟掉的垃圾中撿的。
沒人想到,這樣一個貧窮的女孩,之后會成為席卷全球的AI革命的核心人物之一,甚至被譽為“AI教母”。
她的征途是星辰和大海,起點卻是美國東北部的臭水?溝。
16歲時,李飛飛和父母移民到美國,生活跌入谷底:一家三口擠在一個只有一間臥室的公寓里,沒有積蓄,不會說英語,靠繁重的體力勞動維持生計。
這個聰明的女孩考上美國最頂尖的高校之一,卻沒想著畢業后掙大錢實現階層躍遷,而是投入到當時還是“天坑”的人工智能專業中,夢想著教會機器學習,改變整個世?界。
堅信數據對人工智能有重要意義的她,在只有一個助手的條件下,創建了人類歷史上規模最大的標注數據集,為接下來引爆AI革命的大事件準備了舞臺。
李飛飛一路走來,生在北京,長于四川,又從中國到美國,由物理專業到人工智能領域,靠著其堅強、瘋狂與熱愛,從一個洗衣妹跨進AI這場科技革命的中心。
壹
我把你教得太好了
48歲的李飛飛在傳記中直言,父母的性格各自有一部分對她產生影響。
1976年,李飛飛出生在一個知識分子家庭。父親是工程師,性格天真散漫。李飛飛出生那天,父親姍姍來遲,并不是因為路上堵車或其他意外,而是因為他一時興起,跑到公園觀鳥,忘了時間。給女兒起名“飛飛”,也是觀鳥時想的。
這種好奇心傳染給了李飛飛,小時候,父親常帶她到公園觀鳥,去田里看水牛或捕捉昆蟲,激發了她對周圍世界強烈的探索欲望。
母親完全相反,對科學不感興趣,但熱愛文學,會帶著女兒讀魯迅的作品以及波伏娃《第二性》、海明威《老人與海》等西方經典。
父母的共同特點是,他們對功名利祿完全不感興趣,也從未像很多同事那樣通過送禮或請客吃飯的方式討好上級。
李飛飛記得,小學有一次校運動會,老師要求所有人穿白色襯衫,李飛飛爸爸在仔細閱讀規則后,把女兒白襯衫上每個紐扣都換成彩虹色,運動會當天,在一片“白色海洋”中,李飛飛尤為顯眼。
父母的教育理念和學校也有沖突。因為在期末考試前還癡迷于閱讀米蘭·昆德拉的《不能承受的生命之輕》,李飛飛被叫了家長。母親聽完了老師的抱怨,但沒有責怪女兒。
“我把你教得太好了。”回家路上,她對李飛飛說。
和母親期望的不同,李飛飛最愛的不是文學,而是數學。中學接觸到物理后,這又成了她最癡迷的科目,連騎自行車轉彎時都思考加速度和角動量的變化。她還對物理學歷史上一個又一個偉大人物感興趣,對阿基米德洗澡時發現浮力定律、牛頓在瘟疫肆虐時躲在家鄉寫《自然哲學的數學原理》等事件浮想聯翩。
這樣的日子在李飛飛16歲時戛然而止。1992年,李飛飛父親在美國工作3年后,將她和母親接到美國。當時,李飛飛可能想不到,她們家的生活將很快跌入谷底。
貳
浪費的彩票
因為完全不懂英語,李飛飛父親沒能繼續工程師生涯,他在一家華人開的店找到維修相機的工作,每天很晚才下班。母親在商店找到一份收銀員的工作,做重復和機械性的操作,遠離了她熱愛的文學作品。
日子很難捱。李飛飛的新家位于美國東北部富裕的新澤西州,一家三口擠在只有一間臥室的公寓里,家具是從路邊遺棄的垃圾里撿的。
為了補貼家用,每一個不上學的日子,李飛飛都會去打零工,最常見的工作是去中餐館打雜,每天從上午11點工作到晚上11點,總共12個小時,時薪2美元。她也做過幫人看家或遛狗的工作,時薪更高,也更清閑,但不好找。
在餐館打雜時,趁著下午換班,李飛飛會利用難得的空隙去讀母親分享給她的文學名著,餐館經理對此不屑一顧。“他覺得對我們這樣的人來說,想象力在生活中是多余的”,李飛飛回憶稱。
對這些連英語都不會說的華裔移民來說,階層躍遷是個遙不可及的夢。
曾經引以為傲的學業也變成負擔。李飛飛幾乎不會說英語,每一節課,無論什么科目,對她而言都是英語課。每天回家做作業,她都要準備兩本詞典,一本英譯中,一本中譯英,否則就寫不了作業。
自我表達成了一種奢望,“不會說話”的李飛飛交不到朋友,成績也一落千丈——考試的時候,很多時候她連題目都看不懂。
幸運的是,數學和物理兩門課受到的影響很小。學習它們,更多依賴數字、符號和公式。李飛飛對數學和物理的狂熱也沒有隨著移民到美國而改變。
李飛飛家沒錢付學費,3年后高中畢業時,她申請的都是公立和社區大學,只是懷著一種儀式感,順帶申請了美國頂級名校普林斯頓——李飛飛最崇拜的科學家是愛因斯坦,普林斯頓是他度過晚年的地方。
沒想到,普林斯頓不愿意錯過這個SAT(類似美國高考)數學考了滿分的女孩,給她開出全額獎學金。
整個社區沸騰了。鄰居們羨慕地設想,李飛飛會去讀普林斯頓醫學、工程或者金融相關專業,拿到富裕階層的敲門磚,改變整個家庭的命運。但是,讓他們大跌眼鏡,李飛飛并沒有進那些熱門的賺錢行業,而是選擇了自己癡迷的物理。
“真是張好彩票,可惜浪費了。”鄰居們無法理解。
叁
兩個世界
普林斯頓大學對李飛飛來說就是天堂。
普林斯頓大學校園。(@視覺中國 圖)
她依然很窮,要從洗衣房撿別人扔掉的衣服穿,每個周末,都要回家里的干洗店幫忙。大一快結束時,李飛飛的母親心血管疾病發作,盡管通過手術搶救了回來,但終生不能再從事全職體力勞動。李飛飛家用積蓄和借款開了家干洗店,周末客人會更多,李飛飛要回家幫忙,而且幾乎不會說英語的李飛飛父母,也需要女兒做翻譯。
來到美國后,李飛飛第一次有了屬于自己的房間,宿舍面積甚至比一家三口蝸居的公寓還要大。更重要的是,這里是知識的殿堂,可以幫她找到那顆指引自己的“北極星”,那個可以改變世界,讓她為之癡迷和奮斗的問題。
大二時,李飛飛的興趣發生轉向。當時,在閱讀愛因斯坦、波爾、薛定諤等著名科學家傳記后,她發現很多人在晚年轉而對生命話題感興趣,探索智慧的奧秘。在1990年代末的計算機熱下,另一個問題引起了李飛飛的注意:機器可以掌握人類的智慧嗎?
李飛飛就此關注到了人工智能領域。和20多年后這個行業的爆火不同,當時正值“AI寒冬”,整個領域停滯不前,缺乏突破,很難獲得研究資金。這個時候入行,顯然不是好時機。
李飛飛不在乎這些。大學畢業后,她選擇到另一家頂級名校加州理工學院深造,兩位導師分別來自計算機和神經科學專業。
就在李飛飛滿懷期待開始研究生生活時,或許是嫌她吃的苦還不夠多,命運又給了她一記暴擊。
李飛飛母親再次病倒,幾乎完全不能再從事體力勞動,干洗店的生意難以為繼。李飛飛把父母接到自己的宿舍,讓母親在天氣更溫暖的加州療養,同時方便照顧他們。
母親的病隨時可能惡化,怎么掙錢給她看病?第一次,李飛飛認真考慮,放棄科研夢想,找一份薪水高的工作。
著名咨詢公司麥肯錫正在加州理工學院招聘,李飛飛買了一件得體的西裝。這對她來說還是過于奢侈的消費,她沒有撕掉標簽,而是用衣領遮住,打算面試結束后立刻退回店里。
盡管沒有任何工作經驗,李飛飛還是憑借才智和韌性打動了麥肯錫,他們不僅同意錄用,還把原定招聘的實習生崗轉成正式職工崗。
6位數年薪和健康保險近在眼前。最終,卻是母親阻止了李飛飛的決定。她至今都記得母親當時那段拯救了她人生的話:
“飛飛,我們走到這一步,不是為了讓你放棄。我了解我的女兒,她不是一個咨詢顧問,她是一個科學家。”
肆
給機器呈現整個世界
麥肯錫失去了一位咨詢顧問,已經處于谷底的人工智能領域迎來一位轉折性的人物。
為了教機器像人一樣識別圖片中的物體,科學家們首先要搞懂,人是怎么辨識物體的。
1990年代前,主流理論認為,人眼辨識物體,是從色彩、形狀、明暗等不同層次的微小細節開始,然后建立它們之間的關系,最后在大腦中形成一個完整的畫面。
這符合直覺,算法的開發也試圖模擬這個過程。
但是,到1990年代,這個理論遭到越來越多人質疑。科學家們通過實驗發現,人類具有快速準確的圖像識別能力,哪怕在集中注意力做其他事情的同時,也能對快速閃過的圖像內容作出精準判斷,比如“這是一幅風景畫”,或者,“圖片里是一只柯基犬”。
人只要看到某些細節,就能通過自己的豐富經驗聯想到這個物體可能是什么,并在想象中自動填充其他部分。
換言之,重要的是“類別”,人通過聯想到“類別”而判斷物體是什么。
李飛飛是“類別論”的支持者。她進一步想到,人是因為有豐富的閱歷而能判斷出類別,如果想讓機器也做到這一點,就需要它們“看”過海量同一類別的圖片。
創建一個由人類標注好類別的圖片庫,讓機器學習的想法就此出現。
給機器呈現一個完整的世界,它們之后會開始嘗試理解這個世界。這是李飛飛的“北極星”,她看到了數據的重要意義,在此之前,科學家們只把它當成算法的附庸。
2005年博士畢業后,李飛飛先是在伊利諾伊大學厄巴納-香檳分校找到教職,一年后被母校普林斯頓挖走。她決心把創建數據庫的想法變成現實。
這是一個過于“大膽”的想法。
幾乎包含所有英文詞匯的網絡WordNet里有約14萬個單詞,其中,所有可見的物體類名詞有2.2萬個,如果每一個類別下配1000張圖,意味著需要有約兩千萬張標注好的圖片,規模浩大。
同事們都不看好這個項目,當時世界上最大的標注數據集,只有100個分類,圖像也只有約1萬張,2000萬張圖像太多了,算法用不了這么多數據,也沒有那么強的算力去支持。
連李飛飛導師的導師,“師爺”吉騰德拉也不看好這個項目,他委婉地提醒李飛飛:“科研的訣竅是跟隨你的領域一起成長,不要太超前。”這尤為讓人喪氣,李飛飛本打算將來申請終身教職時,請吉騰德拉寫推薦信的。
她開始擔心,如果繼續做ImageNet,自己會失去拿終身教職的機會。
男友西爾維奧支持李飛飛的想法,他們在加州理工讀博時結識,都是癡迷機器學習的書呆子性格。“你不是一直追求出格的想法嗎?”西爾維奧說。
李飛飛只有一個研究生做助手,以及少得可憐的經費,這注定是一場豪賭。
外界大概很難想象,最前沿的計算機學習,最開始是個手工活兒。
他們設計出程序,可以自動依照劃分好的類別從搜索引擎谷歌上一天24小時不停下載圖片。在電腦網絡IP被谷歌識別和封殺后,他們又想出了設置動態IP的辦法。
一共有幾十億張圖片被下載,接下來需要剔除那些畫質不高、重復或者不相關的圖片,然后手工標注這些圖片。
李飛飛請普林斯頓大學本科生們來做兼職標注,每小時10美元,但速度慢得驚人,按這個進度,要18年才能完?成。
李飛飛想,自己那時可能已經被普林斯頓開除了。擴張預算、招更多學生來做標注也不現實,工作又陷入死胡?同。
“眾包”拯救了他們。一次偶然的機遇,李飛飛聽說網絡購物平臺亞馬遜上可以發布“眾包”任務,立刻想到,中國、越南等地人力成本明顯低于普林斯頓的本科生,如果把標注任務外包出去呢?
他們成了“眾包”業務早期最大的買家之一。最終在全世界167個國家的4.8萬名標注員的共同努力下,僅用了1年時間,這個被命名為ImageNet的圖片庫就得以問世,這是人類歷史上規模最大的標注數據庫,和神經網絡AlexNet一起,它們將引爆2012年的AI革?命。
伍
仰望星空的權利
ImageNet是一個不被看好的項目,即便成功問世,也鮮有人使用——科學家們普遍還沒有意識到數據的威力。
為了推廣ImageNet,2009年,李飛飛組織了迄今為止AI歷史上最成功的賽事:ImageNet大規模視覺識別挑戰賽。參賽團隊可以免費使用ImageNet圖像庫,但需要自行開發算法,最終以圖像識別準確率高低來決定名次。
李飛飛傳記《我看到的世界》
最開始兩屆很難說是成功,參賽隊伍數量一般,算法識別準確率也沒有革命性突破。
事情在2012年迎來轉機。這一年,有“AI教父”美譽的杰弗里·辛頓和其學生開發的神經網絡AlexNet在挑戰賽中一舉奪魁,并且把識別準確率提高了整整10個百分點。
人工神經網絡一戰成名。更讓科學家驚喜的是,他們意識到,如果不停增加神經網絡的層次,識別準確率還會繼續提高,這是“深度學習”的含義。
讓機器具備像人一樣“看”的能力,歷史上第一次變成現實。
更重要的是,用大數據訓練多層神經網絡的想法,從圖像擴展到語音、文字、視頻等其他領域,引爆了持續到現在的AI革命。2014年,機器人臉識別準確率已超越人類,突破落地門檻;3年后,AlphaGo橫空出世,戰勝圍棋世界冠軍李世石;2022年,ChatGPT的問世更是讓整個世界意識到了人工智能的潛力。
這一切的起點和技術基礎,是李飛飛的ImageNet和2012年的AlexNet。
李飛飛就此享譽世界。榮譽、地位、金錢潮水般向她涌來,她拿到了斯坦福大學的終身教職,當選美國工程院院士,成為谷歌云計算部門的首席科學家。李飛飛和西爾維奧結了婚,有了孩子,和自己的父母生活在一起,不用再為錢擔心。
給機器呈現整個世界曾經是她的“北極星”,讓她為之癡迷并前行,她做到了,現在,到了要尋找下一顆“北極星”的時候。畢竟,每個人都有仰望星空的權利,無論是在臭水溝還是已經爬上了山巔。
* 主要資料來源:李飛飛傳記《我看到的世界》,
中文版由中信出版集團出版。
粉絲福利領取
近期,公眾號收集了科研指導、編程學習、科學哲學、科學史、數學和物理科普書、中醫書籍、文學著作、升學就業相關資料等資源大禮包,點擊了解詳情
點擊資源推文頁,領取方式在文末
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.