全球AI界有兩位大神,一男一女,剛好都是華人。男生就是黃仁勛,家喻戶曉了;女生李飛飛,人稱AI教母,如果沒有她,AI的發展進程,可能還會晚個一二十年。
她創辦的ImageNet,是全球第一個大型AI數據庫,是AI視覺研究的基石。
她33歲成為斯坦福終身教授,45歲成為美國三大權威科學院的院士,在AI界更是桃李滿天下,英偉達、谷歌、OpenAI,都有她的高徒。她還擔任過谷歌副總裁,推動成立了谷歌AI中國中心。
今天,一口氣帶你認識李飛飛。
先說家世。
1976年,李飛飛出生在北京的一個知識分子家庭。
爸爸是工程師,媽媽是人民教師。這樣的家庭,按說應該拼命雞娃。
而李飛飛的童年卻沒有這些,而且她爸爸在世俗眼里還有點“不著調”。
比如李飛飛這個名字的由來,就很有戲劇性。李飛飛出生當天,爸爸因為在公園看鳥忘了時間,錯過了孩子的出生時刻?;丶液笠o孩子起名,他還滿腦袋都是鳥,孩子就叫“飛飛”吧。
成為新手爸爸后,他也沒有為人父的壓力和焦慮,什么奧數班英語班,都靠一邊,他只想著帶孩子瘋玩。
比如帶飛飛去公園看鳥,去田里捉昆蟲,還會找來各種零件,DIY自行車,載著飛飛到處逛。
李飛飛后來回憶說,爸爸就是個迷失在成年人身份中的大孩子。
爸爸的“不著調”,本質上是純粹的好奇心,這反而成為李飛飛的科學啟蒙。以至于上完物理課,她騎自行車轉彎時,都要思考加速度和角動量的變化。
如果說爸爸培養起了飛飛的好奇心,那媽媽就是拼盡了全力保護她的求知欲。
上初中時,有次飛飛被叫了家長,班主任說:別人家孩子都看奧數、背單詞,再不濟的也翻翻《意林》《讀者文摘》,記點作文素材,你家孩子看的都是什么?《不能承受的生命之輕》,海洋生物之謎、UFO……這些又不能提高分數,你作為家長的怎么不管管?
老師倒是一片苦心,可飛飛媽媽不干了,她直接回懟:我家孩子就愛看這些書,有問題嗎?老師被噎得說不出話來。
飛飛不只是愛看閑書,上學時她還把頭發剪得跟男生一樣短,天天跟一群男生聊戰斗機和UFO。
過了倆月,老師又找上門了,說飛飛天天打扮得跟個男生似的,沒有一點女孩子的樣子,不能仗著腦瓜聰明就不守紀律。
這次媽媽也沒慫,她說:飛飛首先是一個獨立的個體,然后才是女孩。
這件事也讓她開始思考,這樣的教育環境,是飛飛想要的嗎?這是我對她的期望嗎?也許飛飛和我一樣,都不屬于這里。
沒過多久,夫妻倆就辭去工作,全家到美國新澤西州定居,飛飛的人生從此發生巨變。
李飛飛
除了父母,李飛飛家還有位特殊的成員,那就是她在異國他鄉的避風港,薩貝拉老師。
1992年,15歲的李飛飛來到美國。黃皮膚、亞洲人、語言不通,這幾個因素一疊加,幾乎預告了李飛飛艱難的求學路。好在她遇到了數學老師薩貝拉。
有次數學考試,李飛飛得了89.4分,90分才能拿A,就差0.6。從小就是尖子生的李飛飛很難受,她去辦公室找薩貝拉老師通融,結果被直接拒絕。薩貝拉說:想要A,只能靠你自己努力,其他免談。
看著是吃了閉門羹,但李飛飛一點沒往心里去,反而激發了她的好勝心。她天天往辦公室跑,一邊練口語、一邊學數學。一次她讓薩貝拉推薦幾本書,老師推薦了自己喜歡的科幻小說,結果李飛飛剛好讀過,從此倆人靠著這個共同愛好打開了話匣子,越聊越投機。從分享書籍聊到家長里短,李飛飛還時不時跑到老師家里蹭飯,相處的跟自家人一樣,薩貝拉老師也把飛飛當干女兒。
飛飛考上大學,他幫著研究入學文件;飛飛母親生病,他幫著聯系醫院;飛飛一家想開干洗店,他更是大手一揮,借出去好幾萬美元。
在爸爸媽媽和老師的幫助下,李飛飛考上著名的藤校普林斯頓。與其說李飛飛改變了世界,不如說這三個她最感謝的人,共同托舉起了一個天選科學家。
那李飛飛是怎么成長為科學家的呢?她又為什么在AI界有這么高的地位呢?
先做個輕科普,新一代AI技術有三大基石,GPU、神經網絡和數據集。GPU提供算力,神經網絡負責算法,數據圖集則是訓練的資源。
AI史上第一個數據圖集ImageNet,正是李飛飛20年前帶隊完成的。
下面我來帶你復盤一下ImageNet的誕生記。
回到2000年,24歲的李飛飛面臨人生的一個分水嶺,是成為拿著高薪的華爾街精英,還是繼續完成心中的科研夢想。李飛飛選擇了后者。
從普林斯頓畢業之后,她來到加州理工繼續求學,成為錢學森和錢偉長的學妹,主攻的正是AI和視覺識別。
當時AI研究已經停滯了很多年,科學家們前赴后繼地努力提升模型和算法,卻一無所獲。
但李飛飛意識到,只關注模型和算法沒有用,還得把數據重視起來。這跟學數學一樣,光訓練邏輯思維沒用,你要讓他做足夠多的題。
比如你想讓機器識別出更多圖片,就得先讓機器學習海量標注好的圖片。
但問題是,這些素材圖片從哪來?當時可沒有現在的技術發達,敲個代碼就能搞定。沒有別的辦法,只能一個個手動收集。
于是在加州理工,她帶著幾個本科生,手敲出來一個有101個分類、9000多張圖片的數據集,叫Caltech101,在科研圈引發了不小的關注。
有了成績之后,李飛飛想要繼續完善這個數據庫,好推動進一步的研究。
但這個想法立馬被同行們潑了一盆冷水。因為當時在AI圈,算法才是絕對C位,數據集基本沒人關注。
一連串的質疑也讓她無力反駁:怎么做?你有計劃嗎?能做成嗎?靠譜嗎?
他們倒不是打擊飛飛,而是視覺識別這個科研方向太冷門了,不但拉不到經費,還可能因此一輩子評不上教授。
而且要想實現李飛飛的設想,需要的圖像分類可就不是101個了,而是3萬個。
光是上百個分類,他們就加班加點干了好幾個月,如果沒有資金支持,按這個進度,三萬個至少要干上百年!這是李飛飛遇到的第一個坎兒。
不過在一片質疑聲之外,李飛飛也遇到了一位支持者,李凱。他和李飛飛是普林斯頓計算機科學系教師中唯二的中國移民。
之所以他會站出來支持,不僅僅是因為同是華人,而是李凱本來就是這方面的專家,還是一位成功的創業者,不差錢。
商人加學者的雙重身份,讓他篤信大規模數據集的未來。李教授不僅捐了一套工作站(一種計算機)給李飛飛團隊,還把自己的學生鄧嘉推薦給了她。
2007年,在李教授和鄧嘉的支持下,李飛飛的數據集終于正式啟動,這就是ImageNet。
她規劃了22000個類別,每個類別配1000張圖,一共2200萬張。這還只是成品,為了選出這2200萬張,需要先找到至少10億張。
這工作量絕對是天文數字,好在找圖、標注沒啥技術含量,他們雇了一群本科生,每小時10美元,做一個無情的標注機器。
但即便如此,ImageNet完工也得整整19年。
為了提高效率,李飛飛和鄧嘉想了不少辦法,比如優化圖片下載流程,原本需要點三下鼠標,給它壓縮到一下搞定;再比如自動在谷歌輸入圖片類別,提高下載速度。
一頓操作猛如虎,到頭來,預計只能把19年的開發周期壓縮到18年,還因為下載太多,被谷歌封了賬號。
其實要提速也簡單,撒錢招人就行了,但每小時10美元是個天文數字,而且他們也沒有多大的辦公場地可用。ImageNet再次陷入了僵局,這是李飛飛遇到的第二個坎兒。
在絕望之下,李飛飛茶不思飯不想,甚至想過開幾家干洗店,一邊賺錢一邊養開發。不過好在幸運女神再次眷顧了她。
一個叫孫民的研究生有一天突然找到她,說有種工作模式叫眾包,就是可以遠程分配工作,全世界的人都可以同時參與,而且價格絕對比線下找本科生便宜,亞馬遜就有這種服務,正好可以解決李飛飛的問題。
聽到這個消息,她立馬轉向眾包模式,團隊的標注員開始指數級增長。最多時有來自167個國家的4.8萬人參與,開發時間也從十幾年縮短到5年、2年和不到1年,勝利就在眼前,但很快,李飛飛發現口袋里又沒錢了,研究資金再次告急。這是李飛飛遇到的第三個坎兒。
她到處洽談投資合作,最后斯坦福拋來了橄欖枝,而代價則是讓他們整個團隊搬到斯坦福所在的加州。
本來已經安居樂業的李飛飛,要離開工作生活了十幾年的地方,再次陷入兩難。有母校,有親人朋友,有熟悉的工作環境,但當李飛飛看到跟著自己奮斗好幾年的同事們,李飛飛最終決定冒險一把。
2009年初,李飛飛帶團隊跳槽到斯坦福,當年6月,ImageNet的初始版本問世,收錄了1500萬張圖片,涵蓋22000個類別,而且每張圖片都經過了手工標注,并在層次結構中進行了組織,經過了三重驗證,建立起人工智能史上最大的人工編輯數據集。
回首看,ImageNet的完成,除了李飛飛團隊的日夜辛苦,還要歸功于當時互聯網、數碼相機、搜索引擎等等更多技術的融合,所有這些大時代里的趨勢匯集到一起,相互成就,才促成了最后的成功。
但是回到2009年,ImageNet的誕生跟“科研碩果”、“改寫歷史”這些詞一點都沾不上邊,李飛飛帶著ImageNet去參加計算機視覺與模式識別大會,結果被忽視,只在會場邊上的海報上展示一下,幾乎無人問津。
后來她想到辦比賽,號召全球的AI算法從業者,用ImageNet訓練他們的模型,最后比一比誰的效果最厲害。
這樣既能提高知名度,還能在各類算法模型的測試中優化自己,一箭雙雕。
但2010年5月首屆比賽的結果公布后,她的心又涼了半截,獲勝的算法團隊,還是當時公認的行業標準,成績也沒比在其他數據集訓練的好多少。
到第二屆,報名人數差點腰斬,比賽結果跟第一年也差不多。
李飛飛一度懷疑自己是不是錯了。
直到2012年8月,第三屆比賽的結果出爐,獲勝的是一個神經網絡算法團隊,而且準確率比上屆冠軍高10%。
所有人都震驚了,因為神經網絡并不是當時正統的算法,甚至有點“老古董”的感覺。
這就好比一個名不見經傳的老頭,一下擊敗了各大門派,拿下了武林盟主。
李飛飛當即決定,必須要親自見見這個團隊,看看到底是何方神圣。
而這個團隊的老大我們都很熟了,就是拿下2024年諾貝爾物理學獎的辛頓教授。
辛頓教授團隊開發的算法模型AlexNet,在這次比賽中的識別準確率達到85%,創下世界紀錄。更奇怪的是,AlexNet屬于卷積神經網絡,這是一個20多年都沒什么進展的算法方向,這次究竟是出現了神跡,還是辛頓撞了大運?都不是,這其實是科學界的一次風云際會。
簡單說,神經網絡的思路相當于模擬人腦,模擬生物進化。比如視覺識別,別的算法都是預先決定先找圖片的哪些特征,而AlexNet沒有預設,完全靠訓練數據學習,來培養自己的敏感度,逐漸形成對世界的認知,跟嬰兒認知世界的方式一樣。
辛頓教授之所以坐20年冷板凳,不是因為神經網絡的思路有問題,而是它缺少資源,其中最核心的是算力和數據。
而ImageNet,恰好提供了足夠多的數據,內置了CUDA的英偉達GPU,又恰好提供超強算力。這次科學界的風云際會,成就了李飛飛,正名了辛頓,造富了黃仁勛。
AlexNet的成功讓神經網絡正式成為AI主流,2年后,機器的人臉識別準確率正式超越人類。
李飛飛用大數據訓練神經網絡的想法也被業內瘋狂追捧,從圖像擴展到語音、文字、視頻等其他領域,AI革命被徹底點燃。
即便已經功成名就,李飛飛也沒有躺平,而是繼續推動AI進化。2024年1月,她創立了World Labs,要把AI模型從2D像素提升到3D世界,賦予和人類世界一樣豐富的空間智能。今年她又親自下場,基于通義千問,只用了50美元,就訓練出一個媲美DeepSeek R1的新模型S1。
李飛飛“AI教母”稱號的含金量,還在不斷地提高。
作者 | 吳婷
嘉賓商學吳婷
參考資料:
[1]李飛飛.我看見的世界.中信出版集團.2024
[2]50美元復現DeepSeek R1,李飛飛團隊也選了阿里Qwen.硬ai.2025
[3]阿里云回應李飛飛團隊50美元訓練出AI模型.觀點網.2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.