99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛最新訪談:沒有空間智能,AGI就不完整

0
分享至

聞樂 不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

在我看來,沒有空間智能,通用人工智能就不完整。

這是“AI教母”李飛飛在最新訪談中對AGI的判斷——是的,李飛飛也開始談?wù)揂GI了。

不過她有自己的表述,從進(jìn)入人工智能領(lǐng)域開始,她就確定了她終身奮斗的夢想:讓智能體能夠講述世界的故事

而這,離不開空間智能



正如她本人所說:

我整個職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問題。

李飛飛如今聚焦于空間智能領(lǐng)域——這個人工智能最艱難的領(lǐng)域之一。

她認(rèn)為3D世界建模對于實(shí)現(xiàn)AGI至關(guān)重要,并表示:

  • 理解三維世界、生成三維世界、推理三維世界、在三維世界中做事,是人工智能的基本問題。

她的目標(biāo)是創(chuàng)建一個超越平面像素、跨越語言障礙、能夠真正捕捉三維世界結(jié)構(gòu)和空間智能的世界模型



在這次對話中,她從ImageNet的起源和影響說起,講述了AI范式轉(zhuǎn)變與關(guān)鍵突破,并提到了3D建模面臨的挑戰(zhàn)以及空間智能的數(shù)據(jù)缺失問題。

量子位翻譯并總結(jié)了全文,讓我們一起來學(xué)習(xí)李飛飛的最新認(rèn)知和分享。

ImageNet為現(xiàn)代計(jì)算機(jī)視覺搭建數(shù)據(jù)骨架

Q:你最早創(chuàng)建的項(xiàng)目之一是2009年的ImageNet,距今已有16年了。那篇文章有超過8萬次引用,真正觸及了人工智能的一個關(guān)鍵問題,即數(shù)據(jù)問題。請告訴我們那個項(xiàng)目是如何產(chǎn)生的——在那會兒,這可是開創(chuàng)性的工作。

李飛飛:實(shí)際上,我們構(gòu)思這個(ImageNet)已經(jīng)是幾乎18年前的事情了。我曾在普林斯頓大學(xué)擔(dān)任助理教授,當(dāng)時人工智能和機(jī)器學(xué)習(xí)的世界完全不同,數(shù)據(jù)非常少,至少在計(jì)算機(jī)視覺領(lǐng)域,算法并不起作用——那里沒有產(chǎn)業(yè)。你知道,就公眾而言,AI這個詞并不存在。



但是我們中間仍有一些人——從AI的創(chuàng)始人開始——然后是John McCarthy、Geoffrey Hinton等人。我想我們只是做了一個人工智能的夢:我們真的真的想讓機(jī)器能夠思考和行動。而我個人的夢想就是想讓機(jī)器能夠看見,因?yàn)?strong>看見是智能的基石。

視覺智能不僅僅是感知,它的真正意義在于理解世界并在世界中行動。我癡迷于讓機(jī)器看見的問題,在我當(dāng)時癡迷地開發(fā)機(jī)器學(xué)習(xí)算法時,我們嘗試了神經(jīng)網(wǎng)絡(luò),但它沒有成功,然后我們轉(zhuǎn)向基礎(chǔ)網(wǎng)絡(luò)來支持向量機(jī)。

但有一個問題一直困擾著我,那就是泛化的問題:如果你在機(jī)器學(xué)習(xí)領(lǐng)域工作,你必須認(rèn)識到泛化是機(jī)器學(xué)習(xí)的核心數(shù)學(xué)基礎(chǔ)或目標(biāo)。為了泛化,這些算法需要數(shù)據(jù)。但當(dāng)時還沒有人在計(jì)算機(jī)視覺領(lǐng)域有數(shù)據(jù),而我是第一批開始接觸數(shù)據(jù)的研究生,因?yàn)槲沂亲钤缈吹交ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)大發(fā)展的那一代研究生。

時間快進(jìn)到21世紀(jì),大約在2007年前后,我和我的學(xué)生決定,我們必須進(jìn)行一次大膽的賭注:我們必須賭機(jī)器學(xué)習(xí)需要一次范式轉(zhuǎn)變,而這個轉(zhuǎn)變必須由數(shù)據(jù)驅(qū)動的方法引領(lǐng),但當(dāng)時根本沒有數(shù)據(jù)。

所以我們想,好吧,去互聯(lián)網(wǎng)上下載十億張圖片——那是當(dāng)時我們能獲取到的最大數(shù)量——然后創(chuàng)建整個世界的視覺分類體系,并用這個來訓(xùn)練和評估機(jī)器學(xué)習(xí)算法。這就是ImageNet被構(gòu)想出來并誕生的原因。

自然語言與視覺信號的融合,讓智能體能夠講述世界的故事

Q:這個過程持續(xù)了一段時間,才發(fā)展出一些有前景的算法,直到2012年AlexNet出現(xiàn),這才構(gòu)成了通往人工智能的第二個關(guān)鍵部分——獲得計(jì)算能力,并投入足夠的資源到算法中。請告訴我們,您是什么時候開始意識到這一點(diǎn)的?就是當(dāng)你發(fā)現(xiàn)“用數(shù)據(jù)播種”的方法開始奏效,整個AI社區(qū)在此基礎(chǔ)上取得了更多突破性進(jìn)展的那個時刻。

李飛飛:在2009年,我們發(fā)表了一個非常小的CVPR海報(bào),然后在2009年到2012年之間,那三年我們真的相信數(shù)據(jù)會驅(qū)動人工智能,但我們幾乎沒有關(guān)于它是否有效的信號。所以我們做了一些事情,其中一件就是開源。從一開始我們就相信,必須將這個項(xiàng)目開源給整個研究界,讓所有人都能參與進(jìn)來。

另一件事情是,我們發(fā)起了一個挑戰(zhàn)賽,希望全世界最聰明、最優(yōu)秀的學(xué)生和研究人員都能來解決這個問題。這就是我們所說的ImageNet挑戰(zhàn)賽。我們每年都會發(fā)布一個測試數(shù)據(jù)集,然后公開邀請所有人參與。最初幾年其實(shí)是在建立基準(zhǔn)線——當(dāng)時的識別錯誤率徘徊在30%左右,雖然不算完全隨機(jī)猜測的水平,但確實(shí)不盡如人意。



但是,在第三年也就是2012年(我在一本我出版的書中寫到了這一點(diǎn)),我依然記得那是在夏天快要結(jié)束的時候,我們正在處理ImageNet挑戰(zhàn)賽的所有結(jié)果,并在我們的服務(wù)器上運(yùn)行,然后有一天深夜,我收到了我研究生的消息:他說我們得到了一個特別特別突出的結(jié)果,我應(yīng)該看看。于是我們仔細(xì)研究了它,那是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuronet network)之類的。

當(dāng)時Geoffrey Hinton的團(tuán)隊(duì)還不叫Alex這個名字,他們當(dāng)時命名為“SuperVision”,這是對“超級視覺”和“監(jiān)督學(xué)習(xí)”的巧妙雙關(guān),所以“SuperVision”。

讓我們看看他們做了什么——這是一個老算法,卷積神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代問世,而他們在算法上做出了一些調(diào)整。最初看到這樣的飛躍變化,對我們來說還是挺令人驚訝的,嗯,你們知道,我們在那一年的意大利佛羅倫薩ICCV挑戰(zhàn)研討會上展示了這個,Alex Krizhevsky和很多研究者都來了。



如今這一刻已經(jīng)被載入史冊,被稱為“ImageNet挑戰(zhàn)賽的AlexNet時刻”——這不僅僅是一個卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,這是Alex和他的團(tuán)隊(duì)第一次將兩個GPU并聯(lián)用于深度學(xué)習(xí)計(jì)算的壯舉。所以這實(shí)際上是數(shù)據(jù)、GPU和神經(jīng)網(wǎng)絡(luò)第一次結(jié)合的時刻。

Q:現(xiàn)在,順著計(jì)算機(jī)視覺智能發(fā)展的趨勢,ImageNet真正成為解決物體識別概念的關(guān)鍵,然后緊接著,人工智能也達(dá)到了能夠解析視覺場景的程度。因?yàn)槟愫湍愕膶W(xué)生,比如Andrej Kaparthy,做了很多重要工作,讓AI首次實(shí)現(xiàn)了場景描述的能力。請告訴我們物體到場景是如何轉(zhuǎn)變的。

李飛飛:ImageNet解決的核心問題是:當(dāng)系統(tǒng)接收一張圖像時,能夠準(zhǔn)確識別其中的物體,比如“這里有一只貓”“那是一把椅子”等等。這是視覺識別中的一個基本問題。

從我作為研究生進(jìn)入人工智能領(lǐng)域開始,我就有一個夢想,我認(rèn)為這是一個長達(dá)一百年的夢想,即讓智能體能夠講述世界的故事:當(dāng)你在這個房間睜開眼睛時,你看見的不僅僅是人、椅子、椅子和椅子,你實(shí)際上可以看到一整個會議室,有屏幕、有舞臺、有人、有觀眾,還有攝像機(jī)……你實(shí)際上能描述你看到的整個場景。這是人類視覺智能的基礎(chǔ)能力,對我們的日常生活來說至關(guān)重要。

所以我真的認(rèn)為這個問題會困擾我的一生,字面意義上的,當(dāng)我作為研究生畢業(yè)時,我告訴自己,如果我在臨終前能夠創(chuàng)造一個能夠講述場景故事的算法,我就成功了。



隨著Alex時刻的到來,深度學(xué)習(xí)迎來了爆發(fā)式發(fā)展。當(dāng)Andrej和后來的Justin Johnson進(jìn)入我的實(shí)驗(yàn)室時,我們開始觀察到自然語言與視覺信號相互融合的跡象。隨后,我和Andrej提出了為圖像添加字幕或講故事的問題。長話短說,2015年左右,Andrej和我發(fā)表了一系列論文,同期也有幾篇類似研究,關(guān)于制造一臺可以為圖像添加字幕的計(jì)算機(jī)。那時我的感受是,天啊,我該怎么度過我的余生?那是我一生的目標(biāo),那對我們兩個人來說都是難以置信的時刻。

去年我做了一個TED演講,我實(shí)際上使用了Andrej幾年前在完成圖像字幕工作時發(fā)的推文,基本上就是他的論文。我還和他開了個玩笑,我說:“嘿Andrej,我們?yōu)槭裁床环催^來做呢?取一個句子然后生成一張圖片。”當(dāng)然他知道我在開玩笑,他說:“哈哈,我要走了~這個世界還沒有準(zhǔn)備好。”快進(jìn)到今天,我們都知道生成式AI了,現(xiàn)在我們可以用一句話生成美麗的圖片。所以這個故事的寓意是,AI已經(jīng)取得了不可思議的增長。

我個人認(rèn)為我是世界上最幸運(yùn)的人,因?yàn)槲业恼麄€職業(yè)生涯始于AI寒冬結(jié)束的初期,也就是AI開始騰飛的起點(diǎn),而我自己的工作、我自己的職業(yè)生涯有很大一部分都參與了這一變革,或者為這一變革提供了助力。所以我感到非常幸運(yùn)和自豪。

沒有空間智能,通用智能就不完整

Q:我認(rèn)為最瘋狂的事情是,即使你實(shí)現(xiàn)了你一生的夢想——描述場景,甚至用擴(kuò)散模型生成它們——你實(shí)際上還在夢想更大的事情,因?yàn)檎麄€計(jì)算機(jī)視覺的發(fā)展歷程從物體變成了場景,而現(xiàn)在這個概念是整個世界,而你決定從學(xué)術(shù)界成為教授,到現(xiàn)在成為World Labs的創(chuàng)始人和CEO。請告訴我們,有什么是比看見物體更難的事情?

李飛飛:要總結(jié)過去五六年的經(jīng)歷真的很難,我們正生活在科技進(jìn)步的這樣一個文明時刻,對吧?而作為計(jì)算機(jī)視覺科學(xué)家,我們見證了計(jì)算機(jī)視覺從圖像識別到圖像描述再到使用擴(kuò)散技術(shù)進(jìn)行圖像生成的驚人發(fā)展,這一切都在以一種非常令人興奮的方式發(fā)生。



我們還有另一個同樣令人興奮的領(lǐng)域,那就是語言,也就是LLMs,2022年11月,ChatGPT打開了真正能夠通過圖靈測試的工作生成模型的大門。對我來說,這個進(jìn)展非常鼓舞人心,即使是像我這樣年紀(jì)的人,也會大膽地思考未來會怎樣。

作為一名計(jì)算機(jī)視覺科學(xué)家,我有一個習(xí)慣——我的很多靈感其實(shí)都來自進(jìn)化論和腦科學(xué)——在我的職業(yè)生涯中,我常常在尋找下一個要解決的目標(biāo)問題,我問我自己,進(jìn)化論做了什么,腦發(fā)育做了什么。有一點(diǎn)非常值得注意或者說值得欣賞的事情是,非常寬泛地來說,人類語言的進(jìn)化發(fā)展大約花了3億年到5億年,還不到十億年,而且基本上人類是唯一擁有復(fù)雜語言的動物。我們可以爭論動物是否具有語言,但就語言作為交流、推理、抽象的工具而言,真正擁有語言的是人類,這花費(fèi)的時間還不到5億年。

但想想視覺,想想理解三維世界的能力,弄清楚在這個三維世界中該做什么、導(dǎo)航三維世界、與三維世界互動、理解三維世界、交流三維世界……這個進(jìn)化持續(xù)了5.4億年。5.4億年前,首批三葉蟲在水下進(jìn)化出了視覺感知能力,而正是視覺的出現(xiàn)引爆了這場進(jìn)化的軍備競賽。在視覺誕生前的五億年間,地球上的生物都極其簡單。但在隨后的5億年,也就是在這5.4億年里——正因生物獲得了觀察世界、理解世界的能力——進(jìn)化競賽正式開啟,動物智能開始相互競爭。



所以對我來說,解決空間智能的問題:如何理解三維世界、生成三維世界、推理三維世界、在三維世界中做事,是人工智能的基本問題。在我看來,沒有空間智能,通用人工智能就不完整。我想要解決這個問題:這涉及到創(chuàng)造性的世界模型,它超越了平面像素、超越了語言,是真正捕捉三維世界的結(jié)構(gòu)和空間智能的世界模型。

我一生中最幸運(yùn)的事,就是無論我年紀(jì)多大,總能和最優(yōu)秀的年輕人共事。所以,你知道的,我和三位了不起的年輕但世界級的技術(shù)專家——Justin Johnson、Ben Mildenhall和Christoph Lassner共同創(chuàng)立了一家科技公司,我們即將嘗試解決在我看來目前AI領(lǐng)域中最困難的問題。

Q:那真是令人難以置信的天賦,我是說,Chris,他是Pulsar的創(chuàng)造者,而Pulsar是Gosh和Splats的雛形,可以進(jìn)行大量可區(qū)分的渲染;你的前學(xué)生Justin Johnson擁有超強(qiáng)的系統(tǒng)工程思維,實(shí)現(xiàn)了實(shí)時神經(jīng)風(fēng)格遷移;然后是Ben,他是Nerf的作者。所以這是一支超級精銳團(tuán)隊(duì),而你需要這樣的一支超級精銳團(tuán)隊(duì)。我們之前稍微聊過,實(shí)際上,視覺任務(wù)在某些方面比LLM更難——也許這話說出來有些爭議,但畢竟LLMs基本上是一維的,而你談?wù)摰氖抢斫馊S世界的結(jié)構(gòu)。為什么這會如此困難并且落后于語言的研究呢?

李飛飛:我很感謝你能體會到我們的問題有多困難,哈哈。語言在本質(zhì)上是一維的對吧?那些音節(jié)按照順序排列,這就是為什么序列到序列、序列建模如此經(jīng)典。還有一些人們沒有意識到的語言方面的東西:語言純粹是生成性的。自然界中不存在語言,你無法觸碰或者看見語言,語言源自每個人的大腦,而這是一種純粹的生成信號——當(dāng)然,你把它寫在紙上,它就存在了。

但是語言的生成、構(gòu)建和效用是非常具有創(chuàng)造性的,現(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。首先,現(xiàn)實(shí)世界是3D的。如果加上時間,那就是4D,但就讓我們局限于空間吧,認(rèn)為世界本質(zhì)上是3D的,這本身就是一個組合難度更大的問題;

其次,視覺對世界的感知和接收是一種投射,無論是你的眼睛、視網(wǎng)膜還是相機(jī),它總是將3D轉(zhuǎn)換為2D,你得明白這有多難,從數(shù)學(xué)角度來說這是錯誤的,這就是為什么人類和動物有很多個傳感器;

第三,世界并非完全是生成性的,我們可以生成虛擬的3D世界,它仍然必須遵守物理規(guī)律等等,但外面也有一個真實(shí)的世界。現(xiàn)在虛擬世界突然以一種非常流暢的方式在生成和重建之間切換,而且用戶行為、實(shí)用性、使用場景都大不相同——如果你把時間撥到這一代,我們就可以談?wù)動螒颉⒃钪嬷惖脑掝},如果你一路撥入現(xiàn)實(shí)世界,你就會發(fā)現(xiàn)我們正在談?wù)摼呱碇悄艿鹊取5@一切都處于世界建模和空間智能的連續(xù)體上。



一個顯而易見卻常被回避的問題是:互聯(lián)網(wǎng)上充斥著大量的語言數(shù)據(jù),而空間智能的數(shù)據(jù)在哪里呢?當(dāng)然,這些信息都存在于人類大腦中,但它不像語言那樣容易獲取,這些都是它如此困難的原因。但坦白說,這讓我興奮,因?yàn)槿绻苋菀祝莿e人早就解決了。我的整個職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問題,我認(rèn)為這就是那個瘋狂的問題。

Q:即使從最基本的原理來思考這個問題,人類大腦視覺皮層中處理數(shù)據(jù)的神經(jīng)元數(shù)量遠(yuǎn)多于處理語言的神經(jīng)元數(shù)量,人腦的這種架構(gòu)與LLMs有很大差別,你也逐漸發(fā)現(xiàn)了這一點(diǎn),對吧?

李飛飛:這實(shí)際上是個非常好的問題,現(xiàn)在仍然存在很多不同的觀點(diǎn),我們在大語言模型中看到的很多內(nèi)容實(shí)際上是在寫作,通過寫作技能將故事擴(kuò)展到完美的結(jié)局,你幾乎可以一路通過暴力手段進(jìn)行自監(jiān)督。

而建設(shè)性世界模型可能會更復(fù)雜一些,世界更加結(jié)構(gòu)化,可能需要我們用來引導(dǎo)它的信號,你可以把它看成一種先驗(yàn)形式,或者是數(shù)據(jù)監(jiān)督。

我認(rèn)為以上這些是我們必須解決的一些開放性的問題,而且,我們甚至都不能完全理解人類的所有感知,我們還沒有解決3D在人類視覺中如何運(yùn)作這個問題,雖然從機(jī)械原理上,我們用眼睛對物體進(jìn)行三維測量,但在此之后,數(shù)學(xué)模型又在哪里呢?

人類并不像3D動物那么偉大,所以還有很多問題有待解答,我只是在指望一件事:我期待我們之中最聰明的人來解決這個問題。



Q:那是否可以認(rèn)為你們的World Labs正在構(gòu)建的是全新的基礎(chǔ)模型,它輸出的是3D世界。你們設(shè)想的應(yīng)用有哪些?因?yàn)槟阋呀?jīng)列出了從感知到生成的所有內(nèi)容,但生成模型和判別模型之間始終存在著矛盾,那么(輸出的)這些3D世界有什么作用呢?

李飛飛:就空間智能而言,就像語言模型一樣,從創(chuàng)作的角度來看這個模型用例非常廣泛,比如,可以當(dāng)設(shè)計(jì)師、建筑師、工業(yè)設(shè)計(jì)師,以及藝術(shù)家,還有從創(chuàng)作到游戲開發(fā)者,再到機(jī)器人、機(jī)器人學(xué)習(xí)等方面,空間智能模型或者說是世界模型的實(shí)用性非常大。

實(shí)際上,我對元宇宙非常感興趣,我知道很多人仍然覺得它不管用,雖然我也知道它仍然無法運(yùn)作,但我認(rèn)為硬件和軟件的融合即將到來,這也是未來的另一個絕佳用例。

Q:我個人對于你正在解決元宇宙的問題感到非常興奮,因?yàn)槲乙苍谥暗墓緡L試過(這個問題)。

李飛飛:我認(rèn)為硬件是目前元宇宙障礙的一部分,在元宇宙中需要內(nèi)容生成,而內(nèi)容生成需要世界模型。

思想上要有無畏精神

Q:對于一些觀眾來說,他們可能會覺得你從學(xué)術(shù)界到現(xiàn)在成為創(chuàng)始人兼CEO的轉(zhuǎn)變很突然,但實(shí)際上你一生都有著非凡的經(jīng)歷,這不是你第一次從0到1了,你曾移民到美國時,青少年時期不會說英語的情況下甚至開了好幾年洗衣店,跟我們講講這些經(jīng)歷是如何塑造現(xiàn)在的你的吧。

李飛飛:我當(dāng)時19歲,我需要去普林斯頓大學(xué)學(xué)物理,所以我沒有辦法養(yǎng)家糊口,于是我開了一家還不錯的干洗店,用硅谷的話說,我開始籌集資金。

我曾是創(chuàng)始人、CEO,也曾做過收銀員等。但不管怎樣,我看著你們感到無比興奮,因?yàn)槟銈兊哪挲g差不多只有我的一半,甚至,可能只有我年齡的30%,而你們又如此優(yōu)秀,你們放手去做想做的事情就好。

在我剛開始當(dāng)教授的時候,我也不顧很多人的反對,去了那些我是首個計(jì)算機(jī)視覺教授的學(xué)院——雖然我知道,作為一名年輕教授,我本應(yīng)該去哪些有學(xué)術(shù)氛圍和資深導(dǎo)師的地方。當(dāng)然,我也很希望那些地方有資深導(dǎo)師,如果沒有的話,我就開辟自己的道路,闖出自己的一片天,我并不害怕。

后來,我去了谷歌,了解了很多谷歌企業(yè)方面的知識,然后在斯坦福大學(xué)創(chuàng)辦了一家初創(chuàng)公司。大約在2018年,AI成了一個全人類的問題,人類不斷推動著科技的進(jìn)步,但是我們不能失去人性,我很在意AI發(fā)展進(jìn)程中的一些積極導(dǎo)向,我想讓AI以人類為中心來造福人類。

于是我回到斯坦福創(chuàng)立了以人為本AI研究院(HAI),并且運(yùn)營了5年,可能有些人不理解,但我對此感到非常自豪。某種程度上,我覺得自己就是熱愛當(dāng)企業(yè)家。

我喜歡那種一切歸零的感覺,就像站在零點(diǎn)一樣,忘掉過去所做的一切,不在意別人對你的看法,只管埋頭苦干,努力建設(shè),那是我的舒適區(qū)。



Q:你還有一個非常了不起的地方,除了你所做的所有令人贊嘆的事情之外,你還指導(dǎo)了很多傳奇的研究人員,比如Andrej Kaparthy、英偉達(dá)的Jim Fan、與你共同完成ImageNet的鄧嘉,他們后來都取得了非凡的職業(yè)生涯。他們學(xué)生時代真正突出的地方是什么?

李飛飛:首先,我是個幸運(yùn)的人。我認(rèn)為學(xué)生對我而言意義更大,他們真的讓我成為了一個更好的人、更好的老師、更好的研究者。就像你說的,能與這么多傳奇學(xué)生共事,真的是我一生的榮幸。

他們非常不同,他們中的一些人是純粹的科學(xué)家,試圖埋頭解決一個科學(xué)問題;有些人是行業(yè)領(lǐng)袖;還有一些人,是最偉大的AI知識傳播者。但我認(rèn)為有一件事能將它們統(tǒng)一起來。

我鼓勵他們每一個人都思考一下這個問題,這也是我為那些正在招聘的創(chuàng)始人提一些建議,包括我的招聘標(biāo)準(zhǔn):我尋找的是思想上的無畏精神

我認(rèn)為無論你來自哪里,無論我們試圖解決什么問題,都無關(guān)緊要。那種勇于接受困難之事、全力以赴并想盡辦法去解決問題的勇氣和無畏精神,是成功人士的核心特質(zhì)。我從他們身上學(xué)到了這一點(diǎn),而且我真的在尋找具備這種特質(zhì)的年輕人——作為World Labs的CEO,在招聘時,我會尋找具備這種特質(zhì)的人。

Q:所以你們也在為World Labs大量招聘。

李飛飛:是的,我們正在招聘工程人才、產(chǎn)品人才、3D人才和生成模型人才。所以,如果你覺得自己無所畏懼,并且熱衷于解決空間智能問題,那就跟我聊聊,或者訪問我們的網(wǎng)站。

通過梯度下降法找到生活最優(yōu)解

觀眾1:嗨,飛飛,我是你的超級粉絲。我的問題是,二十多年前,您從事過視覺識別方面的工作,如果我想現(xiàn)在開始攻讀博士學(xué)位,我應(yīng)該選擇什么方向,才能成為像你一樣的傳奇人物呢?

李飛飛:雖然我可以說,做任何讓你興奮的事,但我更想給你一個深思熟慮的答案:首先,我認(rèn)為AI研究已經(jīng)發(fā)生了變化,因?yàn)閷W(xué)術(shù)界不再擁有大部分的AI資源,這和我那個時代大不一樣了。芯片、算力和數(shù)據(jù)在學(xué)術(shù)界的資源配置方面確實(shí)非常匱乏。

作為一名博士生,我建議你去尋找那些不用通過更好的計(jì)算、更好的數(shù)據(jù)就能更好解決的問題的團(tuán)隊(duì),在學(xué)術(shù)界,我們?nèi)匀豢梢园l(fā)現(xiàn)一些非常根本性的問題:無論你有多少芯片都能取得很大的進(jìn)展。

其次,跨學(xué)科AI是學(xué)術(shù)界一個非常令人興奮的領(lǐng)域,尤其是在科學(xué)發(fā)現(xiàn)方面。有太多學(xué)科可以與AI交叉,我認(rèn)為這是理論方面一個大有可為的領(lǐng)域。



很有意思的是,AI能力已經(jīng)100%超越了理論:我們不知道如何做、我們?nèi)狈山忉屝浴⑽覀儾恢廊绾握页鲆蚬P(guān)系、我們有太多不理解的事情……所以人們可以繼續(xù)推進(jìn)。

而且這個清單可以一直列下去:在計(jì)算機(jī)視覺領(lǐng)域,仍然存在一些我們尚未解決的表征問題。另外,小數(shù)據(jù)也是另一個非常有趣的領(lǐng)域,這些就是可能性。

觀眾2:再次祝賀你獲得耶魯大學(xué)的榮譽(yù)博士學(xué)位,一個月前,我有幸在那里見證了那一刻。我的問題是:在你看來,AGI更有可能統(tǒng)一模型或作為多智能體系統(tǒng),以統(tǒng)一、單一的形式出現(xiàn)嗎?

李飛飛:你提出這個問題的方式本身就已經(jīng)是兩種定義了。其中一種定義更具理論性,即如果存在一個智商測試,通過該測試就可定義為AGI;另一個定義則更具功能性,如果它是基于智能體的,它是否具備功能性,能執(zhí)行哪些任務(wù)?

老實(shí)說,我也對這個AGI的定義感到困惑。1956年齊聚達(dá)特茅斯的AI先驅(qū)們,像John McCarthy和Marvin Minsky這樣的人,他們想要解決機(jī)器思考的問題。而這是圖靈早在10年前就提出的問題,在那個陳述中,它不是狹義的AI,而是一種智能的表述。

所以我不太清楚如何區(qū)分關(guān)于AI和這個新詞AGI的定義。對我來說,它們是一回事。但我明白,如今的行業(yè)喜歡把AGI稱為超越AI的東西,我對此感到困惑,因?yàn)槲也恢繟GI與AI究竟有何不同。

如果我們說如今AGI的系統(tǒng)比80、70、90年代或其他時期的狹義AI系統(tǒng)表現(xiàn)更好,我認(rèn)為這只是該領(lǐng)域的發(fā)展進(jìn)程。但從根本上說,我認(rèn)為AI的規(guī)模即智能的規(guī)模,我們是要創(chuàng)造出能夠像人類一樣智能,甚至比人類更加智能地思考和做事的機(jī)器。

我不知道如何定義AGI,不定義它我就不知道它是否是單一的。你把大腦看作一個整體,但它確實(shí)有不同的功能。甚至還有專門的語言區(qū)域,有視覺皮層,也有運(yùn)動皮層。所以我真不知道該怎么回答那個問題。

觀眾3:看到一位女性在這個領(lǐng)域發(fā)揮主導(dǎo)作用真的很鼓舞人心。我想問,在AI迅速崛起的當(dāng)下,你作為一名研究者、教育者和企業(yè)家,認(rèn)為什么樣的人應(yīng)該攻讀研究生學(xué)位?

李飛飛:這是個很棒的問題。這是一個連家長都會問我的問題。我認(rèn)為研究生階段是你充滿強(qiáng)烈好奇心的4到5年。你被好奇心引領(lǐng)。那種好奇心非常強(qiáng)烈,以至于沒有比這個時期更好的時期來滿足。

讀研究生與創(chuàng)業(yè)不同,因?yàn)閯?chuàng)業(yè)不能僅僅靠好奇心來引領(lǐng),這樣你的投資者會對你發(fā)火的。一家有著明確商業(yè)目標(biāo)的初創(chuàng)公司,其中一部分原因是好奇心,但又不只是好奇心。

而對于基層人員來說,解決問題或提出正確問題的好奇心很重要,我認(rèn)為那些帶著強(qiáng)烈好奇心投身其中的人會享受這四五年研究生時光,即便外界正以光速發(fā)展,你依然會感到快樂,因?yàn)槟阍谀抢镒穼ぶ欠莺闷嫘摹?/p>

觀眾4:你提到開源是ImageNet發(fā)展的重要組成部分,而現(xiàn)在,隨著大語言模型的最新發(fā)布,我們看到各組織在開源方面采取了不同的做法,有些組織完全采用閉源模式,有些組織則完全公開其整個研究棧,還有些組織處于中間狀態(tài),開放權(quán)重或采用限制性許可等類似做法。所以我想問,你如何看待這些不同的開源方法,以及你認(rèn)為作為一家AI公司,正確的開源方式是什么?

李飛飛:我并不拘泥于你必須開源或必須閉源這種教條。這取決于公司的業(yè)務(wù)戰(zhàn)略。

例如,F(xiàn)acebook、Meta想要開源的原因很明顯,他們目前的商業(yè)模式并不是通過銷售模型來盈利。他們正在利用它來發(fā)展生態(tài)系統(tǒng),以便人們來到他們的平臺。所以開源很有意義。

而其他公司通過開源或者閉源賺錢。所以我對這個問題挺開放的。我認(rèn)為開源應(yīng)該受到保護(hù),如果公共部門(如學(xué)術(shù)界)和私營部門都有開源,那對創(chuàng)業(yè)生態(tài)系統(tǒng)非常重要。我認(rèn)為應(yīng)該受到技術(shù)保護(hù)。

觀眾4:我有一個關(guān)于數(shù)據(jù)的問題:既然你現(xiàn)在正在研究世界模型,你指出了機(jī)器學(xué)習(xí)向以ImageNet為代表的數(shù)據(jù)驅(qū)動方法的轉(zhuǎn)變,并且你提到互聯(lián)網(wǎng)上沒有這種空間數(shù)據(jù),它只存在于我們的頭腦中,那么你是如何解決這個問題的呢?你是從現(xiàn)實(shí)世界收集這些數(shù)據(jù)嗎?還是合成數(shù)據(jù)?還是你相信那些古老的先驗(yàn)知識呢?謝謝。

李飛飛:你應(yīng)該加入World Labs,我會告訴你的。

作為一家公司,我沒辦法透露太多,但我承認(rèn)我們正在采取混合方式,擁有大量數(shù)據(jù)固然重要,但擁有大量高質(zhì)量數(shù)據(jù)同樣重要,說到底,如果不注意數(shù)據(jù)質(zhì)量,仍然會出現(xiàn)“輸入垃圾,輸出垃圾”的情況。

觀眾5:在你的書《我看見的世界》中,你談到了作為移民女孩和女性在STEM所面臨的挑戰(zhàn)。我很好奇,你是否有過在工作場所感覺自己是少數(shù)群體的時刻,如果有,你是如何克服這種情況或說服他人的?



李飛飛:感謝你提出這個問題。我想非常謹(jǐn)慎或深思熟慮地回答你,因?yàn)槲覀兌紒碜圆煌谋尘埃總€人的感受都非常獨(dú)特。其實(shí),我們是什么人都無關(guān)緊要,我們所有人都有過感覺自己是少數(shù)人群的時刻。

有時這取決于我是誰,有時這基于我的想法,有時候就只是在于我穿的襯衫顏色之類的,但這正是我想要鼓勵大家的地方,我從小來到這個地方,我已經(jīng)檢驗(yàn)了這件事情的本質(zhì),那就是作為一名移民女性,我?guī)缀跖囵B(yǎng)出了一種不過度關(guān)注此事的能力——和你們每個人一樣,我來這里是為了學(xué)習(xí)、做事或創(chuàng)造

在訪談的最后,李飛飛給所有年輕人送上了美好的祝愿:

你們即將踏上一段征程,或者正處于征程之中,你們會有脆弱的時刻,或者遇到奇怪的事情,在創(chuàng)業(yè)過程中,我每天都有這樣的感受,有時候我會想,“天哪,我不知道自己在做什么”。但你們只管專注去做,通過梯度下降法找到最優(yōu)解。

訪談鏈接: https://www.youtube.com/watch?v=_PioN-CpOP0

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
法蒂:我永遠(yuǎn)會感激巴薩,真心祝福亞馬爾未來一切順利

法蒂:我永遠(yuǎn)會感激巴薩,真心祝福亞馬爾未來一切順利

懂球帝
2025-07-03 22:15:19
女籃亞洲杯12人大名單浮現(xiàn)!宮魯鳴裁掉四人,張子宇成為沖冠關(guān)鍵

女籃亞洲杯12人大名單浮現(xiàn)!宮魯鳴裁掉四人,張子宇成為沖冠關(guān)鍵

老葉評球
2025-07-03 17:09:03
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨(dú)的獨(dú)角獸影視
2025-06-09 09:55:15
8名醫(yī)生集體遇難

8名醫(yī)生集體遇難

醫(yī)脈圈
2025-07-03 12:08:27
美媒:湖人為霍福德開出了500萬美元年薪的雙年特例合同

美媒:湖人為霍福德開出了500萬美元年薪的雙年特例合同

懂球帝
2025-07-03 11:07:35
全網(wǎng)都在吃的“健康食品”,竟被查出含毒鉛!孩子大人都中招!

全網(wǎng)都在吃的“健康食品”,竟被查出含毒鉛!孩子大人都中招!

北美省錢快報(bào)
2025-07-03 06:13:42
揭秘國內(nèi)著名風(fēng)水斗法事件!貧窮不僅僅限制了你的想象力!

揭秘國內(nèi)著名風(fēng)水斗法事件!貧窮不僅僅限制了你的想象力!

談史論天地
2025-06-20 07:50:03
客服回應(yīng)滬昆線貨物列車與客車沖突脫線:對乘客暫無賠償方案

客服回應(yīng)滬昆線貨物列車與客車沖突脫線:對乘客暫無賠償方案

南方都市報(bào)
2025-07-03 10:16:53
真被中國說對了,以色列再被襲擊,美官員:該出動B-2轟炸機(jī)了

真被中國說對了,以色列再被襲擊,美官員:該出動B-2轟炸機(jī)了

普覽
2025-07-02 20:21:07
泰森.富里:我愿意在中國的任何一個城市,和張志磊打一場比賽!

泰森.富里:我愿意在中國的任何一個城市,和張志磊打一場比賽!

呀古銅
2025-07-03 11:54:01
特朗普公開威脅馬斯克,聲稱世界首富是什么下場,全在他一念之間

特朗普公開威脅馬斯克,聲稱世界首富是什么下場,全在他一念之間

博覽歷史
2025-07-03 12:30:08
當(dāng)山東艦駛?cè)刖S港,所有關(guān)于“香港”的曖昧都該結(jié)束了

當(dāng)山東艦駛?cè)刖S港,所有關(guān)于“香港”的曖昧都該結(jié)束了

離離言幾許
2025-07-03 18:42:10
英媒:世俱杯出局后瓜迪奧拉對埃德森失去耐心,曼城將尋求新門將

英媒:世俱杯出局后瓜迪奧拉對埃德森失去耐心,曼城將尋求新門將

星耀國際足壇
2025-07-03 22:34:01
格力24年老大地位被終結(jié),擊敗它的是國內(nèi)最大空調(diào)集團(tuán),日收10億

格力24年老大地位被終結(jié),擊敗它的是國內(nèi)最大空調(diào)集團(tuán),日收10億

夢史
2025-06-27 08:35:36
住在武漢哪兒,正在決定你是誰

住在武漢哪兒,正在決定你是誰

一只特例獨(dú)行的鶴
2025-07-02 16:01:24
確認(rèn)!中國華潤已成康佳集團(tuán)實(shí)際控制人

確認(rèn)!中國華潤已成康佳集團(tuán)實(shí)際控制人

CINNO
2025-07-03 15:42:40
62歲關(guān)之琳近況:房子很大錢很多,以狗為伴,弟弟是她晚年的依靠

62歲關(guān)之琳近況:房子很大錢很多,以狗為伴,弟弟是她晚年的依靠

三公子娛樂丫
2025-06-30 15:37:28
華國鋒妻子韓芝俊,如今年過九旬,至今還在完成丈夫一個心愿

華國鋒妻子韓芝俊,如今年過九旬,至今還在完成丈夫一個心愿

小李小故事
2025-07-01 16:11:50
世衛(wèi)組織呼吁大幅提高煙酒和含糖飲料價格

世衛(wèi)組織呼吁大幅提高煙酒和含糖飲料價格

界面新聞
2025-07-03 15:55:36
歷史性的低頭

歷史性的低頭

西樓飲月
2025-07-02 17:38:06
2025-07-04 02:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10790文章數(shù) 176178關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

俄媒披露海軍副總司令陣亡細(xì)節(jié) 遭至少4枚導(dǎo)彈攻擊

頭條要聞

俄媒披露海軍副總司令陣亡細(xì)節(jié) 遭至少4枚導(dǎo)彈攻擊

體育要聞

你永不獨(dú)行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財(cái)經(jīng)要聞

百億債務(wù)壓頂 風(fēng)流傳奇大佬全面"崩塌"

汽車要聞

6.5秒破百 長安第三代UNI-V有更強(qiáng)2.0T

態(tài)度原創(chuàng)

數(shù)碼
健康
藝術(shù)
手機(jī)
軍事航空

數(shù)碼要聞

七彩虹推出新款“貓板”COLORFIRE B850M-A MEOW WIFI 橘影橙

呼吸科專家破解呼吸道九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

外賣小哥極力推薦REDMI K80至尊版:全程開GPS 從7點(diǎn)半用到下午4點(diǎn)

軍事要聞

俄海軍副司令在庫爾斯克州遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 龙口市| 儋州市| 荥经县| 永宁县| 湄潭县| 巴林左旗| 大石桥市| 唐山市| 南京市| 上饶市| 南雄市| 项城市| 全州县| 修文县| 汉中市| 永宁县| 城口县| 宾阳县| 梅州市| 佛山市| 桃源县| 南京市| 玉田县| 千阳县| 姚安县| 赤水市| 临邑县| 临泉县| 邳州市| 巴楚县| 姚安县| 泗水县| 长岭县| 桃园市| 汉源县| 兴城市| 巫山县| 彩票| 余干县| 崇信县| 鹿邑县|