文|李添諾
編輯|宋辰
為AI大模型研發提供理論基礎和實操指導的Scaling Law(擴展規律),竟然是百度最先發現的,而且比OpenAI提出的時間整整早了三年。
近期,多位海外AI界人士紛紛爆料指出了這一觀點。
美國人工智能初創公司Anthropic聯合創始人、CEO達里奧·阿莫迪(Dario Amodei)在一檔播客節目中提到,2014年他在百度研究AI的時候,就已經發現了模型發展的規律Scaling Law。
“隨著你給它們提供更多數據,隨著你讓模型變大,隨著你訓練它們的時間越來越長,模型的表現開始越來越好。”達里奧·阿莫迪在節目中說道,“當時我并沒有精確地衡量,但我和同事們都非常非正式地感覺到,給這些模型的數據越多、計算越多、訓練越多,它們的表現就越好。”
Anthropic的創始團隊是GPT系列產品的早期開發者,達里奧·阿莫迪則曾是OpenAI研究副總裁。2014年達里奧·阿莫迪從斯坦福博士后畢業后加入百度硅谷人工智能實驗室(SVAIL),致力于將深度學習模型擴展到大規模高性能計算系統,一直到2015年10月離開。
無獨有偶。有行業人士發文稱,發現Scaling Law這一理論的其實是百度:“大多數人不知道,關于Scaling Law的原始研究來自2017年的百度,而不是2020年的OpenAI。”
這個斷論來自一篇百度2017年發表的論文。百度硅谷人工智能實驗室團隊在2017年12月發表了名為《Deep Learning Scaling Is Predictable,Empirically》(《經驗表明深度學習是可預測的》)的論文,詳細討論了機器翻譯、語言建模等領域的Scaling現象。
但這篇論文的重要性嚴重被忽視了。OpenAI在其2019年的Scaling Law研究論文中,引述了上述百度論文第一作者Joel Hestness在2019年的后續研究,他曾于2017年~2019年在百度工作。
不過,正是因為對Scaling Law的早期研究,使得百度多年前便投入了AI大模型研究,并在2019年發布了第一代文心大模型。
那一年,OpenAI亦推出了GPT-1。可見百度和OpenAI等知名AI公司站在同一起跑線甚至跑得更早。當然,這也使得百度成為全球第一家推出生成式AI產品的科技大廠。
大咖科技
Tech Chic
理論前瞻性
“我從事人工智能領域的研究已有大約 10 年了,我很早就注意到了這一點(擴展定律)。”
11月12日,在Lex Fridman的播客節目中,達里奧·阿莫迪探討了Claude、AI模型的擴展規律、AGI、AI未來等多個話題。其中,在談到大模型的擴展規律與模型發展時,達里奧·阿莫迪提到他的觀察最早來自于此前在百度工作時的相關研究。
達里奧·阿莫迪認為,在AI領域中,擴展模型規模、數據量和計算能力至關重要。他指出,通過增加網絡層數、訓練時間和數據量,模型的表現會顯著提升。
這一觀察最早來自他在百度硅谷人工智能實驗室工作時對語音識別系統的研究。后來他加入OpenAI后,在GPT-1的語言模型中得到了驗證。
達里奧·阿莫迪認為,隨著模型變得越來越大,它們能夠捕捉到更復雜的語言和認知模式,這一規律不僅適用于語言模型,還適用于圖像、視頻等其他領域。
2014年底,達里奧·阿莫迪在百度與吳恩達共事時首次進入人工智能世界。他們最先研究的是語音識別系統,當時他認為深度學習還是一個新事物,它取得了很大進展,但每個人都認為還有太多需要探索的東西。
達里奧·阿莫迪回憶,當時他在和團隊做研究時問道,如果把它們做大,加更多層會怎么樣?如果同時擴大數據規模會怎么樣?
“我注意到,隨著你給它們提供更多數據,隨著你讓模型變大,隨著你訓練它們的時間越來越長,模型的表現開始越來越好。”
當時百度硅谷人工智能實驗室高級研究員Greg Diamos對自己的介紹就是,LLM Scaling Law Researcher。
當初達里奧·阿莫迪的想法只是,也許擴展定律只適用于語音識別系統。直到2017年他第一次看到GPT-1的結果時才意識到,我們可以獲得數萬億個單詞的語言數據,可以對其進行訓練。
再看看那篇被低估的論文——它展示了在機器翻譯、語言建模、圖像處理和語音識別等四個領域中,隨著訓練集規模的增長,DL泛化誤差和模型大小呈現出冪律增長(scaling)模式。
OpenAI 2020年發表的論文《Scaling Laws for Neural Language Models》引用了上述百度論文第一作者Joel Hestness 在 2019 年的后續研究《Beyond Human-Level Accuracy: Computational Challenges In Deep Learning》(《超越人類水平的準確性:深度學習的計算挑戰》)。
參與GPT-3等重要項目開發的OpenAI前AI專家格林·布蘭文(Gwern Branwen)曾較早注意到了Scaling Law。他經常提起:百度的這篇論文確實被忽視了。
大咖科技
Tech Chic
AI大牛云集
人工智能領域領軍人物、斯坦福大學教授吳恩達,前OpenAI時任研究副總裁達里奧·阿莫迪……這些AI領域金光閃閃的名字,都曾出現在百度的員工名單里。而能聚集如此多的AI明星,足以說明百度對AI的決心。
2013年1月,百度深度學習研究院成立,百度創始人李彥宏親自出任院長,吸引了Facebook前資深科學家徐偉、AMD異構系統前首席軟件架構師吳韌等專家加入。李彥宏認為,“這應該是全球企業界第一家用深度學習來命名的研究院”。
2014年5月,百度硅谷人工智能實驗室正式成立,同時任命人工智能專家吳恩達博士為百度首席科學家,全面負責百度研究院,尤其是百度大腦計劃。當時,美國權威雜志《麻省理工科技評論》寫道:“百度將領導一個創新的軟件技術時代,更加了解世界。
2014年,達里奧·阿莫迪在斯坦福博士后畢業后,加入百度硅谷人工智能實驗室。之后,達里奧·阿莫迪又招募了Jim fan來百度實習。
Jim Fan是英偉達的高級科學家,他主導了英偉達的具身智能研究。在攻讀斯坦福大學博士學位之前,他是OpenAI第一位實習生,師從被譽為“AI之母”的李飛飛教授。
事實上,另一個名字也曾和百度有過交集,那就是圖靈獎得主、2024年諾貝爾物理學獎得主杰弗里·辛頓(Geoffrey Hinton)。
2012年,李彥宏拿到了一篇題為《ImageNet Classification with Deep Convolutional Neural Networks》的論文,闡述了如何基于深度卷積神經網絡,來完成 ImageNet 數據集的分類驗證工作,作者正是杰弗里·辛頓和他兩名學生。
李彥宏激動之余聯系上了杰弗里·辛頓。隨后百度提出以1200萬美元的價格,邀請他和團隊加盟百度。百度此舉立馬引起美國科技公司的興趣,在競拍中,百度雖開出了4400萬美元的價格,但還是遺憾地與杰弗里·辛頓擦肩而過。
李彥宏曾在采訪中提及這些AI明星在百度的工作往事:“杰弗里·辛頓選擇加入谷歌,不是因為我們不愿意出更多的錢,而是他自己更愿意在美國待著。但因為他沒有來,我們還是想要真正的大咖能夠加入百度,所以就找了吳恩達。”
吳恩達來的理由其實也比較簡單,他當時在谷歌做谷歌大腦,想買更多的GPU,谷歌說不行,太貴了。李彥宏說你來,隨便買,那他就來了。他來了之后,像達里奧·阿莫迪,他原來是斯坦福的學生加入百度;達里奧·阿莫迪來了之后說,Jim Fan不錯,我找他來進行實習。所以一代一代的人,就把優秀的人才能夠吸引過來。
圖靈獎得主、Meta首席AI科學家楊立昆在《科學之路》中文版的自序中稱,“百度是最早部署商業化深度學習系統的大型公司之一,領先于谷歌和微軟”。
過去十多年,百度在人工智能研發上投入資金超過 1700 億元,是中國科技公司中對人工智能研發時間最長、投入資金最多的公司,放在全球范圍內也是佼佼者。
正是因為十多年來對AI的持續投入,以及對未來的堅定,百度才能夠完成蛻變。而這是一個比舊日榮光更為激蕩人心的商業故事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.