在Scaling Law的發現和研究中,百度和OpenAI實際又各自扮演了什么角色
原創|科技考拉
外網最近超熱鬧的。多位AI大佬在社交媒體下場爆料,稱大模型預訓練第一性原理Scaling Law最早的原始研究來自百度,而非外界一直以為的OpenAI。
南華早報則發表了報道《Did China’s Baidu discover scaling laws before OpenAI? A debate rekindles in AI circles》,稱「盡管美國在AI模型創新方面一直被視為領先者,但最新的討論顯示,中國在探索這些概念上可能更為超前」,進一步把視野和格局拉升到了中美AI競賽的高度。
這到底是怎么回事?在Scaling Law的發現和研究中,百度和OpenAI實際又各自扮演了什么角色?
誰貢獻了最早的Scaling Law研究?
在過去幾年中,業界的普遍認知是,關于Scaling Law的第一篇有效論文,是OpenAI在2020年發表的《Scaling Laws for Neural Language Models》。
第一個公開聲明百度對Scaling Law貢獻的,是Anthropic創始人兼CEO Dario Amodei。Anthropic被熟知的產品是Claude,和GPT、Gemini并稱美國模型界「三巨頭」,Dario Amodei本人的履歷則顯示,2014年11月- 2015年10月期間,他在百度硅谷人工智能實驗室(SVAIL)工作。
按照Dario Amodei的說法,2014年與吳恩達在百度研究語音識別的時候,他們就非正式觀察到了Scaling Law,「給這些模型的數據越多、計算越多、訓練越多,它們的表現就越好」,不過當時沒有精確衡量。
隨后,越來越多行業人士開始發聲爆料。
Meta研究員、康奈爾大學博士候選人Jack Morris稱,「大多數人不知道,關于縮放定律的原始研究來自 2017 年的百度,而不是 2020 年的 OpenAI。他們描述了模型參數和數據集標記對損失的影響。還對圖像和音頻進行了測試。他們只是用 LSTM 代替了 Transformers,而且沒有將他們的發現命名為定律」。
他提到的,是2017年發表的論文《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》,文章討論了機器翻譯、語言建模等領域的Scaling現象,第一作者為Joel hestness。公開資料顯示,2017年-2019年,Joel hestness在百度工作。
有爆料稱,曾在Open AI參與了GPT-3等項目開發的AI專家Gwern Branwen經常提起,「這篇論文的重要性是相當被忽視的」。
然后有人發現,OpenAI的《Scaling Laws for Neural Language Models》中,其實還引用了Joel Hestness2019年的論文《Beyond human-level accuracy: computational challenges in deep learning》。
時間線捋明白后,事情就變得非常清晰了。
在OpenAI之前,百度已經更早貢獻了對Scaling Law的原始研究。事實上在Scaling Law最初被觀察到的自然語言處理領域,百度也是最早下場的玩家之一,并一直在堅持投入。
百度的深度學習研究院成立于2013年1月,據說是全球企業界第一家用深度學習來命名的研究院。圖靈獎得主、Meta首席AI科學家楊立昆在《科學之路》中文版的自序中稱,「百度是最早部署商業化深度學習系統的大型公司之一,領先于谷歌和微軟」。
AI競賽,新一輪技術博弈
眾所周知,百度在國內一向有「AI人才的黃埔軍校」之稱,走出了許多知名的AI賽道創業者。Dario Amodei這次的發聲,則讓外界意識到,即使把視角放到國際AI領域,這一結論也仍然成立。
百度同樣走出了不少國際AI大拿,包括美國頭部AI企業的一些核心人物。
在百度硅谷AI實驗室(SVAIL)做研究員,是Dario Amodei從斯坦福博士畢業后的第一份工作,后來他曾加入谷歌和OpenAI,2021年創立了Anthropic。
在百度任職期間,Dario Amodei招募Jim fan進入SVAIL工作。Jim fan現在是英偉達高級科學家、人工智能一號位。
更被人熟知的是曾在百度擔任首席科學家的吳恩達。李彥宏曾在采訪中提到,當時吳恩達在谷歌做Google brain,他想買更多的GPU,但谷歌認為成本太高了,「我們說你來,隨便買,他就來了」。
不論是技術理念、資源投入、人才挖掘,還是在戰略視野上,百度都展現出了在AI領域的高度前瞻性。
一個既定趨勢是,AI已經成為新的技術博弈賽場。芯片、算力、模型性能、人才儲備等,都將是這一輪AI競賽的關鍵賽點。
前谷歌CEO Eric Schmidt將這場競賽稱作「史詩般的較量」,并表示,中國推出了一些與美國最先進模型相似的模型,還學會了用更少的芯片完成工作,「這表明了他們工程師的能力」。
值得注意的是,盡管百度貢獻了對Scaling Law的原始研究,但李彥宏很早就提出了預訓練模式的局限性。Scaling Law之所以有「暴力美學」之稱,就是因為預訓練對算力和經濟投入的極高要求,在國內的商業環境下,這種模式注定只適合頭部大廠。
因此,李彥宏一直在倡導「中國AI的發展特色應該是應用驅動」。百度則希望為AI應用打造一套全新的大模型基礎設施。根據2024百度世界大會上的規劃,這套基礎設施應當包括智能體平臺、無代碼工具、智能云計算等在內。
或許,在中美AI競賽中,這樣的中國特色思路也會推動產生一些變化。畢竟,如果復盤移動互聯網所帶來的上一輪產業變遷,也可以找到非常明顯的中國特色。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.