99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一個(gè)「always」站在大模型技術(shù)C位的傳奇男子

0
分享至

西風(fēng) 衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

  • 怎么老是你???(How old are you)

這是最近網(wǎng)友不斷對(duì)著Transformer八子之一的Noam Shazeer(為方便閱讀,我們稱他為沙哥)發(fā)出的靈魂疑問。

尤其是最近Meta FAIR研究員朱澤園分享了他們《Physics of Language Models》項(xiàng)目的系列新進(jìn)展后,有網(wǎng)友發(fā)現(xiàn),其中提到的3-token因果卷積相關(guān)內(nèi)容,沙哥等又早在三年前就有相關(guān)研究。

是的,“”。



因?yàn)槟阒灰崂硪槐樗墓ぷ髀臍v,就不難發(fā)現(xiàn),AI界大大小小的突破背后,總是能發(fā)現(xiàn)他的名字。

“不是搞個(gè)人崇拜,但為什么總是Noam Shazeer?”



△網(wǎng)友稱右下角沙哥圖由GPT-4o生成

朱澤園也自己也站出來表示,沙哥成果超前:

  • 我也覺得Shazeer可能是個(gè)時(shí)間旅行者。
  • 我原本不相信他們的gated MLP(在寫第3.3部分的時(shí)候,因?yàn)殚T控多層感知機(jī)讓訓(xùn)練不穩(wěn)定),但現(xiàn)在我信服了(在添加了Canon層之后,我們?cè)诘?.1部分對(duì)比了多層感知機(jī)和門控多層感知機(jī))



正式認(rèn)識(shí)一下,沙哥是誰?

他是Transformer八位作者中被公認(rèn)是“貢獻(xiàn)最大”的那位,也是半路跑去創(chuàng)業(yè)Character.AI,又被谷歌“買回來”那位

他并非OpenAI的明星科學(xué)家,也不似DeepMind創(chuàng)始人般頻繁曝光,但若細(xì)察當(dāng)今LLM的核心技術(shù),其奠基性貢獻(xiàn)隱然貫穿始終。

從引用量超17萬次的《Attention is all you need》,到將MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查詢注意力、用于Transformer的門控線性層(GLU)……



有人感慨,其實(shí)我們現(xiàn)在就是生活在“Noam Shazeer時(shí)代”。

因?yàn)槿缃裰髁髂P图軜?gòu)的演變,就是在其奠定的基礎(chǔ)上持續(xù)推進(jìn)。



所以,他都做了什么?

Attention Is All You Need是其一

在AI領(lǐng)域,曇花一現(xiàn)的創(chuàng)新者眾多,但能持續(xù)定義技術(shù)范式者鳳毛麟角。

沙哥恰恰屬于后者,他的工作不僅奠定了當(dāng)今大語言模型的基礎(chǔ),還頻頻在技術(shù)瓶頸出現(xiàn)時(shí)提供關(guān)鍵突破。

其影響力最大的一項(xiàng)工作當(dāng)屬2017年的《Attention Is All You Need》

2017年的一天,已加入谷歌數(shù)年的沙哥在辦公樓走廊里偶然聽到Lukasz Kaiser、Niki Parmar、Ashish Vaswani等幾人的對(duì)話。

他們正興奮地談?wù)撊绾问褂米宰⒁饬Γ掣绠?dāng)時(shí)就被吸引了,他覺得這是一群有趣的聰明人在做有前途的工作。

而后,沙哥被說服加入了這個(gè)已有七人的團(tuán)隊(duì),成為第八位成員,也是最后一位。

但這個(gè)最后到場(chǎng)的人,卻在短短幾周內(nèi)根據(jù)自己的想法,重新編寫了整個(gè)項(xiàng)目代碼,把系統(tǒng)提升到了新的水平,使得Transformer項(xiàng)目“拉開了沖刺的序幕”。



沙哥實(shí)力超群卻不自知,當(dāng)看到論文草稿中自己被列為第一作者時(shí),他還有些驚訝。

在討論一番后,八位作者最后決定打破學(xué)術(shù)界一作二作通訊作的規(guī)則,隨機(jī)排序,并給每個(gè)人名字后都打上星號(hào),腳注標(biāo)明都是平等貢獻(xiàn)者

但大家都知道,沙哥加入發(fā)揮了舉足輕重的作用。后來《Attention Is All You Need》這篇論文引起轟動(dòng)。

而沙哥的恐怖之處,在于他似乎總能比行業(yè)提前數(shù)年看到技術(shù)趨勢(shì),不只是Transformer。

在《Attention Is All You Need》前后,沙哥還作為一作同三巨頭之一、圖靈獎(jiǎng)得主Geoffrey Hinton以及谷歌元老級(jí)人物、第20號(hào)員工Jeff Dean等合作發(fā)表了另一篇具有代表性的工作——

《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》

早在那時(shí)就為現(xiàn)今大火的新范式Mixture of Experts(MoE)埋下了伏筆。



這項(xiàng)工作創(chuàng)造性地引入了Sparsely-Gated Mixture-of-Experts,將MoE應(yīng)用于語言建模和機(jī)器翻譯任務(wù),提出了一種新架構(gòu),具有1370億參數(shù)的MoE被以卷積方式應(yīng)用于堆疊的LSTM層之間。

規(guī)模放在今天也是超大杯的存在。

雖然MoE的思路早在上世紀(jì)90年代初就已經(jīng)被提出,以Michael I. Jordan、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》為代表,但沙哥參與的這項(xiàng)研究通過動(dòng)態(tài)激活子網(wǎng)絡(luò),讓模型突破更大規(guī)模參數(shù)成為可能,啟發(fā)了后續(xù)諸多基于MoE的模型改進(jìn)和創(chuàng)新。

且沙哥對(duì)MoE的探索遠(yuǎn)不止于此。

2020年,谷歌《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中提出GShard。

它提供了一種優(yōu)雅的方式,只需對(duì)現(xiàn)有模型代碼做很小改動(dòng),就能表達(dá)各種并行計(jì)算模式。

GShard通過自動(dòng)分片技術(shù),將帶有Sparsely-Gated Mixture-of-Experts的多語言神經(jīng)機(jī)器翻譯Transformer模型擴(kuò)展到超6000億參數(shù)規(guī)模。



次年,Switch Transformers這項(xiàng)工作,結(jié)合專家并行、模型并行和數(shù)據(jù)并行,簡(jiǎn)化MoE路由算法,提出大型Switch Transformer模型,參數(shù)達(dá)到1.6萬億。

不僅推進(jìn)了語言模型的規(guī)模,還在當(dāng)時(shí)實(shí)現(xiàn)了比T5-XXL模型快4倍的速度。



模型規(guī)模的擴(kuò)大一方面為自然語言處理開辟了新的領(lǐng)域,另一方面也面臨訓(xùn)練過程中的不穩(wěn)定性以及微調(diào)階段質(zhì)量不確定性的阻礙。

2022年,針對(duì)該問題的研究《ST-MoE: Designing Stable and Transferable Sparse Expert Models》問世了。

該項(xiàng)目將一個(gè)ST-MoE-32B稀疏模型的參數(shù)規(guī)模擴(kuò)展到了2690億,其計(jì)算成本與一個(gè)擁有320億參數(shù)的密集型encoder-decoder Transformer模型差不多。



這林林總總一系列關(guān)鍵性進(jìn)展的作者名單中,總少不了沙哥

時(shí)間證明沙哥的預(yù)判是對(duì)的。

如今,GPT-4 、DeepSeek系列、阿里Qwen3系列……主流將MoE與Transformer架構(gòu)的結(jié)合,無一不是在此系列工作的思想上發(fā)展而來。

說沙哥踩在時(shí)代的命門上,不光靠這些。

為解決大規(guī)模模型的訓(xùn)練內(nèi)存受限的問題,沙哥還曾聯(lián)合提出了Adafactor優(yōu)化器,早期谷歌大模型如PaLM都離不開它。



作用于大模型推理加速的Multi Query Attention(MQA)也是出自他的手筆。

MQA最早于2019年沙哥的獨(dú)作論文《Fast Transformer Decoding: One Write-Head is All You Need》中被提出,旨在解決Transformer增量推理階段效率低下的問題。



另外,他還提出了被廣泛應(yīng)用于各種Transformer模型中的Gated Linear Layer(GLU)

GLU為Transformer架構(gòu)帶來了顯著改進(jìn),通過門控機(jī)制,GLU可以根據(jù)輸入動(dòng)態(tài)地調(diào)整信息的傳遞,從而更好地捕捉數(shù)據(jù)中的復(fù)雜模式和依賴關(guān)系,提升模型的表達(dá)能力。

這種動(dòng)態(tài)調(diào)整能力更有助于模型處理長(zhǎng)序列數(shù)據(jù),有效利用上下文信息。



用網(wǎng)友的話來說,沙哥參與的研究往往都是簡(jiǎn)單粗暴,詳細(xì)介紹了技術(shù)細(xì)節(jié),當(dāng)時(shí)可能大家不能完全理解其中的奧妙,但之后就會(huì)發(fā)現(xiàn)很好用。

3歲自學(xué)算術(shù),1994年IMO滿分

沙哥的技術(shù)嗅覺,源自其近乎傳奇的成長(zhǎng)軌跡。

1974年,沙哥出生于美國(guó),3歲就開始自學(xué)算術(shù)。

1994年,他參加了IMO(國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽),在經(jīng)歷長(zhǎng)達(dá)九小時(shí)的考試后,取得了滿分,這是該項(xiàng)賽事35年歷史上首次有學(xué)生拿到滿分(同年還有另外5名學(xué)生拿到滿分)。

同年,沙哥進(jìn)入杜克大學(xué)學(xué)習(xí)數(shù)學(xué)和計(jì)算機(jī)科學(xué)。

在校期間,沙哥作為杜克大學(xué)代表隊(duì)的一員,曾在多項(xiàng)數(shù)學(xué)競(jìng)賽中獲獎(jiǎng)。譬如1994年、1996年,分別在普特南數(shù)學(xué)競(jìng)賽中排名第6名、第10名。

本科畢業(yè)后,沙哥前往UC伯克利攻讀研究生,但并未完成學(xué)業(yè)(他的領(lǐng)英上如今也只寫著本科教育經(jīng)歷)



而后千禧年到來,沙哥加入谷歌,成為第200號(hào)員工,一路從軟件工程師做到首席軟件工程師。

2001年,其參與改進(jìn)的谷歌搜索拼寫糾正功能上線,這是他早期的一項(xiàng)重要成就。

此后,他還開發(fā)了谷歌廣告系統(tǒng)PHIL,該系統(tǒng)能夠決定在特定頁面上展示哪些廣告聯(lián)盟廣告,同時(shí)避免出現(xiàn)不適當(dāng)或不相關(guān)的內(nèi)容,成為谷歌廣告聯(lián)盟系統(tǒng)的核心。

2005年,他成為谷歌廣告文本排名團(tuán)隊(duì)的技術(shù)主管;2006年,他創(chuàng)建了谷歌第一個(gè)郵件檢測(cè)的機(jī)器學(xué)習(xí)系統(tǒng);2008年,他開發(fā)了一種用于對(duì)新聞文章進(jìn)行排名的機(jī)器學(xué)習(xí)系統(tǒng)……

垃圾

不一一點(diǎn)出來了,但說他在谷歌期間碩果累累,絕不為過。

雖然2009年到2012年期間他短暫離開過谷歌,但截至2021年去創(chuàng)業(yè)Character.AI,他已經(jīng)在谷歌待了18年

2012年回到谷歌加入Google Brain后,沙哥更是火力全開——

他把自己的研究方向轉(zhuǎn)向深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)研究,2016年推動(dòng)神經(jīng)機(jī)器翻譯(NMT)的落地,顯著提升翻譯質(zhì)量;2017年就有了《Attention Is All You Need》。

而去年8月,沙哥揮別創(chuàng)業(yè)賽道,重返谷歌擔(dān)任工程副總裁、Gemini聯(lián)合技術(shù)主管,到現(xiàn)在又快在谷歌干滿一年了。



真·谷歌人,谷歌魂。

這話真不假,因?yàn)樯掣邕B創(chuàng)業(yè)旅途,也是和谷歌同事一起擼起袖子干的。

有多么戲劇呢?

時(shí)間回到2021年。那時(shí)候,由于谷歌未公開發(fā)布他與同事Daniel De Freitas開發(fā)的聊天機(jī)器人Meena及其后續(xù)項(xiàng)目LaMDA,沙哥與De Freitas扭頭就和老東家say bye bye了~

他倆商量了一通,決定進(jìn)一步研究更加個(gè)性化的超級(jí)智能,于是世界上多了一家叫Character.AI的公司。



經(jīng)過兩年多發(fā)展,Character.AI以“各式各樣的AI角色”攢了2000多萬用戶。

2023年3月,Character.AI以10億美元估值完成1.5億美元融資,a16z領(lǐng)投,GitHub前CEO Nat Friedman、Elad Gil、A Capital和SV Angel參投。

不過在此之后,這家明星AI獨(dú)角獸開始陷入困境,新一輪融資遲遲難以推進(jìn)。去年7月4日,Character.AI被曝考慮賣給谷歌和Meta。

8月,一切塵埃落定,谷歌以27億美元的價(jià)格將Character.AI技術(shù)納入麾下,并邀請(qǐng)沙哥回歸,負(fù)責(zé)聯(lián)合領(lǐng)導(dǎo)谷歌的Gemini項(xiàng)目。

One More Thing

一個(gè)可能不為人所知的故事,在OpenAI的早期階段,沙哥是顧問之一。

他曾極力推薦奧特曼來擔(dān)任OpenAI的CEO。



以及另一件值得一提的事——

2020年,谷歌Meena聊天機(jī)器人發(fā)布后,沙哥發(fā)了一封名為“Meena吞噬世界”的內(nèi)部信。

其中的關(guān)鍵結(jié)論是:

  • 語言模型將以各種方式越來越多地融入我們的生活,并且將在全球算力中占主導(dǎo)地位。


[1]https://x.com/cloneofsimo/status/1919055890155462926
[2]https://x.com/Ji_Ha_Kim/status/1919766603144822860

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從33樓換到4樓后,我終于明白,樓層低的居住感受,兩者差別很大

從33樓換到4樓后,我終于明白,樓層低的居住感受,兩者差別很大

小談食刻美食
2025-05-06 18:42:36
這就是激怒中國(guó)的下場(chǎng)!200條鐵軌全部拆除,中方這次動(dòng)真格的了

這就是激怒中國(guó)的下場(chǎng)!200條鐵軌全部拆除,中方這次動(dòng)真格的了

小lu侃侃而談
2025-05-09 21:26:59
新華社評(píng)論員:推動(dòng)中俄關(guān)系邁向更加成熟和堅(jiān)韌的明天

新華社評(píng)論員:推動(dòng)中俄關(guān)系邁向更加成熟和堅(jiān)韌的明天

新華社
2025-05-10 02:31:06
戰(zhàn)爭(zhēng)全面開打,巴基斯坦這個(gè)全球第三大光伏市場(chǎng)會(huì)犧牲掉嗎?

戰(zhàn)爭(zhēng)全面開打,巴基斯坦這個(gè)全球第三大光伏市場(chǎng)會(huì)犧牲掉嗎?

趕碳號(hào)
2025-05-10 09:08:32
安徽省合肥市發(fā)展和改革委員會(huì)黨組書記、主任

安徽省合肥市發(fā)展和改革委員會(huì)黨組書記、主任

奇思妙想生活家
2025-05-10 14:56:38
華為兌現(xiàn)了五年前的陽謀

華為兌現(xiàn)了五年前的陽謀

虎嗅APP
2025-05-10 17:00:41
巴基斯坦稱擊落超25架印度無人機(jī)

巴基斯坦稱擊落超25架印度無人機(jī)

財(cái)聯(lián)社
2025-05-08 17:05:15
41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

胖胖侃咖
2025-05-10 08:00:08
被殲10C狠揍后,印度偷襲中方承建水電站,企圖給中方一個(gè)教訓(xùn)?

被殲10C狠揍后,印度偷襲中方承建水電站,企圖給中方一個(gè)教訓(xùn)?

肆?xí)r說
2025-05-09 20:28:41
2025年社保繳費(fèi)基數(shù)開始申報(bào)!稅務(wù)局發(fā)文!社保入稅!須足額繳納!

2025年社保繳費(fèi)基數(shù)開始申報(bào)!稅務(wù)局發(fā)文!社保入稅!須足額繳納!

人事工作者
2025-05-10 17:23:01
四大野戰(zhàn)軍的“一號(hào)首長(zhǎng)”,哪些人能鎮(zhèn)得住虎將許世友?

四大野戰(zhàn)軍的“一號(hào)首長(zhǎng)”,哪些人能鎮(zhèn)得住虎將許世友?

浩舞默畫
2025-05-10 09:29:18
馬國(guó)川:日本的崛起,是從干掉“愛國(guó)賊”開始

馬國(guó)川:日本的崛起,是從干掉“愛國(guó)賊”開始

尚曦讀史
2025-05-04 21:00:03
上海廣廈集團(tuán)第九建筑有限公司3·4事故查明,1人高墜死亡

上海廣廈集團(tuán)第九建筑有限公司3·4事故查明,1人高墜死亡

中國(guó)基建報(bào)
2025-05-09 23:44:45
巴基斯坦總理謝里夫透露印巴空戰(zhàn)細(xì)節(jié):在長(zhǎng)達(dá)1小時(shí)的空戰(zhàn)中,我們的飛行員把印度戰(zhàn)機(jī)炸成了碎片渣渣!只用了幾個(gè)小時(shí),敵人就屈服了

巴基斯坦總理謝里夫透露印巴空戰(zhàn)細(xì)節(jié):在長(zhǎng)達(dá)1小時(shí)的空戰(zhàn)中,我們的飛行員把印度戰(zhàn)機(jī)炸成了碎片渣渣!只用了幾個(gè)小時(shí),敵人就屈服了

和訊網(wǎng)
2025-05-08 14:51:02
張?zhí)m律師發(fā)聲!大S珠寶全沒S媽深夜要錢!這次S媽里子面子都沒了

張?zhí)m律師發(fā)聲!大S珠寶全沒S媽深夜要錢!這次S媽里子面子都沒了

小娛樂悠悠
2025-05-10 14:12:58
俄議員:俄有權(quán)從中國(guó)“收回”遼寧艦,中方務(wù)必拆掉武器停止軍用

俄議員:俄有權(quán)從中國(guó)“收回”遼寧艦,中方務(wù)必拆掉武器停止軍用

boss外傳
2025-04-15 09:35:03
小S發(fā)長(zhǎng)文緬懷姐姐大S,疑似曬大S臨終握手照,喊話自己要振作

小S發(fā)長(zhǎng)文緬懷姐姐大S,疑似曬大S臨終握手照,喊話自己要振作

西瓜愛娛娛
2025-05-10 11:20:18
CCTV5直播!國(guó)家德比!西甲冠軍大戰(zhàn):巴薩VS皇馬,以和為貴?

CCTV5直播!國(guó)家德比!西甲冠軍大戰(zhàn):巴薩VS皇馬,以和為貴?

碧咸仍在
2025-05-10 00:02:38
萬茜 別有風(fēng)情

萬茜 別有風(fēng)情

動(dòng)物奇奇怪怪
2025-05-10 11:35:57
印巴兩國(guó)特有的一種思維,將使沖突回歸“零和博弈”模式

印巴兩國(guó)特有的一種思維,將使沖突回歸“零和博弈”模式

文化縱橫
2025-05-09 16:11:09
2025-05-10 18:40:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10455文章數(shù) 176135關(guān)注度
往期回顧 全部

科技要聞

雷軍:我經(jīng)歷創(chuàng)辦小米以來最難的一個(gè)多月

頭條要聞

多個(gè)空軍基地及陸軍醫(yī)院遭到巴方破壞 印度最新回應(yīng)

頭條要聞

多個(gè)空軍基地及陸軍醫(yī)院遭到巴方破壞 印度最新回應(yīng)

體育要聞

這個(gè)老頭兒,仍然是你們的頭兒

娛樂要聞

李凱馨為錄音風(fēng)波道歉,網(wǎng)友不接受

財(cái)經(jīng)要聞

沸騰了!中國(guó),給全世界上了一課

汽車要聞

破局者億咖通 智向全球的科技“新勢(shì)力”

態(tài)度原創(chuàng)

手機(jī)
家居
數(shù)碼
房產(chǎn)
教育

手機(jī)要聞

vivo以18.2%的份額領(lǐng)跑W18周,華為、小米竟然完全相同

家居要聞

整潔寬敞 黑白木色拼接

數(shù)碼要聞

AMD 第六代 EPYC Venice 處理器細(xì)節(jié)曝光:最多 8 個(gè) CCD

房產(chǎn)要聞

海口頂級(jí)名校官宣增擴(kuò)!南海大道、金盤的業(yè)主們要沸騰了!

教育要聞

高考地理為什么喜歡考林線?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 隆化县| 黔东| 太保市| 定兴县| 东莞市| 涞水县| 海南省| 泰和县| 托里县| 湖州市| 敦化市| 方城县| 平原县| 曲阜市| 栾川县| 萝北县| 和平区| 民丰县| 红原县| 鹰潭市| 泊头市| 安顺市| 柳河县| 长春市| 金昌市| 股票| 文成县| 赤城县| 垫江县| 驻马店市| 唐海县| 普安县| 合水县| 醴陵市| 界首市| 都安| 渝中区| 曲阜市| 延川县| 固始县| 伽师县|