99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

奧特曼首揭GPT-4.5內幕,一個bug搞崩10萬GPU!5人即可重訓GPT-4

0
分享至


文章轉載于新智元

GPT-4.5出世一個多月,鮮有人知其背后研發故事。

今天凌晨,奧特曼與三位核心研究員在線開啟播客對談,首次揭開了GPT-4.5從愿景到現實的史詩級突破。


早在兩年前,OpenAI團隊定下了一個大膽的目標,打造一款比GPT-4聰明10倍的模型。

這不僅意味著LLM性能提升,更是對計算、數據、協作的極限挑戰。


從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam

如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強的,并再次Scaling無監督學習的邊界。

這款「超級模型」究竟如何創造智能奇跡,全部濃縮在了這45分鐘的圓桌對談中。

一些精彩亮點:

  • GPT-4.5比GPT-4聰明10倍,研發用時2年,擁有上一代不具備的微妙「魔力」

  • 訓練GPT-4.5為OpenAI提供了寶貴的技術經驗;現只需要大約5名員工,就可以從頭開始訓練GPT-4

  • 算力基礎設施和大規模GPU擴展帶來的小概率問題會捅出大亂子

  • 數據效率成為關鍵瓶頸,OpenAI下一個主要研究前沿是提高數據效率

  • 「torch.sum bug」等趣事推動模型性能飛躍。

  • Scaling Law被驗證為可能長期有效的「宇宙規律」


1

GPT-4.5聰明10倍

奧特曼開篇說,通常他們開這種會都是為了發布新產品,不過這次打算換個玩法,聊聊GPT-4.5開發背后的故事。

GPT-4.5推出后,用戶對它的興趣特別大,這大大超出了研發團隊的預期。

他們首先從「一個巨型模型到底需要什么?」這個話題說起。

「一大堆人、一大把時間,還有海量的計算資源。」主要負責預訓練數據的Alex回答說。

Alex表示,他們光是準備階段就花了很多心思,至于正式的訓練,「本身就是個超級大的工程」。

在實際訓練中,研究團隊經常得做選擇:是推遲發布,等更多問題解決;還是早點上線,邊跑邊解決問題。

這是個平衡,不能讓整個訓練過程拖得太久。

他們謙虛地認為,對于效率更高的算法及以如何更好地利用現有數據,他們還只是「略知皮毛」。

在不久之前,我們還在受限于算力。但從GPT-4.5開始,我們更多地是處在一個受限于數據的環境里了。

他們說這是一個顛覆性的進展,「整個世界對此還沒有充分認識到。」

兩年前著手開發GPT-4.5時,他們的目標是比GPT-4聰明10倍。

現在,他們覺得自己達到了這個目標——至少在投入的有效算力下,GPT-4.5實現了比GPT-4聰明10倍的效果。

1

預訓練的兩個難題

不過,實際的訓練時間還是比預想的要長不少。

這里面主要有兩個問題。

一個是從1萬個GPU增加到10萬個GPU,問題會變得多得多。

尤其是一些提前沒預料到的小概率問題,在大規模計算時會捅出大亂子。

最容易出問題的就是算力基礎設施,由于他們的數據量實在是太大了,有些問題連硬件制造商都沒遇見過。

網絡架構、單個加速器,這些都會出問題。「我們的工作就是盡量把這些變量的波動降到最低。」

另一個問題是探索前沿科技這件事本身就很難。

在訓練GPT-4.5時,OpenAI投入了幾百人的努力,耗費了大量的時間,幾乎是all in。

但如果他們現在重新訓練一個GPT-4水平的模型,大概只需要5到10個人就可以搞定。

專注于數據效率和算法的Dan說,「我覺得做任何新東西都難。但是當你知道別人已經做成過某件事,難度就會大大降低」。

「因為最難的部分是下定決心去做一件事。知道某件事是可行的,簡直就像開了掛,瞬間就容易多了。」

Dan接著表示,如果想要將訓練規模再擴大10倍甚至是100倍,數據就會成為瓶頸,這時候就需要一些算法上的創新,讓模型能用更多的算力從同樣的數據里學到更多東西。

1

torch.sum bug趣事

研究團隊在GPT-4.5的訓練中,發現了一些特別有趣的事情。

比如,在訓練過程中不斷地優化機器學習算法,做出一些調整。

尤其是團隊解決了一些關鍵問題后,他們看到了模型性能的大幅提升。

那一刻,整個團隊的能量都不一樣了,大家都特別興奮,動力滿滿,要把最后階段沖刺完成。


「那一刻真的很震撼。這對團隊士氣的提升,真的特別美妙。」

現場OpenAI的首席系統架構師Amin Chian分享了一個「torch.sum bug」趣事。

在訓練過程中遇到bug是常事,通常是找一下到底是硬件故障、數據損壞,還是機器學習相關的Bug。

但在訓練GPT-4.5時,有一次好幾個問題一直都沒有解決。

大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的,還是同一個Bug導致的。

他們圍著桌子投票。結果呢?后來確定的那個Bug在當時得票最少!

就是個簡單的「torch.sum」Bug,來自上游的PyTorch庫,大家都覺得太不可思議了。

所有的問題都被這一行代碼給解決了,真的特別有趣。

為了慶祝,他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」,那場面可熱鬧了。

這個Bug的觸發頻率特別低,可能每100步、1000步才出一次問題,特別容易被忽略。

但他們有條紀律,在訓練過程中不能容忍這種問題出現。

整個過程就是一個堅持不放棄的故事。

1

壓縮即智能

幾十年來,深度學習的核心一直是提升算力效率。而且,每一次小的改進,都能帶來顯著的疊加效應。

世界上各地不同的人發現一個提升10%效率的技巧,另一個提出提升20%的優化,這些看似微小的進步累積起來,就能徹底改變模型的表現。

過去,因算力受限,數據效率的研究顯得并不劃算。但如今,數據效率每一次突破都將可能成為AI發展的臨界點。

因此,現在就去預測AI會有瓶頸,有點不明智。

他們還認為更好的預訓練和無監督學習能全面提升模型的智能,幫助模型更好地泛化,這一點跟現在模型的推理能力很是互補。

預訓練本質上是在壓縮數據。壓縮數據意味著發現不同事物之間的聯系、類比和抽象。而推理則針對某個具體問題,需要一種謹慎思考的技巧。

這種謹慎思考能解鎖很多不同領域的問題,但預訓練在跨領域壓縮數據時,學到的是一種更抽象的東西。

為什么無監督學習會有效?研究員們的答案是「壓縮」。

可以說,理想的智能形態就是所謂的「所羅門諾夫歸納」(Solomonov induction)。

簡單來說,模型更傾向于簡潔的解釋。與此同時,它嚴格遵循貝葉斯原理,把所有可能性都記住,隨時根據新信息更新自己的回答。

而他們現在做的預訓練——或者說理解預訓練的一個視角——就是在做這種「壓縮」。

試圖找到一個最短的程序(或者模型),來解釋所有的數據,以此作為對理想智能的一種近似。

1

Scaling Law是宇宙法則

在播客的最后,奧特曼表示,訓練GPT-4.5的整個過程,花了無數的人力、時間和金錢,其實可以看成是一場實驗。

一場驗證Scaling Law是不是還成立的實驗。

結果他們發現,Scaling Law不僅有效,而且還可能會持續很長時間。


奧特曼說他接受Scaling Law就像接受量子力學一樣,還不明白為什么Scaling Law會是一種宇宙的規律。

對此Dan試著解釋說,模型數據壓縮得越多,智能就越高,這個有很強的哲學依據。

他自己比較喜歡的一個解釋是,世界上數據的「關鍵概念」是稀疏的,符合冪律分布(power law)。

比如,第100個重要的概念,可能在每100個文檔里只出現一次。

也就是說數據有很強的「長尾效應」。

所以現實是,如果你想抓到「尾巴」里下一個重要的東西,可能得把算力和數據量翻個十倍。

而這個尾巴還很長,可以一直挖下去。

參考資料:

https://x.com/sama/status/1910363434241450171

https://www.youtube.com/watch?v=6nJZopACRuQ

點個 “愛心”,再走吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳芋汐擊敗全紅嬋奪冠!賽后來聽聽廣大網友怎么說,心理素質太差

陳芋汐擊敗全紅嬋奪冠!賽后來聽聽廣大網友怎么說,心理素質太差

小彭美識
2025-04-13 07:44:45
李現有X癮癥!?

李現有X癮癥!?

八卦瘋叔
2025-04-27 10:54:05
3-1領先被拖進搶7,庫里噩夢重現,JB:慌啥,我3-0到3-3照樣贏

3-1領先被拖進搶7,庫里噩夢重現,JB:慌啥,我3-0到3-3照樣贏

看球老人
2025-05-03 16:20:01
火箭3:3勇士后!3好消息1壞消息,一人打回身價,雙塔陣克敵制勝

火箭3:3勇士后!3好消息1壞消息,一人打回身價,雙塔陣克敵制勝

安海客
2025-05-03 12:02:17
她,《水餃皇后》本人,她的人生比電影更精彩

她,《水餃皇后》本人,她的人生比電影更精彩

華商韜略
2025-05-03 10:39:28
快船搶七想勝快船,3點成重點!哈登要做到2事,威少2點也成關鍵

快船搶七想勝快船,3點成重點!哈登要做到2事,威少2點也成關鍵

魚崖大話籃球
2025-05-03 17:06:01
雷佳音一家四口五一度假,與老婆年齡差明顯,13歲北北露臉像媽媽

雷佳音一家四口五一度假,與老婆年齡差明顯,13歲北北露臉像媽媽

柒佰娛
2025-05-01 14:43:00
金龜子女兒帶寶寶回青島,王寧父母見到曾孫老淚縱橫,太爺爺好帥

金龜子女兒帶寶寶回青島,王寧父母見到曾孫老淚縱橫,太爺爺好帥

果娛
2025-05-03 11:34:51
黃渤在膠南請客吃海鮮,王寶強做主賓,46歲章子怡扎雙馬尾好嬌俏

黃渤在膠南請客吃海鮮,王寶強做主賓,46歲章子怡扎雙馬尾好嬌俏

娛圈小愚
2025-04-28 11:15:33
震驚!亞馬爾訓練中向隊友豎中指,被全隊圍起來一頓“暴揍”

震驚!亞馬爾訓練中向隊友豎中指,被全隊圍起來一頓“暴揍”

直播吧
2025-05-02 23:31:19
這6樣東西“沒有保質期”,過期了也能用,別再傻乎乎地扔了!

這6樣東西“沒有保質期”,過期了也能用,別再傻乎乎地扔了!

室內設計師有料兒
2025-03-10 09:05:09
烏美簽署礦產協議:禁止助俄戰爭者參與戰后重建

烏美簽署礦產協議:禁止助俄戰爭者參與戰后重建

近距離
2025-05-02 15:01:32
網友:看了王菲的手,以后再也不做美甲了

網友:看了王菲的手,以后再也不做美甲了

丫頭舫
2025-04-15 21:42:26
58歲大姐每天吃一把南瓜子,半年后去體檢,醫生問吃了啥?

58歲大姐每天吃一把南瓜子,半年后去體檢,醫生問吃了啥?

艾米手工作品
2025-05-02 17:36:59
鐘樓區委書記

鐘樓區委書記

叮當當科技
2025-05-03 13:19:18
CBA總決賽賽程:提前3天5月7日開打 最晚23日產生總冠軍

CBA總決賽賽程:提前3天5月7日開打 最晚23日產生總冠軍

醉臥浮生
2025-05-03 08:09:51
謝娜現身老家中江,保溫杯不離手,鞋子好夸張,緊牽著父母手

謝娜現身老家中江,保溫杯不離手,鞋子好夸張,緊牽著父母手

硯底沉香LIU
2025-05-01 12:34:44
我國肺癌高發,都是豆制品惹的禍?再次提醒:真正致癌的是這3物→

我國肺癌高發,都是豆制品惹的禍?再次提醒:真正致癌的是這3物→

華醫網
2025-04-26 05:41:39
中國九大名山排行,第一竟然是個冷門景點!

中國九大名山排行,第一竟然是個冷門景點!

風到腰彎
2025-04-30 11:21:31
一覺醒來,大設計師蘭玉天塌了!馬筱梅直接把“做個人吧”還給她

一覺醒來,大設計師蘭玉天塌了!馬筱梅直接把“做個人吧”還給她

檸檬有娛樂
2025-05-03 14:33:10
2025-05-03 17:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2156文章數 10335關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

五一黃金"跳水"引爆搶購潮 有游客拖箱到水貝市場掃貨

頭條要聞

五一黃金"跳水"引爆搶購潮 有游客拖箱到水貝市場掃貨

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

本地
房產
時尚
游戲
公開課

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

解鎖夏季“白開水穿搭”新玩法,時尚達人都在藏的秘訣

"PS10"與PS5對比太吸睛!玩家花式曬搞笑對比圖

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 墨脱县| 南郑县| 嘉峪关市| 盐山县| 浦东新区| 石河子市| 莆田市| 昭通市| 台东县| 萨嘎县| 思南县| 泸西县| 社旗县| 天柱县| 南雄市| 仪征市| 柳林县| 图们市| 南宫市| 姚安县| 阿拉善盟| 本溪| 奉化市| 离岛区| 韶山市| 永年县| 监利县| 固原市| 永新县| 中宁县| 三明市| 阆中市| 上虞市| 饶平县| 扎兰屯市| 安宁市| 侯马市| 九寨沟县| 连云港市| 革吉县| 彰化县|