99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Llama 4五大疑點(diǎn)曝光,逐層扒皮!全球AI進(jìn)步停滯,NYU教授稱Scaling徹底結(jié)束

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】剛剛,一位AI公司CEO細(xì)細(xì)扒皮了關(guān)于Llama 4的五大疑點(diǎn)。甚至有圈內(nèi)人表示,Llama 4證明Scaling已經(jīng)結(jié)束了,LLM并不能可靠推理。但更可怕的事,就是全球的AI進(jìn)步恐將徹底停滯。

令人失望的Llama 4,只是前奏而已。

接下來我們恐將看到——全球局勢的改變,將徹底阻止AI進(jìn)步!

最近,一位AI CEO做出長視頻,逐級對Llama 4身上的六大疑點(diǎn)進(jìn)行了扒皮。


同時(shí),NYU教授馬庫斯發(fā)出博客,總結(jié)了目前這段時(shí)間AI圈的狀況。

Scaling已經(jīng)結(jié)束;模型仍然無法可靠推理;金融泡沫正在破裂;依然沒有GPT-5;對不可靠的語言模型的過度依賴讓世界陷入了困境。我的25個(gè)2025年預(yù)測中的每一個(gè),目前看起來都是對的。

大語言模型不是解決之道。我們確實(shí)需要一些更可靠的方法。

OpenAI和Anthropic這樣的公司,需要籌集資金來資助新模型本后的大規(guī)模訓(xùn)練運(yùn)行,但他們的銀行帳戶里并沒有400億或1000億美元,來支撐龐大的數(shù)據(jù)中心和其他費(fèi)用。

問題在于,如果投資者預(yù)見到了經(jīng)濟(jì)衰退,那就要么不會投資,要么投資較少。

更少的資金,就意味著更少的計(jì)算,也就是更慢的AI進(jìn)展。

布魯金斯學(xué)會2025年的一份報(bào)告稱,若科研成本持續(xù)上升,美國在人工智能、生物技術(shù)和量子計(jì)算等關(guān)鍵領(lǐng)域的領(lǐng)先地位可能受到威脅。據(jù)估算,當(dāng)前政策若持續(xù)實(shí)施五年,美國科研產(chǎn)出可能會下降8%-12%。

在以前的一個(gè)采訪里,Anthropic CEO Dario曾被問到:到了如今這個(gè)階段,還有什么可以阻止AI的進(jìn)步?他提到了一種可能——戰(zhàn)爭。


沒想到,在這個(gè)可能性之外,我們居然提前見證了系統(tǒng)的另一種混沌。

而Dario也提前預(yù)測到,如果出現(xiàn)「技術(shù)不會向前發(fā)展」的信念,資本化不足,AI進(jìn)步就將停止。

AI CEO五大問,逐級扒皮Llama 4

最近鬧出大丑聞的Llama 4,已經(jīng)證明了這一點(diǎn)。


我們很難說,Llama 4系列三款模型中的兩款代表了多少進(jìn)展,顯然在這個(gè)系列的發(fā)布中,夸大宣傳的水分要比誠實(shí)的分析多得多。

疑點(diǎn)1:長上下文大海撈針,其實(shí)是騙人?

Llama擁有所謂業(yè)界領(lǐng)先的一千萬個(gè)token的上下文窗口,聽起來似乎很酷炫。

可是等等,24年2月,Gemini 1.5 Pro的模型,就已經(jīng)達(dá)到1000萬token的上下文了!

在極端情況下,它可以在視頻、音頻和共同文本上,執(zhí)行驚人的大海撈針任務(wù),或許,是谷歌忽然意識到,大海撈針任務(wù)意義非常重大。

正如這篇Llama 4博客所說,如果把所有哈利波特的書都放進(jìn)去,模型都能檢索到放入其中的一個(gè)密碼。


不過,這位CEO表示,這些48h前發(fā)布的結(jié)果,不如24小時(shí)前更新的這個(gè)fiction livebench基準(zhǔn)測試這么重要。

這個(gè)基準(zhǔn)測試,用于長上下文的深度理解,LLM必須將數(shù)萬或數(shù)十萬個(gè)token或單詞拼湊在一起。

在這里,在這個(gè)基準(zhǔn)測試中,Gemini 2.5 Pro的表現(xiàn)非常好,而相比之下,Llama 4的中等模型和小模型,性能極其糟糕。

而且隨著token長度的增加,它們的表現(xiàn)越來越差。


疑點(diǎn)2:為何周六發(fā)布?

這位CEO察覺到的第二大疑點(diǎn)就在于,Llama 4為何選在周六發(fā)布?

在整個(gè)美國AI技術(shù)圈里,這個(gè)發(fā)布日期都是史無前例的。

如果陰謀論一點(diǎn)想,之所以選在周六發(fā)布,是因?yàn)镸eta自己也心虛了,希望盡量減少人們的注意力。

此外,Llama 4的最新訓(xùn)練數(shù)據(jù)截止時(shí)間是2024年8月,這就很奇怪。

要知道,Gemini 2.5的訓(xùn)練知識截止時(shí)間是2025年1月。

這就意味著,在過去的9個(gè)月里,Meta一直在使盡渾身解數(shù),拼命讓這個(gè)模型達(dá)到標(biāo)準(zhǔn)。

有一種可能性是,或許他們本打算早點(diǎn)發(fā)布Llama 4,但就在9月,OpenAI推出了o系列模型,今年1月,DeepSeek R1又來了,所以Meta的所有計(jì)劃都被打亂了。


疑點(diǎn)3:大模型競技場,究竟有沒有作弊?

不過,這位CEO也承認(rèn),盡管全網(wǎng)充斥著對Llama 4群嘲的聲音,但它的確也展示出了一些堅(jiān)實(shí)的進(jìn)展。


比如Llama 4 Maverick的活動參數(shù)量大概只有DeepSeek V3的一半,卻取得了相當(dāng)?shù)男阅堋?/p>


那現(xiàn)在的核心問題就在于,Meta究竟有沒有在LM Arena上進(jìn)行作弊,在測試集上進(jìn)行訓(xùn)練?

目前,LM Arena已經(jīng)迅速滑跪,公開了2000多組對戰(zhàn)數(shù)據(jù)給公眾檢閱,并且表示會重新評估排行榜。


目前姑且按照沒有算,那就意味著我們擁有一個(gè)強(qiáng)大得驚人的基礎(chǔ)模型了。


看看這些真實(shí)數(shù)字,假設(shè)沒有任何答案進(jìn)入Llama 4的訓(xùn)練數(shù)據(jù),這個(gè)模型在GPQA Diamond上的性能(谷歌驗(yàn)證的極其嚴(yán)格的STEM基準(zhǔn)測試)實(shí)際上是比DeepSeek V3更好的

而在這個(gè)基礎(chǔ)上,Meta就完全可以創(chuàng)建一個(gè)SOTA級別的思維模型。

唯一的問題是,Gemini 2.5 Pro已經(jīng)存在了,而DeepSeek R2也隨時(shí)會問世。

疑點(diǎn)4:代碼很差

還有一點(diǎn),當(dāng)Llama 4走出舒適區(qū)時(shí),性能就會開始狂降。

以ADA的Polyglot這個(gè)編碼基準(zhǔn)測試為例,它測驗(yàn)了一些系列編程語言的性能。

但與許多基準(zhǔn)不同,它不僅僅關(guān)注Python,而是一系列編程語言,現(xiàn)在依然是Gemini 2.5 Pro名列前茅。

但是想要找到Llama 4 Maverick,可就很難了,得把鼠標(biāo)滾動很久。

它的得分當(dāng)然慘不忍睹——只有15.6%。


這就跟小扎的言論出入很大了,顯得相當(dāng)諷刺。

就在不久前,他還信誓旦旦地?cái)喽ㄕf,Meta的AI模型將很快取代中級程序員。


疑點(diǎn)5:「結(jié)果僅代表目前最好的內(nèi)部運(yùn)行」

這一點(diǎn),同樣已經(jīng)在AI社區(qū)引發(fā)了群嘲。

在下面這個(gè)表格中,Meta將Llama 4和Gemini2.0 Pro、GPT-4.5等模型進(jìn)行了比較,數(shù)字非常漂亮。

但仔細(xì)看腳注,卻說的是Llama模型的結(jié)果代表了目前最好的內(nèi)部運(yùn)行情況,所以很大可能是,Meta把Llama 4跑了5遍或10遍,取了其中的最好結(jié)果。


而且,他們還故意不將Llama 4 Behemoth跟DeepSeek V3進(jìn)行比較,后者比它在整體參數(shù)上小三倍,在互動參數(shù)上小八倍,性能卻相似。


如果從消極的角度下判斷,就可以說Llama 4最大的模型參數(shù)上DeepSeek V3基礎(chǔ)模型的許多倍,性能卻基本處于同一水平。

還有在Simple Bench中,Llama 4 Maverick的得分大概為27.7%,跟DeepSeek V3處于同一水平,還低于Claude 3.5 Sonnet這類非思維模型。


另外,這位CEO還在Llama 4的使用條款中發(fā)現(xiàn)了這么一條。

如果你在歐洲,仍然可以成為它的最終用戶,但卻沒有權(quán)利在它的基礎(chǔ)上進(jìn)行構(gòu)建模型。


馬庫斯:Llama 4的慘痛教訓(xùn)表明,Scaling已經(jīng)結(jié)束!

而Llama 4的慘淡表現(xiàn),也讓NYU教授馬庫斯寫出長文,斷言Scaling已經(jīng)結(jié)束,LLM仍然無法推理。


他的主要觀點(diǎn)如下。

大模型的Scaling已經(jīng)徹底結(jié)束了,這證實(shí)了我三年前在《深度學(xué)習(xí)正在撞墻》中的預(yù)測。

一位AI博士這樣寫道:Llama 4的發(fā)布已經(jīng)證實(shí),即使30萬億token和2萬億參數(shù),也不能讓非推理模型比小型推理模型更好。


規(guī)模化并不奏效,真正的智能需要的是意圖,而意圖需要遠(yuǎn)見,這都不是AI能做到的。


即使LLM偶爾能提供正確的答案,往往也是通過模式識別或啟發(fā)式的捷徑,而非真正的數(shù)學(xué)推理。


最終,生成式AI很可能會變成一個(gè)在經(jīng)濟(jì)回報(bào)上失敗的產(chǎn)品。

泡沫可能真的要破滅了。英偉達(dá)在2025年的跌幅,就已經(jīng)超過了三分之一。

而Meta的Llama 4的殘酷真相,再次證實(shí)了馬庫斯在2024年3月預(yù)測——

達(dá)到GPT-5級別的模型,將會非常困難。很多公司都會有類似模型,但沒有護(hù)城河。隨著價(jià)格戰(zhàn)進(jìn)一步升級,許多只會有微薄的利潤。


最終,馬庫斯以這樣的方式總結(jié)了自己的發(fā)言——

「大語言模型絕對不是解決之道,我們需要一些更可靠的方法。Gary Marcus正在尋找對開發(fā)更可靠替代方法有興趣的投資者。 」

參考資料:

https://www.youtube.com/watch?v=wOBqh9JqCDY

https://garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看哭了!韓德君開直播10萬+在線,眼睛哭紅,主動回應(yīng)退役疑問!

看哭了!韓德君開直播10萬+在線,眼睛哭紅,主動回應(yīng)退役疑問!

籃球資訊達(dá)人
2025-05-01 23:20:33
受不了了!付豪連續(xù)糟糕操作,誰注意楊鳴?拿著戰(zhàn)術(shù)板對其怒吼!

受不了了!付豪連續(xù)糟糕操作,誰注意楊鳴?拿著戰(zhàn)術(shù)板對其怒吼!

籃球資訊達(dá)人
2025-05-02 00:17:49
朝鮮間諜?中國再次抓獲軍事竊密人員,表面身份竟是朝鮮官方派遣

朝鮮間諜?中國再次抓獲軍事竊密人員,表面身份竟是朝鮮官方派遣

滄海一書客
2025-04-30 15:32:41
知情人士披露,美方正多渠道主動與中方接觸

知情人士披露,美方正多渠道主動與中方接觸

牛彈琴
2025-05-01 08:00:29
畢爾巴鄂競技0-3曼聯(lián),賽后評分:曼聯(lián)8號排第一,接近滿分

畢爾巴鄂競技0-3曼聯(lián),賽后評分:曼聯(lián)8號排第一,接近滿分

側(cè)身凌空斬
2025-05-02 05:06:48
看了日本第一季度1054萬外國游客,再看我國接待數(shù)量,令我太意外

看了日本第一季度1054萬外國游客,再看我國接待數(shù)量,令我太意外

阿纂看事
2025-04-30 08:08:26
湖人出局4大罪人出爐!里夫斯拉胯雷迪克出昏招,3300萬后衛(wèi)該棄

湖人出局4大罪人出爐!里夫斯拉胯雷迪克出昏招,3300萬后衛(wèi)該棄

李喜林籃球絕殺
2025-05-01 13:56:20
全球公認(rèn)的5大抗衰老力量訓(xùn)練,趕緊練起來

全球公認(rèn)的5大抗衰老力量訓(xùn)練,趕緊練起來

增肌減脂
2025-05-02 00:30:05
王寶強(qiáng)兒子已長大,近照曝光后震驚全網(wǎng):誰是生父,一目了然……

王寶強(qiáng)兒子已長大,近照曝光后震驚全網(wǎng):誰是生父,一目了然……

不二大叔
2025-05-01 21:23:30
湖人首輪游引熱議:美媒曬詹皇近7年履歷扎心 C羅梅西LBJ同天出局

湖人首輪游引熱議:美媒曬詹皇近7年履歷扎心 C羅梅西LBJ同天出局

顏小白的籃球夢
2025-05-01 13:14:14
4球5助攻!曝皇馬搶奪22歲鐵衛(wèi):違約金5000萬,曼聯(lián)曾600萬賣了

4球5助攻!曝皇馬搶奪22歲鐵衛(wèi):違約金5000萬,曼聯(lián)曾600萬賣了

叁炮體育
2025-05-01 23:08:10
馬斯克:每天躺在床上,不運(yùn)動,不學(xué)習(xí),不掙錢,那你遲早完蛋

馬斯克:每天躺在床上,不運(yùn)動,不學(xué)習(xí),不掙錢,那你遲早完蛋

清風(fēng)拂心
2025-02-20 07:38:04
拒絕參賽?樊振東身不由己,王皓陷入信任危機(jī),王楚欽迎正名之戰(zhàn)

拒絕參賽?樊振東身不由己,王皓陷入信任危機(jī),王楚欽迎正名之戰(zhàn)

忠橙家族
2025-05-01 18:12:52
就在今天,5月2日凌晨,斯諾克傳來趙心童、奧沙利文、特魯姆消息

就在今天,5月2日凌晨,斯諾克傳來趙心童、奧沙利文、特魯姆消息

硯底沉香
2025-05-02 00:55:09
董襲瑩的瓜,衛(wèi)健委來了也沒用

董襲瑩的瓜,衛(wèi)健委來了也沒用

文雅筆墨
2025-05-01 16:03:15
又一次全國大拆遷開始了?這次和10年前暴富的那一次有啥區(qū)別?

又一次全國大拆遷開始了?這次和10年前暴富的那一次有啥區(qū)別?

巢客HOME
2025-05-01 05:35:04
越打越富的背后:高利貸使俄羅斯三分之二的勞動人口欠債難還

越打越富的背后:高利貸使俄羅斯三分之二的勞動人口欠債難還

火星宏觀
2025-05-01 09:59:03
查爾斯終于清醒了:人生盡頭,他要為親兒子鋪路,卡米拉一家靠后

查爾斯終于清醒了:人生盡頭,他要為親兒子鋪路,卡米拉一家靠后

容景談
2025-04-30 16:26:02
安徽永碩新材料科技有限公司發(fā)生高墜事故,造成1人死亡

安徽永碩新材料科技有限公司發(fā)生高墜事故,造成1人死亡

中國基建報(bào)
2025-05-01 15:38:06
美軍核轟戰(zhàn)巡賭中方不敢動,解放軍戰(zhàn)機(jī)直撲琉球,日本:玩脫了!

美軍核轟戰(zhàn)巡賭中方不敢動,解放軍戰(zhàn)機(jī)直撲琉球,日本:玩脫了!

文雅筆墨
2025-04-30 07:50:11
2025-05-02 06:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
12628文章數(shù) 66023關(guān)注度
往期回顧 全部

科技要聞

DeepSeek新數(shù)學(xué)模型刷爆記錄

頭條要聞

魯比奧將兼任美總統(tǒng)國家安全顧問 沃爾茲被提名美大使

頭條要聞

魯比奧將兼任美總統(tǒng)國家安全顧問 沃爾茲被提名美大使

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動與中方接觸

汽車要聞

預(yù)售32.98萬起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
家居
健康
教育

房產(chǎn)要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

手機(jī)要聞

盡管產(chǎn)量較低 三星Exynos 2500仍將在Galaxy Z Flip 7中首次亮相

家居要聞

輕奢婚房 自由隨性生活

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

用錢堆出來的教育,成不了孩子的未來

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宽城| 治多县| 阜平县| 平乡县| 霸州市| 龙胜| 江阴市| 弥渡县| 琼中| 宝应县| 凤冈县| 华阴市| 准格尔旗| 丰城市| 镇巴县| 基隆市| 海门市| 宁津县| 尼勒克县| 施甸县| 汤原县| 四会市| 张掖市| 拜城县| 林甸县| 东至县| 大城县| 柏乡县| 上杭县| 永年县| 沙坪坝区| 巨鹿县| 方山县| 贡觉县| 克什克腾旗| 洛浦县| 汝州市| 巴林右旗| 平阴县| 鄯善县| 渭南市|