99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Llama 4,超過DeepSeek了嗎

0
分享至

在科技巨頭接連暴跌的周末喘息之際,Meta推出了Llama 4。

它想用千萬上下文、原生多模態(tài)和一個即將推出的2萬億參數(shù)基座模型,證明它反超了DeepSeek,自己仍然是硅谷開放權(quán)重大模型之王。

去年底今年初,DeepSeek在一個月內(nèi)接連推出開源基座模型V3和推理模型R1,完勝Llama 3,扎克伯格懵逼了,Meta AI陷入一片恐慌。

R1的訓(xùn)練僅用了2000多張H800,費(fèi)用下來500多萬美元,相當(dāng)于僅用了Meta一名技術(shù)大咖的年薪,而且Llama 3 訓(xùn)練用了16000張H100。

從那之后,大家都等著Meta會拿出一個什么樣的Llama 4。

這次發(fā)布的Llama 4 群,包括了兩個大模型Maverick-400B參數(shù)(17B活躍參數(shù),128專家模型),Scout-109B (17B活躍,16專家)。還有一個仍在訓(xùn)練中的基座模型Behemoth-2T(288B活躍,16專家)。

Llama 4 群從總體上實(shí)現(xiàn)了對DeepSeek V3.1的超越,如千萬上下文,原生多模態(tài),以及看起來更便宜的價格,但是它沒有推理模型。Llama 4也超過了其他主要的開放權(quán)重或免費(fèi)的小模型,如Gemma 3、Mistral 3.1和Gemini 2.0 Flash-lite。

Behemoth-2T已經(jīng)超過了包括GPT-4.5在內(nèi)的前沿基座模型,但是Meta在介紹中沒有提及、也可能遜色于Gemini 2.5 Pro。

細(xì)看一下各主要指標(biāo)的得分對比:

Behemoth超過了目前最前沿的大模型GPT-4.5,Gemini 2.0 pro, Claude Sonnet 3.7,但Gemini 2.5 Pro除外:


Maverick的性價比上超過了主流應(yīng)用模型GPT-4o、DeepSeek V3.1、Gemini 2.0 Flash:


Scout吊打其他主流的開源模型:


預(yù)訓(xùn)練

Llama 4 首次采用專家混合架構(gòu)(Mixture of Experts,簡稱 MoE)。以 Llama 4 Maverick 為例,該模型擁有 170 億個激活參數(shù),總參數(shù)量達(dá) 4000 億。為了提升推理效率,密集層和 MoE 層可交替使用。MoE 層包括 128 個路由專家和一個共享專家。每個 token 會同時發(fā)送到共享專家和 128 個專家中的一個。因此,雖然所有參數(shù)都被保存在內(nèi)存中,但實(shí)際推理時只激活其中一部分參數(shù)。這種設(shè)計降低了模型的推理成本和延遲,使得 Llama 4 Maverick 可以在一臺 英偉達(dá) H100 DGX 主機(jī)上運(yùn)行,便于部署,也可支持分布式推理以獲得更高效率。

Llama 4 模型原生支持多模態(tài),通過早期融合(early fusion)將文本與視覺 token 無縫整合到統(tǒng)一的模型主干中。早期融合是一個重要突破,使得模型可以利用海量的無標(biāo)注文本、圖像和視頻數(shù)據(jù)進(jìn)行聯(lián)合預(yù)訓(xùn)練。Meta AI還升級了視覺編碼器,其基礎(chǔ)為 MetaCLIP,但通過與凍結(jié)的 Llama 模型聯(lián)合訓(xùn)練,以更好地適配 LLM。

Meta AI開發(fā)了一種名為 MetaP 的新訓(xùn)練技術(shù),用于可靠設(shè)定關(guān)鍵模型超參數(shù),如各層的學(xué)習(xí)率和初始化比例。這些超參數(shù)具有良好的可遷移性,適用于不同的 batch size、模型寬度、深度和訓(xùn)練 token 數(shù)。Llama 4 在預(yù)訓(xùn)練階段覆蓋了 200 種語言,其中超過 100 種語言的訓(xùn)練 token 數(shù)超 10 億,總體多語言 token 數(shù)是 Llama 3 的 10 倍,為開源微調(diào)提供了良好的基礎(chǔ)。

Behemoth使用 FP8 精度和 32K 張 GPU 進(jìn)行預(yù)訓(xùn)練,達(dá)到了每張 GPU 390 TFLOPs 的訓(xùn)練效率。訓(xùn)練所用數(shù)據(jù)總量超過 30 萬億 tokens,是 Llama 3 的兩倍以上,涵蓋了豐富的文本、圖像和視頻數(shù)據(jù)集。相比之下,Llama 3的精度是BF16,使用了16000張GPU,達(dá)到了每張GPU 400 TFLOPs的訓(xùn)練效率。

Meta AI還引入了“中期訓(xùn)練”(mid-training)階段,以新穎的訓(xùn)練策略強(qiáng)化模型的核心能力,包括利用專用數(shù)據(jù)集實(shí)現(xiàn)超長上下文擴(kuò)展,在提升模型質(zhì)量的同時,為 Llama 4 Scout 實(shí)現(xiàn)了業(yè)界領(lǐng)先的 1000 萬 token 輸入上下文長度。

后訓(xùn)練

Maverick充當(dāng)了主力助手和對話模型,在進(jìn)行后訓(xùn)練時,最大的挑戰(zhàn)是如何平衡多模態(tài)輸入、推理能力和對話表現(xiàn)。在多模態(tài)融合方面,Meta AI設(shè)計了課程式訓(xùn)練策略(curriculum strategy),確保模型在多模態(tài)任務(wù)中的性能不遜于各個單一模態(tài)專家模型。針對 Llama 4,Meta AI全面改造了后訓(xùn)練流程,采用了新的方法鏈條:輕量監(jiān)督微調(diào)(SFT)> 在線強(qiáng)化學(xué)習(xí)(RL)> 輕量偏好優(yōu)化(DPO)。他們發(fā)現(xiàn),SFT 和 DPO 如果過于嚴(yán)格,會限制模型在在線 RL 階段的探索能力,尤其影響推理、編程與數(shù)學(xué)任務(wù)的表現(xiàn)。

為了解決這一問題,Meta AI使用 Llama 模型作為判定器,對數(shù)據(jù)進(jìn)行篩選,剔除了超過 50% 被標(biāo)記為“簡單”的訓(xùn)練數(shù)據(jù),僅在剩下的高難度數(shù)據(jù)上進(jìn)行輕量微調(diào)。

在后續(xù)的多模態(tài)在線強(qiáng)化學(xué)習(xí)階段,Meta AI通過精挑細(xì)選更具挑戰(zhàn)性的 prompt,實(shí)現(xiàn)了性能的躍遷。Meta AI還引入了一種連續(xù)在線 RL 策略:訓(xùn)練過程中交替進(jìn)行模型訓(xùn)練和數(shù)據(jù)過濾,僅保留中等到高難度的 prompt,從而實(shí)現(xiàn)了計算效率和準(zhǔn)確率之間的最佳平衡。

Meta AI再通過一次輕量級 DPO 微調(diào),處理模型響應(yīng)質(zhì)量中的邊緣情況,使模型在智能能力與對話表現(xiàn)之間達(dá)成了理想的平衡。

這種全新的后訓(xùn)練流程架構(gòu),以及結(jié)合自適應(yīng)數(shù)據(jù)篩選的持續(xù)在線強(qiáng)化學(xué)習(xí)策略,使 Llama 4 Maverick 成為一款在智能能力和圖像理解上均達(dá)到行業(yè)頂尖水平的通用聊天模型。

推理能力遜色

Llama 4 群沒有推理模型,如果用基座Behemoth來比較,可以發(fā)現(xiàn)在數(shù)學(xué)和通識方面仍然遜色于DeepSeek-R1,全面不及OpenAI o1。


如果拿通用的Maverick 來比較,它躋身于目前主流的多模態(tài)模型,在編程、推理、多語言、長上下文處理和圖像任務(wù)等多個基準(zhǔn)上超越了同類模型(如 GPT-4o 和 Gemini 2.0),在編程與推理能力上也可以與體量更大的 DeepSeek v3.1 相媲美。

為什么周六發(fā)布

因為硅谷的幾家頭部AI實(shí)驗室的高層,彼此了解發(fā)布時間表已經(jīng)司空見慣,所以對 Meta 周六發(fā)布,也是不得已的選擇,因為下周將會非常瘋狂,或者至少有可能蓋過 Llama 4 的風(fēng)頭;而原本想上周被特朗普搞得更瘋狂。

Semianalysis創(chuàng)始人Dylan Patel說:

“阿里巴巴和DeepSeek會很快發(fā)布,并再次超越Meta的。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
熊磊要搬出許敏萬達(dá)的房子了!這還不是結(jié)尾, 許敏還將繼續(xù)上告

熊磊要搬出許敏萬達(dá)的房子了!這還不是結(jié)尾, 許敏還將繼續(xù)上告

魔都姐姐雜談
2025-06-27 11:32:04
開播第一晚熱度破22000!好評如潮,觀眾放話:“一集就淪陷!”

開播第一晚熱度破22000!好評如潮,觀眾放話:“一集就淪陷!”

夢涵說體育
2025-06-27 08:50:49
離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

壹月情感
2025-06-25 23:23:29
一口氣拿下3人,勇士連做兩筆交易!曾計劃撿漏楊瀚森+兜售庫明加

一口氣拿下3人,勇士連做兩筆交易!曾計劃撿漏楊瀚森+兜售庫明加

鍋?zhàn)踊@球
2025-06-27 12:20:02
驚險!新疆2名小學(xué)生在鐵軌擺石頭逼停高鐵

驚險!新疆2名小學(xué)生在鐵軌擺石頭逼停高鐵

極目新聞
2025-06-27 14:24:01
中國最大沙漠到底有多深?如果把沙子全挖光,地下會是什么?

中國最大沙漠到底有多深?如果把沙子全挖光,地下會是什么?

半解智士
2025-06-17 17:07:54
傅首爾與兒子合拍,瘦了有20斤狀態(tài)真好,15歲多樂180個頭高又帥

傅首爾與兒子合拍,瘦了有20斤狀態(tài)真好,15歲多樂180個頭高又帥

八怪娛
2025-06-27 09:55:06
女研究生公然侮辱四川人后續(xù),正臉曝光,身份被扒,難怪這么囂張

女研究生公然侮辱四川人后續(xù),正臉曝光,身份被扒,難怪這么囂張

寒士之言本尊
2025-06-26 12:11:10
馬英九:我不希望臺灣成為第2個香港!

馬英九:我不希望臺灣成為第2個香港!

老范談史
2025-06-24 21:07:05
ESPN7月11日直播獨(dú)行俠vs湖人 新科狀元弗拉格預(yù)計首秀對決布朗尼

ESPN7月11日直播獨(dú)行俠vs湖人 新科狀元弗拉格預(yù)計首秀對決布朗尼

直播吧
2025-06-27 09:12:24
媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

動物奇奇怪怪
2025-06-27 11:37:30
阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當(dāng)最富裕的風(fēng)流寡婦

阿拉法特遺孀蘇哈:巴政府每月給3.5萬美元,當(dāng)最富裕的風(fēng)流寡婦

普覽
2025-06-18 20:33:08
伊朗裝備了從中國引進(jìn)的先進(jìn)防空系統(tǒng),為何這次沒能擊落一架戰(zhàn)機(jī)

伊朗裝備了從中國引進(jìn)的先進(jìn)防空系統(tǒng),為何這次沒能擊落一架戰(zhàn)機(jī)

小院之觀
2025-06-25 05:30:05
一個急救員眼中,民營長途轉(zhuǎn)運(yùn)救護(hù)車的“利”與“亂”

一個急救員眼中,民營長途轉(zhuǎn)運(yùn)救護(hù)車的“利”與“亂”

澎湃新聞
2025-06-27 07:04:27
“以伊沖突”的3個贏家,兩個輸家

“以伊沖突”的3個贏家,兩個輸家

史政先鋒
2025-06-24 16:45:07
清朝的嬪妃為什么要戴長指甲?除了方便皇上,還有一個重要的作用

清朝的嬪妃為什么要戴長指甲?除了方便皇上,還有一個重要的作用

大千世界觀
2025-06-04 21:00:07
韓國人仇視中國,不僅因為經(jīng)濟(jì)被超越,最大原因是對宿命的不甘

韓國人仇視中國,不僅因為經(jīng)濟(jì)被超越,最大原因是對宿命的不甘

大道無形我有型
2025-06-27 12:24:40
中央紀(jì)委國家監(jiān)委通報!5月全國查處違反中央八項規(guī)定精神問題21843起

中央紀(jì)委國家監(jiān)委通報!5月全國查處違反中央八項規(guī)定精神問題21843起

每日經(jīng)濟(jì)新聞
2025-06-27 11:30:21
當(dāng)年越南為何非要跟中國過不去?越軍說出實(shí)情,3點(diǎn)原因令人心寒

當(dāng)年越南為何非要跟中國過不去?越軍說出實(shí)情,3點(diǎn)原因令人心寒

大千世界觀
2025-05-14 10:30:08
吹捧美國空氣香甜的楊舒平,已被驅(qū)逐出境,如今回國下場大快人心

吹捧美國空氣香甜的楊舒平,已被驅(qū)逐出境,如今回國下場大快人心

跳跳歷史
2025-06-06 16:41:00
2025-06-27 16:07:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數(shù) 38關(guān)注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網(wǎng)傳白玉蘭最佳男女主獎將“爆冷”

財經(jīng)要聞

1萬就能刪行政處罰?信用修復(fù)江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務(wù)艙售22.99萬

態(tài)度原創(chuàng)

時尚
藝術(shù)
房產(chǎn)
健康
軍事航空

到了夏天,中年女人穿過膝裙不配運(yùn)動鞋,才能美得優(yōu)雅又得體

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

最強(qiáng)黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

呼吸科專家破解呼吸道九大謠言!

軍事要聞

美媒揭美軍37小時奔襲伊朗細(xì)節(jié)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 九寨沟县| 梅州市| 屏山县| 博湖县| 舞钢市| 玉门市| 新宁县| 鸡泽县| 浙江省| 中阳县| 诸城市| 江川县| 卓尼县| 杂多县| 德令哈市| 临泉县| 太康县| 邵阳县| 潜山县| 高安市| 汶上县| 大丰市| 永安市| 延吉市| 罗平县| 南部县| 兴宁市| 天津市| 拜城县| 舞钢市| 宜兰市| 名山县| 龙口市| 南汇区| 柏乡县| 青川县| 会昌县| 平定县| 日喀则市| 东方市| 龙南县|