99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4 發布:我看到了 DeepSeek 的影子

0
分享至

Llama 4 發布了。

https://huggingface.co/meta-llama


Llama 4 的三款模型

但這次,它沒有高調宣稱參數量“遙遙領先“,而是通過三款模型來重新布局:

  • ? Scout:109B 參數,17B 激活,16 專家 MoE,可部署在單張 H100 上,10M token 長上下文 ,適用于文檔分析、多輪對話、代碼等任務

  • ? Maverick:400B 參數,17B 激活,128 專家 MoE,1M token 長上下文 :400B 參數,128 專家,推理僅激活兩個。對標 GPT-4o,性能不遜色, 推理成本僅為其十分之一

  • ? Behemoth:2T 參數,288B激活,16 專家 MoE ,不部署、不開放,僅用于訓練階段, 為 Scout 和 Maverick 生成訓練數據

一個用、一主力、一教學,不卷彼此,也不試圖通吃所有任務。

講道理,看這個發布的時候,我總隱隱有當時讀 DeepSeek V3 技術報告的感覺:擁抱 MoE,擁抱合成數據

架構轉向:MoE 登上主舞臺

Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架構。

(關于架構的問題,推薦閱讀:)


MoE 大概就是這樣

過去,MoE 更多還是“實驗室選項”,自 DeepSeek 大火后,很多廠商開始嘗試將其用于主力模型,比如這次的 Meta。在 Llama 4 中,模型 Scout 配置 16 專家,而 Maverick 則是 128 專家,推理時都只激活兩個,17B的量。

回顧一下,DeepSeek 在 R1 和 V3 中也是類似:671B 總參數,37B 激活,用更可控的計算開銷,換來模型能力密度的提升

當然,得說一下,MoE 并不適合所有任務場景,也存在調度復雜、專家平衡等訓練難題。但它至少打開了一個現實維度:參數使用方式,和參數數量本身一樣值得被設計。

多模態:從外掛走向原生

Llama 3 時代,圖像輸入依賴外掛 encoder,與語言模型拼接;Llama 4 時代,圖像直接作為 token 輸入,參與語言上下文建模。

這意味著:圖文不是模型之后拼出來的,而是在訓練中就一體建模的語境單位

這種結構帶來的提升,在任務表現中非常直接:

  • ? Maverick 在 DocVQA 拿下 94.4,超過 GPT-4o(92.8)

  • ? ChartQA 達到 90.0,MathVista 73.7,均高于 GPT-4o

  • ? 推理成本卻僅為 GPT-4o 的十分之一

Maverick 跑分成績

而原生多模態架構也體現在 Scout 身上——雖然是輕量模型,但在 DocVQA、ChartQA 上,Scout 依然打出了高于同尺寸模型(甚至部分大模型)的穩定表現。


Scout 跑分成績

此處說一下, DeepSeek 的 V3/R1 仍未引入圖像 token

訓練轉向:大模型是過程

Behemoth 最大號的 Llama4,很強,但它不對外。


Behemoth:這是個不對外的模型

Behemoth的全部作用,是生成訓練數據,為 Scout 和 Maverick 提供能力示范,并通過輕量 DPO 和 RLHF 進一步優化行為。換句話說,Meta 并不再執著于“最強模型”上線,而是選擇把最大資源投入到訓練系統本身。

這個事兒,有點像:

  • ? OpenAI 開發了「草莓」,來訓練新的 GPT

  • ? DeppSeek 開發了 DeepSeek-R1-Light 來訓練 DeepSeek V3

《 DeepSeek-V3 Technical Report》 不是封神,而是轉向

在我看來,Llama 4 并沒有帶來參數最大、能力最強的單點突破。但它用一個更完整、更分工明確的體系,回應了模型設計正在發生的變化:

Scout 是部署,Maverick 是交付,Behemoth 是理解力的源頭

與其說是一次產品發布,更像是宣告一次路線調整。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國儲量全球第一,中國卻95%靠進口,若美斷供中國如何應對?

美國儲量全球第一,中國卻95%靠進口,若美斷供中國如何應對?

慎獨贏
2025-06-01 02:35:03
杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

大笑江湖史
2025-07-18 07:37:43
師長抗命進攻,救下十萬志愿軍,彭總夸贊:不愧是粟裕的頭號王牌

師長抗命進攻,救下十萬志愿軍,彭總夸贊:不愧是粟裕的頭號王牌

老謝談史
2025-07-23 09:17:21
央企職工副高職稱,工齡 39 年,養老金有多少?

央企職工副高職稱,工齡 39 年,養老金有多少?

古裝影視解說阿兇
2025-07-23 14:05:57
不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

南宗歷史
2025-07-23 16:59:28
“內地劉鑾雄”玩脫了?過億家底拿不出2萬債款,20年資本難支撐

“內地劉鑾雄”玩脫了?過億家底拿不出2萬債款,20年資本難支撐

科技説説説
2025-07-08 17:43:10
“我們才不要你的238億遺產”,邵逸夫離世,4個子女不送終不繼承

“我們才不要你的238億遺產”,邵逸夫離世,4個子女不送終不繼承

聚合大娛
2025-05-08 11:55:09
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
德布勞內社媒:很高興今天上演首秀,比賽有助于恢復狀態

德布勞內社媒:很高興今天上演首秀,比賽有助于恢復狀態

直播吧
2025-07-23 05:48:04
酒桌上敬酒,低情商的人只會說我敬你,高情商的人這么說

酒桌上敬酒,低情商的人只會說我敬你,高情商的人這么說

于觀潭
2023-11-23 21:10:03
吹捧美國空氣香甜的楊舒平,已被驅逐出境,如今回國下場大快人心

吹捧美國空氣香甜的楊舒平,已被驅逐出境,如今回國下場大快人心

跳跳歷史
2025-06-06 16:41:00
三名女子在空調房吃烤魚全部暈倒

三名女子在空調房吃烤魚全部暈倒

極目新聞
2025-07-23 08:31:09
鞏俐在巴黎和朋友聚會,臉部素顏皮膚超好,76歲老公外表很顯年輕

鞏俐在巴黎和朋友聚會,臉部素顏皮膚超好,76歲老公外表很顯年輕

興史興談
2025-07-23 12:57:49
3年換5隊,曝葡萄牙金童告別切爾西,“C羅接班人”將回歸本菲卡

3年換5隊,曝葡萄牙金童告別切爾西,“C羅接班人”將回歸本菲卡

夏侯看英超
2025-07-23 18:38:50
剛剛!武商集團官宣!

剛剛!武商集團官宣!

越喬
2025-07-23 16:56:39
特斯拉為Model 3/Y推出前備箱氛圍燈:369 元起,7月28日開售

特斯拉為Model 3/Y推出前備箱氛圍燈:369 元起,7月28日開售

IT之家
2025-07-23 16:02:21
顏駿凌談范德薩的祝福:非常感動能收到來自兒時偶像的祝福

顏駿凌談范德薩的祝福:非常感動能收到來自兒時偶像的祝福

懂球帝
2025-07-23 15:39:51
這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

荷蘭豆愛健康
2025-07-22 11:45:09
毛岸英犧牲后,劉思齊改嫁河北青年楊茂之生四子,他究竟是什么人

毛岸英犧牲后,劉思齊改嫁河北青年楊茂之生四子,他究竟是什么人

萬物知識圈
2025-07-16 11:29:01
75歲港星宣布征婚,自曝37歲兒子內地求學失敗,回家躺平需要他養

75歲港星宣布征婚,自曝37歲兒子內地求學失敗,回家躺平需要他養

探源歷史
2025-07-21 07:29:49
2025-07-23 19:59:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
64文章數 6關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

時尚
健康
游戲
親子
藝術

看來看去還是這些穿搭適合普通人!配色不艷、衣服不花,好得體

呼吸科專家破解呼吸道九大謠言!

LPL第三階段:TES零封FPX,要想改變口碑,還需要成績說話

親子要聞

新年吃什么爸爸說交給孩子們自己決定,又是有趣的一餐

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昌黎县| 襄垣县| 珠海市| 峨眉山市| 霸州市| 宜州市| 正蓝旗| 宁海县| 甘肃省| 阿勒泰市| 临沭县| 始兴县| 古丈县| 塘沽区| 政和县| 建平县| 神池县| 苗栗市| 临泽县| 云阳县| 安阳市| 北碚区| 广丰县| 西乌珠穆沁旗| 新平| 富平县| 东莞市| 余姚市| 维西| 常德市| 广灵县| 长顺县| 乳山市| 瓦房店市| 理塘县| 武义县| 长垣县| 甘泉县| 张掖市| 太白县| 安溪县|