99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta推出Llama 4:MoE構架、原生多模態、10M上下文,沒有發布推理模型

0
分享至

Meta 創始人兼首席執行官馬克·扎克伯格今日在其 Instagram 賬號宣布推出全新 Llama 4 系列模型,其中兩款——參數高達 400B 億的 Llama 4 Maverick 和 109B 億參數的 Llama 4 Scout——即日起可供開發者在 llama.com 及 AI 代碼共享社區 Hugging Face 上下載,即刻開始使用或微調。

今天還預覽了一款擁有 2 萬億參數的巨無霸模型 Llama 4 Behemoth,不過 Meta 的發布博文稱其仍在訓練中,并未透露何時可能發布。


按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計

先劃重點:

核心變化:Llama 4 全系采用混合專家(MoE)架構,并且是原生多模態訓練,不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 ScoutLlama 4 Maverick,同時還有最強大的Llama 4 Behemoth預覽

另一個特點是它們擁有超長的上下文窗口——Llama 4 Maverick 支持 100 萬 token,Llama 4 Scout 更是高達 1000 萬 token,分別相當于約 1500 頁和 1.5 萬頁文本,且模型能在單次輸入/輸出交互中處理全部內容。這意味著理論上用戶可向 Llama 4 Scout 上傳或粘貼多達 7500 頁的文本,并獲取同等體量的反饋,這對醫學、科學、工程、數學、文學等知識密集型領域尤為實用。

Meta 估計 Llama 4 Maverick 的推理成本為每 100 萬 token 0.19 至 0.49 美元(采用輸入與輸出 3:1 的比例)。這使得它比專有模型如 GPT-4o 便宜得多,根據社區基準,GPT-4o 的成本估計為每百萬 token 4.38 美元。

文章部分內容轉載自「AI 寒武紀」。

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01三種參數,MoE 模型下面給大家第一時間做個梳理,Llama 4 Scout:

定位:性能最強的小尺寸模型

參數:17B 激活參數,16 個專家,總參數量 109B

亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬+ Token 多模態上下文窗口(相當于處理 20 多個小時的視頻!),并且能在單張 H100 GPU 上運行(Int4 量化后)

Llama 4 Maverick:

定位:同級別中最佳的多模態模型

性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到后者一半

參數:17B 激活參數,128 個專家,總參數量 400B,上下文窗口 100 萬+

性價比:提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417,排名第二

部署:可以在單個主機上運行

Llama 4 Behemoth (預覽,訓練中):

定位:Meta 迄今最強模型,全球頂級 LLM 之一

性能:在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

參數:288B 激活參數,16 個專家,總參數量高達2萬億 (2T

訓練細節:使用 FP8 精度,在32000 塊 GPU上訓練了30 萬億多模態 Token

角色:作為 Maverick 模型進行代碼蒸餾時的教師模型





02技術亮點解讀

原生多模態:所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中

訓練流程優化:采用了 輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調,過度使用 SFT/DPO 會過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”

超長上下文的秘密 (10M+):實現這一突破的關鍵是iRoPE 架構('i' 代表 interleaved layers, infinite)

核心思想:通過追求無限上下文的目標來指導架構設計,特別是利用長度外推能力——在短序列上訓練,泛化到極長序列。最大訓練長度是 256K

具體做法

  • 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化

  • 全局注意力層(Global Attention)才負責處理長上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力

  • 為了解決上下文變長時注意力權重趨于平坦、影響推理的問題,在推理時對全局層應用溫度縮放,增強長距離推理,同時保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)


03超過 DeepSeek 了嗎?

使用最高參數模型基準——Llama 4 Behemoth——并將其與 DeepSeek R1 初始發布時的 R1-32B 和 OpenAI o1 模型圖表進行對比,以下是 Llama 4 Behemoth 的表現情況:


我們能得出什么結論?

  • MATH-500:Llama 4 Behemoth 略微落后于 DeepSeek R1 和 OpenAI o1。

  • GPQA Diamond:Behemoth 領先于 DeepSeek R1,但落后于 OpenAI o1。

  • MMLU:Behemoth雖落后于兩者,但仍優于 Gemini 2.0 Pro 和 GPT-4.5。

要點:盡管 DeepSeek R1 和 OpenAI o1 在幾項指標上略勝 Behemoth 一籌,Llama 4 Behemoth 仍極具競爭力,在其類別的推理排行榜上表現位居或接近榜首。


04大佬評價一個遺憾 (前kaggle總裁,fast AI 創始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費級 GPU 上運行,這對開源社區的可及性來說是個不小的損失。


Jim Fan(英偉達高級研究經理)


部署便利性優先:Jim Fan 認為,對于開源模型,特別是 MoE 架構,易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行,這與 Llama-3 401B(雖然強大但采用率較低)形成對比,說明 MoE 是一個更符合當前開源策略的方向

智能調參 MetaP:MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多,但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化,能在有限的試驗預算內進行自適應實驗(如 A/B 測試)

后訓練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓練策略是降低 SFT/DPO 的權重,提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型,限制其在 RL 階段的探索能力

自我批判式數據篩選:一個有趣的技術點是,訓練過程中模型較早的檢查點(checkpoint)可以作為“批評家”來評估后續模型,幫助過濾掉過于簡單的訓練樣本/提示,讓模型在不斷篩選和學習中變得更強

Behemoth 的訓練細節與數據挑戰: Llama 4 Behemoth 的龐大規模(FP8 精度、32K GPU、30T tokens 訓練)。由于模型能力太強,普通的 SFT 數據對它來說太“簡單”了,因此需要裁剪掉高達 95% 的 SFT 數據,而小模型只需要裁剪約 50%

實現千萬級上下文窗口的技術手段看起來“相當簡單”:

  1. 1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想

  2. 2.調整 Softmax 注意力:根據上下文的長度來調整 Softmax 注意力計算


05

這次Llama 4的推理模型還不見蹤影,這多少有點說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠啊!不過Meta 表示這只是開始,后續還有更多模型,團隊正在全力開發中,特別提到了Llama 4 Reasoning模型

另外相比于DeepSeek的MIT開源方式,Llama 4 的新許可證有幾個限制:

- 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可,Meta 可自行決定授予或拒絕該許可。

- 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。

- 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”

- 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱

參考:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

深度知局
2025-05-20 17:47:03
2-0!不懼連續高強度作戰,橫掃美國華裔名將,王祉怡晉級八強

2-0!不懼連續高強度作戰,橫掃美國華裔名將,王祉怡晉級八強

釘釘陌上花開
2025-05-29 20:31:21
美方剛宣布“500美軍進駐臺島”,解放軍直接貼臉開大,麻煩大了

美方剛宣布“500美軍進駐臺島”,解放軍直接貼臉開大,麻煩大了

影孖看世界
2025-05-28 14:09:18
李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

簡讀視覺
2025-05-27 22:20:02
把公權力當作謀取私利的工具,廣東省政協機關原一級巡視員張廣寧被“雙開”

把公權力當作謀取私利的工具,廣東省政協機關原一級巡視員張廣寧被“雙開”

界面新聞
2025-05-29 17:03:00
就在明天!西安知名商超重新開業

就在明天!西安知名商超重新開業

愛看劇的阿峰
2025-05-29 17:04:49
印媒推翻一個月前的觀點,罕見承認一個事實,果然還是低估了中國

印媒推翻一個月前的觀點,罕見承認一個事實,果然還是低估了中國

錦然蒼穹
2025-05-28 18:41:24
魯比奧放話:“狠狠”拒簽中國學生

魯比奧放話:“狠狠”拒簽中國學生

觀察者網
2025-05-29 09:38:11
請周知!明天起,東莞這些高速入口全封閉!

請周知!明天起,東莞這些高速入口全封閉!

東莞紀實
2025-05-29 17:44:40
李忠任湖南省司法廳廳長

李忠任湖南省司法廳廳長

魯中晨報
2025-05-29 19:09:36
單位里40以上的中年人,最好的狀態不是級別高權力大,而是這4種

單位里40以上的中年人,最好的狀態不是級別高權力大,而是這4種

細說職場
2025-05-27 07:39:06
每體:克洛普已與法布雷加斯會面,試圖說服他加盟萊比錫

每體:克洛普已與法布雷加斯會面,試圖說服他加盟萊比錫

直播吧
2025-05-29 00:37:11
印度到處炫耀“戰功”,法國突然戳破窟窿

印度到處炫耀“戰功”,法國突然戳破窟窿

新民周刊
2025-05-29 09:05:20
蔚來孤注一擲

蔚來孤注一擲

華爾街見聞官方
2025-05-27 15:59:56
多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護罩

多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護罩

答案在這兒
2025-05-28 15:53:13
突發!全線暴跌!特朗普被裁定越權!

突發!全線暴跌!特朗普被裁定越權!

福州晚報
2025-05-29 11:02:42
著名車評人顏宇鵬飛坡測試問界M8,是真實體驗還是重蹈袁啟聰覆轍

著名車評人顏宇鵬飛坡測試問界M8,是真實體驗還是重蹈袁啟聰覆轍

沙雕小琳琳
2025-05-29 04:54:46
上海知名腫瘤醫院將擴建,有望成“全球最大”

上海知名腫瘤醫院將擴建,有望成“全球最大”

鬼菜生活
2025-05-29 12:10:38
3114元入手Switch2馬車同捆:價格真香還含稅

3114元入手Switch2馬車同捆:價格真香還含稅

游民星空
2025-05-29 15:09:16
77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

安山客
2025-05-28 17:46:32
2025-05-29 22:16:49
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

房產
健康
教育
藝術
時尚

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

剛剛發布:南京市開始啟動!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

鞋子專場|| 舒服到能暴走的鞋,我幫你們找到了!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灌阳县| 肥城市| 屯昌县| 长顺县| 昆明市| 汶川县| 巍山| 惠东县| 巴青县| 汾阳市| 济阳县| 雅安市| 杂多县| 山西省| 承德县| 陈巴尔虎旗| 察哈| 应用必备| 铁力市| 陇川县| 措美县| 达尔| 丹寨县| 甘谷县| 当雄县| 滕州市| 邹平县| 嘉善县| 青阳县| 临江市| 台安县| 丰宁| 五家渠市| 大关县| 荥经县| 虹口区| 牙克石市| 吉首市| 朝阳市| 伽师县| 惠东县|