網易首頁 > 網易號 > 正文申請入駐

1000萬上下文！新開源多模態大模型，單個GPU就能運行

2025-04-07 15:41:25　來源: RPA中國

北京舉報

分享至

今年2月初，谷歌發布的Gemini 2.0 Pro支持200萬上下文，震驚了整個大模型領域。

僅過了2個月，Meta最新開源的Llama 4 Scout就將上下文擴展至1000萬，整整提升了5倍開啟千萬級時代。對于這么大的窗口大家可能沒什么概念，普通版本的《戰爭與和平》大概有1300頁100萬字左右，Llama 4 Scout可以一次性解讀這本書。

如果你開發完一個項目想讓大模型幫你檢查一下是否有BUG、可優化的地方，只要代碼少于1000萬token，Llama 4 Scout都能幫你解決。驚不驚喜，整個代碼庫都成提示詞了~

開源地址：https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama 4 Scout簡單介紹

Llama 4 Scout是一個專家混合架構模型，一共有1090億參數。其中，有170億活躍參數和16個專家路由，能在單個H100 GPU上使用，具備原生多模態的能力，可以處理文本和圖像，支持最多8張圖像的輸入。

架構創新方面，Llama 4 Scout使用了無位置交叉嵌入的交錯注意層NoPE。傳統的Transformer架構通過位置編碼將每個單詞的位置信息嵌入到模型中，從而使模型能夠區分不同位置的單詞。

但這種顯式的位置編碼方法在長度泛化方面存在局限性。例如，當模型在訓練時接觸到的序列長度較短，在測試時需要處理更長的序列時，顯式位置編碼可能無法有效地泛化到這些未見過的長度。而NoPE可以很好解決這個難題。

NoPE的設計非常簡潔，就是直接移除了Transformer模型中的位置編碼部分。這意味著使用NoPE架構的模型中，輸入序列的單詞不會被附加任何顯式的位置信息。模型僅依賴于其自注意力機制和前饋網絡來處理序列數據。

在NoPE模型的第一層中，通過特定的權重設置，模型可以恢復輸入序列的絕對位置信息。模型可以通過自注意力機制和前饋網絡將絕對位置信息寫入隱藏狀態。這一過程依賴于模型的因果注意力掩碼和softmax函數，使得模型能夠從輸入序列中恢復絕對位置信息。

在后續層中，NoPE可以實現相對位置編碼。通過特定的權重設置，模型可以使得注意力機制依賴于單詞之間的相對距離，而不是絕對位置。NoPE可以捕捉到單詞之間的相對位置信息，從而實現相對位置編碼。

根據測試數據顯示，NoPE在長度泛化方面表現出色，超過了所有顯式位置編碼方法。在多種推理和數學任務中，NoPE能夠成功地從較短的訓練序列泛化到更長的測試序列。

例如，在加法任務中，NoPE在長度為40的序列上的準確率達到了0.69，而其他位置編碼方法的準確率均低于0.55。這表明NoPE能夠更好地捕捉序列中的數學規律，并將其應用于更長的序列。

NoPE的計算效率也更高。由于不需要計算額外的注意力機制項，因此在訓練和推理過程中都能節省時間和計算資源，尤其是在需要處理長序列的任務中。

所以，Llama 4 Scout擁有1000萬上下文卻能在單個H100使用，NoPE發揮了非常大的作用。

訓練數據方面，Llama 4 Scout使用了30萬億token數據，包括文本、圖像、視頻，比之前開源的Llama 3高兩倍。

此外，Llama 4 Scout在預訓練階段還特別注重多語言能力的培養，在200種語言上進行了訓練，其中包括超過100種擁有超過10億標記的語言，使得Llama 4 Scout在處理跨語言任務時具備了強大的語言理解和生成能力。

媲美DeepSeek V3的新模型

除了Llama 4 Scout，Meta還開源了一個模型Llama 4 Maverick，同樣是專家混合模型，一共有4000億參數。其中，170億參數處于活躍狀態和128個專家路由。同樣可以在單個H100運行，不過只有100萬上下文。

Maverick使用的訓練方法和數據與Scout差不多。根據公布的測試數據顯示，Maverick在MMLU/Pro、GPQA、DocVQA、MathVista超過了谷歌的Gemini 2.0和OpenAI的GPT-4o，可以媲美DeepSeek最新開源的V3模型。

訓練創新方面，Meta在訓練Maverick時，用了一種新辦法來優化訓練流程包括三個步驟：先進行輕量級監督微調（SFT），接著開展在線強化學習（RL），最后做輕量級直接偏好優化（DPO）。

但在這個過程中，有一個重要問題：SFT和DPO這兩個步驟，可能會對模型限制得太厲害。這就會讓模型在在線RL這個階段沒辦法充分地去探索各種可能性，結果就是模型在做推理、編碼以及數學相關任務的時候，算得沒那么準表現不佳。

為了解決這個難題，Meta剔除了超過50%被標記為“簡單”的數據，并在剩余更具挑戰性的數據集上進行輕量級SFT。在隨后的多模態在線RL階段，通過精心挑選更具挑戰性的提示，實現了性能的顯著提升。

此外，Meta實施了連續在線 RL 策略，即交替進行模型訓練，然后利用訓練好的模型持續篩選并僅保留中等至較難難度的提示。

事實證明，這種策略在計算成本和準確性的權衡方面非常有效。接著進行了輕量級 DPO，以處理與模型響應質量相關的極端情況，有效地在模型的智能和對話能力之間實現了良好的平衡

正訓練2萬億參數教師模型——Llama 4 Behemoth

Meta表示，Scout和Maverick只是開源的首批Llama 4系列模型。正在訓練一個總參數2萬億，活躍參數2880億活躍參數和16個專家路由的教師模型——Llama 4 Behemoth。

Llama 4 Behemoth主要用于蒸餾、微調小模型，Llama 4 Maverick便是通過它完成的。為了實現性能的最大化，Meta對SFT數據進行大幅刪減，要剪掉 95% 的數據，而較小的模型僅需剪掉50%，以此來實現對質量和效率的必要關注。

由于兩萬億參數模型前所未有的規模，為其擴展強化學習（RL）還需要對底層的強化學習基礎設施進行改造。

Meta開發了一個完全異步的在線強化學習訓練框架，增強了靈活性。現有的分布式訓練框架為了將所有模型堆疊到內存中，犧牲了計算內存。新基礎設施能夠將不同模型靈活分配到單獨的 GPU 上，根據計算速度在多個模型之間平衡資源，訓練效率比上一代提升了大約10倍。

根據實驗數據顯示，Llama 4 Behemoth在MMLU Pro、GPQA、MATH-500等測試的數據比GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro更好。

本文素材來源Meta，如有侵權請聯系刪除

報告下載

大佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| |

行業知識交流分享，結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

復旦&微軟開源StableAnimator: 首個端到端ID一致性人類視頻生成

機器之心Pro 2025-03-19 17:41:41
40 跟貼 40
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
0 跟貼 0

10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
0 跟貼 0

每一幕皆可控！字節發布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
0 跟貼 0
無損減少80%激活值內存，提升5倍訓練序列長度，僅需兩行代碼

機器之心Pro 2025-06-23 15:55:45
0 跟貼 0

監督學習也能反思？清華英偉達提出隱式負向策略爆炸提升數學能力

量子位 2025-06-22 14:07:30
1 跟貼 1

伊朗媒體發布假戰果圖像實在太多，央視火災照片都用上了

王小東 2025-06-21 15:26:01
3598 跟貼 3598
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
0 跟貼 0

舍棄CUDA編程!CMU等用代碼將LLM編譯成巨型內核,推理延遲降6.7倍

機器之心Pro 2025-06-23 10:41:12
10 跟貼 10
英偉達：從游戲初創公司到 AI 巨頭的進化之路

金融界 2025-06-23 07:49:20
3 跟貼 3
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
244 跟貼 244
OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2
所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
56 跟貼 56
科學家將R1技術遷移到多模態領域，只需10條數據就能提升模型性能

DeepTech深科技 2025-03-05 18:08:03
0 跟貼 0
為什么一個彈幕，就能讓主播喵一百聲？

差評XPIN 2025-06-23 00:16:23
0 跟貼 0
英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

新智元 2025-06-22 12:16:12
84 跟貼 84
曝PS6和下一代Xbox的GPU架構相同！或2027年推出

游民星空 2025-06-21 12:00:13
4 跟貼 4
上海GPU云服務商沖刺港交所！猛吃DeepSeek紅利，創始人曾打造PPTV

智東西 2025-06-23 08:55:39
0 跟貼 0
研究人員構建欲求驅動智能體，可用于模擬人類日常活動

DeepTech深科技 2025-04-26 19:02:06
0 跟貼 0
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
細節厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0
楊植麟和閆俊杰首次“撞車”，MiniMax視頻模型價格一年超萬元

鈦媒體APP 2025-06-22 11:20:23
7 跟貼 7
畢馬威報告：中國銀行業在大模型落地應用方面走在前列

財聯社 2025-06-23 16:14:34
0 跟貼 0
常州五連敗被“剃光頭”，一景區推出“光頭免票”：沒頭發就行，性別無限制

極目新聞 2025-06-22 18:26:28
1444 跟貼 1444
知識儲備≠模型能力！DeepMind強化學習微調：大幅縮小「知行差距」

新智元 2025-06-21 17:34:06
0 跟貼 0
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環球網資訊 2025-06-23 11:56:50
328 跟貼 328
室內移動抓取多模態智能體亮相，真實環境零樣本動作準確率達 90%

機器之心Pro 2025-06-21 10:55:56
1 跟貼 1
浪潮信息 x 福鑫科創：大模型加持，智慧診療全面提速

熵的途析 2025-06-23 11:56:46
1 跟貼 1
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
Large Avatar Model：單圖打造寫實3D交互數字人，跨平臺驅動渲染

機器之心Pro 2025-06-20 19:31:34
0 跟貼 0
16款大模型為自保竟泄露機密，Anthropic緊急報告AI自主暗藏風險

DeepTech深科技 2025-06-22 23:05:32
1 跟貼 1
一個模型搞懂黑洞形成原理

小糖發財 2025-06-22 05:34:00
0 跟貼 0
推理正確率下降65.5%！斯坦福、MIT等用「不等式」拷問AI邏輯極限

新智元 2025-06-23 13:17:43
1 跟貼 1
美國宇航局公布了比鄰星B的高清圖像震驚了科學家！

素玉姑娘 2025-06-23 12:08:29
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
衛星圖像對比伊朗核設施遭美襲擊前后

新京報 2025-06-23 09:09:52
0 跟貼 0
高中數學應會題目求函數在閉區間上的值域！

三樂大掌柜 2025-06-20 21:28:12
1 跟貼 1
00后投身具身智能創業，劍指機器人界Model 3！推出21個自由度手

量子位 2025-06-22 12:58:30
1 跟貼 1
美國使用的GBU-57鉆地彈：技術參數與實戰威力的深度探討

數碼八叔 2025-06-22 14:41:18
0 跟貼 0

RPA中國

RPA行業生態平臺

2695文章數 1247關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

家居

藝術

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

1000萬上下文！新開源多模態大模型，單個GPU就能運行

售出千萬臺！他卻說"只想做下一代AI終端"

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

比起雷霆三少，他才是真正隊魂

魏大勛和秦嵐沒分手！

關稅重磅！美國宣布，今起加征

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

3天，75億！海南賣地殺瘋了！

山水之間 墨染風雨云間

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

榮耀 Magic V5 真機外觀曝光，7 月 2 日發布

奔襲萬里的美B-2轟炸機內部披露返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內部披露返航通話錄音被截獲

山水之間墨染風雨云間