今年2月初,谷歌發布的Gemini 2.0 Pro支持200萬上下文,震驚了整個大模型領域。
僅過了2個月,Meta最新開源的Llama 4 Scout就將上下文擴展至1000萬,整整提升了5倍開啟千萬級時代。對于這么大的窗口大家可能沒什么概念,普通版本的《戰爭與和平》大概有1300頁100萬字左右,Llama 4 Scout可以一次性解讀這本書。
如果你開發完一個項目想讓大模型幫你檢查一下是否有BUG、可優化的地方,只要代碼少于1000萬token,Llama 4 Scout都能幫你解決。驚不驚喜,整個代碼庫都成提示詞了~
開源地址:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
Llama 4 Scout簡單介紹
Llama 4 Scout是一個專家混合架構模型,一共有1090億參數。其中,有170億活躍參數和16個專家路由,能在單個H100 GPU上使用,具備原生多模態的能力,可以處理文本和圖像,支持最多8張圖像的輸入。
架構創新方面,Llama 4 Scout使用了無位置交叉嵌入的交錯注意層NoPE。傳統的Transformer架構通過位置編碼將每個單詞的位置信息嵌入到模型中,從而使模型能夠區分不同位置的單詞。
但這種顯式的位置編碼方法在長度泛化方面存在局限性。例如,當模型在訓練時接觸到的序列長度較短,在測試時需要處理更長的序列時,顯式位置編碼可能無法有效地泛化到這些未見過的長度。而NoPE可以很好解決這個難題。
NoPE的設計非常簡潔,就是直接移除了Transformer模型中的位置編碼部分。這意味著使用NoPE架構的模型中,輸入序列的單詞不會被附加任何顯式的位置信息。模型僅依賴于其自注意力機制和前饋網絡來處理序列數據。
在NoPE模型的第一層中,通過特定的權重設置,模型可以恢復輸入序列的絕對位置信息。模型可以通過自注意力機制和前饋網絡將絕對位置信息寫入隱藏狀態。這一過程依賴于模型的因果注意力掩碼和softmax函數,使得模型能夠從輸入序列中恢復絕對位置信息。
在后續層中,NoPE可以實現相對位置編碼。通過特定的權重設置,模型可以使得注意力機制依賴于單詞之間的相對距離,而不是絕對位置。NoPE可以捕捉到單詞之間的相對位置信息,從而實現相對位置編碼。
根據測試數據顯示,NoPE在長度泛化方面表現出色,超過了所有顯式位置編碼方法。在多種推理和數學任務中,NoPE能夠成功地從較短的訓練序列泛化到更長的測試序列。
例如,在加法任務中,NoPE在長度為40的序列上的準確率達到了0.69,而其他位置編碼方法的準確率均低于0.55。這表明NoPE能夠更好地捕捉序列中的數學規律,并將其應用于更長的序列。
NoPE的計算效率也更高。由于不需要計算額外的注意力機制項,因此在訓練和推理過程中都能節省時間和計算資源,尤其是在需要處理長序列的任務中。
所以,Llama 4 Scout擁有1000萬上下文卻能在單個H100使用,NoPE發揮了非常大的作用。
訓練數據方面,Llama 4 Scout使用了30萬億token數據,包括文本、圖像、視頻,比之前開源的Llama 3高兩倍。
此外,Llama 4 Scout在預訓練階段還特別注重多語言能力的培養,在200種語言上進行了訓練,其中包括超過100種擁有超過10億標記的語言,使得Llama 4 Scout在處理跨語言任務時具備了強大的語言理解和生成能力。
媲美DeepSeek V3的新模型
除了Llama 4 Scout,Meta還開源了一個模型Llama 4 Maverick,同樣是專家混合模型,一共有4000億參數。其中,170億參數處于活躍狀態和128個專家路由。同樣可以在單個H100運行,不過只有100萬上下文。
Maverick使用的訓練方法和數據與Scout差不多。根據公布的測試數據顯示,Maverick在MMLU/Pro、GPQA、DocVQA、MathVista超過了谷歌的Gemini 2.0和OpenAI的GPT-4o,可以媲美DeepSeek最新開源的V3模型。
訓練創新方面,Meta在訓練Maverick時,用了一種新辦法來優化訓練流程包括三個步驟:先進行輕量級監督微調(SFT),接著開展在線強化學習(RL),最后做輕量級直接偏好優化(DPO)。
但在這個過程中,有一個重要問題:SFT和DPO這兩個步驟,可能會對模型限制得太厲害。這就會讓模型在在線RL這個階段沒辦法充分地去探索各種可能性,結果就是模型在做推理、編碼以及數學相關任務的時候,算得沒那么準表現不佳。
為了解決這個難題,Meta剔除了超過50%被標記為“簡單”的數據,并在剩余更具挑戰性的數據集上進行輕量級SFT。在隨后的多模態在線RL階段,通過精心挑選更具挑戰性的提示,實現了性能的顯著提升。
此外,Meta實施了連續在線 RL 策略,即交替進行模型訓練,然后利用訓練好的模型持續篩選并僅保留中等至較難難度的提示。
事實證明,這種策略在計算成本和準確性的權衡方面非常有效。接著進行了輕量級 DPO,以處理與模型響應質量相關的極端情況,有效地在模型的智能和對話能力之間實現了良好的平衡
正訓練2萬億參數教師模型——Llama 4 Behemoth
Meta表示,Scout和Maverick只是開源的首批Llama 4系列模型。正在訓練一個總參數2萬億,活躍參數2880億活躍參數和16個專家路由的教師模型——Llama 4 Behemoth。
Llama 4 Behemoth主要用于蒸餾、微調小模型,Llama 4 Maverick便是通過它完成的。為了實現性能的最大化,Meta對SFT數據進行大幅刪減,要剪掉 95% 的數據,而較小的模型僅需剪掉50%,以此來實現對質量和效率的必要關注。
由于兩萬億參數模型前所未有的規模,為其擴展強化學習(RL)還需要對底層的強化學習基礎設施進行改造。
Meta開發了一個完全異步的在線強化學習訓練框架,增強了靈活性。現有的分布式訓練框架為了將所有模型堆疊到內存中,犧牲了計算內存。新基礎設施能夠將不同模型靈活分配到單獨的 GPU 上,根據計算速度在多個模型之間平衡資源,訓練效率比上一代提升了大約10倍。
根據實驗數據顯示,Llama 4 Behemoth在MMLU Pro、GPQA、MATH-500等測試的數據比GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro更好。
本文素材來源Meta,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.