99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

1000萬上下文!新開源多模態大模型,單個GPU就能運行

0
分享至

今年2月初,谷歌發布的Gemini 2.0 Pro支持200萬上下文,震驚了整個大模型領域。

僅過了2個月,Meta最新開源的Llama 4 Scout就將上下文擴展至1000萬,整整提升了5倍開啟千萬級時代。對于這么大的窗口大家可能沒什么概念,普通版本的《戰爭與和平》大概有1300100萬字左右,Llama 4 Scout可以一次性解讀這本書

如果你開發完一個項目想讓大模型幫你檢查一下是否有BUG、可優化的地方,只要代碼少于1000萬token,Llama 4 Scout都能幫你解決。驚不驚喜,整個代碼庫都成提示詞了~



開源地址:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama 4 Scout簡單介紹

Llama 4 Scout是一個專家混合架構模型,一共有1090億參數。其中,有170億活躍參數和16個專家路由,能在單個H100 GPU上使用,具備原生多模態的能力,可以處理文本和圖像,支持最多8張圖像的輸入。

架構創新方面,Llama 4 Scout使用了無位置交叉嵌入的交錯注意層NoPE。傳統的Transformer架構通過位置編碼將每個單詞的位置信息嵌入到模型中,從而使模型能夠區分不同位置的單詞。

但這種顯式的位置編碼方法在長度泛化方面存在局限性。例如,當模型在訓練時接觸到的序列長度較短,在測試時需要處理更長的序列時,顯式位置編碼可能無法有效地泛化到這些未見過的長度。而NoPE可以很好解決這個難題。


NoPE的設計非常簡潔,就是直接移除了Transformer模型中的位置編碼部分。這意味著使用NoPE架構的模型中,輸入序列的單詞不會被附加任何顯式的位置信息。模型僅依賴于其自注意力機制和前饋網絡來處理序列數據。

在NoPE模型的第一層中,通過特定的權重設置,模型可以恢復輸入序列的絕對位置信息。模型可以通過自注意力機制和前饋網絡將絕對位置信息寫入隱藏狀態。這一過程依賴于模型的因果注意力掩碼和softmax函數,使得模型能夠從輸入序列中恢復絕對位置信息。

在后續層中,NoPE可以實現相對位置編碼。通過特定的權重設置,模型可以使得注意力機制依賴于單詞之間的相對距離,而不是絕對位置。NoPE可以捕捉到單詞之間的相對位置信息,從而實現相對位置編碼。


根據測試數據顯示,NoPE在長度泛化方面表現出色,超過了所有顯式位置編碼方法。在多種推理和數學任務中,NoPE能夠成功地從較短的訓練序列泛化到更長的測試序列。

例如,在加法任務中,NoPE在長度為40的序列上的準確率達到了0.69,而其他位置編碼方法的準確率均低于0.55。這表明NoPE能夠更好地捕捉序列中的數學規律,并將其應用于更長的序列。

NoPE的計算效率也更高。由于不需要計算額外的注意力機制項,因此在訓練和推理過程中都能節省時間和計算資源,尤其是在需要處理長序列的任務中。

所以,Llama 4 Scout擁有1000萬上下文卻能在單個H100使用,NoPE發揮了非常大的作用。

訓練數據方面,Llama 4 Scout使用了30萬億token數據,包括文本、圖像、視頻,比之前開源的Llama 3高兩倍。

此外,Llama 4 Scout在預訓練階段還特別注重多語言能力的培養,在200種語言上進行了訓練,其中包括超過100種擁有超過10億標記的語言,使得Llama 4 Scout在處理跨語言任務時具備了強大的語言理解和生成能力。

媲美DeepSeek V3的新模型

除了Llama 4 Scout,Meta還開源了一個模型Llama 4 Maverick,同樣是專家混合模型,一共有4000億參數。其中,170億參數處于活躍狀態和128個專家路由。同樣可以在單個H100運行,不過只有100萬上下文。

Maverick使用的訓練方法和數據與Scout差不多。根據公布的測試數據顯示,Maverick在MMLU/Pro、GPQA、DocVQA、MathVista超過了谷歌的Gemini 2.0和OpenAI的GPT-4o,可以媲美DeepSeek最新開源的V3模型。


訓練創新方面,Meta在訓練Maverick時,用了一種新辦法來優化訓練流程包括三個步驟:先進行輕量級監督微調(SFT),接著開展在線強化學習(RL),最后做輕量級直接偏好優化(DPO)。

但在這個過程中,有一個重要問題:SFT和DPO這兩個步驟,可能會對模型限制得太厲害。這就會讓模型在在線RL這個階段沒辦法充分地去探索各種可能性,結果就是模型在做推理、編碼以及數學相關任務的時候,算得沒那么準表現不佳。

為了解決這個難題,Meta剔除了超過50%被標記為簡單的數據,并在剩余更具挑戰性的數據集上進行輕量級SFT。在隨后的多模態在線RL階段,通過精心挑選更具挑戰性的提示,實現了性能的顯著提升。

此外,Meta實施了連續在線 RL 策略,即交替進行模型訓練,然后利用訓練好的模型持續篩選并僅保留中等至較難難度的提示。


事實證明,這種策略在計算成本和準確性的權衡方面非常有效。接著進行了輕量級 DPO,以處理與模型響應質量相關的極端情況,有效地在模型的智能和對話能力之間實現了良好的平衡

正訓練2萬億參數教師模型——Llama 4 Behemoth

Meta表示,Scout和Maverick只是開源的首批Llama 4系列模型。正在訓練一個總參數2萬億,活躍參數2880億活躍參數和16個專家路由的教師模型——Llama 4 Behemoth。

Llama 4 Behemoth主要用于蒸餾、微調小模型,Llama 4 Maverick便是通過它完成的。為了實現性能的最大化,Meta對SFT數據進行大幅刪減,要剪掉 95% 的數據,而較小的模型僅需剪掉50%,以此來實現對質量和效率的必要關注。

由于兩萬億參數模型前所未有的規模,為其擴展強化學習(RL)還需要對底層的強化學習基礎設施進行改造。

Meta開發了一個完全異步的在線強化學習訓練框架,增強了靈活性。現有的分布式訓練框架為了將所有模型堆疊到內存中,犧牲了計算內存。新基礎設施能夠將不同模型靈活分配到單獨的 GPU 上,根據計算速度在多個模型之間平衡資源,訓練效率比上一代提升了大約10倍。


根據實驗數據顯示,Llama 4 Behemoth在MMLU Pro、GPQA、MATH-500等測試的數據比GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro更好。

本文素材來源Meta,如有侵權請聯系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當年王思聰買100英寸電視花了50萬,如今0.1折就能拿下!

當年王思聰買100英寸電視花了50萬,如今0.1折就能拿下!

閑搞機
2025-06-23 11:37:54
手術失敗,兒子手捧鮮花等不到媽媽,醫生哽咽,手術室門開了又關

手術失敗,兒子手捧鮮花等不到媽媽,醫生哽咽,手術室門開了又關

跳跳歷史
2025-06-23 09:45:52
新血壓標準已調整,不再是120/80mmHg!血壓高者應自查,維護健康

新血壓標準已調整,不再是120/80mmHg!血壓高者應自查,維護健康

手機殼測試
2025-03-12 20:48:08
上海市2025年普通高校招生本科各批次錄取控制分數線公布

上海市2025年普通高校招生本科各批次錄取控制分數線公布

北青網-北京青年報
2025-06-23 14:20:06
杜蘭特交易成全2將,火箭隊12+7射手受益 2首輪未動 仍可后續操作

杜蘭特交易成全2將,火箭隊12+7射手受益 2首輪未動 仍可后續操作

替補席看球
2025-06-23 16:59:18
官方通報救護車跨省轉運收費2.8萬

官方通報救護車跨省轉運收費2.8萬

界面新聞
2025-06-18 23:54:57
確認加盟!廣東隊正式迎來男籃頂級鋒線,保送杜鋒“躺”進決賽?

確認加盟!廣東隊正式迎來男籃頂級鋒線,保送杜鋒“躺”進決賽?

緋雨兒
2025-06-23 12:10:28
河北一鋼鐵公司宣布解散!

河北一鋼鐵公司宣布解散!

掌中邯鄲
2025-06-22 11:04:44
破案了,那爾那茜是上戲文化課狀元

破案了,那爾那茜是上戲文化課狀元

郁風手記
2025-06-22 00:15:39
速看!高考成績出來了,請不要打擾別人的幸福

速看!高考成績出來了,請不要打擾別人的幸福

教師吧
2025-06-23 15:12:30
雷霆奪冠總結:亞歷山大率隊時隔46年第2冠 陣容合理有望建王朝

雷霆奪冠總結:亞歷山大率隊時隔46年第2冠 陣容合理有望建王朝

醉臥浮生
2025-06-23 10:47:18
細思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張蘭擔心小玥兒

細思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張蘭擔心小玥兒

扒星人
2025-06-23 10:00:01
四位加拿大球員總決賽表現:SGA當選FMVP 內姆哈德馬瑟林得分上雙

四位加拿大球員總決賽表現:SGA當選FMVP 內姆哈德馬瑟林得分上雙

直播吧
2025-06-23 11:45:16
住車里程序員被質疑占用公共資源,本人回應

住車里程序員被質疑占用公共資源,本人回應

大象新聞
2025-06-23 10:50:04
“神秘人”捐1.8億!

“神秘人”捐1.8億!

環球時報新聞
2025-06-21 23:08:09
3萬磅“巨型鉆地彈”引爆前已穿透61米深,衛星圖顯示……

3萬磅“巨型鉆地彈”引爆前已穿透61米深,衛星圖顯示……

吃瓜體
2025-06-23 09:50:44
蘇超聯賽一贊助商火了,老板娘:沒想到會通過,現在都忙不過來了

蘇超聯賽一贊助商火了,老板娘:沒想到會通過,現在都忙不過來了

鋭娛之樂
2025-06-23 12:20:42
別被“某音”前凸后翹的網紅美女騙了...

別被“某音”前凸后翹的網紅美女騙了...

健身廚屋
2025-06-23 12:15:43
2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

火山詩話
2025-06-23 05:54:15
400萬建的豪宅被強制拆除了!肇慶百萬粉絲的大網紅,淚灑現場…

400萬建的豪宅被強制拆除了!肇慶百萬粉絲的大網紅,淚灑現場…

火山詩話
2025-06-22 07:58:22
2025-06-23 17:16:49
RPA中國 incentive-icons
RPA中國
RPA行業生態平臺
2695文章數 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

房產
家居
藝術
手機
公開課

房產要聞

3天,75億!海南賣地殺瘋了!

家居要聞

山水之間 墨染風雨云間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

榮耀 Magic V5 真機外觀曝光,7 月 2 日發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 和硕县| 松阳县| 修武县| 保康县| 鄂托克旗| 高安市| 自治县| 平塘县| 台南市| 香河县| 鄱阳县| 武宁县| 舟曲县| 西和县| 苗栗市| 疏勒县| 中宁县| 阿勒泰市| 商南县| 姚安县| 象州县| 万宁市| 徐汇区| 神池县| 镇沅| 卓尼县| 鄢陵县| 本溪| 汉沽区| 吴忠市| 泸西县| 滨州市| 塔河县| 五原县| 桃园市| 桂阳县| 休宁县| 司法| 瑞丽市| 阿拉善右旗| 广宁县|