就在OpenAI “12天技術直播狂歡”的第二天,北京時間12月7日凌晨1點,Meta發布了最新開源模型Llama 3.3。Meta負責生成式AI的副總裁Ahmad Al-Dahle在X上表示,Llama 3.3采用了最新的后訓練技術,參數規模僅700億,但是性能可以與參數4050億的Llama 3.1相媲美。
Al-Dahle在X上發布了一張圖表,顯示Llama 3.3 70B在多個行業基準測試中超越了谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o和亞馬遜新發布的Nova Pro。
Llama 3.3除了英語外還支持7種語言:法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。該模型還引入了包括更長的上下文窗口128k token(與GPT-4o相當,大約400頁的文本)在內的幾項增強功能,使其適合長形式內容生成和其他高級用例。架構整合了分組查詢注意力(GQA),在推理期間提高了可擴展性和性能。
用簡單的話來總結,Llama用百億參數規模達到了千億參數的性能,同時必然帶來了成本的大幅降低。
成本能節省多少?
在GPU內存需求方面,根據Substratus博客的數據,Llama 3.1-405B需要243 GB到1944 GB的GPU內存,而Llama 2-70B則需要42-168GB的GPU內存。
有媒體報道稱,某些情況下,低參數模型的GPU內存需求甚至可以低至4GB。這意味著,如果部署Llama 3.3,用戶可以預期節省高達1940GB的內存,對于標準的80GB Nvidia H100 GPU來說,GPU負載可能降低24倍。以每塊H100 GPU約25,000美元的價格計算,這可能意味著高達600,000美元的前期GPU成本節省,這還不包括持續的電力成本節省。
現在,Llama 3.3已經可以通過Meta、Hugging Face、GitHub等平臺下載,開源許可證為Llama 3.3社區許可證,這是一項非獨家、免版稅的協議,允許用戶合法使用、復制、分發和修改Llama 3.3模型及其輸出,支持模型輸出的再利用,如合成數據生成和模型蒸餾,但是對于月活躍用戶超過7億的大型組織,需要從Meta獲得商業許可,而不是使用社區許可證。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.