AMD在官網開源了最新小參數模型Instella-3B。比較特別的是,這是一個基AMD Instinct? MI300X GPU從頭訓練的模型。
根據測試數據顯示,Instella-3B的性能超過了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里開源的Qwen-2.5-3B,這也證明了AMD的GPU也能訓練出高性能的大模型。
開源地址:https://huggingface.co/amd/Instella-3B
Instella-3B-SFT是經過監督微調的模型,使用了89.02億tokens的數據,增強了遵循指令的能力。Instella-3B-Instruct則是經過直接偏好優化的模型,使用了7.6億tokens的數據,使模型的輸出更符合人類偏好,增強了聊天能力。
架構方面,Instella模型是基于文本的自回歸Transformer架構,擁有30億參數,包含36個解碼器層,每層有32個注意力頭,支持最長4096tokens的序列長度,詞匯量約為50,000tokens。
在預訓練和微調過程中,AMD使用了FlashAttention-2、Torch Compile和bfloat16混合精度訓練,以減少內存使用,提高計算速度和資源利用率。此外,AMD還采用了全分片數據并行(FSDP)與混合分片技術,以平衡集群內節點間的內存效率和節點內通信開銷。
Instella模型的訓練分為四個階段,每個階段都逐步增強了模型從基礎自然語言理解到遵循指令以及與人類偏好對齊的能力。在第一階段預訓練中,AMD使用了4.065萬億tokens的數據,這些數據來自OLMoE-mix-0924,是一個涵蓋編碼、學術、數學和網絡爬取等領域的高質量數據集組合。這一階段為Instella模型奠定了自然語言理解的基礎。
在第二階段預訓練中,AMD在第一階段的基礎上進一步訓練了模型,使用了額外的575.75億tokens的數據,這些數據來自多個高質量和多樣化的數據集,包括Dolmino-Mix-1124、SmolLM-Corpus(python-edu)、Deepmind Mathematics以及對話數據集等。
此外,AMD還使用了內部合成數據集,專注于數學問題。這些合成數據是通過使用GSM8k數據集的訓練集生成的,通過抽象數值、生成Python程序解決問題,并替換數值以生成新的問題-答案對。這一階段的訓練使Instella-3B模型在多個基準測試中表現出色,與現有的先進開源權重模型相比具有競爭力。
在指令微調階段,AMD使用Instella-3B作為基礎模型,使用89億tokens的高質量指令-響應對數據進行了三個周期的訓練,以增強模型在交互式環境中的表現,使其更適合執行用戶指令的任務。訓練數據來自多個任務和領域的精選數據集,確保模型能夠泛化各種指令類型。
在最后的對齊階段,AMD使用直接偏好優化(DPO)技術,以Instella-3B-SFT為基礎模型,使用7.6億tokens的數據進行了訓練,以確保模型的輸出符合人類價值觀和期望,從而提高其輸出的質量和可靠性。
Instella-3B在多個基準測試中超越了現有的全開源模型,并且與阿里開源的Qwen-2.5-3B能力差不多。例如,在MMLU、BBH和GSM8k等基準測試中,Instella-3B模型的表現優于Llama-3.2-3B和Gemma-2-2B等模型。
經過指令微調和對齊后的Instella-3B-Instruct模型在指令遵循任務和多輪問答任務中表現出色,同時在訓練數據量上更少。
本文素材來源AMD,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.