京東探索研究院 投稿
量子位 | 公眾號 QbitAI
京東探索研究院關于大模型的最新研究,登上了Nature旗下期刊!
該項研究提出了一種在開放環境場景中訓練、更新大模型,并與小模型協同部署的系統與方法。
它通過模型蒸餾、數據治理、訓練優化與云邊協同四大創新,這個項目將大模型推理效率平均提升30%,訓練成本降低70%。
這個名為《Omniforce:以人為中心的、賦能大模型的、云邊協同的自動機器學習系統》的項目,發表在Nature旗下期刊npj Artificial Intelligence上。
據介紹,這是國內首個系統性解決開放環境下大模型開發效率難題并獲國際頂刊認證的研究成果。
提出四個創新方法,推理平均提效30%
企業將大模型應用付諸實踐,面臨著諸多卡點:
一方面進入大模型應用門檻高,另一方面模型訓練與推理效率低。
京東大模型開發計算技術,能支持企業的模型開發訓練及生產,讓龐大、重型的AI模型“瘦身”成精悍的小模型,精華依舊,效率大增,瘦身不降智。
既能節省算力資源,加速推理,還能適應多平臺,廣泛部署到更多平臺上。
論文中提出了四個創新方法:
- 模型蒸餾:采用動態分層蒸餾技術,特別是在預訓練階段進行蒸餾,調整僅0.5%的參數實現低資源場景下的高效訓練,減少大型模型的部署成本。
- 數據治理:提出跨領域數據動態采樣算法,自動混合不同領域數據,并引入隱私保護和主動學習技術,提升大模型泛化能力。
- 訓練優化:使用貝葉斯優化(BO)框架進行超參數優化和架構搜索,尤其是擅長處理離散空間,MPMD場景下資源利用率提升40%。
- 云邊協同:支持在云端進行模型搜索和訓練,邊緣設備負責部署和推理,并利用兩階段壓縮策略以適應資源限制,提升云邊協作的高效性。
值得一提的是,該平臺還可支持京東大模型、Llama、DeepSeek等多個模型的蒸餾、推理。
在模型蒸餾層面,效果較同量級模型有明顯提升。
以京東大模型為例,蒸餾后的大模型Livebench提升14分。
大量的實驗結果也證明有效性和效率,推理平均提效30%,訓練成本平均降低70%。
根據企業自身業務,將通用模型轉化為專業模型
這套京東沉淀下來的大模型開發計算的技術,支撐了JoyBuild大模型開發計算平臺,廣泛服務行業用戶。
JoyBuild能夠為客戶的大模型開發和行業應用開發,提供定制化解決方案。
它支持各類模型的調優開發,內置20余種開源模型和豐富的數據集,并提供100余種算法和工具鏈,幫助企業根據自身業務特征,將通用模型迅速轉化為專業模型,一站式應用大模型。
現在,不到一周時間,企業即可完成從數據準備、模型訓練到模型部署的全流程;之前需要10余人的科學家團隊工作,現在只需要1-2個算法人員;通過平臺模型加速工具優化,節約90%的推理成本。
京東豐富的業務場景,還為平臺上的基礎大模型提供具體的行業應用場景,加速基于大模型的商業化落地。
在行業知識庫之外,JoyBuild沉淀了京東自己的零售、物流、健康、金融等行業Know-How,可應用于供應鏈優化、智能客服、營銷內容生成等各類場景,加速模型普惠。
京東給出的大模型解法并不是“黑箱”,而是一條解決大模型訓練效率及應用問題的通用路徑,是真正的“授之以漁”。
未來,京東將進一步提升大模型開發與計算效率,讓中小型和大型企業都能低成本、高效構建專屬AI應用,助推AI規?;瘧寐涞亍?/p>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.