智東西
作者 李水青
編輯 心緣
智東西5月27日杭州報道,今日,在螞蟻技術開放日上,螞蟻集團宣布開源理解與生成統一多模態大模型Ming-lite-omni。該模型支持將理解和生成模型合在一起調用,也可以單獨完成理解和生成任務,帶來原生全模態交互體驗。
智東西與螞蟻集團基礎智能負責人西亭等相關負責人進行了面對面對話。西亭告訴智東西,新開源的Ming-lite-omni模型有幾個值得關注的創新點:一是真正把生成和理解模型放到一個模型;二是真正意義上的全模態輸入和輸出,都支持音視頻、圖文多種形態;三是真正是以MoE為架構的模型,中間沒有串其他東西,交互性較強。
據悉,團隊希望這個模型能夠接近GPT-4o像人一樣去交互,但GPT-4o是閉源模型。所以團隊給自己設定一個目標:希望推出一款非常接近GPT-4o的原生全模態模型,而且將徹底開源。
全球頂尖AI科學家、阿里集團副總裁許主洪在會上發表演講,他認為,當下多模態大模型的一大演進趨勢,正是用統一的框架做理解和生成。這一領域發展尚處于的初級階段,需要實踐驗證。今日螞蟻開源的Ming-lite-omni,正是這一領域的代表性實踐。
▲許主洪在講解統一多模態模型產業發展脈絡
統一理解與生成的多模態大模型面臨眾多技術挑戰。在全模態交互挑戰方面,當下支持音、視、圖、文全模態交互的公開單模型非常少見;在理解與生成統一方面,圖像和語意的理解生成統一模型鮮有出現,且理解和生成效果難以平衡。
螞蟻為什么選擇在當下節點開源這樣一款“大一統”模型?
西亭告訴智東西,團隊從去年9-10月份開始就一直在嘗試和探索這件事情,之所以今年把它開放出來,也是受業界開源舉措啟發想要回饋社區。越簡潔的東西越美,很多做技術的人都希望有一個“大一統”的模型,Ming-lite-omni就是把多模態繁瑣的過程用一個較簡單的形式表達出來。就螞蟻的AGI事業部的技術路線而言,最好的AGI就是最好的產品。用戶選擇一款模型的理由就是它的智能上限高。所以團隊把追逐更好的智能能力作為目標,這也是推出Ming-lite-omni并開源的一個很大初衷。
截至目前,螞蟻集團今年已開源了多款模型,包括Ling-lite-1.5語言大模型,推理模型Ring-lite-1.5、Ring-lite-linear,以及今天推出的多模態模型Ming-lite-omni。
其中,Ling-lite-1.5整體能力已達到同等規模(16.8B-A2.75B)模型的SOTA水平,整體能力超過Qwen3-4B;Ring-lite-1.5推理能力達到Qwen3-8B水平,AlME24/GPQA/LCB平均分接近Qwen3-30B-A3B;Ring-lite-linear采用混合線性注意力機制架構,有效降低計算復雜度和顯存占用,突破長上下文推理效率瓶頸。
回顧螞蟻通用語言模型Ling的探索過程,Ling-plus及Ling-lite(0220版本)采用輕量級分布式分析、異構硬件自適應訓練策略、MoE架構優化,從而實現了同尺寸模型的SOTA(行業最佳)性能。發展到Ling-lite-1.5,其僅用2.75B激活計算,可對標10B內SOTA dense模型;再到近期開源的Ling-lite(0415版本),采用分層語料預訓練策略跟需求驅動的執行優化體系,以更少的語料和更高的質量,性能超過同尺寸下SOTA模型(如Llama-3.1-8B、Qwen2.5-7B等),大幅提升了數學、代碼等推理能力。
除了模型更新,螞蟻集團在行業大模型方面也有新進展。旗下AI健康管家不久后將上線新版本。當下,雖然基模能力越來越強,但在醫療領域仍面臨嚴肅性、專業性、復雜性和個性化多方面挑戰。AI健康管家是其與衛健委合作開發的應用,通過高質量數據資源、專業標注團隊等多方面優化模型,主打“AI就醫助理”、“AI健康咨詢”和“AI家庭醫生顧問”三方面,和個人健康檔案打通,充當健康助理角色。
結語:統一多模態,探索AGI能力上限
當下,AGI正飛速發展,一方面帶來更多商業機會,另一方面也帶來更多技術不確定性。2015年的5月27日,由于杭州市蕭山區某地光纖被挖斷導致支付寶大規模宕機,部分用戶無法使用支付寶。527這一天,因此也被設定為螞蟻的技術開放日,用以勉勵螞蟻技術人要永遠保持對技術的敬畏和創新之心。
在527技術開放日公布一系列大模型新進展,體現了螞蟻在AGI時代化挑戰為機遇的決心。一方面,螞蟻AGI團隊在探索追求智能能力的上線,打造統一多模態的AGI產品;另一方面,其開源步伐緊鑼密鼓,有望聯合社區力量共同推進大模型產業發展,也將影響AI產業格局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.