始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。歡迎成為wisemodel算力平臺用戶,新老用戶參與可獲8.88元算力券返現(xiàn)福利,A800/H20等算力6.25元/卡時,支持在線微調(diào)訓(xùn)練,及線部署和。
北大團隊通過對GPT-4o-Image的深入實驗,突破性發(fā)現(xiàn)其在視覺特征提取環(huán)節(jié)中,相較于傳統(tǒng)變分自編碼器(VAE),更依賴語義編碼器進行處理。這一關(guān)鍵洞察為統(tǒng)一模型架構(gòu)設(shè)計開辟了全新路徑。
基于上述研究成果,團隊推出UniWorld-V1統(tǒng)一生成框架。該框架創(chuàng)新性融合高分辨率對比語義編碼器與多模態(tài)大模型,僅需2.7M訓(xùn)練樣本,即可實現(xiàn)圖像理解、生成、編輯、感知等多任務(wù)處理。
實驗數(shù)據(jù)顯示,在多個權(quán)威基準測試中,UniWorld-V1的性能表現(xiàn)與使用2665M樣本訓(xùn)練的BAGEL模型、專業(yè)圖像編輯模型Step1X-Edit旗鼓相當。UniWorld-V1已上線始智AI-wisemodel開源社區(qū),支持一鍵部署在線體驗,歡迎大家前去嘗試。
模型地址
https://wisemodel.cn/models/PKU-YUAN/UniWorld-V1
01.
觀察
圖1 UniWorld在多個基準上達到先進的性能
在“編輯實驗”中,讓 GPT-4o-Image 將公交車背面的廣告涂成藍色,觀察到編輯前后黃色和綠色標簽文字的位置發(fā)生明顯不一致,說明低頻結(jié)構(gòu)沒有被嚴格保留,VAE 特征(強調(diào)低頻信息)無法解釋這一現(xiàn)象。
在“去噪實驗”中,將一張狗的圖像分別加噪至 0.4× 和 0.6×,GPT-4o-Image 對低噪圖像能夠正確去噪,但在高噪(0.6×)下將狗誤判為鹿。進一步調(diào)用 GPT-4o 和 Qwen2.5-VL 理解模塊發(fā)現(xiàn),它們對高噪圖像也一致地識別為鹿,表明 GPT-4o-Image 依賴強大的多模態(tài)理解先驗而非 VAE 的低頻信息。
綜上,這些觀察支持了 GPT-4o-Image 使用基于語義編碼器的視覺特征提取方案。
02.
架構(gòu)
基于實驗發(fā)現(xiàn),我們將原先基于 VAE 的低級控制信號替換為對比式視覺-語言模型 SigLIP 編碼器(選用最高分辨率版本 SigLIP2-so400m/14,固定輸出 512×512)。在視覺理解部分,我們沿用了先前工作中使用的 Qwen2.5-VL-7B 預(yù)訓(xùn)練模型。
對于參考圖像,同時使用 Qwen2.5-VL-7B 和 SigLIP 進行處理,并將兩者的輸出拼接后,作為 FLUX 文本分支的輸入,從而實現(xiàn)更優(yōu)的特征融合與建模。基于實驗發(fā)現(xiàn),我們將原先基于 VAE 的低級控制信號替換為對比式視覺-語言模型 SigLIP 編碼器(選用最高分辨率版本 SigLIP2-so400m/14,固定輸出 512×512)。
在視覺理解部分,我們沿用了先前工作中使用的 Qwen2.5-VL-7B 預(yù)訓(xùn)練模型。對于參考圖像,同時使用 Qwen2.5-VL-7B 和 SigLIP 進行處理,并將兩者的輸出拼接后,作為 FLUX 文本分支的輸入,從而實現(xiàn)更優(yōu)的特征融合與建模。
03.
實驗
在 GenEval 測試中,UniWorld-V1 取得總體 0.79 分;使用與 BLIP3-o 相同的提示重寫后得分提升至 0.84,已非常接近 BAGEL 的 0.88。在 WISE 基準上,UniWorld-V1 綜合得分 0.55,尤其在“空間”類題材中獲得 0.73 分,僅次于 GPT-4o-Image 的 0.89,位列其他統(tǒng)一模型之首,展現(xiàn)了其在整合世界知識生成圖像方面的競爭力。
在 ImgEdit-Bench 對比中,UniWorld-V1 以總分 3.37 位居所有開源模型之首,顯著領(lǐng)先于 Step1X-Edit 和 BAGEL(均為 3.17)。它在 Adjust(3.70)、Remove(3.54)、Extract(2.23)、Replace(3.49)和 Hybrid(3.13)五大關(guān)鍵指標上均獲開源模型最高分,展現(xiàn)了在屬性調(diào)整、元素移除、對象提取、混合編輯與內(nèi)容替換等任務(wù)中的卓越能力。
雖然 GPT-4o-Image 以 4.31 繼續(xù)領(lǐng)跑,但 UniWorld-V1 的表現(xiàn)最接近該行業(yè)標桿,標志著其在開源陣營中已實現(xiàn)媲美頂級模型的圖像編輯水平。
通過示例與 GPT-4o-Image 進行了定性對比(見圖6)。結(jié)果顯示,UniWorld-V1 在各類感知任務(wù)上表現(xiàn)不俗,甚至在許多方面超越了 GPT-4o-Image。尤其在 Canny 邊緣檢測、法線圖生成、HED、分割和草圖生成等任務(wù)中,UniWorld-V1 的指令理解與執(zhí)行能力更強。這表明其一體化架構(gòu)能夠提供廣泛且準確的圖像感知功能,是首個具備如此多樣且高保真視覺分析能力的開源統(tǒng)一模型。
04.
在線體驗
wisemodel社區(qū)上已經(jīng)上線了UniWorld-V1模型的鏡像,支持一鍵創(chuàng)建在線體驗,歡迎感興趣的前往社區(qū)體驗。首次在wisemodel社區(qū)創(chuàng)建在線體驗的用戶,同時還可以獲得返現(xiàn)8.88算力券的福利。
首先進入wisemodel社區(qū)的“應(yīng)用”模塊,選中“uniworld”的鏡像。
選擇相應(yīng)的硬件配置,其他信息都已經(jīng)預(yù)填寫了,可以根據(jù)需要調(diào)整,如果無需調(diào)整,則可以直接點擊“提交訂單”按鈕,體驗進入后臺的啟動階段。
大概等待2-3分鐘左右,體驗進入運行中的狀態(tài)。公開狀態(tài)的在線體驗可以直接在“在線體驗”的頁面上點擊相應(yīng)的體驗,進入體驗的頁面;私有狀態(tài)的在線體驗需要前往“用戶中心-我的資源-體驗”進入體驗的頁面。
體驗結(jié)束之后,也可以進入“用戶中心-我的資源-體驗”,在相應(yīng)的體驗后面操作欄,鼠標移到設(shè)置,出現(xiàn)“關(guān)閉”的按鈕,如果創(chuàng)建時設(shè)置的自動停止時間,到期后也會自動停止。
歡迎前往wisemodel.cn社區(qū)進行體驗,成為wisemodel社區(qū)的算力用戶還可以獲得8.88元的算力券返現(xiàn)福利~
編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報名:
系列模型:
8
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.