作者|沐風
來源|AI先鋒官
前兩天,OpenAI剛剛開源了AI生圖模型GPT-image-1,緊接著,階躍星辰就上線并開源了與GPT-4o和Gemini2 Flash等閉源模型相當的的圖像編輯模型Step1X-Edit。
你可以用它新增、刪除圖片中的目標,換句話說,它其實就是“開源AI版Adobe Photoshop”
并且,階躍星辰將Step1X-Edit的論文、模型、代碼、評測數據集一次性全部放出來來了。
現在登錄階躍AI官網(stepfun.com)或App即可使用。
在針對自然語言圖像編輯任務,Step1X-Edit具備以下核心能力:
語義精準解析:支持自然語言描述的復雜組合指令,指令無需模板,能夠靈活應對多輪、多任務編輯需求,同時支持對圖像中文字進行識別、替換與重構;
身份一致性保持:編輯后能穩定保留人臉、姿態與身份特征;
高精度區域級控制:支持對指定區域進行文字、材質、色彩等定向編輯,保持圖像風格統一。
據介紹,Step1X-Edit首次在開源體系中實現MLLM與DiT的深度融合。
MLLM 模塊負責處理自然語言指令與圖像內容,具備多模態語義理解能力,可將復雜編輯需求解析為latent控制信號;
Diffusion模塊再根據MLLM生成的latent信號完成圖像的重構或局部修改,確保圖像細節保真與風格統一。
這一結構使得模型在編輯精度與圖像保真度上實現大幅提升,換句話說就是“聽得懂、改得準、保得住”。
為了訓練模型,階躍星辰構建了一個高質量的數據集,共生成2000萬條圖文指令三元組,最終保留樣本超過100萬條。
數據覆蓋11類高頻圖像編輯任務類型,包括文字替換、風格遷移、材質變換、人物修圖等需求。
另外,階躍星辰還開發了一個植根于真實世界用戶指令的新型基準測試GEdit-Bench。
基于該基準,在語義一致性、圖像質量與綜合得分三項指標上,評測了包括開源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)和閉源模型(GPT-4o、豆包、Gemini 2.0 Flash)。
針對閉源模型(如GPT-4o)因安全策略拒絕部分指令的情況,報告分為兩類測試結果,分別為:
交集子集:所有模型均成功返回結果的樣本
全集:基準中所有樣本(僅統計模型成功生成的案例)。
測試結果表明,Step1X-Edit在11個評估維度上全面超越開源模型,比肩GPT-4o、豆包和Gemini 2.0 Flash。
同時,為全面測試多語言能力,每個樣本均配對了中英文指令:
在中文指令測試集(GEdit-Bench-CN)中,Step1X-Edit表現穩定,部分指標超越Gemini 2.0 Flash和豆包。
官方也放出了Step1X-Edit與多個的模型(豆包、Gemini、GPT-4o)在相同輸入下的圖像編輯效果。
可以發現:Step1X-Edit的圖像編輯效果更好,生成的圖像更自然一些。
當然,小編還是更傾向與實際體驗,所以這就讓它來改幾張圖試試。
左為原圖,右為Step1X-Edit修改圖
提示詞:給小姐姐脖子上增加一條適合她的項鏈
提示詞:去除圖片中人物脖子上的項鏈
提示詞:將圖片中的小熊形狀的月餅更換為小兔子形狀
提示詞:將圖片里的場景改為“草原”
提示詞:將頭發從自然披散改為馬尾辮
提示詞:將圖片改為像素風格
提示詞:將圖片中的小男孩改為女孩,頭發自然披散至肩部,吉卜力風格
整體看起來相當不錯。
不過,小編建議,在修改圖片時將你的需求盡量寫詳細,不然的話......如下。
提示詞:將圖片中的小男孩改為女孩
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.