階躍星辰正式發布并開源圖像編輯大模型 Step1X-Edit,性能達到開源 SOTA。該模型總參數量為 19B (7B MLLM + 12B DiT),具備語義精準解析、身份一致性保持、高精度區域級控制三項關鍵能力;支持 11 類高頻圖像編輯任務類型,如文字替換、風格遷移、材質變換、人物修圖等。
一句話總結:Step1X-Edit,不只能“改圖”,更能“聽得懂、改得準、保得住”。
開源鏈接與體驗地址: Github: https://github.com/stepfun-ai/Step1X-Edit HuggingFace: https://huggingface.co/stepfun-ai/Step1X-Edit ModelScope: https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary 技術 Report: https://arxiv.org/pdf/2504.17761
編輯效果演示:Step1X-Edit 支持各類編輯任務
Step1X-Edit 首次在開源體系中實現 MLLM 與 DiT 的深度融合,在編輯精度與圖像保真度上實現大幅提升。在最新發布的圖像編輯基準 GEdit-Bench 中,Step1X-Edit 在語義一致性、圖像質量與綜合得分三項指標上全面領先現有開源模型,比肩 GPT-4o 與 Gemini 2.0 Flash。
Step1X-Edit 現已上線階躍AI 官網(stepfun.com)和階躍App(應用商店搜索下載即可),歡迎體驗。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01
模型特點與參數
Step1X-Edit 針對自然語言圖像編輯任務,具備以下核心能力:
語義精準解析:支持自然語言描述的復雜組合指令,指令無需模板,能夠靈活應對多輪、多任務編輯需求,同時支持對圖像中文字進行識別、替換與重構;
身份一致性保持:編輯后能穩定保留人臉、姿態與身份特征,適用于虛擬人、電商模特、社交圖像等高一致性場景;
高精度區域級控制:支持對指定區域進行文字、材質、色彩等定向編輯,保持圖像風格統一,控制能力更精細。
編輯任務效果對比:Step1X-Edit 實現最佳編輯效果與原圖一致性
02
案例上手
這個五一,不如試試用嘴改圖,無論是修圖,還是瘦身,都能一句話搞定。Step1X-Edit 已在【階躍AI 網頁端和階躍AI App】上線,歡迎前往體驗。
案例一:一句話P圖
原圖
編輯后
提示詞:給小姐姐脖子上增加一條適合她的項鏈
原圖
原圖
提示詞:把這個小女孩改成戴珍珠耳環的不高興的少女,畫風不變
案例二:物體/背景/材質,統統都能換
原圖
編輯后
提示詞:將月餅替換為包子
原圖
編輯后
提示詞:把圖里的水果變成一朵花
案例三:一句話改海報文案
原圖
編輯后
提示詞:將“GREEN” 改成“階 躍 A I”
案例四:玩轉不同風格
原圖
編輯后
提示詞:以融合超現實主義、表現主義和天真藝術的風格重繪這幅圖片,以近乎民俗的方式捕捉抽象人類情感和互動的簡單性和復雜性。原始而有機的感覺,以孩子般的方式勾勒主體輪廓。采用原生藝術風格,使用對比和分層來創造混亂但有凝聚力的視覺沖擊。俏皮地使用線條和顏色,主體元素既簡單又富有象征意義。
原圖
編輯后
提示詞:創建一張色彩鮮艷的手工簇絨地毯圖片,放置在簡單的地板背景上。地毯設計大膽、有趣,具有柔軟蓬松的質地和粗紗線細節。從上方拍攝,在自然日光下,帶有略微古怪的 DIY 美學風格。色彩鮮艷、卡通輪廓、觸感舒適的材料——類似于手工簇絨藝術地毯。
原圖
編輯后
提示詞:換成像素風格
原圖
編輯后
提示詞:將圖片改為清晨
03
技術創新
Step1X-Edit 采用 MLLM(Multimodal LLM)+ Diffusion 的解耦式架構,分別負責自然語言理解與高保真圖像生成,相比現有圖像編輯模型,該架構在指令泛化能力與圖像可控性上更具優勢。
MLLM模塊負責處理自然語言指令與圖像內容,具備多模態語義理解能力,可將復雜編輯需求解析為 latent 控制信號;
Diffusion 模塊作為圖像生成器(Image Decoder),根據 MLLM 生成的 latent 信號完成圖像的重構或局部修改,確保圖像細節保真與風格統一。
這一結構打破了傳統 pipeline 模型中“理解”和“生成”各自為政的問題,使模型在執行復雜編輯指令時具備更高的準確性與控制力。
Step1X-Edit 架構
04
訓練數據與評測結果
為了支持廣泛、復雜的圖像編輯任務,Step1X-Edit 構建了業內規模領先的圖像編輯訓練數據集,共生成 2000 萬條圖文指令三元組,最終保留超過 100 萬高質量樣本。數據覆蓋 11 類核心任務類型,包括文字替換、動作生成、風格遷移、背景調整等高頻需求,任務類型分布均衡,指令語言自然真實。
Sub-Task Distribution:數據集任務分布與樣本結構占比
在圖像編輯的 11 個細分任務中,Step1X-Edit 始終維持高質量輸出,能力分布最均衡,幾乎在所有任務維度上穩居前列,展現出強大的通用性與均衡性。
圖像編輯模型11類細分任務能力分布對比
模型評測采用自研 GEdit-Bench 基準,區別于人工合成的任務集合,該基準來源于社區真實編輯請求,更貼近產品化需求。
Step1X-Edit 在 GEdit-Bench 的三項核心指標中均大幅領先現有開源模型,表現接近 GPT-4o,在語言理解與圖像重構之間實現理想平衡。
GEdit-Bench 量化評測結果對比
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.