網易首頁 > 網易號 > 正文申請入駐

OpenAI深夜放大招！GPT-4o原生圖像生成上線，動動嘴就能P圖生圖，設計師要失業了？

2025-03-26 22:32:10　來源: 前沿科技學習分享圈

北京舉報

分享至

今天是2025年3月26日，科技圈再次被OpenAI點燃！就在谷歌發布Gemini 2.5的同一時間，OpenAI毫無預警地甩出“王炸”——GPT-4o原生多模態圖像生成功能正式上線。這一次，AI不僅能聽懂你的話，還能“畫”出你腦中每一個像素級的想象。從逼真照片到奇幻插畫，從精準圖表到品牌Logo，只需一句話，甚至一個眼神（如果你用語音輸入），AI就能在1分鐘內交出答卷。

更瘋狂的是，免費用戶也能用！

(提示：「創建一張逼真的照片，內容是兩名 20 多歲的女巫（一名是灰白色挑染發型，另一名是長卷的紅褐色頭發）正在閱讀一個街標。

背景：紐約威廉斯堡一條普通的城市街道，一根電線桿上完全被許多詳細的街標覆蓋（例如，街道清掃時間、需要停車許可證、車輛分類、拖車規則），包括中間的幾個荒謬的標志：Broom Parking for Witches Not Permitted in Zone C，Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。

人物：一名女巫拿著一把掃帚，另一名女巫拿著一個卷起的魔法地毯。她們在前景中，身體微微背向相機，頭部微微傾斜，仔細查看標志。

從背景到前景的構圖：街道 + 停放的汽車 + 建筑物 → 街標 → 女巫。人物必須是離拍攝相機最近的。」)

一、顛覆認知：這不是DALL-E，而是“全能大腦”的降維打擊

過去，ChatGPT生成圖像依賴DALL-E 3模型，而這次GPT-4o的突破在于——圖像生成不再是獨立模塊，而是直接嵌入多模態大模型的“原生能力”。簡單來說，同一個AI大腦既能寫詩、寫代碼，又能畫圖、改圖，甚至結合上下文“邊聊邊改”。

三大核心革新讓行業顫抖：

精準到變態的文本渲染

過去AI生成帶文字的圖像總像“抽象藝術”，但GPT-4o能完美呈現菜單、Logo甚至信息圖中的每一個字符。有用戶測試生成了一張“紐約女巫看街標”的圖片，連“Broom Parking for Witches Not Permitted in Zone C”這種荒誕標語都清晰可辨。
多輪對話修圖，像指揮設計師一樣

“把貓P上偵探帽，再加個游戲UI界面”“把電鋸廣告改成奶奶切火雞”——GPT-4o能基于聊天記錄持續優化圖像，甚至保持角色設計的一致性。一位游戲開發者稱：“迭代10版角色，發型和服裝細節都能無縫銜接，簡直像有個AI美工團隊隨叫隨到！”
知識庫+多模態聯動，讓AI真正“懂”創作

上傳一張蝸牛圖片，要求“設計三角形車輪的車輛”，GPT-4o不僅能畫出結構圖，還會自動標注專利信息；輸入“舊金山多霧成因”，它能生成帶科學圖表的信息圖，甚至調用地理知識標注關鍵數據。

（提示：「我在 Marin 開設了一家名為 Haein 的傳統概念餐廳，主打采用有機農場新鮮食材烹制的韓式料理，并根據時令供應輪換菜單。請您設計一份菜單圖片，需包含以下菜品 —— 整體風格要兼顧傳統 / 鄉村韻味與高端精致感。請為每道菜品配上優雅的彼得兔風格的插畫，確保所有文字正確呈現，并使用白色背景。

頂部：大醬湯（發酵大豆燉菜） - 18 美元

大醬湯是用當地的蘑菇、豆腐和時令蔬菜做成的，配上米飯……

底部：時令米酒 —— 每杯 12 美元」）

二、實測效果：這些圖你敢信是AI畫的？

OpenAI官方放出的案例已讓網友驚呼“瘋狂”，而普通用戶的實測更讓人瞠目結舌：

場景1：韓式餐廳菜單設計
用戶描述“傳統與高端融合的韓餐菜單，配彼得兔風格插畫”，GPT-4o生成的圖片中，菜品名稱、價格、插畫排版堪比專業設計師作品，連“時令米酒”的字體陰影都細膩逼真。
場景2：科幻級游戲角色迭代
一位開發者上傳草圖后，通過對話逐步添加“賽博朋克機械臂”“發光紋身”，GPT-4o在10次修改中始終保持角色面部特征一致，最終輸出可直接用于3D建模的設定圖。
場景3：學術圖表秒變PPT
用戶輸入“牛頓棱鏡實驗圖解”，生成信息圖后追加指令：“把圖放到咖啡桌上，加個畫圖的人”，GPT-4o立即輸出第一視角場景，連桌面的反光都真實到離譜。

網友辣評：

“OpenAI這是把Midjourney+Photoshop+PPT三合一了，還附贈一個24小時待命的藝術總監！” “以后甲方說‘感覺不對’的時候，我可以當場改給他看，再也不用熬夜了……”

三、技術內幕：人類訓練師如何“教AI畫畫”？

GPT-4o的突破背后，是一套**“人類反饋強化學習（RLHF）”**的殺手锏。OpenAI研究員Gabriel Goh透露，團隊雇傭了大量人類訓練師，專門標注AI生成圖像中的錯別字、畸形手腳、透視錯誤等問題，再讓模型從錯誤中學習。

四大技術升級點：

文本-圖像聯合訓練
模型同時學習文本、代碼和圖像的關聯，而非單獨處理圖像；
上下文感知生成
能記住聊天歷史中的圖像和描述，確保多次輸出風格統一；
超強多對象處理
單張圖可容納10-20個不同物體，且能精準綁定屬性（比如“穿紅裙拿藍氣球的女人”）；
風格無縫切換
從手繪草圖到4K寫實，只需一句指令。

四、誰會被顛覆？這五大行業已瑟瑟發抖

設計行業

Logo、海報、包裝設計成本直降90%，小型企業甚至個人博主都能擁有“專屬設計團隊”。
游戲開發
NPC角色、場景原畫、UI界面均可AI生成，有團隊實測“3天做完過去1個月的美術工作量”。
教育出版

“牛頓棱鏡實驗”“細胞結構圖”等教學素材可一鍵生成，還能根據教材版本定制風格。
廣告營銷

“生成100版母親節海報A/B測試”成為可能，品牌方驚呼“再也不用為改稿扯皮了”。
影視概念設計

《流浪地球4》團隊被曝已接入GPT-4o，用于快速迭代科幻場景設定。

五、免費用戶怎么玩？手把手教你薅OpenAI羊毛

即日起，**所有ChatGPT用戶（包括免費版）**均可通過以下步驟嘗鮮：

打開ChatGPT，輸入“/image”觸發圖像模式；
用自然語言描述需求，例如：“一張賽博朋克風格的貓咪偵探海報，背景是雨夜東京，文字標題《Whisker Code》”；
添加細節參數（可選）：“比例16:9，主色調#FF5733，右側留白20%”；
生成后輸入“把貓改成三只，加上霓虹燈邊框”，AI會自動迭代。

高階技巧：

上傳圖片+指令
：拍下你的草圖，讓AI轉化成專業設計稿；
知識庫調用
：輸入“用GPT-4o的知識解釋量子計算，并生成信息圖”；
多模態組合
：先讓AI寫一首詩，再命令“把這首詩變成蛋殼紋理的卡片”。

六、冷靜！這些坑千萬別踩

盡管GPT-4o強到逆天，OpenAI也坦承其局限：

長圖易翻車
：生成海報時底部可能被裁剪，需多次調整；
非拉丁文字偶現亂碼
：中文標語建議生成后人工校對；
版權黑洞
：訓練數據含大量未授權藝術作品，商用需謹慎。

七、終極預言：AI消滅創意，還是解放人類？

Sam Altman說這是“創作自由的新高度”，但藝術家群體已分裂成兩派：

樂觀派

“AI把重復勞動自動化，人類終于可以專注真正的創意！”
悲觀派

“當甲方自己會生成100版方案，設計師連改稿的機會都沒了……”

無論如何，一個事實已無法逆轉：誰先掌握GPT-4o，誰就握住了視覺時代的入場券。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.