網易首頁 > 網易號 > 正文申請入駐

GPT-4o 已成為文生圖王者！

2025-03-26 08:07:39　來源: AI范兒

上海舉報

分享至

2024年5月，OpenAI推出了多模態大殺器GPT-4o，能聊文本、看圖片、聽音頻，簡直是個“全能選手”。到了2025年3月26日，OpenAI又給它加了個大招——原生的圖像生成和修改功能。這下，GPT-4o不僅會說話，還能“畫畫”和“修圖”了！

按理說大模型能畫圖已經不是什么新鮮事，從谷歌 Gemini 到 Grok、甚至豆包都支持這些功能，而且一度風靡社交網絡。但我想說的是，GPT-4o 一經推出又是王者，還得是 OpenAI！

首先是，它支持非常長而詳細的提示詞描述，這就讓生成的圖片非常精準，這已經不是簡單的說一句話來畫圖，而是提交了一份 PRD 了，比如：

magnetic poetry on a fridge in a mid century home: Line 1: "A picture" Line 2: "is worth" Line 3: "a thousand words," Line 4: "but sometimes"Large gap Line 5: "in the right place" Line 6: "can elevate" Line 7: "its meaning. "The man is holding the words "a few" in his right hand and "words" in his left.

這個是用來生成一個冰箱上的字母貼的，可怕的是，這里精確的定義了每一行以及人物手中出現哪些字母。不過這里有個小 bug 不知道你發現沒有？（提示：手中拿著的多了一個 words）

再來看一個生成四格漫畫的，可以精確定義每一格的具體內容：

制作一個包含四個面板的圖像，并在邊框周圍留出一些空白：一個小蝸牛在一個華麗的汽車展廳的柜臺。銷售員為了看到他，不得不將身體遠遠探過桌子。特寫鏡頭，蝸牛看起來非常嚴肅。他說：“我想要你最快的跑車……而且我希望你在車門、引擎蓋和車頂上涂上大大的字母‘S’。” 銷售員撓著頭。“嗯……我們可以這樣做，但為什么要涂‘S’呢？” 突然切換到一輛紅色模糊的車在高速公路上疾馳。跑車上覆蓋著巨大的‘S’。人行道上的人們指著車大笑：“哇！看那輛S車！”

下面這個圖也一樣，白板上出現的每一個字，人物身上的 logo 以及白板中出現的影子，都是精確定義的：

甚至還能在生成圖的基礎上讓它更換視角，比如上圖更換為拍照者的自拍視角（和被拍人擊掌）：

下面這種圖比較復雜，提示詞描述了兩個 20 歲的女巫，一個灰色挑染頭發、一個波浪形赤褐色頭發在閱讀路牌。人物手里拿著掃帚、另一個拿著魔毯，然后是路牌上的詳細信息：例如，街道清掃時間、停車許可證要求、車輛分類、拖車規則），中間還有一些荒謬的標志：（將其改寫為合法的路牌）“C 區禁止女巫使用掃帚停車”和“僅允許魔毯裝卸（15 分鐘限制）”和“僅允許馴鹿憑許可證停車（12 月 24 日至 25 日）

可以看到，除了使用非常大段而且精確的提示詞描述外，GPT-4o 還支持非常精準的文字渲染。正如官方所說：一圖勝千言，但有時在正確的位置生成幾個文字可以提升圖像的含義。4o 將精確的符號與圖像融合的能力將圖像生成轉變為視覺交流的工具。你可以用它來生成一張菜單、或者是一個邀請函：

我們似乎很難在之前出現的產品里面找到這么強大的功能，但4o 的強大還不止于此！

對于一張生成的圖，我們往往會需要多次進行修改，最終達到自己的理想狀態，因此通過對話式進行多輪圖像生成和修改成為一個必要的功能，4o 當然也支持，而且非常強大！

比如，提示詞：詳細解釋牛頓棱鏡實驗的信息圖

“現在從一個人的視角看，他在華盛頓廣場公園的一張圓形咖啡桌上，在筆記本上畫了這個圖。“

再來一次，“現在展示同一個場景，年輕的艾薩克·牛頓正坐在桌邊，手拿棱鏡演示實驗，但沒有筆記本”

你甚至可以用它一步步制作游戲，比如我們生成了一只貓：

現在，“給這只貓一頂偵探帽和一副單片眼鏡”：

接下來，“將這個創意轉化為一款采用 4K 游戲引擎制作的 AAA 級視頻游戲，并加入一些用戶界面元素作為畫面疊加層，這些元素源自一款神秘的 RPG 游戲。在畫面頂部，我們可以看到角色的生命條和迷你地圖；而在底部，則可以看到各種法術圖標。這些界面元素風格統一且具有清晰的圖標設計。“

將畫面更新為一幅 16:9 比例的風景圖，并在用戶界面上添加更多法術圖標。調整視角，以第三人稱視角展示這只貓漫步于一座蒸汽朋克風格的曼哈頓城中。通過精心設計的光影對比和冷色調色彩，打造出如頂級 AAA 游戲般令人驚艷的視覺效果。

最后一步：當玩家打開菜單時，創建用戶界面，我們看到貓的角色檔案，包括他的裝備，以及另一頁顯示活躍任務（這應該與我們在圖像中描述的宇宙世界構建相關聯）。

到這里一個游戲的場景就生成了，不僅支持了復雜的多輪圖片生成和修改，更關鍵的是在多輪中保持了圖像的一致性，這非常難得！

我們在上述的例子中，其實已經展示了 4o 一個非常強大的功能，就是指令遵循。GPT?4o 能夠根據詳細的提示進行創作，并高度關注細節。當其他系統在處理 5-8 個物體時已顯吃力，GPT?4o 卻能應對多達 10-20 個不同物體。由于物體與其特征及相互關系的緊密結合，GPT?4o 在圖像生成時擁有更高的可控性。

比如下面這個例子，這個貼紙一共有 16 個圖標，4o 可以在一個指令里面定義每一個圖標的具體內容：（提示詞見官方網站）

這有點讓人嘆為觀止了，還有這個“請給我看一下里面只有一滴紅酒的酒杯“

不得不說，這也太精準了。

GPT?4o 能夠分析用戶上傳的圖像并從中學習，將這些圖像的細節無縫整合到其生成圖像的上下文中，從而影響圖像生成的結果。

比如先生成了一張電鋸的照片：

然后：為這款鏈鋸制作一個廣告，場景是一位祖母在感恩節的餐桌上使用它來切火雞。別忘了加上一條標語。

這真有點化腐朽為神奇的感覺，以后設計師都不需要了？直接就能生成廣告圖了。

還有一個有趣的例子，就是將圖片（或一幅畫）變成真實的照片風格，比如一副中國畫：

現在使用提示詞：把這個場景拍攝成一張照片，使用單反相機（DSLR）拍攝。

這就太好玩了，很多古代的名畫勢必要煥發新生了。

還有一個有趣的是將草圖或線稿變成真實的照片感：

只需要一句提示詞就可以完成：把它變成照片

通過原生圖像生成，4o 能夠將其知識在文本和圖像之間建立聯系，從而生成一個感覺更智能且更高效的模型。在實際中，這似乎大大增強了海報類的生成，因為里面需要融入大量的知識，同時有需要通過圖像來展示：

很多 AI 工具雖然能夠生成圖片，但是總感覺 AI 味太重（說的就是你，豆包！），但GPT-4o 支持照片真實感與風格：通過在各種圖像風格上進行訓練，模型能夠令人信服地創建或轉換圖像，達到高度逼真的效果。

提示詞：一張抓拍風格的狗仔照片，照片中卡爾·馬克思正慌張地穿過美國購物中心的停車場。他不安地回頭張望，臉上滿是驚恐，顯然是在躲避鏡頭。他手里緊攥著好幾個裝滿奢侈品的亮光購物袋。外套在他身后隨風飄揚，其中一個袋子晃來晃去，似乎他正大步流星地走著。背景模糊不清，隱約可見一些車輛和燈火通明的商場入口，營造出一種匆忙的動感。相機閃光燈的強光部分使照片過曝，為畫面增添了一絲混亂和八卦小報的感覺。

提示詞：生成一張2006年6月下旬某個星期六在多倫多農貿市場的逼真照片。那是一個晴朗美好的夏日，人們正在市場中購物、享用三明治。照片的焦點應定格在一個身著牛仔連體褲、正喝著草莓香蕉奶昔的年輕亞洲女孩身上，其余背景可做模糊處理。照片風格應仿若2006年時期的數碼相機所拍攝，并帶有類似打印照片的日期時間戳。照片的寬高比應設置為3:2

提示詞：生成一張寶麗來風格的抓拍照片，照片中是四位20歲出頭、來自不同背景的朋友，他們身處一家略顯破舊的酒吧。照片的光線運用了非常直接且強烈的閃光，營造出鮮明的陰影，使照片呈現出一種過曝且復古的即顯膠片質感。色彩應稍顯柔和，以喚起人們對21世紀初聚會的懷舊之情。整體風格隨意且略帶感性。照片中不包含邊框、標志或文字。他們身后的墻上有一些有趣的涂鴉。圖像應具有很高的清晰度和細節（幾乎無顆粒感）。照片中的能量感應該是歡快且混亂的。他們要么調皮地做著鬼臉，要么微笑著，要么假裝看起來很嚴肅。其中一人應以一種嬉鬧的方式將朋友的頭鎖住。他們的嘴巴是閉著的。

通過上面這些具體的例子，我們發現 GPT-4o 確實非常強大，它能夠讓你使用非常詳細及復雜的提示詞，對“文字”可以進行非常精準的控制，可以盛大大段的文字，同時非常完美的支持多輪圖片修改，而且保持了圖片的一致性。基于 GPT 本身對文字生成和語義理解的強大，GPT-4o 在處理文字和圖片融合的場景時，表現得異常強大，這對于海報制作、廣告圖制作效果明顯。最后，它能生成非常逼真的圖像，那種 AI 味徹底消除了。

不得不說，GPT-4o 在圖像生成領域，再次成為王者！

? AI范兒

要進“交流群”，請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式

點這里關注我，記得標星哦～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.