網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

被誤導(dǎo)兩天，GPT-4o文生圖模型強(qiáng)到可怕

2025-03-29 13:43:53　來(lái)源: 智遠(yuǎn)同學(xué)

北京舉報(bào)

分享至

文：王智遠(yuǎn) | ID:Z201440

前天，寫(xiě)了一篇關(guān)于ChatGPT文生圖功能的文章。

發(fā)到知乎后，一位 2021年的年度新知答主提出了質(zhì)疑，認(rèn)為我使用的可能不是最新的模型，因?yàn)樾屡f版本差距很大。

他指出，最新版文生圖能力很強(qiáng)，而我展示的結(jié)果提示詞理解差，生成的文字也錯(cuò)誤很多。

他舉例說(shuō)，像提示詞「兩個(gè)人相互推對(duì)方」這種簡(jiǎn)單概念，真正最新版模型應(yīng)該能準(zhǔn)確表現(xiàn)。他還建議我檢查是否使用了新模型，并給了我一個(gè)鏈接，稱(chēng)那是最新版的界面。

他還分享了一個(gè)驗(yàn)證方法：

輸入100+個(gè)英文單詞，如果文字全亂就是其他模型（如DALL·E），如果只錯(cuò)一兩個(gè)字母才是最新版的ChatGPT

他還曬出了兩次按我的提示詞生成的結(jié)果，質(zhì)疑不能都用“隨機(jī)性”來(lái)解釋。被他這么一說(shuō)，我懷疑自己用錯(cuò)了模型，我之前用的ChatGPT客戶(hù)端，拿它生成的來(lái)比，效果的確有有差異，于是，決定重新試一下。

首先，我用了這位新知答主給我的提示詞，如下：

Alright, here’s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英文原意比較長(zhǎng)，翻譯成縮減的中文是：

從正上方俯拍的 12 種花，呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子；第二行有晚香玉、梔子花和茉莉；

第三行有康乃馨、牡丹和粉色風(fēng)信子；第四行有藍(lán)鳶尾、紫羅蘭和紫藤。所有的花都放在一個(gè)帶玻璃底的木質(zhì)托盤(pán)上，玻璃上有一層透明的動(dòng)物脂肪。照片拍攝于一個(gè)陽(yáng)光明媚的下午，托盤(pán)被陽(yáng)光完全照亮。

ChatGPT 很快給出了答案。這次生成與以往不同的是，它補(bǔ)充了一句話：根據(jù)你的描述，這是由 DALL·E 創(chuàng)建的。DALL·E 是 OpenAI 的圖像生成模型。

看來(lái)，不僅我遇到過(guò)前天提到的模型混淆問(wèn)題，估計(jì)國(guó)外友人也遇到過(guò)類(lèi)似情況。

從這里可以得出一個(gè)結(jié)論：ChatGPT 官方提到的免費(fèi)試用最新的非自回歸模型（Non-autoregressive models）似乎并不支持，或者說(shuō)做了一定限制。

于是，我直接把問(wèn)題拋給了 ChatGPT：如何運(yùn)用最新的文生圖模型？”它給出了三種答案：

第一種是直接使用 ChatGPT 內(nèi)置的圖像生成功能，直接輸入詳細(xì)的描述，它會(huì)用最新的模型生成圖像。你可以?xún)?yōu)化提示詞（Prompt），比如：

具體描述主體、背景、光照、風(fēng)格等
指定構(gòu)圖，比如“俯視圖”“廣角鏡頭”
選擇藝術(shù)風(fēng)格，如“油畫(huà)風(fēng)”“賽博朋克風(fēng)”

第二種是使用 API，你可以進(jìn)行批量生成或?qū)⑵浼械阶髌分校坏谌N則是純介紹，它提到新的文生圖模型做了多模態(tài)結(jié)合，生成帶有故事性的連續(xù)圖像，用 AI 先生成草圖，再細(xì)化成精美插畫(huà)等。

不想太多，我直接按照的要求，把任務(wù)交給了 Kimi，讓 Kimi 幫我生成一個(gè)提示詞：

在昏暗的復(fù)古書(shū)房里，一盞臺(tái)燈散發(fā)著柔和的暖光，照亮了一張古老的木質(zhì)書(shū)桌。書(shū)桌上散落著幾本泛黃的書(shū)籍和一支羽毛筆，旁邊是一杯冒著熱氣的紅茶。畫(huà)面采用油畫(huà)風(fēng)格，營(yíng)造出寧?kù)o而懷舊的氛圍，仿佛時(shí)間在這里靜止。

ChatGPT生成的圖片如下，但是，它依然還是那句話，這是由 DALL·E 生成的圖像，展現(xiàn)了你描述的復(fù)古書(shū)房氛圍；很快，ChatGPT 將推出新的圖像生成模型，帶來(lái)更好的細(xì)節(jié)和風(fēng)格控制。

所以，結(jié)論是：ChatGPT模型是無(wú)法使用最新的文生圖模型的。怎么辦？為了驗(yàn)證準(zhǔn)確度，好久沒(méi)有給ChatGPT充值的我，索性再來(lái)了一個(gè)月會(huì)員。

搞定后，切換到ChatGPT 4o對(duì)話界面，輸入提示詞：

在一片寧?kù)o的海邊小鎮(zhèn)，夕陽(yáng)的余暉灑在古老的燈塔上，燈塔的影子拉得很長(zhǎng)。遠(yuǎn)處的海面上，幾艘小船在金色的波光中緩緩航行，天空中飄著幾朵粉色的云。畫(huà)面采用水彩畫(huà)風(fēng)格，色彩柔和而溫暖，營(yíng)造出一種寧?kù)o而夢(mèng)幻的氛圍。

響應(yīng)速度有點(diǎn)慢，不過(guò)，生成的圖片的確有意境：

所以，必須ChatGPT 4o才可以用，GPT還是老版本的DALL·E模型。隨后，我又給它了一個(gè)卡通人物的提示詞：

一個(gè)活潑可愛(ài)的卡通小貓，有著大大的藍(lán)色眼睛和柔軟的粉色耳朵，身上穿著一件紅色的小背帶褲，腳上蹬著一雙黃色的小靴子。
它正站在一個(gè)充滿魔法的森林里，周?chē)俏孱伭哪⒐胶烷W爍的螢火蟲(chóng)。畫(huà)面采用卡通風(fēng)格，色彩鮮艷明亮，營(yíng)造出一種奇幻又歡樂(lè)的氛圍。畫(huà)面比例為4:3。

我很好奇它能生成什么樣的畫(huà)面。你覺(jué)得怎么樣呢？

我確實(shí)不太好評(píng)價(jià)，只能說(shuō)這張圖風(fēng)格可愛(ài)、充滿童趣，色彩溫馨。如果用在兒童讀物、繪本，或者早教、幼教的互動(dòng)課件、手工素材里，肯定是足夠的。

接著我把圖片拿給豆包，讓他深度思考一下，說(shuō)：你評(píng)價(jià)一下效果怎么樣？我用的是ChatGPT 4o的最新文生圖模型。

豆包說(shuō)：

這幅圖還挺不錯(cuò)。小貓的表情和衣服細(xì)節(jié)畫(huà)得挺生動(dòng)，蘑菇和螢火蟲(chóng)也很有感覺(jué)。暖色調(diào)的小貓配上冷色的夜景，色彩搭配和諧，營(yíng)造出一種夢(mèng)幻又可愛(ài)的氛圍。
小貓?jiān)诋?huà)面中間，構(gòu)圖看著很舒服，主題也很突出。畫(huà)面整體質(zhì)量挺高，能用到不少地方，這模型生成的效果挺好。”

但是，問(wèn)題來(lái)了，測(cè)試文生圖也看不出它的厲害之處，試試它兩張圖的融合能力怎么樣？

我從百度上隨機(jī)下載了兩個(gè)水杯的圖片，這兩個(gè)水杯都處于真實(shí)的場(chǎng)景中，且每個(gè)水杯都有手拿著。我想看看它是否能把手摳掉，把兩個(gè)杯子放在同一個(gè)平面上。

然后給到 Kimi，讓 Kimi 幫我寫(xiě)個(gè)提示詞：

請(qǐng)將兩張水杯圖片中的手部部分去除，僅保留水杯本身，確保水杯的細(xì)節(jié)清晰完整。背景保持簡(jiǎn)潔，以便用于電商海報(bào)設(shè)計(jì)。水杯的光影和質(zhì)感需要保留，確保整體畫(huà)面自然且具有吸引力。

第一次它好像卡住了，跟我說(shuō)：抱歉，我處理不了你的要求，要不你再試試？

估計(jì)是用的人太多了。我重新開(kāi)個(gè)窗口，這回它很快就有反應(yīng)了。問(wèn)題是，第一張照片處理得挺干凈，但第二張直接被忽略了。

這下我可不干了，直接把要求說(shuō)得清清楚楚，一共四點(diǎn)：

把兩只手都去掉，只留下水杯；水杯的細(xì)節(jié)、質(zhì)感和光影得保留好，看著得自然；背景要簡(jiǎn)單干凈，突出水杯；兩個(gè)水杯放在一起，比例要協(xié)調(diào)，畫(huà)面得好看。還特別提醒它，尺寸要4:3的。

結(jié)果它花了大概40秒，就搞定了。看到結(jié)果時(shí)，真的只能驚嘆：“這也太厲害了”，設(shè)計(jì)師要下崗了。

你覺(jué)得怎么樣？速度、效率遠(yuǎn)比人工摳圖搞的快。

我又試了試Chat GPT 4o新出的知識(shí)圖功能，官方吹的吹得神乎其神，說(shuō)有了這功能，AI生成圖片能把現(xiàn)實(shí)世界里的知識(shí)用起來(lái)，更懂用戶(hù)想啥，做出來(lái)的圖也更靠譜、更合乎常理。

簡(jiǎn)單說(shuō)：AI畫(huà)畫(huà)會(huì)琢磨現(xiàn)實(shí)里的那些細(xì)節(jié)，比如地方在哪兒、啥文化背景，還有物理規(guī)律那些。

這次，讓deepseek來(lái)，我說(shuō)，你幫我寫(xiě)一個(gè)帶因果邏輯的文生圖的提示詞。有一個(gè)細(xì)節(jié)就是圖片比例依然是4:3。這是它隨機(jī)給到的：

內(nèi)容是一個(gè)陽(yáng)光明媚的下午，一個(gè)小男孩坐在公園的長(zhǎng)椅上，手里拿著一個(gè)冰淇淋，臉上露出開(kāi)心的笑容。
因?yàn)樗麆傇谟螛?lè)場(chǎng)玩得很開(kāi)心，現(xiàn)在正享受著美味的冰淇淋。畫(huà)面采用溫馨的色調(diào)，背景是綠樹(shù)成蔭的公園，遠(yuǎn)處有幾個(gè)小朋友在玩耍。圖片比例為4:3，整體風(fēng)格清新自然。

額，這看不出什么因果邏輯。怎么辦？重新來(lái)過(guò)。索性直接把「定律」加在圖中間。這是deepseek給我的兩個(gè)提示詞：

一個(gè)是杠桿定律：生成一張圖，一個(gè)小孩在蹺蹺板上，通過(guò)杠桿原理把一個(gè)重物抬起來(lái)。小孩用力往下壓，重物被抬高，體現(xiàn)杠桿原理。背景簡(jiǎn)單，比例4:3。

如上圖。這看著像嗎？的確很杠桿。給豆包后，它說(shuō)：

這圖是說(shuō)，有個(gè)小孩在壓蹺蹺板一頭，想把另一頭的大重物撬起來(lái)。就像玩蹺蹺板，坐一頭能把另一頭的人翹起來(lái)，利用這個(gè)方法，不用費(fèi)老不用費(fèi)老大勁就能把重東西抬起來(lái)，是一種省力的小竅門(mén)。

的確有點(diǎn)強(qiáng)。不過(guò)興許有些簡(jiǎn)單，換一個(gè)：就拿「相對(duì)論的時(shí)間膨脹效應(yīng)」來(lái)測(cè)試。

提示詞：

生成一張圖，展示兩個(gè)人：Alice 在地球上，Bob 在高速飛行的宇宙飛船里。因?yàn)橄鄬?duì)論的時(shí)間膨脹效應(yīng)，Bob 看起來(lái)比 Alice 年輕。地球上 Alice 在慢慢變老，而飛船里的 Bob 幾乎沒(méi)變。背景簡(jiǎn)單，比例4:3。

你能看得出來(lái)嗎？

反正我能看得懂。不過(guò)，第一次生成時(shí)，Alice的名字被放在了腳下面，看起來(lái)有點(diǎn)奇怪。經(jīng)過(guò)二次對(duì)話微調(diào)后，成功地把名字放到了正確的位置。

我認(rèn)為還能在進(jìn)化，比如：指定人物的性別等等。

除了文生圖、圖片與圖片合成、以及生成理解物理世界規(guī)律的圖以外，還有沒(méi)有其他玩法呢？

試試風(fēng)格轉(zhuǎn)換。比如：將一張人物照片轉(zhuǎn)換為動(dòng)漫風(fēng)格，或者將一張圖片的風(fēng)格與另一張圖片的內(nèi)容融合，這種技術(shù)在藝術(shù)創(chuàng)作和設(shè)計(jì)時(shí)非常受用。

問(wèn)題是怎么轉(zhuǎn)換呢？我現(xiàn)在有一張個(gè)人形象照，把問(wèn)題甩給DeepSeek，讓它幫我想想。

DeepSeek說(shuō)：如果你想測(cè)試OpenAI的ChatGPT文生圖模型的能力，可以出一個(gè)稍微復(fù)雜一點(diǎn)但又具體明確的問(wèn)題，這樣既能考驗(yàn)?zāi)Ｐ偷睦斫饽芰Γ帜軠y(cè)試它的生成能力。

比如：我有一張個(gè)人形象照，我想把它變成動(dòng)漫風(fēng)格。希望你能幫我把照片里的我變成一個(gè)動(dòng)漫角色，頭發(fā)換成深藍(lán)色的，整體風(fēng)格有點(diǎn)賽博朋克那種酷酷的感覺(jué)。圖片比例是4:3就行。

不管了，一股腦甩給ChatGPT 4o來(lái)處理。這好像有點(diǎn)翻車(chē)了。不過(guò)，可能我要求太高了。

的確有點(diǎn)抽象，你怎么看？

不管怎么說(shuō)，非自回歸模型（Non-autoregressive models）的進(jìn)化速度確實(shí)很快，它改變了核心架構(gòu)。

這個(gè)架構(gòu)會(huì)先理解整個(gè)圖的結(jié)構(gòu)和細(xì)節(jié)，有點(diǎn)像學(xué)生先聽(tīng)完老師講完題目，把整張畫(huà)的輪廓勾勒出來(lái)，然后再一點(diǎn)點(diǎn)填充細(xì)節(jié)。

國(guó)內(nèi)很多產(chǎn)品也在用這種能力了，希望能抓緊時(shí)間趕上并超越它。作為個(gè)人，我們也要思考一下：

如何快速掌握AI生成圖片的能力，并把它用到工作場(chǎng)景中。說(shuō)到這兒，問(wèn)題就來(lái)了：你會(huì)用它做什么呢？快去試試吧，記得，用ChatGPT 4o模型才有。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.