文:王智遠(yuǎn) | ID:Z201440
前天,寫(xiě)了一篇關(guān)于ChatGPT文生圖功能的文章。
發(fā)到知乎后,一位 2021年的年度新知答主 提出了質(zhì)疑,認(rèn)為我使用的可能不是最新的模型,因?yàn)樾屡f版本差距很大。
他指出,最新版文生圖能力很強(qiáng),而我展示的結(jié)果提示詞理解差,生成的文字也錯(cuò)誤很多。
他舉例說(shuō),像提示詞「兩個(gè)人相互推對(duì)方」這種簡(jiǎn)單概念,真正最新版模型應(yīng)該能準(zhǔn)確表現(xiàn)。他還建議我檢查是否使用了新模型,并給了我一個(gè)鏈接,稱(chēng)那是最新版的界面。
他還分享了一個(gè)驗(yàn)證方法:
輸入100+個(gè)英文單詞,如果文字全亂就是其他模型(如DALL·E),如果只錯(cuò)一兩個(gè)字母才是最新版的ChatGPT
他還曬出了兩次按我的提示詞生成的結(jié)果,質(zhì)疑不能都用“隨機(jī)性”來(lái)解釋。被他這么一說(shuō),我懷疑自己用錯(cuò)了模型,我之前用的ChatGPT客戶(hù)端,拿它生成的來(lái)比,效果的確有有差異,于是,決定重新試一下。
首先,我用了這位新知答主給我的提示詞,如下:
Alright, here’s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon
英文原意比較長(zhǎng),翻譯成縮減的中文是:
從正上方俯拍的 12 種花,呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子;第二行有晚香玉、梔子花和茉莉;
第三行有康乃馨、牡丹和粉色風(fēng)信子;第四行有藍(lán)鳶尾、紫羅蘭和紫藤。所有的花都放在一個(gè)帶玻璃底的木質(zhì)托盤(pán)上,玻璃上有一層透明的動(dòng)物脂肪。照片拍攝于一個(gè)陽(yáng)光明媚的下午,托盤(pán)被陽(yáng)光完全照亮。
ChatGPT 很快給出了答案。這次生成與以往不同的是,它補(bǔ)充了一句話:根據(jù)你的描述,這是由 DALL·E 創(chuàng)建的。DALL·E 是 OpenAI 的圖像生成模型。
看來(lái),不僅我遇到過(guò)前天提到的模型混淆問(wèn)題,估計(jì)國(guó)外友人也遇到過(guò)類(lèi)似情況。
從這里可以得出一個(gè)結(jié)論:ChatGPT 官方提到的免費(fèi)試用最新的非自回歸模型(Non-autoregressive models)似乎并不支持,或者說(shuō)做了一定限制。
于是,我直接把問(wèn)題拋給了 ChatGPT:如何運(yùn)用最新的文生圖模型?”它給出了三種答案:
第一種是直接使用 ChatGPT 內(nèi)置的圖像生成功能,直接輸入詳細(xì)的描述,它會(huì)用最新的模型生成圖像。你可以?xún)?yōu)化提示詞(Prompt),比如:
- 具體描述主體、背景、光照、風(fēng)格等
- 指定構(gòu)圖,比如“俯視圖”“廣角鏡頭”
- 選擇藝術(shù)風(fēng)格,如“油畫(huà)風(fēng)”“賽博朋克風(fēng)”
第二種是使用 API,你可以進(jìn)行批量生成或?qū)⑵浼械阶髌分校坏谌N則是純介紹,它提到新的文生圖模型做了多模態(tài)結(jié)合,生成帶有故事性的連續(xù)圖像,用 AI 先生成草圖,再細(xì)化成精美插畫(huà)等。
不想太多,我直接按照的要求,把任務(wù)交給了 Kimi,讓 Kimi 幫我生成一個(gè)提示詞:
在昏暗的復(fù)古書(shū)房里,一盞臺(tái)燈散發(fā)著柔和的暖光,照亮了一張古老的木質(zhì)書(shū)桌。書(shū)桌上散落著幾本泛黃的書(shū)籍和一支羽毛筆,旁邊是一杯冒著熱氣的紅茶。畫(huà)面采用油畫(huà)風(fēng)格,營(yíng)造出寧?kù)o而懷舊的氛圍,仿佛時(shí)間在這里靜止。
ChatGPT生成的圖片如下,但是,它依然還是那句話,這是由 DALL·E 生成的圖像,展現(xiàn)了你描述的復(fù)古書(shū)房氛圍;很快,ChatGPT 將推出新的圖像生成模型,帶來(lái)更好的細(xì)節(jié)和風(fēng)格控制。
所以,結(jié)論是:ChatGPT模型是無(wú)法使用最新的文生圖模型的。怎么辦?為了驗(yàn)證準(zhǔn)確度,好久沒(méi)有給ChatGPT充值的我,索性再來(lái)了一個(gè)月會(huì)員。
搞定后,切換到ChatGPT 4o對(duì)話界面,輸入提示詞:
在一片寧?kù)o的海邊小鎮(zhèn),夕陽(yáng)的余暉灑在古老的燈塔上,燈塔的影子拉得很長(zhǎng)。遠(yuǎn)處的海面上,幾艘小船在金色的波光中緩緩航行,天空中飄著幾朵粉色的云。畫(huà)面采用水彩畫(huà)風(fēng)格,色彩柔和而溫暖,營(yíng)造出一種寧?kù)o而夢(mèng)幻的氛圍。
響應(yīng)速度有點(diǎn)慢,不過(guò),生成的圖片的確有意境:
所以,必須ChatGPT 4o才可以用,GPT還是老版本的DALL·E模型。隨后,我又給它了一個(gè)卡通人物的提示詞:
一個(gè)活潑可愛(ài)的卡通小貓,有著大大的藍(lán)色眼睛和柔軟的粉色耳朵,身上穿著一件紅色的小背帶褲,腳上蹬著一雙黃色的小靴子。
它正站在一個(gè)充滿魔法的森林里,周?chē)俏孱伭哪⒐胶烷W爍的螢火蟲(chóng)。畫(huà)面采用卡通風(fēng)格,色彩鮮艷明亮,營(yíng)造出一種奇幻又歡樂(lè)的氛圍。畫(huà)面比例為4:3。
我很好奇它能生成什么樣的畫(huà)面。你覺(jué)得怎么樣呢?
我確實(shí)不太好評(píng)價(jià),只能說(shuō)這張圖風(fēng)格可愛(ài)、充滿童趣,色彩溫馨。如果用在兒童讀物、繪本,或者早教、幼教的互動(dòng)課件、手工素材里,肯定是足夠的。
接著我把圖片拿給豆包,讓他深度思考一下,說(shuō):你評(píng)價(jià)一下效果怎么樣?我用的是ChatGPT 4o的最新文生圖模型。
豆包說(shuō):
這幅圖還挺不錯(cuò)。小貓的表情和衣服細(xì)節(jié)畫(huà)得挺生動(dòng),蘑菇和螢火蟲(chóng)也很有感覺(jué)。暖色調(diào)的小貓配上冷色的夜景,色彩搭配和諧,營(yíng)造出一種夢(mèng)幻又可愛(ài)的氛圍。
小貓?jiān)诋?huà)面中間,構(gòu)圖看著很舒服,主題也很突出。畫(huà)面整體質(zhì)量挺高,能用到不少地方,這模型生成的效果挺好。”
但是,問(wèn)題來(lái)了,測(cè)試文生圖也看不出它的厲害之處,試試它兩張圖的融合能力怎么樣?
我從百度上隨機(jī)下載了兩個(gè)水杯的圖片,這兩個(gè)水杯都處于真實(shí)的場(chǎng)景中,且每個(gè)水杯都有手拿著。我想看看它是否能把手摳掉,把兩個(gè)杯子放在同一個(gè)平面上。
然后給到 Kimi,讓 Kimi 幫我寫(xiě)個(gè)提示詞:
請(qǐng)將兩張水杯圖片中的手部部分去除,僅保留水杯本身,確保水杯的細(xì)節(jié)清晰完整。背景保持簡(jiǎn)潔,以便用于電商海報(bào)設(shè)計(jì)。水杯的光影和質(zhì)感需要保留,確保整體畫(huà)面自然且具有吸引力。
第一次它好像卡住了,跟我說(shuō):抱歉,我處理不了你的要求,要不你再試試?
估計(jì)是用的人太多了。我重新開(kāi)個(gè)窗口,這回它很快就有反應(yīng)了。問(wèn)題是,第一張照片處理得挺干凈,但第二張直接被忽略了。
這下我可不干了,直接把要求說(shuō)得清清楚楚,一共四點(diǎn):
把兩只手都去掉,只留下水杯;水杯的細(xì)節(jié)、質(zhì)感和光影得保留好,看著得自然;背景要簡(jiǎn)單干凈,突出水杯;兩個(gè)水杯放在一起,比例要協(xié)調(diào),畫(huà)面得好看。還特別提醒它,尺寸要4:3的。
結(jié)果它花了大概40秒,就搞定了。看到結(jié)果時(shí),真的只能驚嘆:“這也太厲害了”,設(shè)計(jì)師要下崗了。
你覺(jué)得怎么樣?速度、效率遠(yuǎn)比人工摳圖搞的快。
我又試了試Chat GPT 4o新出的知識(shí)圖功能,官方吹的吹得神乎其神,說(shuō)有了這功能,AI生成圖片能把現(xiàn)實(shí)世界里的知識(shí)用起來(lái),更懂用戶(hù)想啥,做出來(lái)的圖也更靠譜、更合乎常理。
簡(jiǎn)單說(shuō):AI畫(huà)畫(huà)會(huì)琢磨現(xiàn)實(shí)里的那些細(xì)節(jié),比如地方在哪兒、啥文化背景,還有物理規(guī)律那些。
這次,讓deepseek來(lái),我說(shuō),你幫我寫(xiě)一個(gè)帶因果邏輯的文生圖的提示詞。有一個(gè)細(xì)節(jié)就是圖片比例依然是4:3。這是它隨機(jī)給到的:
內(nèi)容是一個(gè)陽(yáng)光明媚的下午,一個(gè)小男孩坐在公園的長(zhǎng)椅上,手里拿著一個(gè)冰淇淋,臉上露出開(kāi)心的笑容。
因?yàn)樗麆傇谟螛?lè)場(chǎng)玩得很開(kāi)心,現(xiàn)在正享受著美味的冰淇淋。畫(huà)面采用溫馨的色調(diào),背景是綠樹(shù)成蔭的公園,遠(yuǎn)處有幾個(gè)小朋友在玩耍。圖片比例為4:3,整體風(fēng)格清新自然。
額,這看不出什么因果邏輯。怎么辦?重新來(lái)過(guò)。索性直接把「定律」加在圖中間。這是deepseek給我的兩個(gè)提示詞:
一個(gè)是杠桿定律:生成一張圖,一個(gè)小孩在蹺蹺板上,通過(guò)杠桿原理把一個(gè)重物抬起來(lái)。小孩用力往下壓,重物被抬高,體現(xiàn)杠桿原理。背景簡(jiǎn)單,比例4:3。
如上圖。這看著像嗎?的確很杠桿。給豆包后,它說(shuō):
這圖是說(shuō),有個(gè)小孩在壓蹺蹺板一頭,想把另一頭的大重物撬起來(lái)。就像玩蹺蹺板,坐一頭能把另一頭的人翹起來(lái),利用這個(gè)方法,不用費(fèi)老不用費(fèi)老大勁就能把重東西抬起來(lái),是一種省力的小竅門(mén)。
的確有點(diǎn)強(qiáng)。不過(guò)興許有些簡(jiǎn)單,換一個(gè):就拿「相對(duì)論的時(shí)間膨脹效應(yīng)」來(lái)測(cè)試。
提示詞:
生成一張圖,展示兩個(gè)人:Alice 在地球上,Bob 在高速飛行的宇宙飛船里。因?yàn)橄鄬?duì)論的時(shí)間膨脹效應(yīng),Bob 看起來(lái)比 Alice 年輕。地球上 Alice 在慢慢變老,而飛船里的 Bob 幾乎沒(méi)變。背景簡(jiǎn)單,比例4:3。
你能看得出來(lái)嗎?
反正我能看得懂。不過(guò),第一次生成時(shí),Alice的名字被放在了腳下面,看起來(lái)有點(diǎn)奇怪。經(jīng)過(guò)二次對(duì)話微調(diào)后,成功地把名字放到了正確的位置。
我認(rèn)為還能在進(jìn)化,比如:指定人物的性別等等。
除了文生圖、圖片與圖片合成、以及生成理解物理世界規(guī)律的圖以外,還有沒(méi)有其他玩法呢?
試試風(fēng)格轉(zhuǎn)換。比如:將一張人物照片轉(zhuǎn)換為動(dòng)漫風(fēng)格,或者將一張圖片的風(fēng)格與另一張圖片的內(nèi)容融合,這種技術(shù)在藝術(shù)創(chuàng)作和設(shè)計(jì)時(shí)非常受用。
問(wèn)題是怎么轉(zhuǎn)換呢?我現(xiàn)在有一張個(gè)人形象照,把問(wèn)題甩給DeepSeek,讓它幫我想想。
DeepSeek說(shuō):如果你想測(cè)試OpenAI的ChatGPT文生圖模型的能力,可以出一個(gè)稍微復(fù)雜一點(diǎn)但又具體明確的問(wèn)題,這樣既能考驗(yàn)?zāi)P偷睦斫饽芰Γ帜軠y(cè)試它的生成能力。
比如:我有一張個(gè)人形象照,我想把它變成動(dòng)漫風(fēng)格。希望你能幫我把照片里的我變成一個(gè)動(dòng)漫角色,頭發(fā)換成深藍(lán)色的,整體風(fēng)格有點(diǎn)賽博朋克那種酷酷的感覺(jué)。圖片比例是4:3就行。
不管了,一股腦甩給ChatGPT 4o來(lái)處理。這好像有點(diǎn)翻車(chē)了。不過(guò),可能我要求太高了。
的確有點(diǎn)抽象,你怎么看?
不管怎么說(shuō),非自回歸模型(Non-autoregressive models)的進(jìn)化速度確實(shí)很快,它改變了核心架構(gòu)。
這個(gè)架構(gòu)會(huì)先理解整個(gè)圖的結(jié)構(gòu)和細(xì)節(jié),有點(diǎn)像學(xué)生先聽(tīng)完老師講完題目,把整張畫(huà)的輪廓勾勒出來(lái),然后再一點(diǎn)點(diǎn)填充細(xì)節(jié)。
國(guó)內(nèi)很多產(chǎn)品也在用這種能力了,希望能抓緊時(shí)間趕上并超越它。作為個(gè)人,我們也要思考一下:
如何快速掌握AI生成圖片的能力,并把它用到工作場(chǎng)景中。說(shuō)到這兒,問(wèn)題就來(lái)了:你會(huì)用它做什么呢?快去試試吧,記得,用ChatGPT 4o模型才有。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.