2024年5月,OpenAI推出了多模態大殺器GPT-4o,能聊文本、看圖片、聽音頻,簡直是個“全能選手”。 到了2025年3月26日,OpenAI又給它加了個大招——原生的圖像生成和修改功能。 這下,GPT-4o不僅會說話,還能“畫畫”和“修圖”了!
按理說大模型能畫圖已經不是什么新鮮事,從谷歌 Gemini 到 Grok、甚至豆包都支持這些功能,而且一度風靡社交網絡。但我想說的是,GPT-4o 一經推出又是王者,還得是 OpenAI!
首先是,它支持非常長而詳細的提示詞描述,這就讓生成的圖片非常精準,這已經不是簡單的說一句話來畫圖,而是提交了一份 PRD 了,比如:
magnetic poetry on a fridge in a mid century home: Line 1: "A picture" Line 2: "is worth" Line 3: "a thousand words," Line 4: "but sometimes"Large gap Line 5: "in the right place" Line 6: "can elevate" Line 7: "its meaning. "The man is holding the words "a few" in his right hand and "words" in his left.
這個是用來生成一個冰箱上的字母貼的,可怕的是,這里精確的定義了每一行以及人物手中出現哪些字母。不過這里有個小 bug 不知道你發現沒有?(提示:手中拿著的多了一個 words)
再來看一個生成四格漫畫的,可以精確定義每一格的具體內容:
制作一個包含四個面板的圖像,并在邊框周圍留出一些空白: 一個小蝸牛在一個華麗的汽車展廳的柜臺。銷售員為了看到他,不得不將身體遠遠探過桌子。 特寫鏡頭,蝸牛看起來非常嚴肅。他說:“我想要你最快的跑車……而且我希望你在車門、引擎蓋和車頂上涂上大大的字母‘S’。” 銷售員撓著頭。“嗯……我們可以這樣做,但為什么要涂‘S’呢?” 突然切換到一輛紅色模糊的車在高速公路上疾馳。跑車上覆蓋著巨大的‘S’。人行道上的人們指著車大笑:“哇!看那輛S車!”
下面這個圖也一樣,白板上出現的每一個字,人物身上的 logo 以及白板中出現的影子,都是精確定義的:
甚至還能在生成圖的基礎上讓它更換視角,比如上圖更換為拍照者的自拍視角(和被拍人擊掌):
下面這種圖比較復雜,提示詞描述了兩個 20 歲的女巫,一個灰色挑染頭發、一個波浪形赤褐色頭發在閱讀路牌。人物手里拿著掃帚、另一個拿著魔毯,然后是路牌上的詳細信息:例如,街道清掃時間、停車許可證要求、車輛分類、拖車規則),中間還有一些荒謬的標志:(將其改寫為合法的路牌)“C 區禁止女巫使用掃帚停車”和“僅允許魔毯裝卸(15 分鐘限制)”和“僅允許馴鹿憑許可證停車(12 月 24 日至 25 日)
可以看到,除了使用非常大段而且精確的提示詞描述外,GPT-4o 還支持非常精準的文字渲染。正如官方所說:一圖勝千言,但有時在正確的位置生成幾個文字可以提升圖像的含義。4o 將精確的符號與圖像融合的能力將圖像生成轉變為視覺交流的工具。你可以用它來生成一張菜單、或者是一個邀請函:
我們似乎很難在之前出現的產品里面找到這么強大的功能,但4o 的強大還不止于此!
對于一張生成的圖,我們往往會需要多次進行修改,最終達到自己的理想狀態,因此通過對話式進行多輪圖像生成和修改成為一個必要的功能,4o 當然也支持,而且非常強大!
比如,提示詞:詳細解釋牛頓棱鏡實驗的信息圖
“現在從一個人的視角看,他在華盛頓廣場公園的一張圓形咖啡桌上,在筆記本上畫了這個圖。“
再來一次,“現在展示同一個場景,年輕的艾薩克·牛頓正坐在桌邊,手拿棱鏡演示實驗,但沒有筆記本”
你甚至可以用它一步步制作游戲,比如我們生成了一只貓:
現在,“給這只貓一頂偵探帽和一副單片眼鏡”:
接下來,“將這個創意轉化為一款采用 4K 游戲引擎制作的 AAA 級視頻游戲,并加入一些用戶界面元素作為畫面疊加層,這些元素源自一款神秘的 RPG 游戲。在畫面頂部,我們可以看到角色的生命條和迷你地圖;而在底部,則可以看到各種法術圖標。這些界面元素風格統一且具有清晰的圖標設計。“
將畫面更新為一幅 16:9 比例的風景圖,并在用戶界面上添加更多法術圖標。調整視角,以第三人稱視角展示這只貓漫步于一座蒸汽朋克風格的曼哈頓城中。通過精心設計的光影對比和冷色調色彩,打造出如頂級 AAA 游戲般令人驚艷的視覺效果。
最后一步:當玩家打開菜單時,創建用戶界面,我們看到貓的角色檔案,包括他的裝備,以及另一頁顯示活躍任務(這應該與我們在圖像中描述的宇宙世界構建相關聯)。
到這里一個游戲的場景就生成了,不僅支持了復雜的多輪圖片生成和修改,更關鍵的是在多輪中保持了圖像的一致性,這非常難得!
我們在上述的例子中,其實已經展示了 4o 一個非常強大的功能,就是指令遵循。GPT?4o 能夠根據詳細的提示進行創作,并高度關注細節。當其他系統在處理 5-8 個物體時已顯吃力,GPT?4o 卻能應對多達 10-20 個不同物體。由于物體與其特征及相互關系的緊密結合,GPT?4o 在圖像生成時擁有更高的可控性。
比如下面這個例子,這個貼紙一共有 16 個圖標,4o 可以在一個指令里面定義每一個圖標的具體內容:(提示詞見官方網站)
這有點讓人嘆為觀止了,還有這個“請給我看一下里面只有一滴紅酒的酒杯“
不得不說,這也太精準了。
GPT?4o 能夠分析用戶上傳的圖像并從中學習,將這些圖像的細節無縫整合到其生成圖像的上下文中,從而影響圖像生成的結果。
比如先生成了一張電鋸的照片:
然后:為這款鏈鋸制作一個廣告,場景是一位祖母在感恩節的餐桌上使用它來切火雞。別忘了加上一條標語。
這真有點化腐朽為神奇的感覺,以后設計師都不需要了?直接就能生成廣告圖了。
還有一個有趣的例子,就是將圖片(或一幅畫)變成真實的照片風格,比如一副中國畫:
現在使用提示詞:把這個場景拍攝成一張照片,使用單反相機(DSLR)拍攝。
這就太好玩了,很多古代的名畫勢必要煥發新生了。
還有一個有趣的是將草圖或線稿變成真實的照片感:
只需要一句提示詞就可以完成:把它變成照片
通過原生圖像生成,4o 能夠將其知識在文本和圖像之間建立聯系,從而生成一個感覺更智能且更高效的模型。在實際中,這似乎大大增強了海報類的生成,因為里面需要融入大量的知識,同時有需要通過圖像來展示:
很多 AI 工具雖然能夠生成圖片,但是總感覺 AI 味太重(說的就是你,豆包!),但GPT-4o 支持照片真實感與風格:通過在各種圖像風格上進行訓練,模型能夠令人信服地創建或轉換圖像,達到高度逼真的效果。
提示詞:一張抓拍風格的狗仔照片,照片中卡爾·馬克思正慌張地穿過美國購物中心的停車場。他不安地回頭張望,臉上滿是驚恐,顯然是在躲避鏡頭。他手里緊攥著好幾個裝滿奢侈品的亮光購物袋。外套在他身后隨風飄揚,其中一個袋子晃來晃去,似乎他正大步流星地走著。背景模糊不清,隱約可見一些車輛和燈火通明的商場入口,營造出一種匆忙的動感。相機閃光燈的強光部分使照片過曝,為畫面增添了一絲混亂和八卦小報的感覺。
提示詞:生成一張2006年6月下旬某個星期六在多倫多農貿市場的逼真照片。那是一個晴朗美好的夏日,人們正在市場中購物、享用三明治。照片的焦點應定格在一個身著牛仔連體褲、正喝著草莓香蕉奶昔的年輕亞洲女孩身上,其余背景可做模糊處理。照片風格應仿若2006年時期的數碼相機所拍攝,并帶有類似打印照片的日期時間戳。照片的寬高比應設置為3:2
提示詞:生成一張寶麗來風格的抓拍照片,照片中是四位20歲出頭、來自不同背景的朋友,他們身處一家略顯破舊的酒吧。照片的光線運用了非常直接且強烈的閃光,營造出鮮明的陰影,使照片呈現出一種過曝且復古的即顯膠片質感。色彩應稍顯柔和,以喚起人們對21世紀初聚會的懷舊之情。整體風格隨意且略帶感性。照片中不包含邊框、標志或文字。他們身后的墻上有一些有趣的涂鴉。圖像應具有很高的清晰度和細節(幾乎無顆粒感)。照片中的能量感應該是歡快且混亂的。他們要么調皮地做著鬼臉,要么微笑著,要么假裝看起來很嚴肅。其中一人應以一種嬉鬧的方式將朋友的頭鎖住。他們的嘴巴是閉著的。
通過上面這些具體的例子,我們發現 GPT-4o 確實非常強大,它能夠讓你使用非常詳細及復雜的提示詞,對“文字”可以進行非常精準的控制,可以盛大大段的文字,同時非常完美的支持多輪圖片修改,而且保持了圖片的一致性。基于 GPT 本身對文字生成和語義理解的強大,GPT-4o 在處理文字和圖片融合的場景時,表現得異常強大,這對于海報制作、廣告圖制作效果明顯。最后,它能生成非常逼真的圖像,那種 AI 味徹底消除了。
不得不說,GPT-4o 在圖像生成領域,再次成為王者!
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.