網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

奧特曼親自叫板Midjourney，GPT有了圖像生成神器，免費(fèi)用戶也能用

2025-03-27 19:43:41　來源: 搜狐科技

北京舉報

分享至

出品｜搜狐科技

作者｜梁昌均

編輯｜楊錦

深夜放大招，這次OpenAI在圖像生成上開始發(fā)力了。

3月26日凌晨，OpenAI宣布在ChatGPT和Sora中推出原生圖像生成功能。這次，OpenAI CEO山姆·奧特曼也現(xiàn)身直播，稱這是“最有趣、最酷炫的產(chǎn)品之一”和“巨大的進(jìn)步”。

據(jù)介紹，OpenAI此次推出的圖像生成功能，借助GPT-4o原生多模態(tài)模型，能夠?qū)崿F(xiàn)精確、準(zhǔn)確、逼真的輸出。

“我們一直認(rèn)為圖像生成應(yīng)是語言模型的一項主要功能，因此我們將最先進(jìn)的圖像生成器集成到GPT-4o 中?！眾W特曼表示，這意味著自由創(chuàng)作達(dá)到了新高度。

圖像文本合體輸出

多輪對話能保持一致性

奧特曼認(rèn)為，圖像生成已經(jīng)出現(xiàn)一段時間，但它并沒有發(fā)揮出真正的力量，在處理人們用于分享和創(chuàng)造信息的圖像生成方面顯得力不從心。

此次GPT-4o更新的圖像生成功能在準(zhǔn)確渲染文本、精確遵循指令，以及多輪對話保持一致性方面表現(xiàn)突出。

“一圖勝千言，但有時在正確的位置生成幾個詞可以提升圖像的意義?！盙PT-4o可以將語言文字與圖像結(jié)合，使圖像生成成為一種視覺交流的工具。

根據(jù)將這句話分成七行，并讓人物左右手分別拿有單詞的指令，GPT-4o生成了如下照片，可以說精準(zhǔn)完成文字在圖像中的呈現(xiàn)。

在OpenAI的示例里，光影等細(xì)節(jié)也能在生成的圖像中呈現(xiàn)出來，甚至還可以用它來畫漫畫。比如要求GPT-4o制作一幅四格漫畫，四周留有一些邊距，然后每格都有對應(yīng)的文字內(nèi)容。

可以說，GPT-4o最后生成的圖片基本完成了指令的要求，尤其是漫畫中對文字的輸出基本沒有錯誤，這下漫畫師又要瑟瑟發(fā)抖了。

哪怕是文本內(nèi)容非常多的菜單或者邀請函設(shè)計，同時對它的風(fēng)格、背景等提出要求，GPT-4o也不在話下。

由于圖像生成是GPT-4o的原生功能，還可以通過自然對話來進(jìn)一步優(yōu)化圖像。它不僅能理解單輪對話，還能理解多輪對話，并在多次生成之間能夠保持主體的一致性。

奧特曼在直播中就展示了這一能力，針對他和同事上傳的自拍，要求GPT-4o轉(zhuǎn)換成動漫風(fēng)格，它則基本保持了每個人物的動作、手勢、表情等特征。

接著，奧特曼要求在這張圖像上加上“feel the agi”等內(nèi)容，生成的圖像三個人物主體基本保持了一致性，不細(xì)看的話感覺差不多（左邊人物發(fā)型和臉部、中間人物眼睛和右邊人物手勢位置等出現(xiàn)一定變化），同時還對圖片結(jié)構(gòu)進(jìn)行了主動調(diào)整，從橫圖變成了豎圖。

再看一個更加復(fù)雜的示例，讓GPT-4o詳細(xì)解釋牛頓三棱鏡實驗并生成信息圖，它則結(jié)合自有知識庫對具體原理進(jìn)行了介紹。

然后提出，生成一個人在在華盛頓廣場公園的一張圓桌上，正在筆記本上畫這個圖的視角。前述那張信息圖則到了這個人的手上，而且文本內(nèi)容基本沒有發(fā)生變化。

現(xiàn)在來“大變活人”，讓牛頓上場。還是展示同樣的場景，年輕的牛頓坐在桌子旁，拿著棱鏡，演示實驗，沒有看到筆記本，GPT-4o再次按照指令完成了任務(wù)。

OpenAI還提到，其它模型在處理5-8個對象時會遇到困難，但GPT-4o可以處理多達(dá)10-20個不同的對象，且能體現(xiàn)對象與其特征的關(guān)系，使得控制更加精確，并呈現(xiàn)出細(xì)節(jié)。

比如酒杯里面的一滴紅酒，GPT-4o生出來的圖像看起來確實只有一滴紅酒。對于數(shù)學(xué)方程的復(fù)雜描述，也能準(zhǔn)確生成圖像。

此外，GPT-4o還可以分析和學(xué)習(xí)用戶上傳的圖像，將其詳細(xì)信息無縫集成到其上下文中，為圖像生成提供信息。OpenAI還強(qiáng)調(diào)，由于是在大量多樣化的圖像風(fēng)格上進(jìn)行訓(xùn)練，GPT-4o生成的圖片逼真度和風(fēng)格更為自然。

奧特曼表示，GPT-4o的圖像生成能力得益于用全模態(tài)模型進(jìn)行訓(xùn)練。“它不僅是一個語言模型，還是一個圖像、音頻等所有模態(tài)的模型，可以理解和生成，可以在模態(tài)之間無縫切換。”

具體來說，OpenAI根據(jù)圖像和文本的聯(lián)合分布對模型進(jìn)行了訓(xùn)練，不僅學(xué)習(xí)了圖像與語言的關(guān)系，還學(xué)習(xí)了圖像之間的關(guān)系。同時，結(jié)合后訓(xùn)練，使得最終模型具有不錯的視覺流暢性，并能夠生成有用且上下文一致的圖像。

免費(fèi)用戶要再等等

OpenAI多模態(tài)融合向前一步走

GPT-4o圖像生成功能將從今天開始將作為ChatGPT中的默認(rèn)圖像生成器推出，優(yōu)先每月200美元的Pro訂閱用戶，并在不久后提供給Plus和免費(fèi)用戶、企業(yè)用戶和開發(fā)者。

同時，它也可以在Sora中使用。此前，OpenAI專門推出了圖像生成應(yīng)用DALL·E，而這款產(chǎn)品的用戶同樣也可以通過專用的DALL·E GPT訪問。

這意味著，ChatGPT在多模態(tài)融合趨勢方面又向前邁出了一步，此前大家對它的認(rèn)知多是對話式的語言聊天工具，現(xiàn)在它已經(jīng)具備音視頻對話、圖像理解和生成等多模態(tài)能力。

“隨著我們的模型越來越強(qiáng)大，它對世界的了解也在加深。此前只能通過文本或代碼來表達(dá)，現(xiàn)在這些模型可以將所知道的內(nèi)容可視化，并以視覺方式呈現(xiàn)出來?！眾W特曼說。

他希望，ChatGPT將向每個人提供創(chuàng)建工作圖像的能力，讓人們能夠創(chuàng)造他們需要和想要的東西，使其不僅成為想象力的工具，也成為學(xué)習(xí)和交流的工具。

“這代表OpenAI正在朝著真正的多模態(tài)模型邁進(jìn)，ChatGPT可以做一切事情，并給了用戶更多的控制權(quán)?！眾W特曼表示，“這代表我們在允許創(chuàng)作自由方面達(dá)到了新的高度”。

但從OpenAI的直播演示來看，圖像生成等待的時間會比較長，往往需要長達(dá)一分鐘，甚至更長時間?！拔覀兊哪Ｐ筒⒉煌昝溃壳按嬖诙鄠€限制，我們將通過模型改進(jìn)來解決這些問題。”O(jiān)penAI表示。

“我們希望該工具不會創(chuàng)造令人反感的東西，將知識自由和控制權(quán)交到用戶手中是正確的做法，但我們會觀察進(jìn)展并傾聽社會的聲音?！眾W特曼還呼吁，為AI設(shè)定非常寬泛界限是正確的，而且隨著越來越接近通用人工智能，這一點(diǎn)變得越來越重要。

在安全標(biāo)準(zhǔn)方面，OpenAI發(fā)布了多項舉措。GPT-4o生成的圖像會具備C2PA標(biāo)識，這將識別圖像是否來自GPT-4o，并構(gòu)建了內(nèi)部搜索工具，以驗證內(nèi)容是否來自該模型。同時，開發(fā)推理模型，對文本和輸出圖像進(jìn)行審核，以符合政策。

目前，多模態(tài)融合是大模型發(fā)展的趨勢之一。隨著OpenAI在圖像理解和生成層面完成布局，下一步可能就是集成Sora，實現(xiàn)視頻的理解和生成的大一統(tǒng)。

此前預(yù)告的GPT-5作為融合大模型，是否會在多模態(tài)層面實現(xiàn)完整布局，又是值得期待的更新了。

運(yùn)營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.