出品|搜狐科技
作者|梁昌均
編輯|楊錦
深夜放大招,這次OpenAI在圖像生成上開始發(fā)力了。
3月26日凌晨,OpenAI宣布在ChatGPT和Sora中推出原生圖像生成功能。這次,OpenAI CEO山姆·奧特曼也現(xiàn)身直播,稱這是“最有趣、最酷炫的產(chǎn)品之一”和“巨大的進(jìn)步”。
據(jù)介紹,OpenAI此次推出的圖像生成功能,借助GPT-4o原生多模態(tài)模型,能夠?qū)崿F(xiàn)精確、準(zhǔn)確、逼真的輸出。
“我們一直認(rèn)為圖像生成應(yīng)是語言模型的一項主要功能,因此我們將最先進(jìn)的圖像生成器集成到GPT-4o 中?!眾W特曼表示,這意味著自由創(chuàng)作達(dá)到了新高度。
圖像文本合體輸出
多輪對話能保持一致性
奧特曼認(rèn)為,圖像生成已經(jīng)出現(xiàn)一段時間,但它并沒有發(fā)揮出真正的力量,在處理人們用于分享和創(chuàng)造信息的圖像生成方面顯得力不從心。
此次GPT-4o更新的圖像生成功能在準(zhǔn)確渲染文本、精確遵循指令,以及多輪對話保持一致性方面表現(xiàn)突出。
“一圖勝千言,但有時在正確的位置生成幾個詞可以提升圖像的意義?!盙PT-4o可以將語言文字與圖像結(jié)合,使圖像生成成為一種視覺交流的工具。
根據(jù)將這句話分成七行,并讓人物左右手分別拿有單詞的指令,GPT-4o生成了如下照片,可以說精準(zhǔn)完成文字在圖像中的呈現(xiàn)。
在OpenAI的示例里,光影等細(xì)節(jié)也能在生成的圖像中呈現(xiàn)出來,甚至還可以用它來畫漫畫。比如要求GPT-4o制作一幅四格漫畫,四周留有一些邊距,然后每格都有對應(yīng)的文字內(nèi)容。
可以說,GPT-4o最后生成的圖片基本完成了指令的要求,尤其是漫畫中對文字的輸出基本沒有錯誤,這下漫畫師又要瑟瑟發(fā)抖了。
哪怕是文本內(nèi)容非常多的菜單或者邀請函設(shè)計,同時對它的風(fēng)格、背景等提出要求,GPT-4o也不在話下。
由于圖像生成是GPT-4o的原生功能,還可以通過自然對話來進(jìn)一步優(yōu)化圖像。它不僅能理解單輪對話,還能理解多輪對話,并在多次生成之間能夠保持主體的一致性。
奧特曼在直播中就展示了這一能力,針對他和同事上傳的自拍,要求GPT-4o轉(zhuǎn)換成動漫風(fēng)格,它則基本保持了每個人物的動作、手勢、表情等特征。
接著,奧特曼要求在這張圖像上加上“feel the agi”等內(nèi)容,生成的圖像三個人物主體基本保持了一致性,不細(xì)看的話感覺差不多(左邊人物發(fā)型和臉部、中間人物眼睛和右邊人物手勢位置等出現(xiàn)一定變化),同時還對圖片結(jié)構(gòu)進(jìn)行了主動調(diào)整,從橫圖變成了豎圖。
再看一個更加復(fù)雜的示例,讓GPT-4o詳細(xì)解釋牛頓三棱鏡實驗并生成信息圖,它則結(jié)合自有知識庫對具體原理進(jìn)行了介紹。
然后提出,生成一個人在在華盛頓廣場公園的一張圓桌上,正在筆記本上畫這個圖的視角。前述那張信息圖則到了這個人的手上,而且文本內(nèi)容基本沒有發(fā)生變化。
現(xiàn)在來“大變活人”,讓牛頓上場。還是展示同樣的場景,年輕的牛頓坐在桌子旁,拿著棱鏡,演示實驗,沒有看到筆記本,GPT-4o再次按照指令完成了任務(wù)。
OpenAI還提到,其它模型在處理5-8個對象時會遇到困難,但GPT-4o可以處理多達(dá)10-20個不同的對象,且能體現(xiàn)對象與其特征的關(guān)系,使得控制更加精確,并呈現(xiàn)出細(xì)節(jié)。
比如酒杯里面的一滴紅酒,GPT-4o生出來的圖像看起來確實只有一滴紅酒。對于數(shù)學(xué)方程的復(fù)雜描述,也能準(zhǔn)確生成圖像。
此外,GPT-4o還可以分析和學(xué)習(xí)用戶上傳的圖像,將其詳細(xì)信息無縫集成到其上下文中,為圖像生成提供信息。OpenAI還強(qiáng)調(diào),由于是在大量多樣化的圖像風(fēng)格上進(jìn)行訓(xùn)練,GPT-4o生成的圖片逼真度和風(fēng)格更為自然。
奧特曼表示,GPT-4o的圖像生成能力得益于用全模態(tài)模型進(jìn)行訓(xùn)練。“它不僅是一個語言模型,還是一個圖像、音頻等所有模態(tài)的模型,可以理解和生成,可以在模態(tài)之間無縫切換。”
具體來說,OpenAI根據(jù)圖像和文本的聯(lián)合分布對模型進(jìn)行了訓(xùn)練,不僅學(xué)習(xí)了圖像與語言的關(guān)系,還學(xué)習(xí)了圖像之間的關(guān)系。同時,結(jié)合后訓(xùn)練,使得最終模型具有不錯的視覺流暢性,并能夠生成有用且上下文一致的圖像。
免費(fèi)用戶要再等等
OpenAI多模態(tài)融合向前一步走
GPT-4o圖像生成功能將從今天開始將作為ChatGPT中的默認(rèn)圖像生成器推出,優(yōu)先每月200美元的Pro訂閱用戶,并在不久后提供給Plus和免費(fèi)用戶、企業(yè)用戶和開發(fā)者。
同時,它也可以在Sora中使用。此前,OpenAI專門推出了圖像生成應(yīng)用DALL·E,而這款產(chǎn)品的用戶同樣也可以通過專用的DALL·E GPT訪問。
這意味著,ChatGPT在多模態(tài)融合趨勢方面又向前邁出了一步,此前大家對它的認(rèn)知多是對話式的語言聊天工具,現(xiàn)在它已經(jīng)具備音視頻對話、圖像理解和生成等多模態(tài)能力。
“隨著我們的模型越來越強(qiáng)大,它對世界的了解也在加深。此前只能通過文本或代碼來表達(dá),現(xiàn)在這些模型可以將所知道的內(nèi)容可視化,并以視覺方式呈現(xiàn)出來?!眾W特曼說。
他希望,ChatGPT將向每個人提供創(chuàng)建工作圖像的能力,讓人們能夠創(chuàng)造他們需要和想要的東西,使其不僅成為想象力的工具,也成為學(xué)習(xí)和交流的工具。
“這代表OpenAI正在朝著真正的多模態(tài)模型邁進(jìn),ChatGPT可以做一切事情,并給了用戶更多的控制權(quán)?!眾W特曼表示,“這代表我們在允許創(chuàng)作自由方面達(dá)到了新的高度”。
但從OpenAI的直播演示來看,圖像生成等待的時間會比較長,往往需要長達(dá)一分鐘,甚至更長時間?!拔覀兊哪P筒⒉煌昝溃壳按嬖诙鄠€限制,我們將通過模型改進(jìn)來解決這些問題。”O(jiān)penAI表示。
“我們希望該工具不會創(chuàng)造令人反感的東西,將知識自由和控制權(quán)交到用戶手中是正確的做法,但我們會觀察進(jìn)展并傾聽社會的聲音?!眾W特曼還呼吁,為AI設(shè)定非常寬泛界限是正確的,而且隨著越來越接近通用人工智能,這一點(diǎn)變得越來越重要。
在安全標(biāo)準(zhǔn)方面,OpenAI發(fā)布了多項舉措。GPT-4o生成的圖像會具備C2PA標(biāo)識,這將識別圖像是否來自GPT-4o,并構(gòu)建了內(nèi)部搜索工具,以驗證內(nèi)容是否來自該模型。同時,開發(fā)推理模型,對文本和輸出圖像進(jìn)行審核,以符合政策。
目前,多模態(tài)融合是大模型發(fā)展的趨勢之一。隨著OpenAI在圖像理解和生成層面完成布局,下一步可能就是集成Sora,實現(xiàn)視頻的理解和生成的大一統(tǒng)。
此前預(yù)告的GPT-5作為融合大模型,是否會在多模態(tài)層面實現(xiàn)完整布局,又是值得期待的更新了。
運(yùn)營編輯 |曹倩審核|孟莎莎
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.