作者|沐風
來源|AI先鋒官
就在谷歌宣布Gemini 2.5 Pro推出的當天,OpenAI緊隨其后,在GPT-4o中推出了圖片生成的新功能。
2024年5月,OpenAI正式推出GPT-4o,作為一個原生多模態模型,現在它能夠直接從文本提示生成精確、逼真的圖像。
據OpenAI官方博客,GPT-4o圖像生成在準確渲染文本、精確遵循提示以及利用4o的固有知識庫和聊天上下文方面表現出色,包括轉換上傳的圖像或將其作為視覺靈感。這些能力使得創建圖像更容易也更準確。
GPT-4o還支持多輪生成,用戶可以通過自然對話來優化圖像。
并且,由于GPT-4o是在聊天上下文中構建圖像和文本,所以整個過程它可以完美的保持角色的一致性。
例如,當你設計一個視頻游戲角色,在后續進行任何優化和試驗時,該角色的外觀可以在多個迭代中可以保持連貫。
我們先來看看OpenAI官方展示的案例。
下方這張圖片則為通過對話進一步的修改結果:
再比如給下面這只貓戴一頂偵探帽和單片眼鏡。
你就會得到這張圖片:
那再將其更新為橫向圖像16:9比例,在UI中添加更多法術,并取消縮放視覺對象,以便我們以第三人稱視角看到貓走過蒸汽朋克曼哈頓,從而產生美麗的對比和照明,就像在最好的3A游戲中一樣,具有冷色調。
以前,在AI生成的圖片中,文字往往會出現崩壞、亂碼等問題,現在GPT-4o在生成文字能力上實現了躍升,無論是餐廳菜單、邀請函、科學實驗示意圖還是品牌宣傳海報等,它都能搞定。
對此,讓它制作一個漫畫那也是手到擒來。
并且,GPT-4o的指令遵循能力也非常強,用戶可以更精確的控制生成圖像的內容,它還可以處理包含10-20個不同物體的場景,例如:
GPT-4o還可以直接從大模型中獲取知識,從而生成與現實世界知識相符的圖像。
例如使用代碼生成圖像:
抹茶的制作過程:
雞尾酒配方:
當然,也可以直接上傳圖片給GPT-4o,它可以分析和學習用戶上傳的圖像,精準生成用戶想要的圖片,如:
不過,GPT-4o也存在一些問題,如:
GPT-4o 偶爾會裁剪較長的圖像,例如海報,尤其是在圖片底部。
與文本模型一樣,GPT-4o在圖像生成時也有可能產生幻覺,尤其是在低上下文提示中。
在處理非拉丁語言時,字符也可能出現不夠準確或產生幻覺等情況,尤其是在復雜性更高的情況下。
文本如果過于密集也不行。
并且,在生成依賴于其知識庫的圖像時,它可能難以一次準確呈現10-20個不同的概念,例如完整的元素周期表。
而且,在對圖像特定部分(例如拼寫錯誤)提出修改的請求時,可能會出bug,并且還可能以修改圖像的其他部分或引入更多錯誤。
值得一提的是,從25日起,該功能向所有免費和付費用戶推出,替換DaLLE作為默認圖像生成器,并將在未來幾周內向開發者開放API調用。
但免費版的每日圖片生成數量仍然有限制(此前DALL-E為每天3張,GPT-4o具體數字暫未公布,但預計相似)。
另外,GPT-4o生成圖片的速度略慢于之前的DALL-E 3。對此OpenAI表示,“這點延遲完全值得,因為圖片質量和知識整合的提升遠超等待幾秒帶來的不便。”
并且,就在今天凌晨,OpenAI在X上宣布GPT-4o再次迎來升級。
?更擅長理解并執行詳細的指令,尤其是同時包含多個請求的提示。
?在處理復雜的技術問題和編程任務時表現更佳。
?直覺和創造力進一步提升。
?更少使用表情符號。
并且,升級后的GPT-4o現已對所有付費用戶開放,免費用戶將在未來幾周內陸續體驗到。
目前,已經有許多網友在X上發布了自己生成的圖片,就讓我們一起來看看吧。
有意思的是,吉卜力風在X上一夜爆火,網友紛紛開始用GPT-4o生成吉卜力工作室風格的圖片。
感興趣的小伙伴趕快去試試吧!
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.