今天凌晨2點,OpenAI進行了技術直播,對GPT-4o和Sora進行了重大更新,提供了全新文生圖模型。
除了文生圖之外,該模型還支持自定義操作、連續發問、風格轉換、圖像PPT等超實用功能,例如,更改圖片的寬高比、圖像物體中的角度,用十六進制代碼指定精確顏色等。
尤其是生成圖像的逼真度,肉眼幾乎看不出任何破綻,在精細度、細節和文本遵循方面非常出色,可以媲美甚至在某些功能超過該領域的頭部平臺Midjourney。
新圖像模型功能展示
話不多說,「AIGC開放社區」就用免費版為大家展示一下實際的生成案例。
我們先測試一下模型的文本還原和細節表現,來個復雜點的提示詞
提示詞:一個由甜品組成的奇幻世界,地面是柔軟的奶油草坪,樹木是用巧克力棒和糖果制作的,樹葉是五彩繽紛的果凍。天空中漂浮著巨大的棉花糖云,遠處有一個冰淇淋火山正在噴涌彩色的糖漿。
場景中還有一座用蛋糕堆砌的小屋,屋頂是草莓醬,窗戶是糖玻璃,細節包括散落的糖粒、路上的巧克力碎片,以及跳躍的小糖果精靈。
構圖、文本還原能力非常棒!一次就完成,生成時間大約在15秒左右。
再試一下它的新功能,其實OpenAI官方說這是一個“世界知識”功能,但是使用之后感覺更像是一個圖像PPT功能,對于教育、金融、醫療等領域幫助非常大。
例如,幫我用圖像介紹牛頓第一定律。就能直接生成詳細介紹牛頓定律的圖像,感覺和PPT差不多吧。
提示詞:用一張圖片介紹人體各個結構。
這個人體介紹圖片就豐滿很多,放在醫療介紹或PPT里應該不錯吧。以后做各種宣傳資料不愁找不到量身定制的圖片了。
如果不滿意,可以基于該圖片繼續發問,例如,我們想看上面人體介紹的骨骼。提示詞:可以詳細展示骨骼介紹嗎?
我們放大手部骨骼,繼續提問:來一張手部骨骼的特寫。
需要注意的是,圖像的文字介紹可能比較模糊或混亂,這是因為中文提示的原因,如果使用英文會好很多。
那我們就用英文提示詞來試一下,In a study filled with a retro atmosphere, on the corkboard beside the wooden desk, magnetic word - spelling cards fixed with colorful pushpins form a unique poem:
Line 1: "A melody"
Line 2: "Can wake up"
Line 3: "The slumbering memories,"
Line 4: "However, occasionally" (There is a large gap here)
Line 5: "On a silent night"
Line 6: "Will deepen"
Line 7: "That longing."
文字的嵌入和排列順序還是相當不錯的。
這個提示詞的大意是,在一間充滿復古氛圍的書房里,木質書桌旁的軟木板上,掛著用彩色圖釘固定的磁性拼詞卡片,組成一首獨特的詩:第一行:“一段旋律” 第二行:“能喚醒” 第三行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“在寂靜的夜晚” 第六行:“會加深” 第七行:“那份思念。”
上面只是一些非常簡單、基礎的玩法,有興趣小伙伴可以體驗一下非常棒。
對于新的文生圖模型,OpenAI聯合創始人兼首席執行官Sam Altman也給出了非常高的評價。
這是一項令人難以置信的產品。我還記得看到這個模型最初生成的一些圖像時,很難相信它們真的是由人工智能創作的。我們認為大家會喜歡它,并且很期待看到由此激發的創造力。
這代表著我們在給予創作自由方面達到了一個新的高度。人們將會創作出一些非常了不起的作品,也會有一些可能冒犯他人的內容;我們的目標是,除非用戶有此需求,否則該工具不會生成冒犯性內容,即便有此需求,生成的內容也需在合理范圍內。
正如我們在模型規格說明中提到的,我們認為將這種知識創作自由和控制權交到用戶手中是正確的做法,但我們也會觀察其發展情況并傾聽社會的聲音。
我們認為,尊重社會最終為人工智能設定的廣泛界限是正確的做法,而且隨著我們離通用人工智能越來越近,這一點也變得越來越重要。在此過程中,感謝大家的理解。
新圖像模型簡單介紹
根據直播介紹,非自回歸生成是OpenAI新圖像模型的核心之一,是提升圖片質量、生成效率的關鍵技術。
傳統的圖像生成方法,尤其是基于自回歸模型的技術,通常是通過逐步生成圖像的每個像素或部分來構建最終的圖像。這種方法雖然在某些情況下能夠生成高質量的圖像,但其生成過程往往較為緩慢,并且容易在生成過程中出現累積錯誤,導致最終圖像的質量下降。
此外,自回歸生成方法在處理復雜的圖像結構時也存在一定局限性,因為它們需要在每一步生成過程中都依賴于之前生成的內容,這使得模型難以全局性地理解和優化圖像的整體結構。
相比之下,非自回歸生成模塊采用了一種全新的思路。不再依賴于逐像素的生成過程,而是直接生成整個圖像。這一過程的關鍵在于模型能夠一次性地理解和處理圖像的整體結構和細節。非自回歸生成模塊通過一種特殊的編碼器-解碼器架構來實現這一目標。
編碼器負責將輸入的文本描述或其他模態信息轉化為一種中間表示,包含了生成圖像所需的所有關鍵信息。然后,解碼器利用這種中間表示直接生成完整的圖像,而無需逐像素地構建圖像。
這種直接生成完整圖像的方式帶來了很多優勢。首先,非自回歸生成模塊的生成速度遠遠超過了傳統的自回歸方法。由于無需逐像素生成,模型能夠在短時間內生成高質量的圖像,這對于實時應用和大規模圖像生成任務具有重要意義。例如,在需要快速生成大量圖像的設計場景或教育場景中,非自回歸生成模塊能夠顯著提高工作效率。
此外,非自回歸生成模塊在生成圖像的質量上也表現出色。由于模型能夠一次性地理解和處理圖像的整體結構,生成的圖像在細節和一致性方面都得到了顯著提升。
例如,在生成復雜場景的圖像時,非自回歸生成模塊能夠更好地處理圖像中的多個對象及其相互關系,生成的圖像更加自然和逼真。此外,非自回歸生成模塊還能夠更好地處理文本指令中的復雜語義信息,生成與文本描述高度一致的圖像。
非自回歸生成模塊的另一個重要特點是其在多模態融合中的應用。在ChatGPT 4.0模型中,非自回歸生成模塊不僅能夠根據文本描述生成圖像,還能夠結合其他模態的信息,如音頻或已有的圖像,生成更加豐富和多樣化的圖像內容。
這種多模態融合的能力使得模型能夠更好地理解和滿足用戶的需求。例如,用戶可以提供一段音頻描述和一張參考圖像,非自回歸生成模塊能夠結合這些信息生成一張符合音頻描述且風格與參考圖像一致的新圖像。
從今天開始,新的文生圖模型在ChatGPT和Sora中開始向所有Plus、Pro、Team和免費用戶推出。面向企業版、教育版和API即將到來。
本文素材來源OpenAI,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.