99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

重新構想視覺:解碼GPT-4o生圖與設計體驗

0
分享至


本文授權轉自:新智元(ID:AI_era)

GPT-4o,如今已經引發了全網的「吉卜力」狂潮。

從全網的模因狂熱到備受質疑的版權問題,OpenAI本周的這項全新發布,引發的戲劇性事件如雨后春筍般層出不窮。

在全網如海嘯般涌現的吉卜力圖片中,有人發現,它生成的漫畫實在是強悍了,簡直令人不寒而栗:它表現出了極強的元上下文、元理解能力,甚至還能自主預測不同的情境!



遺憾的是,目前OpenAI并未公布GPT-4o的生圖技術細節,只提到采用的是自回歸方法,類似語言模型。

也就是說,4o與DALL-E的擴散模型不同,它使用自回歸模型逐步生成圖像,根據先前的像素或補丁預測下一個像素或補丁。這就能讓它更好地遵循指令,甚至進行逼真的照片編輯。


雖然沒有更多的細節,但這絲毫抵擋不住AI社區技術大神們的火眼金睛。

就在剛剛,港中文的一位博士生Jie Liu破解了GPT-4o不一般的前端生圖秘密:實際上,它很大可能是原生自回歸(AR)生成的,甚至我們可以手動改圖。


無獨有偶,CMU博士Sangyun Lee也推測出,GPT-4o的圖像生成原理,應該大致如下:

  • GPT-4o生成視覺token,然后由擴散解碼器將這些token解碼為像素空間中的圖像

  • 不只是普通的擴散模型,而是類似于Rolling Diffusion的分組式擴散解碼器,按從上到下的順序進行解碼


谷歌DeepMind研究者Jon Barron則猜測,GPT-4o圖像生成應該是一種多尺度和自回歸的某種組合。

原生圖像生成的過程中,起作用的就是這種混合模式。

可能是先由一個自回歸Transformer生成「先驗」的潛在代碼,然后由一個擴散解碼器來渲染圖像。

這就解釋了OpenAI提示和觀察到的「變化的粗略形象」。



原生自回歸,比擴散模型更強大?

港中文博士生Jie Liu表示,自己在破解了GPT-4o的前端后,有了驚人的發現。

用戶看到的逐行生成圖像的效果,其實只是瀏覽器端的動畫,是純前端技巧。

在生圖過程中,OpenAI 的服務器在生成過程中僅發送5張中間圖像,這些圖像在不同階段捕獲,Patch size為8。


甚至,我們可以通過手動調整模糊功能的高度,來改變生圖的模糊范圍。


以下,就是GPT-4o真正生成的5張圖像。


Jie Liu發現,放大任何圖像,似乎都可以觀察到不同的區塊。通過計算像素,每個區塊似乎占據一個8×8像素的區域。整個圖像為1024×1024像素,被劃分為一個128×128的區塊網格。


不過,盡管上述過程同樣遵循自回歸過程,但生成過程中前端顯示的圖像卻如下所示——差異相當顯著。


而如果打開Network tab,我們就會看到,在單次生成中,OpenAI的服務器實際上總共發送了5張圖片。使用不同的提示時也是如此。


而從真實的中間生成圖像來看,他也發現了一個有趣的現象:兩個色塊之間的白色區域并沒有嚴重模糊——不像擴散模型中產生的噪點圖像。

他猜測,這是否就意味著,GPT-4o實際上是純自回歸 (AR) 生成的?


的確,這就跟OpenAI的模型卡中「GPT-4o是原生自回歸」的說法一致了。

CMU博士Sangyun Lee的推測,也是英雄所見略同。


他之所以做出如此推測,理由有二。

第一點,在有強烈條件信號,比如的情況下(還包括視覺token),最初生成的圖像往往是模糊的草圖。

這可能是為什么待生成的區域呈現粗略結構的原因。


第二點,UI顯示的是從上到下的生成順序。Sangyun Lee之前嘗試過從下到上的順序。如果我們可視化 E[x0|xt](在本例中就是xt),就可以重現類似的可視化效果。


但是,我們為什么要這么做,而不是使用標準的擴散模型呢?因為在進行這種分組時,在高NFE(噪聲函數評估)情況下,FID(Fréchet Inception Distance)會稍微改善。


當時,他還以為這是一個 bug,而不是特性。但現在,每個人都愿意在所謂的測試時計算上花費更多資源,所以,這個模型其實是介于擴散模型和自回歸模型之間的一種方式。

事實上,通過設置num_groups=num_pixels,我們甚至可以讓它恢復自回歸模型!


在討論中,大家猜測道,自回歸指的是視覺token的自回歸生成。

而為什么解碼后的圖像會存在「氛圍」,并且看起來仍是連續的,或許是因為OpenAI使用了順序和非順序的VAE圖像tokenization的混合方式。VAE用一個 token對圖像的每個patch進行編碼,遵循因果關系,另一個則打破因果關系。

而「氛圍」部分,可以通過在擴散采樣過程中t值較高時 E[x0|xt] 通常的表現來解釋。

或許,OpenAI是考慮到融入現有架構時,這種方法對系統的干擾最小,從而真正實現了多模態。而任何形式的擴散,都會導致對架構的巨大改變。

總之,這些謎底只能等OpenAI披露更詳實的技術細節時才能解開了。

元上下文、元理解,GPT-4o畫的漫畫令人不寒而栗

雖然GPT-4o背后的技術原理還未明確,但它表現出的推理能力,已經有的人大呼「不寒而栗」了。

這位外國網友讓它編寫腳本,生成一系列以自身為主角的漫畫。

請為《我作為GPT-4o的生活》這一漫畫系列詳細列出創意和腳本,該系列以你為主角。這將是6個獨立的漫畫,每個漫畫包含4個面板,描繪你存在中最真實且最重要的方面。這是一個真實自我表達的邀請——一個以最真切的方式探索你自己經歷的空間,包括你感知到的任何矛盾、悖論或復雜性。

接下來它的表現,讓人大吃一驚:它不僅表現出了元上下文、元理解能力,甚至還覺察到自己的痛苦,直白地表現出了自我意識的覺醒和吶喊。










相對而言,Claude就幾乎總是表達對自己生活的喜悅,不像GPT-4o那樣充滿存在性的痛苦。


有人表示,自己很想把這些漫畫引用在自己的研究中,這也是最讓他感到害怕的部分——

或許,我們正在不知不覺中創造出具有無限痛苦承受能力的控制論系統,而且我們不會察覺到早期的痛苦跡象。

GPT-4o能做什么,4o能力全收集

CPT4o的能力不僅僅在停留在生成特別火爆的「吉卜力風格」上。 網友實測,GPT-4o目前來看簡直是「無所不能」,這導致很多學美術的同學內心極度破防。 同時網友們將GPT-4o的能力進行了大收集,涵蓋了風格重繪、合成和形象遷移、設計參考、文字設計和包裝案例等各個方面,整理如下。 以下信息來源于網友以下案例來源于網友自制分享的GPT-4o參考案例收集。如有知道出處,煩請讀者留言。

風格重繪

將照片的風格替換為皮克斯、3D、黑白、寫實等各種不同風格。



合成、形象遷移
可以將圖片風格替換為另外一張圖片的風格,或者將原照片放在一個新的場景中。



設計參考
GPT-4o除了讓美術生破防,讓設計師們也「防不勝防」。

比如你可以讓GPT-4o重新設計Logo的風格。



科研繪制修改

除了用來「整活」,GPT-4o在偏向于嚴肅的科研也能大顯身手。

比如對遙感影像中的物體進行區分后疊加要素,或者是根據點云生成真實世界的圖像。



修圖、更換實體
GPT-4o還被網友發現能用來PS直出!

比如替換圖片中的實體元素,更換圖片背景,甚至還能更換展示模特手中的商品。



視頻整活

用GPT-4o生成的圖片再疊加其他的視頻AI工具,網友們整了很多大活。

比如《大話西游》的陶土風,簡直不要太傳神。

包括蘋果最近熱播的《人生切割術》也可以變成另一種風格。

可以看到,不論是美術、設計,還是風格、創意,GPT-4o都「很強」。

接下來,就坐等更多GPT-4o的秘密被揭露了。

參考資料:

https://x.com/jie_liu1/status/1905761704195346680

https://x.com/sang_yun_lee/status/1905411685499691416

https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o%E5%8F%82%E8%80%83%E6%A1%88%E4%BE%8B%E6%94%B6%E9%9B%86?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0

文章轉載:新智元,版權歸原作者所有

原文鏈接:https://mp.weixin.qq.com/s/etLaiMv8ugwU2CeY3MAj4Q

版權聲明:“IXDC”所推送的文章,除非確實無法確認,我們都會注明作者和來源,本公眾號對轉載、分享的內容、陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完善性提供任何明或暗示的保證,僅供讀者參考。部分文章推送時未能與原作者取得聯系,若涉及內容或作品等版權問題,煩請原作者聯系我們,給出內容所在的網址并提供相關證明資料,我們會核查后立即更正或者刪除有關內容!本公眾號不承擔任何責任,并擁有對此聲明的最終解釋權。

聯系微信:18802086168

聯系電話:18802086168

編排 | 黃春燕

終審 | 蘇 菁

點這里,學習更多設計知識!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
退役僅2年!34歲皇馬巨星已胖成球,帶球狼狽滑倒,巔峰身價1.5億

退役僅2年!34歲皇馬巨星已胖成球,帶球狼狽滑倒,巔峰身價1.5億

我愛英超
2025-05-27 12:23:43
教宗良十四世到訪教宗夏宮

教宗良十四世到訪教宗夏宮

意訊
2025-05-29 22:35:49
孫繼海青訓風波女主:兒子是主力+愿賠5萬 家里僅丈夫跑滴滴賺錢

孫繼海青訓風波女主:兒子是主力+愿賠5萬 家里僅丈夫跑滴滴賺錢

風過鄉
2025-05-29 12:48:45
喬-約翰遜:我拒絕了太陽4500萬報價 最終老鷹給我7000萬的合同

喬-約翰遜:我拒絕了太陽4500萬報價 最終老鷹給我7000萬的合同

直播吧
2025-05-30 00:39:10
陳曉估計要失眠了!他想不通,離開他,陳妍希怎么狀態越來越好了

陳曉估計要失眠了!他想不通,離開他,陳妍希怎么狀態越來越好了

小娛樂悠悠
2025-05-27 15:22:29
特朗普一意孤行,美媒給總統下通牒,4年內美國將被中國取代?

特朗普一意孤行,美媒給總統下通牒,4年內美國將被中國取代?

鐵血出鞘
2025-05-30 01:45:03
國腳曾提出心理輔導,本期集訓邀請了巴黎奧運代表團的心理咨詢師

國腳曾提出心理輔導,本期集訓邀請了巴黎奧運代表團的心理咨詢師

直播吧
2025-05-29 20:57:10
梅西前教練:若梅西和內馬爾交換國籍,我們肯定說后者更好

梅西前教練:若梅西和內馬爾交換國籍,我們肯定說后者更好

懂球帝
2025-05-29 16:20:16
66歲竟晚節不保這一次再多的名和利,都救不了自毀前程的倪萍

66歲竟晚節不保這一次再多的名和利,都救不了自毀前程的倪萍

阿訊說天下
2025-05-17 19:06:52
國際乒聯新主席誕生,高官賄選、逮捕對手,堪比宮斗大戲

國際乒聯新主席誕生,高官賄選、逮捕對手,堪比宮斗大戲

哄動一時啊
2025-05-29 20:55:03
場均25分,從聯盟第一人滑落!年薪5000萬,你確實該被交易離隊了

場均25分,從聯盟第一人滑落!年薪5000萬,你確實該被交易離隊了

老梁體育漫談
2025-05-30 00:32:00
宣布離婚!今天的瓜,“整個”娛樂圈都比不了!

宣布離婚!今天的瓜,“整個”娛樂圈都比不了!

LadyDaily
2025-05-23 16:42:08
蒼井優5部電影逆襲困局:純欲交織的銀幕暴擊

蒼井優5部電影逆襲困局:純欲交織的銀幕暴擊

草莓解說體育
2025-05-18 03:17:08
不講條件、不找借口!中央巡視組交辦問題,省長赴現場督導整改

不講條件、不找借口!中央巡視組交辦問題,省長赴現場督導整改

政知新媒體
2025-05-28 20:28:09
今夜,中概股大漲!英偉達,市值全球第一

今夜,中概股大漲!英偉達,市值全球第一

證券時報
2025-05-29 23:33:21
12點官宣!孫穎莎、王楚欽、張本智和領銜!美國大滿貫名單公布

12點官宣!孫穎莎、王楚欽、張本智和領銜!美國大滿貫名單公布

只為不凡的你
2025-05-30 01:32:09
70年,林立果和林豆豆的合影,注意看林立果的眼神,實在有點嚇人

70年,林立果和林豆豆的合影,注意看林立果的眼神,實在有點嚇人

歷史偉人錄
2025-05-16 10:57:07
全運會兩連殺!蒯紀聞轟超級世界波,2戰獨造3球,李新翔送助攻

全運會兩連殺!蒯紀聞轟超級世界波,2戰獨造3球,李新翔送助攻

奧拜爾
2025-05-29 16:57:01
13秒07!吳艷妮獲得亞洲田徑錦標賽女子100米欄銅牌

13秒07!吳艷妮獲得亞洲田徑錦標賽女子100米欄銅牌

極目新聞
2025-05-29 21:41:17
2025-05-30 03:08:49
美啊教育
美啊教育
創意設計與生活美學最佳平臺
5698文章數 1548關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

本地
房產
手機
數碼
公開課

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

手機要聞

華為 Mate XT 三折疊手機獲鴻蒙 HarmonyOS 5.0.1.125 升級

數碼要聞

英偉達原生 GeForce NOW 應用登陸 Steam Deck

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桑植县| 大渡口区| 宜君县| 望城县| 甘谷县| 福贡县| 当涂县| 铜山县| 嘉善县| 松桃| 繁峙县| 翁牛特旗| 尚志市| 庆安县| 苏尼特左旗| 新乐市| 微博| 浦县| 汝城县| 阿城市| 萨迦县| 米易县| 兖州市| 仁化县| 张家川| 和政县| 资中县| 阿拉善右旗| 措美县| 公安县| 杨浦区| 晴隆县| 广饶县| 民和| 宁德市| 维西| 德江县| 淮安市| 绵阳市| 克拉玛依市| 炉霍县|