北京時間3月26日凌晨,OpenAI發(fā)布GPT-4o的原生圖像生成功能。這兩天,隨著吉卜力風格AI圖像成了社交平臺的焦點,大家才重新審視這次“重磅”發(fā)布。
此文作者張好蔚,95后,從零開始接觸AI,自學用comfy生圖流搭建了一套“文生圖”視覺系統(tǒng)——目前大部分文生圖應用也是這么來的。但GPT-4o來了,似乎她媽媽這樣的外行動動手指也能完成她的工作,無數個通宵達旦的努力突然就沒了支點。
3月27日,凌晨2點,距離前一日GPT-4o的更新剛過去一天。
杭州的雨下得很大很大,一聲驚雷過后,我就再也睡不著了,掏出手機刷著朋友圈,看到許久未發(fā)新動態(tài)的同行朋友木可寫著:這真是沮喪的一天,測試了許久后大概率確認了,4o是真的可以取代80%的comfy生圖流能力了……
木可在圈子里小有名氣,國內許多使用comfy搭建工作流的人都或多或少用過他做的插件。震驚于這個評價,我速刷了b站和社交媒體的所有相關動態(tài),然后越刷越心驚,越刷越清醒……如果說此前的谷歌大模型Gemini flash還像一個未來可期的學生,讓人看到了多模態(tài)模型的潛力卻又不那么滿意它的表現,那么4o的圖像能力是真的將改變整個行業(yè)的生態(tài)了。
先來簡單解釋下comfy生圖流,以當前世界AI生圖的能力來說,Midjourney風格化優(yōu)秀但可控性差,基于diffusion框架的可控性高但操作復雜。comfy生圖流其實就是一條流水線,讓AI在生圖的每一個重要環(huán)節(jié)都有人工的指引,因為AI能力不夠,實際應用時往往需要進行多步操作,甚至在幾個軟件之間相互倒騰。
比如,下面這張圖就是我在工作中搭建的一個comfy生圖流:
圖表1 工作流通常需要經過多個節(jié)點的參與和調整才能完成AI圖片的生成
圖表2 封裝完使用的平臺生圖為了確保生圖質量依然要上傳參考選擇參數
當工作流的參數設置對當前生圖需求不那么適用時,你經常會得到一張讓你很崩潰的圖片,然后就是漫長的參數反復修改+測試。
然而,當4o上線的一刻,這一切都不需要了。
用戶要做的事情只有,打開輸入框,告訴4o你的想法,甚至你都可以不需要說全,它都會自行理解。比如:
再來看下面這個人臉互換的經典案例。在此之前,如果使用comfy或者傳統(tǒng)ps來做下述需求,是需要通過redux等技術先把產品換了,再串聯(lián)換臉換裝的節(jié)點來跑一遍工作流,精修后再重新跑一遍圖以高清化和優(yōu)化光影的。
功能能實現,但效果也不會比4o好更多,而4o卻只需要一句大白話的提示詞,就這樣水靈靈地出圖了。
如果對部分不滿意,還可以接著告訴他怎么修改,真的“只用嘴就行”。不忙時期的生成速度也只需要等待1-2分鐘,完全是連我媽這樣智能手機都摸不太明白的人也能操作的程度,根本沒有學習成本可言。
再看看這樣的例子,PS和當前各大AI消除功能都能完成,但得要很多步精細手工操作才能有滿意的效果,在這個過程中,圖像還有可能出現明顯的涂抹感和修正錯誤,而4o的結果:清晰、正確、高效。
在文字生成領域,甚至是中文生成領域,4o也展現出了目前最先進級別的能力。在此之前,剪映旗下的“即夢”中文海報生成能力已經足夠讓人驚艷,而現在4o,不僅僅是簡單的banner設計,連風格化字體都能做得這么好了。
天知道曾經字體設計在平面領域有多麻煩多讓我頭痛,這下好了,不僅省時省力,連字體版權都可以規(guī)避了。
說真的,心情很復雜。除去新技術所帶來的興奮,說不清的迷茫和失落也像這幾天的天氣一樣揮之不去。所有人都知道,這才是AI應該展現的姿態(tài),但當它真正來臨時,你作為受到沖擊的從業(yè)者,就像一個站在拳擊臺上的選手,一下子被技術性擊倒。更別提,它可以繼續(xù)進步。
這幾日中外AI社區(qū),對4o的測試層出不窮,它確實存在一些問題,比如一致性仍需加強、細節(jié)度不夠、無法批量化處理圖片、隱私問題等等,comfy仍然會是很長一段時間里本地部署的最優(yōu)策略。
但這些問題,終究會在某一個來日被不動聲響地攻克。只要價格合適,吃過蘋果肉的人不會甘愿再去舔蘋果核,未來的大模型一定會以更加易用、更加高質的方式改變普通人的行為模式——就先從圖片設計領域開始。科技巨頭們造出的盛宴,也將湮滅一直以來無數小團隊和個人開發(fā)者的堅持和努力。
就像這位大佬說的一樣,過去一年的時間里,無數個點燈熬油的晚上,凝聚了我對曾經優(yōu)秀大模型新技術的研究和期待。接近一個T的硬盤空間里,裝著上百個測試模型和節(jié)點數據,這些心血卻在一次大模型的更新面前變得如此蒼白無力。如同地球人在看見三體文明的那一刻,所感知到的無助和震撼。
“大模型的能力才是一切的基礎” 這是一年之前我在和同事分享AI資訊時寫在ppt上的一句話,如今4o再次驗證了這點。我突然想到那句話“這是一個最好的時代,也是一個最壞的時代”,我們被科技力量裹挾著前進,努力在時代洪流中掙出自己的未來;見證著這個世紀最偉大的變革,也將承受最多的動蕩和挑戰(zhàn)。
但無論如何,這都是一輪新升的太陽,當未來多模態(tài)模型兼具音視頻一體的功能時,生產方式將會被徹底改變,優(yōu)秀的內容才會不受限制地被表達被看見,想必世界一定會變得更有趣更精彩。
所以,只能祝福我自己和屏幕前的你,努力跟上這個時代吧。
文 | 張好蔚
VIEW MORE
@杭州城北藏著一個“瘋狂星期四” >>
@15年后他再次站到黃仁勛旁邊 >>
@這屆AI逼瘋每一個古人 >>
@華人“芯”事>>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.