這段時間,有一款神秘 AI 硬件吊足了網友們的胃口——比肩 iPhone 和 MacBook 的使用場景和頻率,但不帶屏幕,又不是 AI 眼鏡、AI 耳機、AI pin、iPod……它背后的老板還放言要「量產1億臺」。
OpenAI CEO 奧特曼和蘋果前首席設計官艾維聯創的 io 公司,究竟用 AI 搗鼓了什么「開辟新賽道的硬件設備」,好難猜啊!
于是,雖然奧特曼透露計劃明年末正式發布該產品,但現在已有不少 X 網友忍不住打起了 AI「猜」圖的主意。萬一它知道些「內幕」呢,對吧?
目前市場上有關 io 首款硬件設備細節的爆料,主要有以下幾點:
- 無屏幕,通過內置攝像頭和麥克風實現外界環境交互
- 外形設計風格類似 iPod Shuffle
- 未采用 AI 眼鏡、智能手機、耳機這幾種當下流行的 AI 硬件形態
- 比 AI pin 大一些
- 有掛脖式設計
- 可以與智能手機、PC 聯動
話不多說,先來看看 AI 創作博主 Ben Geskin 在 X 上甩出的「io 產品圖」,有近 9000 人次的 X 網友前來圍觀。
綜合來看,上圖不僅覆蓋了這幾點核心爆料信息,印上了自家金主 OpenAI 的 Logo,還設計出了一種不常見的 AI 硬件形態——畢竟多少有點「撞臉」更常見的剃須刀、按摩儀、充電寶……
Ben Geskin 該帖評論區里,有其他 X 網友接力曬出其他款式的「io 產品圖」。
由 OpenAI 的 ChatGPT 生成的「GPT 版 Apple Watch」:
不是 AI 眼鏡、耳機自帶攝像頭,因此推導智能手表設有攝像頭?倒也是說得過去。
由 xAI 的 Grok 生成的「便攜桌面版 AI 攝像頭」:
這種場合,怎么能少了擁有當前「地表最強文生視頻模型」Veo 3 的Google 呢?那么,Google 最新版文生圖模型 Imagen 4 的表現如何,讓我們直接請出 Gemini,先睹為快。
愛范兒把同一套「預測 io 產品圖」的提示詞,分別拋給了搭載 Imagen 4 的 Gemini、搭載 GPT-4o 的 ChatGPT 以及搭載 Grok-3 的 Grok,然后它們各自給出了如下模擬產品圖。
單次此輪生成效果來看,三者都基本覆蓋了爆料信息中的產品設計要素。其中,Gemini 和 ChatGPT 的產品圖更貼合可掛脖的設計點,而這兩者相比之下,Gemini 生成的產品圖在視覺質感上會略勝一籌。
按照 Google 官方的說法,Imagen 4 能夠更清晰地呈現諸如皮膚、毛發、復雜紋理等圖像細節部分,也更擅長創作「照片級」、「寫實風格」的 AI 圖像。同時,其宣稱 Imagen 4 所生成的 AI 圖像支持各種長寬比,且分辨率高達 2 K。
不過有一說一,Gemini 所設計的這款 io 產品「長得有點人山人海的」,越看越像 Apple Watch+AI pin+登山包掛繩的結合體……
另外,Gemini 還同時給出了能體現「io 新產品與智能手機、PC 設備隔空聯動」的示意圖。
除此之外,Imagen 4 還可以把握住一些抽象風格的 AI 圖像創作需求。
并且,該 AI 模型進一步升級了拼寫、排版方面的出圖質量,可優化賀卡、海報、漫畫等場景的 AI 創作。
雞蛋盒外印刷包裝上的英文內容清晰、準確、美觀:
多格漫畫中,故事劇情連續,圖文內容相配,遠景、中景、近景畫幅兼顧:
近期走紅網絡的像素風漫畫也能拿捏:
Imagen 4 現已在 Gemini App、Whisk、Vertex AI,以及 Workspace 的 PPT、Video、Doc 等產品中上線。
據 Google I/O 大會方面透露,Imagen 4 后續將推出一個快速版本,屆時其 AI 生圖速度將是上一代 Imagen 3 的 10 倍,讓我們一起拭目以待吧。
一位細節控的攝影師
如果說 prompt 關鍵詞還原度、畫面主體內容完整度,現在市面上主流的文生圖模型都能做到「有鼻子有眼的了」——總體水平相差并不大。
因此,在圖像生成質量這塊兒,Google 開始卷細節了,宣稱 Imagen 4 有「更細膩的色彩」和「更精致的細節」。這聽起來沒什么實感,還是得「用圖說話」。
基于同一套提示詞:
一只金毛狗在沙灘上找貝殼(a golden retriever finding shells on the beach)
愛范兒對比了 Imagen 4模型、Imagen 4 上一代模型 Imagen 3,以及豆包 Seedream3.0 所給出的圖像效果。
這幅由 Imagen 3 生成的 AI 圖像中,主體金毛狗的神態、貝殼的紋理、狗爪踩沙灘的痕跡,背景中的藍天白云、海浪輕撫,都十分清晰和逼真。
并且,仔細看金毛狗的毛發似乎還被海水打濕了,一綹一綹的。
其實剛看到 Imagen 3 生成的杰作時,有點擔心 Imagen 4 會不會打不贏。
不過,后者確實也沒讓人失望,用實力演繹了什么叫做「盤順條亮」。
首先,從整體來看,Imagen 4 生成的圖像色調更柔和,色彩也更自然,例如天藍色漸變的天空、遠深近淺的大海。
再者,從局部來看,金毛狗的毛發細節滿滿,不僅更有光澤、光影分布更勻稱,而且還原了蓬松感,看起來就很好擼。
另外還有一個細節處理也很亮眼,那便是狗子的眼神。圖像中金毛狗的眼神看向了沙灘上的貝殼海螺,對應了 prompt 中的「正在找(finding)」。
作為一組對比參照,豆包的表現也很抗打。下圖雖然整體色彩偏暗,但畫面細節也十分豐富,例如海風吹起的浪花激蕩、海風吹動的狗毛根根分明、金毛刨出貝殼后爪子粘上了不少沙子……
美中不足的是,這3幅圖像都有個相似的問題——背景及其虛化效果的 AI 味還是有點重。
而 Google 官方給出的示例中,Imagen 4 還能「細節控」到「指哪刻畫哪」。卡皮巴拉短而硬的皮毛、油畫的筆觸、泡泡的光影、水晶表層的構造都可以準確地捕捉到。
同時,在圖像質感和 2K 清晰度把握這塊,Imagen 4 有的成品甚至可以媲美專業攝影作品了。
一位美商高的設計師
當愛范兒向最新 Gemini 2.5 Flash 版本的 Gemini 提出,「設計一款帶電子屏的帆布包,有大中小型號」時,這位多模態 AI 助手花費 10 秒左右,便交出了如下設計圖。
該設計圖很直觀地展示了「帆布包」和「電子屏」兩個設計元素,并且左邊一列標注了大、中、小的字樣,右邊區域則通過一些類似于「水杯」、「筆刷」的參照物,來體現不同尺寸的區別。
而且值得一提的是,其外觀樣式設計整體線條流暢不生硬,還保留了一些「手繪」的感覺。
然后,愛范兒進一步要求 Gemini 寫明電子屏帆布包的具體尺寸。從此次生成結果來看,其主要英文單詞和羅馬數字都較為清晰且拼寫準確,但涉及英文單位、標點符號的部分則會出現亂碼的情況。
如果對于生成結果不滿意,點擊 UI 聊天框界面的「更新(Update)」選項,Gemini 會擦除此條生成結果,根據新輸入的 prompt 重新執行輸出。
產品設計圖有了,還缺個產品名。Gemini 幫忙想了一個簡單粗暴的名字「Canvas Connect」。
上述步驟實際生成結果與提示詞的誤差不算太大,需要重新調試生成的地方并不多。
不過,輪到相應海報、邀請函的設計時,如果提示詞中有語義較為模糊的地方,Gemini 很大可能就會錯意了。
Gemini 先是根據電子屏帆布包「Canvas Connect」的產品設計圖,給出了左圖的產品海報。接下來,prompt 要求是讓它改一下海報的配色,主色調是棕色和綠色,其余部分不變。
然而,由于 prompt 中沒有寫明「帆布包」的配色不變,Gemini 更換海報底色時,把帆布包的配色也一并改了,如左圖所示。
改寫這段 prompt 后,Gemini 做到了僅更換海報而非產品的配色,主題色從粉色變為綠色。其從思考 prompt 背后的用戶需求,到理解匹配需求,再到生成 AI 圖像,總耗時大約是 10 秒左右。
而且,無論是電子屏的畫面,真人模特的動作、神態,還是文字內容,都無明顯改動。這個案例綜合反映出 Imagen 4 模型文生圖的可控性較強,文字排版較為美觀,大體上可復用。
可惜的是,一些成段、成片的文字內容,目前很大程度上還需要依賴精細 prompt 來控制調試。
Gemini:甲方爸爸,第 10086 稿設計圖已上傳,我可以打卡下班了吧?
別急,Imagen 4 還有許多設計玩法等著一眾網友們去探索呢。
愛范兒試了一下,發現它可以把海報中的真人模特,直接替換成發型、穿搭、動作都較為貼合的卡通人物形象,即上圖最右側那張海報。這也不失為懶得 P 圖美顏時的一種交圖思路。
不過,如果不提出具體要求,海報原有的排版也會隨之改變。這點目前需要在prompt的部分多花些功夫。
或者來一個「風格活潑有趣」、「文本內容雋永」、「適配社交媒體」的電子邀請函吧。
最后,別忘了讓 Gemini 來一段自帶 emoji 和 tag 詞條的宣發文案,「邀請你共同見證 Canvas Connect 新品發布時刻#TechStyle」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.