99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態AI黑馬刷榜后再造神器:一個產品搞定圖片視頻播客生成

0
分享至

西風 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

AI大牛梅濤坐鎮,全新多模態AI問世!

用法上堪稱:全能



不僅支持圖片、視頻生成



奇幻場景、多樣視角都能駕馭:



而且唇形同步功能上線,社恐大“i”人也能玩轉播客



視頻鏈接:https://mp.weixin.qq.com/s/bYNU6Mei2pq7KuFR8Ik2dQ

劃重點:

官方還提供了上百種可直接套用的趣味特效模板,讓用戶實現“躺平創作”。



像下面這種炫酷轉換,操作簡單到只需上傳一張圖:



人物、動物、建筑物的“變身”模板通通都有:



另外,生圖板塊的Image Agent也是官方主打,修圖生圖只需大白話表述,不會寫prompt不是問題,它會自動幫你優化修改。



不賣關子,這個最新創作工具就是vivago2.0(智小象AI)

打造出它的團隊智象未來(HiDream.ai),是圈內鼎鼎有名的大?!幽么蠊こ淘和饧菏棵窛齽摿⒌腁I公司,研發團隊中擠滿了來自中科大的中堅。



前段時間,團隊推出的開源模型HiDream-I1曾在文生圖模型競技場一鳴驚人,開源24小時就拿下了排行榜榜首,在國內一眾開源大模型中率先躋身第一梯隊。



當時,就連Recraft(曾神秘刷屏的小熊貓“red_hat”背后團隊)也連夜加載,全球創作者競相加入工作流。



有意思的是,vivago2.0其實結合了HiDream-I1的能力。



目前,vivago2.0已在Web端與App全球同步上線,有此等新玩具量子位自然不能錯過,第一時間上手體驗了一波。

同時我們也對其背后的模型來了個大揭秘。



全新多模態神器食用指南

vivago2.0主打六大玩法:圖片生成、圖片轉視頻、AI播客、特效模板、創意社區、話題

下面我們逐一來看。

圖片、視頻、播客生成一套搞定

先看圖片生成玩法,支持文本生圖和“文本+參考圖”生圖

純文本生圖中,vivago2.0解決了大伙兒不會寫提示詞的問題。

可以看到提示詞輸入框右下角有一個“提示詞機器人”按鈕:



點開后,只需輸入你腦海中的幾個詞,它就能幫你自動組織成具有創造力的完整提示詞??梢渣c擊“使用提示詞”自動導入到提示詞輸入框中,也可以選擇“引用”對其進一步修改。



另外生成圖片的數量、圖片尺寸、負向提示詞等也都能設置:



話不多說,來看效果。

生成一杯檸檬氣泡水,幾乎看不出AI痕跡,細節感十足:



第一人稱視角生圖也可以,be like:



而文本+圖像生圖,也就是上傳參考圖的玩法,有全部、肖像、重繪三種設置。

全部即自動參考整張圖生成;肖像即自動提取人物面部特征,生成面貌一致的不同風格圖片;重繪則是將原圖重新繪制成不同風格的圖片。



寫實、插畫、皮克斯、3D,各種風格通通拿捏:



△左邊參考圖,右邊轉賽博朋克風格

生圖方面最重磅當屬Image Agent,它提供了一種全新的圖片生成交互形式。

就在一個聊天框中,用戶可天馬行空隨意表達需求,不論是修圖還是生圖,Agent會基于上下文信息,準確判斷理解用戶意圖。

生圖和修圖都可以批量完成。

例如生成小狗在草地追逐飛盤玩的圖像,然后讓它修改成像素風,vivago2.0可以四張圖同時修改,并且和原圖其它元素保持一致性。



Image Agent還提供了“重寫”、“幫我寫”prompt的功能,創作點什么用戶只需會用大白話表達就行。



接下來視頻生成方面,同樣是有圖片生成視頻文字生成視頻兩種玩法。

圖片生成視頻可以基于一張圖生成,也能基于兩張圖設置首尾幀。



通過設置首尾兩張關鍵幀,即可一鍵生成“變身”式連貫視頻效果。



各種場景都能絲滑轉換:



vivago2.0還有一個更為方便快捷的設計。

在圖片生成界面,其實可以直接點擊生成好的圖片上的按鈕,進行轉視頻等一系列操作。



于是乎,我們前面生成的騎自行車的圖片,一鍵動了起來:



無論是寫實風格的場景,還是充滿想象力的奇幻畫面,只需一句話,vivago2.0即可將其轉化為動態視頻呈現。

比如一只在海上沖浪的狗子:



再比如魔改靜態表情包(我哭了,但眼淚是清涼油熏出來的),vivago2.0還會自動提升畫質

圖片、視頻看過后,再來看看AI播客功能。

AI播客制作功能也就是唇形同步,自己配音或者是寫一段文本讓AI配音都行。



同樣可以在生成的圖片、視頻基礎上,直接生成。



當輸入文字 “Life is like a box of chocolates. You never know what you’re gonna get” 時,圖片中的人物能根據文本自然地完成口型同步。

與此同時,人物的肢體動作也會隨著話語同步變化。

我們特意挑選了一張側臉人物圖,口型同步依舊比較流暢自然。



視頻鏈接:https://mp.weixin.qq.com/s/bYNU6Mei2pq7KuFR8Ik2dQ

vivago2.0還有更多社交、開放性玩法。

更多玩法,百種特效任你挑

首先要提的就是特效模板,官方提供了300+款花式模板,用戶可以一鍵套用,小白也能秒變特效大師。



我們選擇了一個特效后,然后上傳一張AI生成的小女孩圖片。

“啪”的一下小女孩絲滑換裝:



創意社區也是個尋找靈感的好地方,創作者百萬腦洞任你“借鑒”,可以直接使用同款prompt



來看社區里更多的優秀案例:



除此之外,團隊還即將上線話題功能,用戶可以參與熱門話題,提升自己作品的曝光度,目前該功能內測資格限量開放。

在vivago2.0的AI工具箱中,還涵蓋著功能多元的工具模塊,包括3D生成、AI試衣、視頻摳圖等等:



感興趣的童鞋可以自己親自上手探索一下。

By the way,vivago2.0推出后著實有點火,有時還會出現服務器擁堵的大狀態。



開源SOTA的再進階版

技術方面,vivago2.0新能力背后依托的全新圖像AgentHiDream-A1

HiDream-A1結合了開源模型HiDream-I1、HiDream-E1的進階版閉源模型(HiDream-I1.1、HiDream-E1.1)。

HiDream-I1是圖像生成基礎模型,參數170億,總共開源三個版本:完整版HiDream-I1-Full、蒸餾加速版HiDream-I1-Dev、蒸餾極速版HiDream-I1-Fast。

HiDream-I1-Full是完整版本,需要50多步擴散步驟,追求的是極致畫質。這個版本適合那些“慢工出細活”的創作場景,比如商業海報設計或藝術創作。

HiDream-I1-Dev是經過引導蒸餾的版本,將步數壓縮到28步,在質量和速度之間找到了黃金平衡點。

而HiDream-I1-Fast則是極速版,僅需14步就能生成高質量圖像,簡直是為實時應用量身定制。

其中HiDream-I1-Dev開源不到24小時,就登頂Artificial Analysis圖片生成競技場。

HiDream-I1在HPS(綜合評測生成圖像的語義相關性、畫質和美感)基準上拿下SOTA:



同時在GenEval和DPG-Bench(評測生成圖像和輸入文本的語義相關性)基準上,評測結果同樣是SOTA:



HiDream-E1是交互式圖像編輯開源大模型,主打功能就是最近GPT-4o爆火的用嘴改圖功能。

HiDream-I1+HiDream-E1可以稱得上是開源版GPT-4o

HiDream-I1的核心創新,是把稀疏混合專家(Sparse MoE)技術巧妙地融入到了擴散Transformer架構中

他們設計了一個雙流-單流混合的稀疏DiT結構

具體來說,模型先用雙流DiT分別處理圖像和文本token,就像左右手各司其職。在這個階段,每個模態都有自己的專屬通道,可以充分提取各自的特征。隨后,模型切換到單流DiT架構,讓兩種模態實現深度融合。

最妙的是,無論是雙流還是單流階段,團隊都引入了動態MoE架構。這就像給模型裝上了智能路由器,每個輸入token都會被動態分配給最擅長處理它的專家模塊。

在文本編碼方面,HiDream-I1采用了“四管齊下”的混合策略:

長上下文CLIP提供視覺語義對齊,T5編碼器負責解析復雜文本結構,Llama 3.1則貢獻深層語義理解,而且還特意從LLM的多個中間層提取特征,避免了最終層輸出中細節信息的流失。這種“集大成”的做法,讓模型對文本提示的理解能力大幅提升。

訓練策略上,團隊采用了漸進式分辨率訓練,從256×256開始,逐步提升到512×512,最終達到1024×1024。

智像未來團隊并沒有止步于文生圖。他們還通過“上下文學習”方法,將HiDream-I1擴展成了指令式圖像編輯模型HiDream-E1。用戶只需要提供原圖和編輯指令,模型就能精準地完成修改任務。

最終,團隊將文生圖的HiDream-I1和圖像編輯的HiDream-E1整合,推出了綜合性圖像智能體HiDream-A1。

這個智能體就像是一個“全能圖像助手”,既能根據描述生成圖像,又能按照指令編輯圖像,還能進行多輪對話式的創作和修改。讓用戶可以像和ChatGPT聊天一樣,通過自然語言完成復雜的圖像創作任務。

背后團隊:AI大牛梅濤坐鎮

智象未來成立于2023年3月,名字算新,但背后創始人,AI圈內無人不知——梅濤,加拿大工程院外籍院士,同時也是IEEE/IAPR/CAAI Fellow,是人工智能、計算機視覺和多媒體領域的世界級專家。

而智象未來的核心團隊成員則來自微軟、百度、騰訊、華為、京東、字節跳動等全球500強公司的核心技術團隊,團隊中博士、碩士占比超過90%,據說不少來自中科大。

團隊成員多為AI視頻技術出身,早在2017年,他們在ACM Multimedia大會發表了論文"To Create What You Tell: Generating Videos from Captions"

現在看來這是學術界第一批研究文本生成視頻的技術論文之一,只不過當時該研究方向還被稱為Caption-to-Video



雖然今天看來,當年他們用GAN(生成對抗網絡)做出來的視頻生成遠談不上完善,但不可否認其前瞻性。

而且正是因為在視頻生成領域的堅持,讓他們在AIGC方向的爆發時憑借技術積累再次取得突破:全球首個上線開放使用的圖像和視頻生成Diffusion Transformer(DiT)架構模型。

相較于大型科技公司動輒上萬卡的超大規模投入,智象未來選擇了一條更加務實的發展道路——技術上聚焦視覺多模態基礎模型,產品上則表現為貼近商業化的可控圖/視頻生成。

而這一策略顯然贏得了懂技術的投資人的青睞。

從2023年4月獲得阿爾法公社、中喝大種子一號基金的種子輪融資,到2024年上半年完成敦鴻資本領投的近億元Pre-A輪融資,再到2024年后續完成的以合肥產投為主的國資基金領投的A輪融資,智象未來的融資歷程可謂順風順水。據了解,A輪融資規模已達數億人民幣,跟投方還包括安徽省人工智能母基金、湖北省長江電影集團有限公司等機構。

不論是融資速度還是規模,都能管窺資本市場對智象未來技術實力和商業化前景的認可。

梅濤對此也有著清晰的見解:“大語言模型需要大量的算力和融資,2023年需要千卡,2024年需要萬卡,這是一個贏者通吃的領域。對于中國的創業公司來說,籌集這么一大筆資金有一定難度,要跟上大廠的競爭步伐也有難度。視頻行業這個賽道不需要太大投入,規??煽兀译x商業化進展最近?!?/p>

而這一判斷似乎也得到了市場的驗證——2023年,全球AIGC約200億美金的收入中,50%-60%來自視頻和圖像,其中Midjourney在這方面的收入已達2億美金,已經驗證了產品市場契合度(PMF)。

自2023年3月成立以來,智象未來在視覺多模態基礎模型及應用領域不斷深耕,發布了一系列令人矚目的成果。

劃重點了,智象多模態大模型,模型參數規模超百億,實現對文本、圖像、視頻、3D的聯合建模,并已通過模型和算法雙備案。

基于此構建的“智象AI”系列產品,具備圖像生成編輯、4K高清畫面、全局/局部可控、劇本多鏡頭視頻生成等功能,在AIGC技術和數字創意領域商業化方面優勢顯著。

2024年,智象未來的戰略合作動作頻頻:與慈文傳媒進行戰略合作簽約;和上影集團聯合發布“AI+”合作計劃;與中國移動咪咕聯合發布首個國民級AIGC視頻彩鈴應用“AI一語成片”;還與寒武紀在北京簽訂戰略合作協議。

到了2024年12月28日,智象未來在安徽人工智能產業先導區啟動儀式中,全球首發智象多模態生成大模型3.0智象多模態理解大模型1.0

其中,智象多模態生成大模型3.0實現圖像和視頻生成能力全面升級,包括畫面質量與相關性提升、鏡頭運動和畫面運動更可控,以及多場景驅動的優化。

而智象多模態理解大模型1.0版,則通過對物體級別的畫面建模以及事件級別的時空建模,達成更精細、準確的圖像與視頻內容理解。

創業不易,尤其是在AIGC這個千帆競發的賽道上。但梅濤的目標不僅僅是商業上的成功,還有著更為宏大的使命感。

“我創業不是代表一個人創業,是代表中國的科技型專家創業,投身到一個新的時代,要趟出一條路。如果我的技術和商業化能夠打通,那么我的故事應該被復制,啟發更多的人做這件事”,梅濤如是說。

下一步,智象未來將重點聚焦多模態大模型的應用與商業化

在2023-2025年期間,智象未來的商業模式經歷了顯著演進。

2023年,以MaaS模式提供基礎模型能力,初步建立起技術基礎,為后續發展筑牢根基。2024年,轉向SaaS模式,推出工具化產品,在專業場景中驗證了應用價值,進一步明確了商業方向。到2025年,開啟新戰略,聚焦“IP二創+C端下沉”,旨在構建規?;虡I生態,整合上下游資源,實現商業價值的最大化。

這也符合AIGC產品的普遍發展路徑——先滿足專業用戶的高要求,再逐步簡化操作門檻,實現產品的大眾化應用。

從MaaS到SaaS,再到RaaS,智象未來不再賣工具,而是直接交付增長。

毫無疑問,隨著多模態AI能力的涌現,2025年注定是屬于多模態技術和產品的爆發之年,AIGC視頻生成也被視為“抖音”一樣的新一代超級平臺……但明確的趨勢和風口之下,只有真正有技術實力、有產品sense、商業化節奏清晰的團隊,才能扶搖直上。

而智象未來,現在正在展現出這樣的特質和潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鵝廠紅毯:包裹嚴實的迪麗熱巴,讓大家知道什么叫不動聲色的贏

鵝廠紅毯:包裹嚴實的迪麗熱巴,讓大家知道什么叫不動聲色的贏

星改造
2025-06-24 09:56:33
歷史438分、物理425分!重慶市2025年普通高校招生錄取最低控制分數線公布

歷史438分、物理425分!重慶市2025年普通高校招生錄取最低控制分數線公布

魯中晨報
2025-06-24 12:27:02
東北燒烤贊助“蘇超”,老板娘為何哭得稀里嘩啦?

東北燒烤贊助“蘇超”,老板娘為何哭得稀里嘩啦?

方清云
2025-06-24 12:06:10
原則同意!上海軌道交通迎來重要進展

原則同意!上海軌道交通迎來重要進展

世界軌道交通
2025-06-24 16:23:30
香港著名武術指導、女星雪妮老公唐佳墜樓身亡,終年88歲

香港著名武術指導、女星雪妮老公唐佳墜樓身亡,終年88歲

環球網資訊
2025-06-24 08:09:17
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
西安外國留學生撞死人后續,無證駕駛不服定責,只賠16萬還想分期

西安外國留學生撞死人后續,無證駕駛不服定責,只賠16萬還想分期

一家說
2025-06-24 18:30:01
美記:公牛成為比爾的潛在下家,太陽將利用交易或買斷與其分手

美記:公牛成為比爾的潛在下家,太陽將利用交易或買斷與其分手

雷速體育
2025-06-25 06:53:02
王毅同伊朗外長阿拉格齊通電話

王毅同伊朗外長阿拉格齊通電話

界面新聞
2025-06-24 21:41:49
87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

蕭竹輕語
2025-06-18 18:31:19
伊朗總統:12天戰爭結束,重建工作開啟

伊朗總統:12天戰爭結束,重建工作開啟

界面新聞
2025-06-25 07:05:55
跟隊記者:特奧轉會新月是所有人的失敗,米蘭1億歐要買5-6名球員

跟隊記者:特奧轉會新月是所有人的失敗,米蘭1億歐要買5-6名球員

直播吧
2025-06-24 23:40:16
適合“一本、二本壓線生”撿漏的大學,實力很強,就業率不錯!

適合“一本、二本壓線生”撿漏的大學,實力很強,就業率不錯!

譚老師地理工作室
2025-06-21 12:19:32
山東男子在伊朗娶妻生子經商,已從周邊小鎮重返德黑蘭:不用囤物資,只是街上人少車少

山東男子在伊朗娶妻生子經商,已從周邊小鎮重返德黑蘭:不用囤物資,只是街上人少車少

瀟湘晨報
2025-06-24 11:29:18
李夢要重返國家隊?活動海報設計李夢照片!中澳女籃熱身賽程出爐

李夢要重返國家隊?活動海報設計李夢照片!中澳女籃熱身賽程出爐

老吳說體育
2025-06-25 00:17:32
印媒:中國或出售巴基斯坦東風17,該導彈全球任何國家無法攔截

印媒:中國或出售巴基斯坦東風17,該導彈全球任何國家無法攔截

時光琉影8
2025-06-24 10:00:30
把維穩看得大過天的哈梅內伊,以色列才舍不得殺他,堪稱滅國神器

把維穩看得大過天的哈梅內伊,以色列才舍不得殺他,堪稱滅國神器

昨夜軍帖
2025-06-21 18:21:23
還沒完!開拓者還想交易,艾頓+羅威全擺上貨架,湖人機會來了

還沒完!開拓者還想交易,艾頓+羅威全擺上貨架,湖人機會來了

球童無忌
2025-06-24 17:48:55
她是公認的促睪女神,一張私照引發無數直男舔屏....

她是公認的促睪女神,一張私照引發無數直男舔屏....

健身迷
2025-06-22 10:10:44
伊朗國家安全委員會:除非以色列支付戰爭賠款,否則炮擊不會結束

伊朗國家安全委員會:除非以色列支付戰爭賠款,否則炮擊不會結束

碳基生物關懷組織
2025-06-20 17:15:06
2025-06-25 07:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10723文章數 176171關注度
往期回顧 全部

科技要聞

從十輛到幾百萬輛,中間隔著什么?

頭條要聞

特朗普氣到罵臟話:他們都不知道自己他X的在干什么

頭條要聞

特朗普氣到罵臟話:他們都不知道自己他X的在干什么

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

6部門:支持居民就業增收 增強消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

游戲
手機
家居
時尚
教育

戰術競技的頭牌大哥,一年就帶出日活 3700 萬的“摸金”排頭兵"/> 主站 商城 論壇 自運營 登錄 注冊 戰術競技的頭牌大哥,一年就帶出日活 370...

手機要聞

蘋果官網首次支持國補!最多省2000元

家居要聞

龍湖滟瀾 現代歐式混搭

楊冪《醬園弄》封神!女囚角色成演技巔峰

教育要聞

60名學生僅5人聽課,農村教師崩潰:這樣的教育還有救嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兰考县| 屯留县| 丰原市| 九江市| 新竹市| 伊吾县| 芒康县| 建湖县| 丘北县| 扎鲁特旗| 江城| 偏关县| 梧州市| 舟曲县| 呼玛县| 龙游县| 电白县| 楚雄市| 桑植县| 谢通门县| 榆林市| 泸定县| 麻江县| 峨边| 八宿县| 五莲县| 五常市| 晋江市| 金乡县| 钦州市| 宜阳县| 沧州市| 岳阳市| 德兴市| 噶尔县| 晋中市| 莱芜市| 二连浩特市| 舒城县| 万盛区| 麦盖提县|