剛出道的 HiDream-I1,拿下了 Hugging Face 趨勢榜第二(圖像榜第一),Artificial Analysis 文生圖第二,排在Midjourney、Google Imagen、FLUX、SDXL 之前,僅次于 GPT-4o 。
老實(shí)講,看多了龍爭虎斗,本應(yīng)對此免疫。
但被提醒道:這是個(gè)創(chuàng)業(yè)團(tuán)隊(duì)搞的,來自合肥
打了個(gè)猛子...牛逼牛逼,真尼瑪牛逼
Hugging Face 模型趨勢榜 Artificial Analysis 圖像競技場
不得不仔細(xì)看了幾眼:
? 它是MIT 協(xié)議, 開源的可商用
? 它是 中國團(tuán)隊(duì)做的 ,也沒拿自己和誰對標(biāo)
? 它是 可部署的 ,權(quán)重、腳本、demo、量化全部已放出
? 這不是大廠項(xiàng)目,這不是!這不是!
真的,這東西,是我們“默認(rèn)國內(nèi)早就該有”,但直到現(xiàn)在才出來的東西。
甚是好奇,隨即我聯(lián)系上了背后團(tuán)隊(duì),問了大量私貨,有了這篇文章。
真實(shí)可用,不是PPT
HiDream-I1 分三個(gè)版本:Full / Dev / Fast,分別對應(yīng)不同的推理場景。
這里有幾個(gè)官方 Case,來自
畫面細(xì)節(jié) 色彩與光效
崩壞控制
物理法則
我去跑了幾個(gè)任務(wù): 可愛的舉重貓貓
富有張力的鏡頭特寫
帶上文字也可以
生成質(zhì)量穩(wěn)定,理解力準(zhǔn)確,出圖速度在 Full 版下約 30 秒/張,Dev 版下 10 秒/張,F(xiàn)ast 則為 5 秒/張,可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路中使用。
這些速度不是靠粗暴剪枝換來的:Dev 和 Fast 模型是在原版基礎(chǔ)上,通過 GAN 輔助的擴(kuò)散蒸餾方式做出的結(jié)構(gòu)級壓縮:保留了大模型的細(xì)節(jié)能力,同時(shí)顯著降低了推理成本。Fast 版本則進(jìn)一步壓縮采樣步數(shù),有了更快的速度
直接能用
HiDream-I1 優(yōu)化了整套部署支撐,所以無論是做項(xiàng)目原型,還是打包進(jìn)服務(wù),這套模型的部署鏈路都非常順暢:
? 15GB 顯存起步 就能跑 Dev 版本,推理速度約 10 秒一張圖
? Hugging Face 上權(quán)重齊全 ,配套的推理腳本和配置文件全部開源
? Diffusers 接口支持完整 ,可以一鍵加載到現(xiàn)有 pipeline 里使用
? 可接入 ComfyUI / Gradio ,可直接嵌入原本工作流
? 支持 4bit 量化與 LoRA 微調(diào) ,適合本地部署和行業(yè)定制任務(wù)

可以在 Hugging Face 上先玩(也有對應(yīng)的 Space)
https://huggingface.co/HiDream-ai/HiDream-I1-Full
他們也有更加產(chǎn)品化的網(wǎng)站(面向海外的)
https://vivago.ai/studio
產(chǎn)品是面向海外的 一些數(shù)據(jù)
在幾項(xiàng)主流評測里,會發(fā)現(xiàn)它的表現(xiàn)也都在第一梯隊(duì):
? DPG-Bench :評估模型對復(fù)雜提示的理解與還原能力,得分 85.89 ,總分第一
? GenEval :評估 模型對提示中對象的理解與執(zhí)行能力,得分 0.83 ,開源模型中最高
? HPS v2.1 :評估圖像的主觀美感和語義一致性,HiDream-I1 得分 33.82 ,高于 Midjourney V5、SDXL、DALL·E 3



這些 benchmark 來自公開信息,可以復(fù)現(xiàn)試試。
它們的結(jié)果,其實(shí)只說明一件事: HiDream-I1 在理解文本、還原細(xì)節(jié)、維持畫面質(zhì)量這三件事上,是穩(wěn)的。
One More Thing
I1 之后,這幾天他們還會開源 E1。
https://github.com/HiDream-ai/HiDream-E1/
I for Image,E for Editor:從圖像生成,到圖像編輯
用對話的方式改圖,像 GPT-4o 那種,敬請期待。
來自合肥,低調(diào)做事
第一次注意到 HiDream 這個(gè)團(tuán)隊(duì),還是去年初雪;
再次看到,已是春暖花開。
當(dāng)時(shí)只道是尋常,沒第一時(shí)間去深聊。
而在過去兩周里,HiDream-I1 在開源生態(tài)中一路高歌猛進(jìn),排名躍升,著實(shí)令人咋舌:參數(shù)不大,速度穩(wěn)定,出圖質(zhì)量靠得住,還能跑到頂級開源模型前列。這在如今的開源圖像模型里,已經(jīng)很罕見了。
好奇之下,我聯(lián)系到他們,和團(tuán)隊(duì)聊了半個(gè)下午,拼出這個(gè)項(xiàng)目的全貌。
HiDream.ai 成立于 2023 年 3 月,在合肥。就是那個(gè)背靠中科大,孵化了京東方、科大訊發(fā)的合肥。
創(chuàng)始人梅濤,亦是中科大背景:在中科大讀了本、碩、博,微軟亞洲研究院做了 12 年研究員,后來在京東探索研究院任副院長,還是 IEEE Fellow、加拿大工程院外籍院士。
這個(gè)項(xiàng)目的天使輪,來自群友:一個(gè)叫“中喝大”的中科大校友群。在這里 15 位校友自發(fā)組了 LLP,投下“種子一號基金”。在之后,是上面提到的「敦鴻資本領(lǐng)投的 Pre-A 輪融資后,又獲得數(shù)億元 A 輪融資,兩輪融資總共規(guī)模達(dá)到數(shù)億元人民幣」。在行業(yè)之內(nèi),融的不算多。
梅濤自己說,他創(chuàng)業(yè)不是為了跟誰競爭,也不是為了趕熱點(diǎn),而是想證明——中國的科研人才可以在工業(yè)級產(chǎn)品線中做出自己的東西。哪怕晚幾年,但路徑能跑通、結(jié)構(gòu)能復(fù)制。
目前, HiDream.ai 團(tuán)隊(duì)也就 50 人上下,但擁有目前行業(yè)中最豐富的多模態(tài)版權(quán)語料庫,并且把訓(xùn)練 ROI 做到了業(yè)內(nèi)平均的 1/5。模型路線走的是自研架構(gòu)、全流程閉環(huán),也是在中國少數(shù)真正“從基礎(chǔ)模型一路做到應(yīng)用層閉環(huán)”的圖像/視頻方向創(chuàng)業(yè)公司之一。
辦公室實(shí)拍...沒啥構(gòu)圖,主打真誠
在他們上周海外爆火了一波后,照理說你會看到鋪天蓋地的 PR 稿件,來講什么“國產(chǎn)替代”或“國產(chǎn)超越”的故事。
但實(shí)際上,啥也沒有。看到的就只是把權(quán)重掛上 Hugging Face,貼好推理腳本、樣例代碼、demo 頁面,然后靜靜等社區(qū)試用。
我問他們,“為什么不講點(diǎn)東西?”
團(tuán)隊(duì)的回答是:“說得響沒用,能用才有價(jià)值。”
語氣平實(shí),節(jié)奏克制。
能看出,他們不是不準(zhǔn)備,而是不著急。
這兩天,他們還會正式開源 HiDream-E1,E for Editor。
Git 上已經(jīng)有了 Readme,開出來不遠(yuǎn)了
接下來,HiDream 還會陸續(xù)發(fā)布多模態(tài) Agent 模型 HiDream-A1(A for Agent)、產(chǎn)品 vivaGO v2.0,面向?qū)I(yè)創(chuàng)作者的終端 App,以及視頻生成的相關(guān)東西(預(yù)估是5月)。
沒喊口號,按計(jì)劃在推進(jìn)。不在造勢,而在做事。
結(jié)尾
很有意思,AI 的大火從北京燒到上海,進(jìn)而點(diǎn)亮了「杭州六小龍」,也讓我們看到了 Manus 在武漢崛起。
現(xiàn)在,合肥也交出了自己的答卷:HiDream。
一個(gè)創(chuàng)業(yè)團(tuán)隊(duì),從圖像模型切入,在沒人關(guān)注的節(jié)點(diǎn),把一件“早就該有人做的事”做出來了。
春風(fēng)拂面,桃花滿枝。
我們越發(fā)看見、也越發(fā)確信:
中國的創(chuàng)業(yè)公司,不講故事,也能把答案寫在時(shí)代的卷首。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.