HiDream：最強(qiáng)文生圖開源模型，來自合肥

2025-04-16 09:22:29　來源: 賽博禪心

北京舉報(bào)

分享至

剛出道的 HiDream-I1，拿下了 Hugging Face 趨勢榜第二（圖像榜第一），Artificial Analysis 文生圖第二，排在Midjourney、Google Imagen、FLUX、SDXL 之前，僅次于 GPT-4o 。

老實(shí)講，看多了龍爭虎斗，本應(yīng)對此免疫。

但被提醒道：這是個(gè)創(chuàng)業(yè)團(tuán)隊(duì)搞的，來自合肥

打了個(gè)猛子...牛逼牛逼，真尼瑪牛逼

Hugging Face 模型趨勢榜 Artificial Analysis 圖像競技場

不得不仔細(xì)看了幾眼：

? 它是MIT 協(xié)議， 開源的可商用
? 它是 中國團(tuán)隊(duì)做的 ，也沒拿自己和誰對標(biāo)
? 它是 可部署的 ，權(quán)重、腳本、demo、量化全部已放出
? 這不是大廠項(xiàng)目，這不是！這不是！

真的，這東西，是我們“默認(rèn)國內(nèi)早就該有”，但直到現(xiàn)在才出來的東西。

甚是好奇，隨即我聯(lián)系上了背后團(tuán)隊(duì)，問了大量私貨，有了這篇文章。

真實(shí)可用，不是PPT

HiDream-I1 分三個(gè)版本：Full / Dev / Fast，分別對應(yīng)不同的推理場景。

這里有幾個(gè)官方 Case，來自

畫面細(xì)節(jié) 色彩與光效崩壞控制物理法則
我去跑了幾個(gè)任務(wù)：可愛的舉重貓貓富有張力的鏡頭特寫帶上文字也可以

生成質(zhì)量穩(wěn)定，理解力準(zhǔn)確，出圖速度在 Full 版下約 30 秒/張，Dev 版下 10 秒/張，F(xiàn)ast 則為 5 秒/張，可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路中使用。

這些速度不是靠粗暴剪枝換來的：Dev 和 Fast 模型是在原版基礎(chǔ)上，通過 GAN 輔助的擴(kuò)散蒸餾方式做出的結(jié)構(gòu)級壓縮：保留了大模型的細(xì)節(jié)能力，同時(shí)顯著降低了推理成本。Fast 版本則進(jìn)一步壓縮采樣步數(shù)，有了更快的速度

直接能用

HiDream-I1 優(yōu)化了整套部署支撐，所以無論是做項(xiàng)目原型，還是打包進(jìn)服務(wù)，這套模型的部署鏈路都非常順暢：

? 15GB 顯存起步 就能跑 Dev 版本，推理速度約 10 秒一張圖
? Hugging Face 上權(quán)重齊全 ，配套的推理腳本和配置文件全部開源
? Diffusers 接口支持完整 ，可以一鍵加載到現(xiàn)有 pipeline 里使用
? 可接入 ComfyUI / Gradio ，可直接嵌入原本工作流
? 支持 4bit 量化與 LoRA 微調(diào) ，適合本地部署和行業(yè)定制任務(wù)

官方在 hf 上的介紹

可以在 Hugging Face 上先玩（也有對應(yīng)的 Space）

https://huggingface.co/HiDream-ai/HiDream-I1-Full

他們也有更加產(chǎn)品化的網(wǎng)站（面向海外的）

https://vivago.ai/studio

產(chǎn)品是面向海外的一些數(shù)據(jù)

在幾項(xiàng)主流評測里，會發(fā)現(xiàn)它的表現(xiàn)也都在第一梯隊(duì)：

? DPG-Bench ：評估模型對復(fù)雜提示的理解與還原能力，得分 85.89 ，總分第一
? GenEval ：評估模型對提示中對象的理解與執(zhí)行能力，得分 0.83 ，開源模型中最高
? HPS v2.1 ：評估圖像的主觀美感和語義一致性，HiDream-I1 得分 33.82 ，高于 Midjourney V5、SDXL、DALL·E 3

DPG-Bench：評估模型對復(fù)雜提示的理解與還原能力

GenEval：評估模型對提示中對象的理解與執(zhí)行能力

HPS v2.1 ：評估圖像的主觀美感和語義一致性

這些 benchmark 來自公開信息，可以復(fù)現(xiàn)試試。

它們的結(jié)果，其實(shí)只說明一件事： HiDream-I1 在理解文本、還原細(xì)節(jié)、維持畫面質(zhì)量這三件事上，是穩(wěn)的。

One More Thing

I1 之后，這幾天他們還會開源 E1。

https://github.com/HiDream-ai/HiDream-E1/

I for Image，E for Editor：從圖像生成，到圖像編輯

用對話的方式改圖，像 GPT-4o 那種，敬請期待。

來自合肥，低調(diào)做事

第一次注意到 HiDream 這個(gè)團(tuán)隊(duì)，還是去年初雪；

再次看到，已是春暖花開。

當(dāng)時(shí)只道是尋常，沒第一時(shí)間去深聊。

而在過去兩周里，HiDream-I1 在開源生態(tài)中一路高歌猛進(jìn)，排名躍升，著實(shí)令人咋舌：參數(shù)不大，速度穩(wěn)定，出圖質(zhì)量靠得住，還能跑到頂級開源模型前列。這在如今的開源圖像模型里，已經(jīng)很罕見了。

好奇之下，我聯(lián)系到他們，和團(tuán)隊(duì)聊了半個(gè)下午，拼出這個(gè)項(xiàng)目的全貌。

HiDream.ai 成立于 2023 年 3 月，在合肥。就是那個(gè)背靠中科大，孵化了京東方、科大訊發(fā)的合肥。

創(chuàng)始人梅濤，亦是中科大背景：在中科大讀了本、碩、博，微軟亞洲研究院做了 12 年研究員，后來在京東探索研究院任副院長，還是 IEEE Fellow、加拿大工程院外籍院士。

這個(gè)項(xiàng)目的天使輪，來自群友：一個(gè)叫“中喝大”的中科大校友群。在這里 15 位校友自發(fā)組了 LLP，投下“種子一號基金”。在之后，是上面提到的「敦鴻資本領(lǐng)投的 Pre-A 輪融資后，又獲得數(shù)億元 A 輪融資，兩輪融資總共規(guī)模達(dá)到數(shù)億元人民幣」。在行業(yè)之內(nèi)，融的不算多。

梅濤自己說，他創(chuàng)業(yè)不是為了跟誰競爭，也不是為了趕熱點(diǎn)，而是想證明——中國的科研人才可以在工業(yè)級產(chǎn)品線中做出自己的東西。哪怕晚幾年，但路徑能跑通、結(jié)構(gòu)能復(fù)制。

目前， HiDream.ai 團(tuán)隊(duì)也就 50 人上下，但擁有目前行業(yè)中最豐富的多模態(tài)版權(quán)語料庫，并且把訓(xùn)練 ROI 做到了業(yè)內(nèi)平均的 1/5。模型路線走的是自研架構(gòu)、全流程閉環(huán)，也是在中國少數(shù)真正“從基礎(chǔ)模型一路做到應(yīng)用層閉環(huán)”的圖像/視頻方向創(chuàng)業(yè)公司之一。

辦公室實(shí)拍...沒啥構(gòu)圖，主打真誠

在他們上周海外爆火了一波后，照理說你會看到鋪天蓋地的 PR 稿件，來講什么“國產(chǎn)替代”或“國產(chǎn)超越”的故事。

但實(shí)際上，啥也沒有。看到的就只是把權(quán)重掛上 Hugging Face，貼好推理腳本、樣例代碼、demo 頁面，然后靜靜等社區(qū)試用。

我問他們，“為什么不講點(diǎn)東西？”

團(tuán)隊(duì)的回答是：“說得響沒用，能用才有價(jià)值。”

語氣平實(shí)，節(jié)奏克制。

能看出，他們不是不準(zhǔn)備，而是不著急。

這兩天，他們還會正式開源 HiDream-E1，E for Editor。

Git 上已經(jīng)有了 Readme，開出來不遠(yuǎn)了

接下來，HiDream 還會陸續(xù)發(fā)布多模態(tài) Agent 模型 HiDream-A1（A for Agent）、產(chǎn)品 vivaGO v2.0，面向?qū)I(yè)創(chuàng)作者的終端 App，以及視頻生成的相關(guān)東西（預(yù)估是5月）。

沒喊口號，按計(jì)劃在推進(jìn)。不在造勢，而在做事。

結(jié)尾

很有意思，AI 的大火從北京燒到上海，進(jìn)而點(diǎn)亮了「杭州六小龍」，也讓我們看到了 Manus 在武漢崛起。

現(xiàn)在，合肥也交出了自己的答卷：HiDream。

一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)，從圖像模型切入，在沒人關(guān)注的節(jié)點(diǎn)，把一件“早就該有人做的事”做出來了。

春風(fēng)拂面，桃花滿枝。

我們越發(fā)看見、也越發(fā)確信：

中國的創(chuàng)業(yè)公司，不講故事，也能把答案寫在時(shí)代的卷首。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.