網易首頁 > 網易號 > 正文申請入駐

transformers v4.52.1全面升級：多模態Qwen2.5-Omni引領AI新風口，SAM-HQ等多模型震撼來襲！

2025-05-22 00:09:27　來源: moonfdd

北京舉報

分享至

大家好！隨著AI技術的飛速發展，Hugging Face的Transformers庫持續為我們帶來驚喜。今天我為大家深度解析最新發布的Transformers v4.52.1版本，這次更新可謂干貨滿滿，不僅帶來了多款重磅新模型，更有底層性能優化、量化技術突破以及易用性的飛躍！無論你是研究者還是開發者，都不能錯過這篇詳盡解析。

一、Transformers v4.52.1全方位解析簡介

Transformers v4.52.1于2025年5月21日發布，堪稱本年度最具突破性的升級版本。該版本不僅新增了行業領先的Qwen2.5-Omni多模態大模型，還推出了SAM-HQ高質量圖像分割模型、D-FINE精細回歸目標檢測模型等眾多高性能模型模塊。

此外，本版本還融合了包括AutoRound在內的先進量化算法，支持更多硬件和分布式策略，同時煥新了圖像處理速度，增強了對GPU、XPU等多類芯片的支持度。下面，我們將分模塊詳細解讀。

二、重磅新模型深度剖析 1. Qwen2.5-Omni：開啟真正的統一多模態新時代

Qwen2.5-Omni是由阿里巴巴Qwen團隊推出的端到端多模態模型，能夠同時接受文本、圖像、音頻和視頻多種輸入，并能流式生成文本和自然語音響應。

其創新點包括：

?塊式多模態編碼器設計：針對音視頻數據用塊處理，從而降低長序列處理難度，視覺與聽覺融合通過共享注意力機制實現。
?TMRoPE位置編碼：巧妙實現音視頻時序對齊，提升多模態序列同步性。
?Thinker-Talker架構：文本生成（Thinker）與語音生成（Talker）分軌設計，有效避免文本和語音信號間干擾，還支持端到端訓練和推理。
?流式語音解碼滑動窗口技術：大幅降低語音生成延遲。
?超越同尺寸Qwen2系列：在多模態基準Omni-Bench中刷新紀錄，流式語音自然度及穩健性領先。

Qwen2.5-Omni在AI對話、智能助理、跨模態搜索和內容生成等場景將大放異彩，其中文到語音（TTS）與語音到文本（STT）的無縫連接，標志著多模態交互進入新紀元。

2. SAM-HQ：高質量圖像分割的新利器

SAM（Segment Anything Model）已經成為標桿，但其在細節處理上仍存在不足。SAM-HQ通過引入高質量輸出Token（HQ Token），融合全局與局部特征，使用44K高質量精細掩碼數據訓練，幾小時內完成訓練，極大提升掩碼邊緣精準度。

? 保留了原SAM的開源、promptable和零樣本能力
? 只增加0.5%的參數，卻極大提升邊緣和細節表現
? 特別針對復雜結構物體精度上遠超原版
? 支持多點交互得到單個高質量掩碼

這意味著無論是醫學影像、工業缺陷檢測還是自動駕駛感知，SAM-HQ都將提供更細膩、更專業的圖像分割結果。

3. D-FINE：實時目標檢測回歸精細化利器

由深度學習團隊提出的D-FINE重新定義了DETR模型的邊界框回歸任務，讓定位更精準，速度更快。

?細粒度分布精煉（FDR）：邊界框回歸變成概率分布的迭代優化，提供中間細粒度表示
?全局最佳定位自蒸餾（GO-LSD）：雙向優化策略，自蒸餾提高淺層準確度，簡化深層任務
? 更佳的速度-精度平衡，NVIDIA T4上支持高幀率FPS（78-124）
? COCO和Objects365數據集上刷新實時檢測AP指標

這為工業應用場景中需要實時、精細且穩定目標檢測奠定了堅實基礎。

4. CSM（Conversational Speech Model）：首個開源連貫對話TTS模型

CSM模型由Sesame團隊推出，支持多輪對話上下文的自然語音生成。

? 配合Mimi編碼器，將語音轉化為離散碼本，實現端到端生成
? 雙Transformer解碼器設計，精準生成與上下文語義連貫的語音
? 支持上下文無關及多輪對話情境下自然表達
? Hugging Face Sesame官方賬號上已有原始模型checkpoints開放

為智能語音交互、虛擬助理賦予了更真實、更連貫的聲音表現力。

5. BitNet：4萬億令牌訓練的1-bit大模型，極致高效

BitNet模型在保持與全精度模型匹配性能的同時，通過1-bit原生量化方式極大提升效率，節省顯存、能耗和推理延遲。為資源受限設備上部署大型語言模型提供了極大可能。

6. LlamaGuard 4：多模態安全守護者

12B參數稀疏Llama 4基礎上裁剪，支持單GPU運行（24GB顯存），能對文本和圖像輸入/輸出進行不當內容檢測，支持多語言，非常適合大型模型運行中間的安全審核和內容過濾。

7. TimesFM：基于Decoder的大規模時間序列預測基礎模型

TimesFM模型結合語言模型設計理念，預訓練大規模時間序列數據，實現通用、高效的預測，零樣本能力接近各專門時間序列預測模型。為金融、氣象、供應鏈等領域的預測模型開辟新路徑。

8. MLCD：多模態視覺語言基礎模型

由DeepGlint推出，使用樣本到類別對比學習，利用LAION400M和COYO700M海量數據訓練。突出特點是性能優化針對視覺多模態語言模型，如LLaVA等，提升跨模態理解表現。

9. Janus及Janus-Pro系列：視覺編碼解耦與統一多模態生成方案

Janus框架首次將視覺理解和生成拆分獨立編碼路徑，使用統一Transformer主干，顯著改進理解效果，支持圖像和文本輸入，生成文本或圖像輸出，需要傳參選擇輸出模式。其Pro版本進一步通過訓練策略和數據規模優化，提升文本到圖像指令遵循能力。

10. InternVL3：原生多模態聯合預訓練巨艦

InternVL3基于一次預訓練同時兼顧視覺和語言能力，突破傳統單文本生成器遷移改造模式，支撐更長視聽環境上下文，加上混合偏好優化（MPO）和測試時擴展，InternVL3-78B在多模態理解任務如MMMU上打破紀錄，性能媲美甚至抗衡當前最尖端的商業大模型。

三、多維技術改進與新特性 1. 性能內核集成與Transformer加速

? 繼承Llama Kernel并持續迭代，根據型號和硬件條件智能切換最優實現
? 支持TP（Tensor Parallelism）分布式推理，兼容主流量化方案（compressed tensor、FP8等）
? 啟用FlashAttention及其升級版FlashAttention2，大幅提升Transformer自注意力計算速度

2. 量化技術自動化突破——AutoRound算法

? 針對極端低比特（2-bit）環境優化，采用符號梯度下降聯合微調截斷閾值
? 僅需200步調優即可獲得接近原模型性能的量化效果
? 已完全集成至Transformers，支持用戶快速部署低資源模型

3. GGUF格式支持

? 專為Gemma3文本骨干網推出，也支持帶量化訓練（QAT）模型及高效加載

4. 快速圖像處理器上線

? 多款視覺模型引入torch/torchvision函數式變換替代PIL/numpy提升處理速度
? 支持CPU與CUDA，提升訓練與推理帶寬
? 速率提升讓大規模視覺模型應用更加流暢

5. 自動生成文檔裝飾器

? 便于貢獻者快速添加函數說明和使用文檔，提升代碼可讀性與維護性

6. 自定義生成方法支持

? 允許模型在Hub上掛載自定義生成代碼，便于快速實驗復現和生成策略創新
? 例如Qwen2.5-0.5B-Instruct專用生成腳本，支持多樣化對話需求

7. CLI體驗升級

? transformers chat 命令簡化，支持所有generate參數傳遞，提升交互便利性

四、版本變化與開發者必讀重要破壞性變更

? 移除pad_to_max_length已廢棄參數
? 提升部分模型前向函數兼容性
? 視頻處理器拆分為獨立類
? 聊天模板支持多文件保存

棄用聲明

? Agents模塊徹底移除，推薦使用smolagents替代
? 停止支持PyTorch 2.0系列，迎接更高版本升級

常見BUG修復案例

? 靈活注意力模塊參數支持修正
? Llama4及Gemma等模型訓練和推理細節調整
? 多核心緩存與分布式環境穩定性改善
? AutoRound量化流程及數據加載流程完善

五、社區貢獻與展望

此次更新離不開社區數十位貢獻者共同努力，從算法創新到工程實踐，從多模態模型到底層硬件友好支持，Transformers拓展了AI模型邊界，推動開源生態向前。

未來我們可期待：

? 多模態交互模型Qwen2.5-Omni引領智能對話革命
? 低比特高質量模型量化進一步普及
? 在GPU/XPU/FPGA等多硬件間平滑遷移
? 語音和視覺融合應用日趨成熟

六、總結

Transformers v4.52.1版本，無疑是一次技術與產品力的飛躍。它通過集合最先進的多模態大模型設計，開創了文本、圖像、音頻、視頻多模態統一處理時代；通過細節打磨，實現了更高精度的圖像分割、目標檢測和語音合成；底層核心算法和量化技術的革新，也讓高性能AI模型在更多硬件環境中變成可能。

我們相信人工智能為普通人提供了一種“增強工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。歡迎關注“福大大架構師每日一題”，讓AI助力您的未來發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.