99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

智譜再融10億!獲上海國資押注,開源視覺大模型,能解說球賽,還會玩手機

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西7月2日報道,今天,智譜發布了GLM-4.1V-Thinking系列視覺推理模型,并率先開源了GLM-4.1V-9B-Thinking,后者的整體水平達到了同尺寸(10B量級)視覺語言模型的領先水平,還在多項能力上超過了尺寸更大的Qwen-2.5-VL-72B、GPT-4o等模型。

開源之外,智譜還在今天舉行的智譜開放平臺產業生態大會上宣布,該公司獲得浦東創投集團和張江集團聯合戰略投資,總額10億元。同時,智譜推出全新生態平臺Agent應用空間,并開啟Agents開拓者計劃,投入數億資金,全方位扶持AI Agents創業團隊。

GLM-4.1V-9B-Thinking通過混合訓練融合了豐富的多模態模型能力。這一模型能解析最長2小時的視頻內容,或是對圖像中的內容進行深入分析和解答。例如,解析球賽時,模型能理解球員的位置,看懂球員的戰術特點。


▲視頻解析能力展示(圖源:智譜)

它還支持看圖寫網頁、GUI Agent能力等,能識別網頁、電腦屏幕、手機屏幕等交互界面元素,支持點擊、滑動等指令執行能力。比如,當收到用戶創建日程的要求時,它能自動找到對應應用,并準確完成操作。


▲GUI Agent能力展示(圖源:智譜)

這一模型還擅長數學與科學推理、視覺錨定與實體定位(Grounding)等任務,后者可實現語言與圖像區域的精準對齊,提升人機交互可控性。

GLM-4.1V-9B-Thinking在28項評測任務中獲得了23項同尺寸模型最佳,在18項任務持平甚至超過8倍參數量的Qwen-2.5-VL-72B。這一效果得益于智譜引入的課程采樣強化學習(Reinforcement Learning with Curriculum Sampling)策略。


目前,GLM-4.1V-9B-Thinking已在GitHub、魔搭、Hugging Face上開源,這一尺寸的模型較為適合本地部署。用戶也可在魔搭、Hugging Face上直接體驗到這一模型,體驗頁面支持上傳圖片、視頻、PPT、PDF等文件。GLM-4.1V-Thinking的技術報告也一并公開。

論文鏈接:

https://arxiv.org/abs/2507.01006

部分開源鏈接:

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

部分體驗鏈接:

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

一、訓練架構圍繞統一核心:用強化學習增強推理能力

論文提到,視覺-語言模型(VLMs)已成為現代智能系統的關鍵基石,使系統能夠超越文本感知和理解視覺信息。在過去十年中,隨著模型智能水平的顯著提升,相應多模態智能任務的復雜性也相應增加。

當前,業內對模型的要求已遠遠超出簡單的視覺內容感知,對高級推理能力的重視程度不斷增加。最近,許多研究表明,長形式推理和可擴展的強化學習可以顯著增強大型語言模型(LLMs)解決復雜問題的能力。

一些先前的研究嘗試使用類似的范式來增強VLMs的推理能力,但它們主要集中在特定領域。目前,開源社區缺乏一種在廣泛任務范圍內持續超越傳統同類參數規模非推理模型的多模態推理模型。

因此,智譜GLM-4.1V-Thinking的訓練框架圍繞一個統一目標構建:通過可擴展的強化學習全面增強模型的推理能力。

GLM-4.1V-Thinking模型架構由三個核心模塊組成:視覺編碼器(ViT Encoder)、多層感知機適配器(MLP Projector)以及語言解碼器(Language Decoder)


智譜選用AIMv2-Huge作為視覺編碼器(這是蘋果提出的通用視覺編碼器),GLM作為語言解碼器。

在視覺編碼器部分,智譜將原始的二維卷積替換為三維卷積,尤其適用于視頻理解,有效提升了處理效率。對于靜態圖像輸入,則通過復制幀的方式以保持輸入格式的一致性。

GLM-4.1V-Thinking系列模型還對任意圖像分辨率和寬高比具有一定適應能力,這得益于兩項關鍵改進:

其一,融合二維旋轉位置編碼(2D-RoPE),使模型能夠穩定處理極端寬高比(如超過200:1)和超高分辨率(如4K以上)的圖像;

其二,為保留ViT預訓練模型的原有能力,智譜保留了其可學習的絕對位置嵌入,并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入。

在語言解碼器中,智譜對原始的旋轉位置編碼(RoPE)進行了三維擴展(3D-RoPE)。這一設計顯著增強了模型在多模態輸入處理中的空間理解能力,同時保持了其在文本生成方面的原始性能。

二、預訓練工作分兩步走,給模型“排課程”實現高效RL

GLM-4.1V-Thinking 的訓練過程分為三個階段:預訓練(Pretraining)、監督微調(SFT) 和強化學習(RL)。

1、預訓練

在模型的預訓練階段,智譜采用了分階段漸進式的訓練策略,通過兩個緊密銜接的子階段逐步構建和提升模型的多模態理解與長上下文處理能力。

首先展開的是多模態預訓練階段,這個階段的核心目標是打牢模型的基礎能力,使其建立起對多種模態數據的通用理解。這一階段的訓練數據,既有傳統的圖像字幕和交錯圖文,也包含了更具挑戰性的OCR識別、視覺定位(Grounding)以及指令響應等多樣化數據。

隨后進入的長上下文持續訓練階段,則著重拓展模型處理復雜長序列數據的能力。這個階段,智譜引入了更具挑戰性的訓練素材,包括連續的視頻幀序列以及token數量超過8K的超長圖文混合內容。

通過這兩個階段的遞進式訓練,模型逐步獲得了處理高分辨率圖像、視頻序列以及超長文本等復雜場景的能力。

2、監督微調

在微調階段,智譜構建了一個高質量的CoT(思維鏈)訓練集,用于強化模型的長篇因果推理能力。

訓練語料來自多個任務場景,包括數學題解、多輪對話、代理規劃與復雜指令跟隨,涵蓋圖文、多模態及純文本等不同類型。這一階段不僅提高了多模態推理能力,也保持了模型在語言理解與邏輯推演方面的穩定表現。

3、課程采樣強化學習

在監督微調基礎上,智譜引入強化學習全面優化模型性能。強化學習讓模型通過與環境的交互來學習行為策略,以最大化累計獎勵,課程采樣強化學習在此基礎上引入課程學習的思想,通過合理安排訓練樣本的難度順序,使模型能夠更高效地學習。

智譜結合兩種方法:基于可驗證獎勵的強化學習(RLVR) 和基于人類反饋的強化學習(RLHF)。前者更加適用于有明確答案的問題,后者則更適用于需要人類評判模型完成效果的問題。

強化學習工作覆蓋了多個關鍵領域:

(1)STEM領域問題求解(數學、物理、化學)

(2)多模態信息定位與理解(OCR、實體定位、視頻分析)

(3)智能體任務(GUI交互、代理規劃)

(4)文檔與圖表理解、邏輯推理、復雜指令執行等

通過課程采樣,在這些任務上開展由易而難的動態大規模強化學習訓練,模型在實用性、準確性和穩健性等方面取得了顯著提升。

在基準測試中,GLM-4.1V-9B-Thinking展現出了類似尺寸模型中領先的水平,并在通用視覺問答、STEM、OCR & Chart、長文檔理解、GUI Agents和多模態編碼以及視頻理解領域表現出色。


測試還探討了多領域強化學習中不同模態領域之間是否能泛化和相互促進的問題。對STEM、OCR & Chart、視覺定位 (Grounding))和GUI Agent這四個代表性領域的實驗表明,在大多數領域中都存在強大的跨領域泛化和相互促進現象

例如,在STEM數據上進行強化學習不僅提高了STEM領域的特定技能,還增強了視覺定位GUI Agent交互和通用視覺QA任務的性能。跨領域聯合訓練在每個領域中帶來了更大的改進,這可能是GLM-4.1V-9B-Thinking良好性能的基礎。

、發布Agent應用空間,可一站式接入Agent能力

智譜還在今天發布了全新生態平臺Agent應用空間,這是一個面向企業客戶和開發者的AI Agent能力聚合平臺。


Agent應用空間提供Agent應用與模型插件(MCP)。開箱即用、靈活編排的組件服務和Agents應用,讓企業無需自建大模型團隊,即可低門檻接入成熟、安全、可控的Agent能力。

這一平臺還提供一站式開發工具鏈、完整的模型調用接口與靈活的應用組合機制。

智譜是國內較早布局智能體技術的大模型廠商之一,曾提出Agentic GLM戰略。今年3月,智譜曾發布AutoGLM沉思智能體,能探究開放式問題,并根據結果執行操作的自主智能體(AI Agent),可以模擬人類的思維過程,完成從數據檢索、分析到生成報告。

結語:智譜開源動作持續,今年已集齊五城融資

2025年,智譜逐漸加速了其開源節奏,已經陸續推出GLM-Z1-Air、GLM-Z1-Air、GLM-Z1-Rumination等開源模型。智譜本次開源的新模型對Agent能力做了大量的針對性訓練,提升了模型在Agent場景的使用價值,也順應了當下Agentic AI的整體趨勢。

4月,智譜宣布啟動IPO進程,但其在一級市場的融資并未放緩。今年開年以來,智譜已經獲得了北京、上海、杭州、成都、珠海等五個城市的地方國資押注,融資總額超25億元。這也表明,對于行業頭部企業而言,大模型的吸金熱還遠未結束。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
施壓姆巴佩!阿隆索官宣決定!21歲天才上位,醞釀變陣,必須防守

施壓姆巴佩!阿隆索官宣決定!21歲天才上位,醞釀變陣,必須防守

阿泰希特
2025-07-05 11:03:38
可惡!印從中國進口120噸稀土,違規轉手賣給歐美,中國果斷出手

可惡!印從中國進口120噸稀土,違規轉手賣給歐美,中國果斷出手

叮當當科技
2025-07-05 11:48:36
愚蠢老人的表現?滿足這9條就是愚蠢的老人,一條不占太厲害了

愚蠢老人的表現?滿足這9條就是愚蠢的老人,一條不占太厲害了

情感大使館
2025-07-01 10:18:56
哈利伯頓穿著保護靴抵達訓練館,觀看步行者隊夏聯訓練

哈利伯頓穿著保護靴抵達訓練館,觀看步行者隊夏聯訓練

雷速體育
2025-07-05 07:30:42
80年代,鄧樸方請朋友幫他找個老婆,但提出一個要求:不能有孩子

80年代,鄧樸方請朋友幫他找個老婆,但提出一個要求:不能有孩子

帝哥說史
2025-05-15 06:35:02
航母鋼板神話被戳破!中國用40厘米鋼板干翻西方封鎖,進全球三強

航母鋼板神話被戳破!中國用40厘米鋼板干翻西方封鎖,進全球三強

獵火照狼山
2025-05-30 19:23:09
洪森賭贏了,佩通坦接受判決,不到24小時中方出手,送泰國一句話

洪森賭贏了,佩通坦接受判決,不到24小時中方出手,送泰國一句話

霽寒飄雪
2025-07-04 21:11:09
被迫流亡的西哈努克:中國收留他,他復國后如何回報我國的?

被迫流亡的西哈努克:中國收留他,他復國后如何回報我國的?

阿燕姐說育兒
2025-07-04 03:04:45
日本靈媒野川解釋龍樹諒關于日本大災難預言:看陰歷,是8月27日

日本靈媒野川解釋龍樹諒關于日本大災難預言:看陰歷,是8月27日

風月觀主
2025-07-05 08:10:09
曝曼聯5人已申請轉會,阿莫林允許其推遲歸隊!拉什福德要求參訓

曝曼聯5人已申請轉會,阿莫林允許其推遲歸隊!拉什福德要求參訓

羅米的曼聯博客
2025-07-05 08:33:28
門口驚現“蟑螂”,杭州一住戶用殺蟲劑一噴,鄰居怒了:我的螳螂……

門口驚現“蟑螂”,杭州一住戶用殺蟲劑一噴,鄰居怒了:我的螳螂……

都市快報橙柿互動
2025-07-05 13:06:56
《歌手2025》大局已定,單依純奪冠無望,最終冠軍在此三人中

《歌手2025》大局已定,單依純奪冠無望,最終冠軍在此三人中

馬慶云的影音娛
2025-07-04 22:42:22
清一色的美女同事是啥體驗?網友:我都不敢想象有多香

清一色的美女同事是啥體驗?網友:我都不敢想象有多香

解讀熱點事件
2025-07-05 00:15:03
女子向男閨蜜炫耀私處紋身,2次展示后慘遭強奸,男子:沒忍住!

女子向男閨蜜炫耀私處紋身,2次展示后慘遭強奸,男子:沒忍住!

談史論天地
2025-06-27 17:20:03
狄龍:在水療中心得知被交易,很興奮加入一支年輕且饑餓的球隊

狄龍:在水療中心得知被交易,很興奮加入一支年輕且饑餓的球隊

雷速體育
2025-07-05 09:59:10
兩對情侶酒店拼房,男子趁機與對方女友發生關系,辯解:她很配合

兩對情侶酒店拼房,男子趁機與對方女友發生關系,辯解:她很配合

談史論天地
2025-06-29 16:45:03
何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

通鑒史智
2025-07-03 14:31:53
南京一燒烤店回應贊助“蘇超”:支持“南哥”不需太多理由

南京一燒烤店回應贊助“蘇超”:支持“南哥”不需太多理由

揚子晚報
2025-07-05 11:20:39
長大后才懂,為何到了《神雕俠侶》中,郭靖誰都打不過了?

長大后才懂,為何到了《神雕俠侶》中,郭靖誰都打不過了?

武俠新世界
2025-07-01 05:45:04
貝林厄姆:阿諾德度過了艱難的一天 向若塔的家人致以所有的支持

貝林厄姆:阿諾德度過了艱難的一天 向若塔的家人致以所有的支持

直播吧
2025-07-05 09:30:08
2025-07-05 15:08:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10126文章數 116794關注度
往期回顧 全部

財經要聞

特朗普簽署 美國萬億減稅支出法來了

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

體育要聞

史上最真實的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲反擊!曝向具俊曄提出財產追回

科技要聞

馬斯克吹上天的Cybertruck 為何"徹底失敗"

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀念版上市

態度原創

藝術
家居
親子
時尚
旅游

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

合理布局 三口之家的溫馨空間

親子要聞

近期兩名兒童感染“食腦蟲”,專家解讀

李若彤、鄭秀文低能量時期的“處方”!停滯時不妨試試它

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 江津市| 定安县| 朝阳区| 广灵县| 隆回县| 德化县| 惠州市| 泾川县| 庐江县| 福建省| 科尔| 沁水县| 云和县| 安图县| 吕梁市| 原平市| 玉屏| 元谋县| 陆丰市| 龙州县| 沈阳市| 怀来县| 琼海市| 乌拉特前旗| 新蔡县| 赣州市| 元朗区| 石门县| 社会| 陆河县| 格尔木市| 开封县| 阜新| 应用必备| 阳新县| 会泽县| 台州市| 北碚区| 水城县| 常山县| 南昌市|