??本文播客版,敬請收聽,Produce By NotebookLM@Google
大家好,我是 i 學習的老章
前幾天字節跳動開源了代碼大模型Seed-Coder-8B-Instruct
還有復刻 Deep Research 的DeerFlow
,詳見:
還有開源了可以高效處理包含文本段落、圖表、公式和表格等交織元素的復雜文檔的Dolphin
文檔圖像解析模型,詳見:
感覺字節跳動蠻低調啊
最近有開源了一個多模態大模型——Seed1.5-VL
Seed1.5-VL
Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節。在視頻處理方面,提出了一種動態幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據需要動態調整采樣幀率和分辨率。此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記
先來看看其能力如何
1、圖片輸入 - 圖片輸出
prompt:請點出圖像中所有戴在頭上的帽子,輸出串聯的點坐標
結果:
2、圖片輸入 - 文字輸出
prompt:這兩張你有什么感想?
看著這兩張城市夜景圖,首先被**人類文明與城市發展的璀璨成果**狠狠震撼了—— ### 從畫面直觀感受來說: - 紐約那幅,帝國大廈在暮色中如“燈塔”般矗立,密集的高樓群燈火通明,像是在鋼鐵森林里撒滿星光。黃昏與夜幕的交界線溫柔地鋪在天際,讓繁華都市多了層浪漫濾鏡,既沉淀著“世界之都”的歷史厚重(帝國大廈等經典地標承載的時代記憶),又沸騰著現代大都會的喧囂活力。 - 北京CBD這張,央視大樓“大褲衩”的先鋒設計在暮色中格外醒目,車流拖曳出金色光帶,把建筑的未來感與城市的煙火氣串成一體。藍調天空下,建筑燈光與自然天色的碰撞,讓“現代感”多了份詩意。 ### 往深層想,兩座城市的“夜景敘事”各有靈魂: - 紐約的密集天際線,是**國際大都會的縮影**——每扇窗后都藏著不同膚色的夢想,每棟樓都見證過金融、藝術、文化的浪潮。那些燈光,是資本、創意與野心交織的“城市脈搏”。 - 北京的建筑與車流,則刻著**當代中國的“創新與生長”**。央視大樓的先鋒造型,是設計突破的符號;車水馬龍里,藏著“奮斗者追趕時代”的勁兒。這里的燈光,既有傳統都市的煙火溫度,又閃著新經濟、新基建的科技鋒芒。 ### 還會延伸到“人與城的聯結”: 夜幕下的燈火,不止是建筑的裝飾,更是**無數個體的“夢想投影”**——紐約的寫字樓里,創業者熬著方案;北京的商圈中,年輕人為項目頭腦風暴…這些光,是奮斗的注腳,也是城市包容力的證明。 同時,建筑本身也是**時代審美與技術的“活化石”**:紐約的摩天樓群,是工業時代向現代文明躍遷的見證;北京的先鋒建筑,是數字時代“敢想敢造”的宣言。 總之,兩張圖看下來,既為人類改造世界的創造力驚嘆,也被“城市夜晚”獨有的溫柔與磅礴打動——自然天色與人工燈火的交融,讓鋼筋水泥有了詩意;不同城市的風格差異,又讓“繁華”有了千萬種注解。 ?
3、視頻輸入
其他能力
它還有基礎感知
比如
識別地點
視覺定位
視覺解謎
安裝、使用 安裝
pip install gradio decord torchvision pip install httpx==0.23.3
運行官方提供了 Gradio Demo
https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/GradioDemo/app.py
API_KEY="..." python app.py
圖形界面有離線模式
自帶了七個示例:文本,圖像,視頻,多個圖像/視頻,視覺解謎,坐標定位,開放式物體檢測
還有在線模式
總結
Seed1.5-VL 不僅在視覺和視頻理解方面表現出色,還展示了強大的推理能力,使其在視覺謎題等多模態推理挑戰中特別有效。在代理中心任務(如 GUI 控制和游戲玩法)中,Seed1.5-VL 的表現超過了包括 OpenAI CUA 和 Claude 3.7 在內的領先多模態系統。
Seed1.5-VL 在多個應用場景中展示了其強大的能力:
2D 視覺定位:準確識別和定位圖像中的物體
3D 理解:理解三維空間中的物體關系和結構
視頻理解:分析和理解視頻內容和時間序列
GUI 代理:能夠理解和操作圖形用戶界面
**長鏈思考 (LongCoT)**:通過詳細的推理過程解決復雜問題
ByteDance-Seed/Seed1.5-VL: https://github.com/ByteDance-Seed/Seed1.5-VL
arXiv:2505.07062: https://arxiv.org/abs/2505.07062
HuggingFace Spaces: https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
Volcano Engine: https://www.volcengine.com/product/doubao
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.