99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Valley2,基于電商場景的多模態大模型

0
分享至

來源:魔搭社區

Valley2是一種新穎的多模態大型語言模型,旨在通過可擴展的視覺-語言設計增強各個領域的性能,并拓展電子商務和短視頻場景的實際應用邊界。Valley2在電子商務和短視頻領域中實現了最先進的性能。它引入了如大視覺詞匯、卷積適配器(ConvAdapter)和Eagle模塊等創新,提高了處理多樣化真實世界輸入的靈活性,同時增強了訓練和推理效率。

模型鏈接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代碼鏈接:

https://github.com/bytedance/Valley

論文鏈接:

https://arxiv.org/abs/2501.05901

01

模型架構

采用了Qwen2.5作為其LLM主干,SigLIP-384作為視覺編碼器,并結合MLP層和卷積進行高效的特征轉換。

projector:采用了一個帶有大型隱藏層MLP的projector,用輕量級的ConvAdapter替換了之前的PixelShuffle方法。

Eagle模塊 :通過添加額外的視覺編碼器以減少失真并確保兼容極端輸入,從而擴展令牌表示。

數據


02

數據和訓練方式

數據

Valley2的數據由三個部分組成:

  • OneVision風格的數據用于每個階段的多模態大型模型訓練。

  • 針對電子商務和短視頻領域的數據和評估。

  • 構建用于復雜問題解決的鏈式思維(CoT)數據。


訓練

訓練過程包括四個階段:文本-視覺對齊、高質量知識學習、指令微調以及鏈式思維后訓練。


03

實驗結果

Valley2在多個公開基準測試中表現優異,特別是在MMBench、MMStar、MathVista等多個基準上得分較高。此外,在Ecom-VQA基準測試中,Valley2也超越了其他相同規模的模型。

cot-post train 前后對比:


04

模型效果


05

模型推理

下載模型代碼

!git clone https://github.com/bytedance/Valley.git
%cd Valley

模型推理

from valley_eagle_chat import ValleyEagleChat
from modelscope import snapshot_download
import urllib.request

# 需要把模型文件中的config.json的eagle_vision_tower和mm_vision_tower改為本地路徑

model_dir = snapshot_download("bytedance-research/Valley-Eagle-7B")
!modelscope download --model=Qwen/Qwen2-VL-7B-Instruct --local_dir=./Qwen2-VL-7B-Instruct
!modelscope download --model=AI-ModelScope/siglip-so400m-patch14-384 --local_dir=./siglip-so400m-patch14-384
model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'http://p16-goveng-va.ibyteimg.com/tos-maliva-i-wtmo38ne4c-us/4870400481414052507~tplv-wtmo38ne4c-jpeg.jpeg'

img = urllib.request.urlopen(url=url, timeout=5).read()

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given image.'},
],
"images": [img],
}

result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

from valley_eagle_chat import ValleyEagleChat
import decord
import requests
import numpy as np
from torchvision import transforms

model = ValleyEagleChat(
model_path=model_dir,
padding_side = 'left',
)

url = 'https://videos.pexels.com/video-files/29641276/12753127_1920_1080_25fps.mp4'
video_file = './video.mp4'
response = requests.get(url)
if response.status_code == 200:
with open("video.mp4", "wb") as f:
f.write(response.content)
else:
print("download error!")
exit(1)

video_reader = decord.VideoReader(video_file)
decord.bridge.set_bridge("torch")
video = video_reader.get_batch(
np.linspace(0, len(video_reader) - 1, 8).astype(np.int_)
).byte()
print([transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video])

request = {
"chat_history": [
{'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
{'role': 'user', 'content': 'Describe the given video.'},
],
"images": [transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video],
}
result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

顯存占用:


06

未來工作

計劃發布包含文本、圖像、視頻和音頻模態的全能模型,并引入基于Valley的多模態嵌入訓練方法,以支持下游檢索和探測應用。

總之,Valley2代表了多模態大型語言模型的一個重要進展,展示了如何通過改進結構、數據集構建及訓練策略來提升模型性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
65歲英達曬北京別墅,滿屋藏品都是長輩所留,想認孫子巴圖不同意

65歲英達曬北京別墅,滿屋藏品都是長輩所留,想認孫子巴圖不同意

卷史
2025-05-16 05:04:39
小米YU7紙巾盒為何賣169元?雷軍:成本巨高無比!

小米YU7紙巾盒為何賣169元?雷軍:成本巨高無比!

泡泡網
2025-07-03 14:48:46
為什么說中醫不科學?因為有一個巨大的邏輯漏洞,你解釋不清楚

為什么說中醫不科學?因為有一個巨大的邏輯漏洞,你解釋不清楚

肯定式教養
2025-06-10 06:56:12
震驚!網傳成都某廣場發提醒卡片,要警惕同性戀,提倡要子孫滿堂

震驚!網傳成都某廣場發提醒卡片,要警惕同性戀,提倡要子孫滿堂

明月雜談
2025-07-03 13:00:09
南航機長墜亡后續!工作考核細節曝光:考核的不是資質是人情世故

南航機長墜亡后續!工作考核細節曝光:考核的不是資質是人情世故

美美談情感
2025-07-03 22:30:09
若塔因車禍不幸去世,梅西社媒悼念:安息吧

若塔因車禍不幸去世,梅西社媒悼念:安息吧

懂球帝
2025-07-03 22:36:06
馬斯克受邀加入美國自由黨

馬斯克受邀加入美國自由黨

愛看劇的阿峰
2025-07-04 00:00:44
網紅用空殼公司融資3180萬,拿錢跑美國,銀行:求您講點良心!

網紅用空殼公司融資3180萬,拿錢跑美國,銀行:求您講點良心!

社會醬
2025-07-01 17:40:22
“汽油味”越來越濃,新能源車油箱已經比油車還大

“汽油味”越來越濃,新能源車油箱已經比油車還大

消費者報道
2025-07-03 10:16:50
爭議!王欣瑜溫網用綠色水瓶被主裁多次提醒遮擋 無奈換透明水瓶

爭議!王欣瑜溫網用綠色水瓶被主裁多次提醒遮擋 無奈換透明水瓶

醉臥浮生
2025-07-03 16:49:55
1992年,南斯拉夫解體,最終分裂為6個國家,如今哪個混的最好?

1992年,南斯拉夫解體,最終分裂為6個國家,如今哪個混的最好?

欽點歷史
2025-05-31 17:25:04
男子冒充外賣員入戶,與女主播發生6次關系,女子哭訴:還帶道具

男子冒充外賣員入戶,與女主播發生6次關系,女子哭訴:還帶道具

書畫藝術收藏
2025-07-02 19:10:03
重磅 !特朗普將訪華

重磅 !特朗普將訪華

華人星光
2025-07-03 13:33:11
兩次世界大戰德國毀掉了俄羅斯人的未來,也間接拯救了東亞與歐洲

兩次世界大戰德國毀掉了俄羅斯人的未來,也間接拯救了東亞與歐洲

丁丁鯉史紀
2025-07-03 16:00:50
男子因熱射病不幸走了!醫生:高溫寧愿在家啃雪糕,也別干這些事

男子因熱射病不幸走了!醫生:高溫寧愿在家啃雪糕,也別干這些事

葡萄說娛
2025-07-02 13:46:32
特斯拉FSD在華難落地催生灰色產業鏈:山寨版安裝僅需幾百元,官方警示“改裝會影響整車質保服務”

特斯拉FSD在華難落地催生灰色產業鏈:山寨版安裝僅需幾百元,官方警示“改裝會影響整車質保服務”

每日經濟新聞
2025-07-03 18:22:08
6-3,6-1!溫網女單最具冠軍相球員產生,鄭欽文羨慕,已重拾巔峰

6-3,6-1!溫網女單最具冠軍相球員產生,鄭欽文羨慕,已重拾巔峰

大秦壁虎白話體育
2025-07-04 00:02:45
盤點因意外不幸離世的運動員:若塔、科比、雷耶斯、郭嘉璇、布彭扎

盤點因意外不幸離世的運動員:若塔、科比、雷耶斯、郭嘉璇、布彭扎

雷速體育
2025-07-03 21:52:11
林彪打印度有多狠?30分鐘吃掉印軍三個師,直言讓印度從此消失

林彪打印度有多狠?30分鐘吃掉印軍三個師,直言讓印度從此消失

魅力老照片
2025-05-12 19:18:26
姚明現身休斯頓,在當地著名燒烤店用餐

姚明現身休斯頓,在當地著名燒烤店用餐

懂球帝
2025-07-03 16:44:18
2025-07-04 10:19:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
275文章數 130關注度
往期回顧 全部

科技要聞

英偉達再創新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態度原創

健康
家居
本地
藝術
教育

呼吸科專家破解呼吸道九大謠言!

家居要聞

溫潤質感 生活如此明亮動人

本地新聞

云游中國 | 穿越三國!赤壁古戰場藏了多少英雄傳奇?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

考大學選城市:京滬寧漢蓉,杭深蘇穗鎬,這10個城市為什么香?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 正蓝旗| 蒲城县| 长泰县| 新野县| 鄂温| 宜阳县| 鲜城| 隆昌县| 邢台市| 林甸县| 大庆市| 梨树县| 长岭县| 延吉市| 商城县| 黔江区| 广州市| 大新县| 平和县| 新巴尔虎左旗| 贺兰县| 台北市| 阿瓦提县| 沙田区| 武山县| 民丰县| 雷山县| 太康县| 黄浦区| 永济市| 旬阳县| 会同县| 永州市| 桃园县| 钦州市| 集安市| 灵武市| 池州市| 鞍山市| 喜德县| 寻乌县|