99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首次引入強化學習!火山引擎Q-Insight讓畫質理解邁向深度思考

0
分享至




機器之心報道

機器之心編輯部

Q-Insight不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。有了會思考的“大腦”,視頻云技術棧不僅得以重塑也讓用戶體驗有了躍遷。

從 GPT-4o 吉卜力風、即夢的 3D 動畫、再到蘋果 Vision Pro,AI 視覺創作正迎來生產力大爆炸。一個重要問題隨之浮現:如何評估機器生成的畫質符合人眼審美?人眼能瞬間辨別圖像優劣,但教會機器理解「好看」卻充滿挑戰。

視覺革命,呼喚新的畫質「評估師」

作為人們日常內容消費的核心載體,音視頻在過去幾十年間經歷了從低分辨率、有限色彩到超高清沉浸體驗的技術躍遷。這場視覺革命的背后,音視頻相關技術始終是其中的技術支柱,支撐著內容從生產、處理、編碼、傳輸到消費的全鏈路運作。

隨著生成式人工智能與多模態大模型的發展,用戶視頻體驗有了深刻變革。

首先,內容生產將從 UGC/PGC 發展到 AIGC,伴隨視頻生成模型與智能工具的普及,極大的降低了視頻生產的門檻。同時,AIGC 也推動「音視頻」成為新的「通用」語言,為用戶提供了更多元、更生動的交流方式。

其次,得益于 AI 的深度學習能力及其自我進化的特性,交互方式正從以往的人機交互、人人交互,邁向人與 AI 融合交互的新時代。

最后,用戶的交互空間也在從 2D、3D、VR,逐步拓展到虛實融合的全新空間,這帶來了更沉浸的交互體驗,讓實時互動更加「身臨其境」。

面對多模態大模型對視頻生態以及技術架構影響,視頻云作為底層基礎設施正面臨機遇和挑戰。



Q-Insight:深度思考,「看懂」畫質

在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環節大多都基于一個核心問題展開,即人眼的畫質感知。多模態大模型的快速發展為新時代的音視頻技術帶來了新的機遇,面對人眼感知的畫質理解提供了一種全新的解決方案。

以往的畫質理解的方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數值評分,缺乏明確的解釋性,難以深入理解圖像質量背后的原因;(2)描述型方法,這類方法嚴重依賴于大規模文本描述數據進行監督微調,對標注數據的需求巨大,泛化能力和靈活性不足。

針對上述問題,北京大學與火山引擎多媒體實驗室的研究人員聯合提出了基于強化學習訓練的多模態大模型圖像畫質理解方案 Q-Insight。



論文鏈接:https://arxiv.org/pdf/2503.22679

與以往方法不同的是,Q-Insight 不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。通過這種創新思路,Q-Insight 在質量評分、退化感知、多圖比較、原因解釋等多個任務上均達到業界領先水平,具備出色的準確性和泛化推理能力,并且不依賴大量高成本的文本數據標注。



Q-Insight 首次將強化學習引入圖像質量評估任務,創造性地運用了「群組相對策略優化」(GRPO)算法,不再依賴大量的文本監督標注,而是挖掘大模型自身的推理潛力,實現對圖像質量的深度理解。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結果,而是提供了從多個角度綜合評估畫質的詳細推理過程。

實驗結果充分驗證了 Q-Insight 在圖像質量評分、退化檢測和零樣本推理任務中的卓越表現:在圖像質量評分任務上,Q-Insight 在多個公開數據集上的表現均超過當前最先進的方法,特別是在域外數據上的泛化能力突出,并能夠提供完整詳細的推理過程。



在退化感知任務上,Q-Insight 的表現顯著優于現有的退化感知模型,尤其是在噪聲和 JPEG 壓縮退化類型識別的準確性上。



在零樣本圖像比較推理任務上,Q-Insight 無需額外監督微調,即可準確、細致地分析和比較圖像質量,展示出強大的泛化推理能力。



大腦升級,重塑視頻云技術棧

以多模態畫質理解大模型 Q-insight 作為基石之一,火山引擎視頻云已經圍繞多媒體鏈路搭建起基于大模型的解決方案。



大模型算法能力包含有生成式畫質增強大模型、沉浸音頻大模型、生成式視頻編碼大模型、多模態內容理解大模型等。此外,已有的傳統媒體處理能力也與大模型能力方案形成有機結合與互補,其中包括軟件編解碼 BVC 系列、硬件編碼器、處理增強能力、分析和理解能力等。

通過基于 MLLM 實現的多媒體智能體,可以面向不同復雜的業務場景與用戶需求,做到感知理解、智能決策規劃和輸出算法能力方案。相比傳統依據經驗調控的方案,多媒體智能體具有鏈路更智能、算法效果上限更高,并且更貼近實際業務和人眼感知等優勢。

此外,結合視頻云自研多媒體處理框架 BMF 以及大規模多媒體實驗仿真平臺 VLAB 等工程支持,進一步提高了大模型媒體服務的穩定性和效率,有效降低了部署成本。

超越技術,體驗躍遷

火山視頻云產品正在把用戶從流暢、實時、高清的數字視頻世界帶入更智能、更交互、更沉浸的 AI 視頻世界。這不僅意味著技術的飛躍,更代表著體驗方式的一場變革。

在大模型和生成式 AI 技術的強勁推動下,音視頻處理的底層技術正經歷著深刻的變革。

首先對算力層的要求尤為顯著。生成式 AI 技術大幅降低了視頻生成的門檻,導致視頻數據以驚人速度增長。所以也對計算成本和處理效率提出了嚴峻的挑戰。

在算法層,編解碼、處理、分析等音視頻處理的核心技術,正在與大模型不斷的深度融合。這種融合不僅提升了編解碼效率以及畫質表現,更為用戶帶來了更加優質的視頻體驗。

在框架層,隨著視頻生成大模型和預處理所需的計算需求日益增長,我們需要構建更強大、更靈活的多媒體處理框架,不僅要能夠支持大模型的高效運行,還要能夠滿足日益復雜的音視頻處理需求,以應對生成式 AI 帶來的挑戰。



火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎視頻云的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。

火山引擎視頻云,以「體驗」為核心,基于字節跳動億級 DAU 打磨的音視頻技術融合 AI / 大模型技術,打造集視頻直播、企業直播、視頻點播、智能處理、實時音視頻、云游戲、云手機、veImageX 等于一體的一站式音視頻服務,幫助企業端到端提升視頻能力,實現播放體驗、畫質體驗、交互體驗、性能體驗的全面提升與創新。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳震韓路又吵起來了!這次因為商務回款?

陳震韓路又吵起來了!這次因為商務回款?

熱點科技
2025-06-19 16:43:12
7個堪稱“6A”級別的寶藏景區,70歲前每年打卡一個,你去過幾個

7個堪稱“6A”級別的寶藏景區,70歲前每年打卡一個,你去過幾個

墨韻萬象W
2025-06-18 15:32:11
異性頻繁出現這4種舉動,其實早已是“情人”關系,你還蒙在鼓里

異性頻繁出現這4種舉動,其實早已是“情人”關系,你還蒙在鼓里

青蘋果sht
2025-06-18 05:35:18
王毅:以色列無視國際法和國際規則的行徑,造成中東局勢驟然緊張

王毅:以色列無視國際法和國際規則的行徑,造成中東局勢驟然緊張

新京報
2025-06-18 22:18:03
僅上映3天,網友罵翻天!陳可辛的撲街,給多少爛片導演提了醒

僅上映3天,網友罵翻天!陳可辛的撲街,給多少爛片導演提了醒

TVB的四小花
2025-06-20 00:30:07
陜西省2025年養老金調整通知會何時公布?養老金3500元能漲多少?

陜西省2025年養老金調整通知會何時公布?養老金3500元能漲多少?

暖心人社
2025-06-19 22:03:48
德媒:默茨感謝以色列“干臟活”言論招致多方批評

德媒:默茨感謝以色列“干臟活”言論招致多方批評

參考消息
2025-06-19 17:33:26
刷爆金融圈!50歲券商大佬在西藏跑山失聯9天,海拔4400多米!家屬懸賞10萬急尋救援隊,曾任華金證券首席財富官、騰訊首席投資專家

刷爆金融圈!50歲券商大佬在西藏跑山失聯9天,海拔4400多米!家屬懸賞10萬急尋救援隊,曾任華金證券首席財富官、騰訊首席投資專家

金融界
2025-06-19 15:37:20
47歲陳思誠和女友在威尼斯逛街約會,脖子粗大,皮膚看起來黝黑!

47歲陳思誠和女友在威尼斯逛街約會,脖子粗大,皮膚看起來黝黑!

觀察鑒娛
2025-05-10 11:08:33
拿下伊朗,拿下中東,拿下全球能源,背后的中美關系利害

拿下伊朗,拿下中東,拿下全球能源,背后的中美關系利害

籌海者張曉東
2025-06-19 10:41:08
新西蘭威脅上了:跟中國好,斷援助

新西蘭威脅上了:跟中國好,斷援助

觀察者網
2025-06-19 17:20:31
村子里發生的那些荒唐事,每一件都炸裂你的三觀

村子里發生的那些荒唐事,每一件都炸裂你的三觀

特約前排觀眾
2025-06-11 00:15:02
多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

科技處長
2025-06-10 23:00:13
天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

帶你感受人間冷暖
2025-06-18 13:28:38
每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

胖胖侃咖
2025-04-03 08:00:11
“越來越討厭女兒”,一寶媽公開發文稱厭煩女兒,原因引網友共鳴

“越來越討厭女兒”,一寶媽公開發文稱厭煩女兒,原因引網友共鳴

妍妍教育日記
2025-06-16 18:05:37
加油伊朗,給我揍,使勁揍,不要停!

加油伊朗,給我揍,使勁揍,不要停!

海格講
2025-06-19 05:30:04
“畢業”變“結業”!湖南一高校畢業證印錯,校方:連夜印刷正確版本并發放

“畢業”變“結業”!湖南一高校畢業證印錯,校方:連夜印刷正確版本并發放

極目新聞
2025-06-19 14:13:26
青島賽鞏立姣18米93輕松奪冠超亞軍2米多 韋永麗雨戰10秒57登頂

青島賽鞏立姣18米93輕松奪冠超亞軍2米多 韋永麗雨戰10秒57登頂

勁爆體壇
2025-06-19 18:09:12
QS發布2026年世界大學排名:香港大學第11位位居中國高校第一名,北京大學第14位,清華大學第17位

QS發布2026年世界大學排名:香港大學第11位位居中國高校第一名,北京大學第14位,清華大學第17位

金融界
2025-06-19 13:52:47
2025-06-20 03:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10678文章數 142341關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

特朗普將TikTok"不賣就禁用"法案執行寬限期再延90天

頭條要聞

特朗普將TikTok"不賣就禁用"法案執行寬限期再延90天

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

Labubu黃牛價腰斬 誰會是最后的接盤俠

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

時尚
親子
手機
教育
旅游

中年女人夏季別再穿"t恤"了,安排這3款夏裝,時髦還顯瘦

親子要聞

小葉教我句話還讓我挺意外,原來中外文化差異這么大

手機要聞

小米紅米新品下周來 新品開箱體驗搶先看

教育要聞

復讀生要不好過了!多所高校明確不招復讀生,背后傳遞信號要懂

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 化德县| 东城区| 湾仔区| 房山区| 太仓市| 贵州省| 铅山县| 平山县| 同江市| 福泉市| 和龙市| 伊宁县| 武威市| 沽源县| 启东市| 六安市| 凭祥市| 文水县| 潍坊市| 黄梅县| 镇巴县| 丰台区| 丰原市| 永登县| 雅安市| 吴忠市| 景德镇市| 延津县| 东方市| 武山县| 离岛区| 思南县| 黄龙县| 芷江| 杂多县| 紫云| 敦化市| 体育| 兴安盟| 焉耆| 英吉沙县|