在今年的國際學習表征大會(ICLR)上,NVIDIA 發(fā)表了 70 余篇論文,其內(nèi)容涵蓋醫(yī)療、機器人、自動駕駛汽車以及大語言模型等領域。
推動 AI 進步需要采用全棧式方法,這依賴于包括加速處理器和網(wǎng)絡技術在內(nèi)的強大計算基礎設施,并將其與優(yōu)化的編譯器、算法及應用程序相連接。
NVIDIA Research 正在該領域進行全方位的創(chuàng)新,并在此過程中為幾乎所有行業(yè)提供支持。在近日舉行的國際學習表征大會(ICLR)上,NVIDIA 提交了 70 余篇論文,展示了 AI 在自動駕駛汽車、醫(yī)療、多模態(tài)內(nèi)容創(chuàng)作、機器人等領域的應用進展。
NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 表示:“ICLR 是全球最具影響力的 AI 會議之一,研究人員在此發(fā)布推動各行各業(yè)進步的關鍵技術創(chuàng)新。NVIDIA 今年提交的研究成果旨在加速計算堆棧的各個層級,從而增強 AI 在各行業(yè)的影響力和實用性?!?/p>
解決現(xiàn)實世界挑戰(zhàn)的研究工作
NVIDIA 在 ICLR 上提交的多篇論文聚焦多模態(tài)生成式 AI 領域的突破性進展,以及 AI 訓練和合成數(shù)據(jù)生成的新方法,具體包括:
- Fugatto:Fugatto 是世界上最靈活的音頻生成式 AI 模型。根據(jù)輸入的文本提示和音頻文件,它能夠生成或修改包含任意的音樂、人聲和聲音組合的作品。在 ICLR 上展示的其他 NVIDIA 模型對音頻大語言模型(LLM)進行了改進,以使其更好地理解語音。
- HAMSTER:這篇論文提出了一種視覺-語言-動作模型的分層設計方案,它可以更好地從域外微調數(shù)據(jù)(即無需在真實機器人硬件上收集的低成本數(shù)據(jù))中遷移知識,進而提升機器人在測試場景中的技能水平。
- Hymba:這個小語言模型家族采用混合模型架構,由此創(chuàng)造的 LLM 融合了 Transformer 模型和狀態(tài)空間模型的優(yōu)勢,實現(xiàn)了高分辨率記憶檢索、高效的上下文總結以及常識推理任務。借助這種混合模型架構,Hymba 在保持性能的前提下將吞吐量提升了 3 倍,緩存減少至約 1/4。
- LongVILA:該訓練流程實現(xiàn)了高效的視覺語言模型訓練與推理,以支持長視頻理解。使用長視頻訓練 AI 模型時,需要大量算力和密集內(nèi)存,而這篇論文提出的系統(tǒng)可以高效地并行處理長視頻的訓練和推理,在 256 塊 GPU 上進行訓練時可擴展到多達 200 萬個 token。LongVILA 在 9 個主流視頻基準測試中均達到當前最優(yōu)性能。
- LLaMaFlex:這篇論文提出了一種全新的零樣本生成技術,可從單個大型模型來構建一系列壓縮 LLM 家族。研究人員發(fā)現(xiàn),LLaMaFlex 生成的壓縮模型在精度上媲美或優(yōu)于現(xiàn)有剪枝、彈性架構及從頭訓練的模型。相比剪枝和知識蒸餾等技術,這種能力能夠顯著降低訓練模型家族的成本。
- Proteina:該模型可以生成多樣且可設計的蛋白質骨架,即維持蛋白質結構的框架。它采用 Transformer 模型架構,參數(shù)數(shù)量是此前模型的 5 倍。
- SRSA:這個框架解決了使用現(xiàn)有技能庫教會機器人執(zhí)行新任務的難題。這意味著機器人無需從頭學習,而是能夠將現(xiàn)有技能應用并適配到新任務中。研究人員開發(fā)了預測最相關預置技能的框架,使機器人在執(zhí)行未知任務時的零樣本成功率提高了 19%。
- STORM:通過僅需少量快照即可推斷出精確的 3D 表示,該模型能夠重建動態(tài)戶外場景,比如行駛的汽車或隨風搖曳的樹木。該模型能夠在 200 毫秒內(nèi)重建大規(guī)模戶外場景,在自動駕駛開發(fā)中具有應用潛力。
了解 NVIDIA Research 的最新研究成果,請訪問:https://research.nvidia.com/publications?sessionid=-763953803
NVIDIA Research 在全球擁有 400 名專家,專注于計算機架構、生成式 AI、圖形、自動駕駛汽車和機器人等研究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.