在計算機視覺領域,Transformer通過自注意力機制,能夠在單層網絡內直接建模圖像所有像素間的長程依賴關系,突破了傳統CNN的局部感知局限,其在圖像分類、目標檢測、圖像分割等任務中展現出顯著優勢,正在快速取代傳統CNN,成為解決復雜視覺任務的首選方案。
ViT、DETR、SegFormer、BEVFormer、CLIP等模型受到廣泛關注,并被實際落地應用,比如使用DETR開發工業質檢系統,用CLIP搭建智能搜索平臺,BEVFormer承擔智能駕駛的感知任務等。
盡管上述算法大都已經開源,但在實際使用中仍然存在較大問題:
1.
在不同的數據或者應用場景中,模型的性能差距較大,如何分析原因并制定優化策略;
2.
不同的模型到底哪部分算子起到了提升精度的關鍵作用,以及為什么會提升;
3.
不同模型的優劣勢是什么,導致這些優劣勢的原因又是什么。
想要系統化地掌握上述知識,我推薦深藍學院的《視覺Transformer理論與實踐》。課程系統解析Transformer核心原理及其在視覺和多模態領域的創新應用,涵蓋ViT/DETR/SETR/CLIP等經典模型原理,幫助掌握視覺Transformer核心技術,實現從“局部感知到“全局理解”的能力躍遷,最終具備復現和優化先進模型的實踐能力。并且對于探索端到端智駕(DriveVLM)、VLA機器人交互等前沿技術,也有非常大的幫助。
掃碼添加,了解課程
備注【0507】,搶占學習名額
講師介紹
利物浦大學長聘副教授
前商湯自動駕駛感知團隊研發副總監
2017年博士畢業于中國科學院自動化研究所模式識別國家重點實驗室,2017-2023擔任商湯科技自動駕駛感知團隊研發副總監,帶領團隊完成多個大項目交付。
目前發表SCI和EI學術論文近80篇,被引用量近4000次,其中CCFA類國際期刊和會議(T-PAMI、IJCV、TIP、CVPR、ICCV、ECCV、AAA1、MultiMedia等)近30篇。申請國內及國外專利申請30個以上。
現主要研究方向為圖像/視頻場景理解,Deepfake Detection,機器人-自動駕駛感知算法,以及語言-視覺聯合學習等?,F主持(PI)一項Alan Turing Institute項目基金,并聯合主持(Co-1)一項歐盟Horizion project。
課程大綱
課程亮點
1.全棧式知識體系構建
從Transformer核心原理到CV經典任務(分類、檢測、分割)再到多模態最前沿應用,覆蓋ViT、DETR、SegFormer、CLIP、LLaVA等模型。
2.工業級實踐能力培養
通過大量代碼解析與實踐案例,強化動手實踐能力,確保理論落地。
3.學術與工業雙棲講師
講師曾任商湯科技研究副總監,6年工業界工作經驗,現為英國利物浦大學計算機科學系副教授,TACPS實驗室負責人,IEEETPAMI、CVPR、ICCV等頂刊和頂會審稿人,主持過億級參數視覺大模型研發。
課程收獲
1.系統掌握Transformer在計算機視覺中的核心技術,重點剖析自注意力機制原理,并深入講解基于Transformer的圖像分類、目標檢測與語義分割等算法的理論框架及工程實踐;
2.全面解析CLIP、BLIP系列及LLaVA等多模態模型的架構設計思想與技術實現細節,結合典型應用場景進行實踐探討;
3.深度剖析新一代架構Mamba的技術原理及其在視覺任務中的應用優勢,同時前瞻性探討多模態大模型的研究進展與產業落地案例;
4.創新性地融合算法理論與工程實踐,通過典型工業案例解析,為學術研究與產業應用提供雙向賦能。
適合人群
1.計算機視覺領域工作者;
2.對Transformer在圖像理解、多模態交互等領域感興趣的高校學生;
3.僅具備傳統深度學習基礎的CV從業者;
4.想在計算機視覺領域進行科學研究,并發表相關論文的學生/學者。
*你將收獲的優質學習圈子
伙伴們大多是來自985、211及海外院校碩博,在這里大家一起學習、進行討論與研究。獨一無二的優質圈子將是你未來學習與就業的寶貴資源。
(學員院校/企業展示)
課程服務
1.作業批改:助教1V1批改作業,定期針對作業中的“通病”進行點評;
2.結業證書:本課程將根據作業完成情況評選結業學員及優秀學員,頒發證書;
3.實時答疑:講師/助教微信群答疑,及時解決大家遇到的問題;
4.班班督學:班主任全程帶班,不定時“關照”未交作業的同學,克服拖延。
掃碼了解課程詳情
備注【0507】,搶占學習名額
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.