年初,由人工智能研究實驗室Open AI發布的ChatGPT在全球掀起了一股人工智能新浪潮,推出僅兩個月,活躍用戶數量就突破了1億,成為歷史上用戶增長速度最快的消費級應用程序。這場AI熱潮中,Meta顯得比較安靜,甚至有點不符合其元宇宙玩家的身份。但近日,它卻爆出了大動作,引起業內轟動,Meta推出Segment Anything工具,該模型可以用于分割圖像中的一切對象,包括訓練數據中沒有的內容,交互方面,SAM可使用點擊、框選、文字等各種輸入提示,指定要在圖像中分割的內容。對于視頻中物體,它也能準確識別并快速標記物品的種類、名字、大小,并自動用ID為這些物品進行記錄和分類。
如果說此前勢如破竹的GPT-4 已經做到“回答一切”,SAM的目標在于精準“分割一切”,英偉達人工智能科學家Jim Fan將Meta的這項研究稱作計算機視覺領域的“GPT-3時刻”。它的推出,多家券商均認為必然會顛覆機器視覺領域,“AI視覺”“AR”“VR”則成為高頻關鍵詞,工業自動化、自動駕駛、安防等領域都是其商用方向。
機器視覺產業鏈迎爆發風口
機器視覺可分為上游(硬件、算法軟件)、中游(視覺系統、視覺裝備集成)和下游終端應用。上游涉及的行業范圍較為寬廣,主要包括光源、工業鏡頭、工業相機、圖像采集卡和軟件及算法平臺等環節;中游是機器視覺產業鏈最核心的環節,由視覺系統和視覺裝備集成構成;下游為應用領域,廣泛應用到電子、半導體、機器人、汽車、醫療等各行各業。
在智能化、自動化產業推動下,中國機器視覺市場規模持續增長。隨著機器視覺硬件方案的不斷成熟和運算能力的提升,以及軟件在各種應用解決方案、3D算法、深度學習能力的不斷完善,機器視覺在電子產業應用的廣度和深度都在提高,并加快向新能源鋰電、光伏等其他領域滲透,在AI、自動駕駛、人臉識別等新興技術興起的帶動下,我國機器視覺市場規模將繼續保持較高的增速。2021年中國機器視覺市場規模138.16億元,同比增長46.79%。預計2023年中國機器視覺市場規模將達225.56億元。
高工機器人產業研究所(GGII)預測,至2027年我國機器視覺市場規模將達到565.65億元,其中2D視覺市場規模將達到407.15億元,3D視覺市場規模將達到158.5億元。目前我國機器視覺在工業場景中的總體滲透率仍舊在10%以下,對比工業場景龐大的體量而言,機器視覺行業仍有較大發展空間。
從應用領域來看,GGII數據顯示,2022年3C電子行業是機器視覺應用最多的領域,占比達25%,且已連續多年應用占比第一;其次是汽車、半導體、鋰電池等行業。從細分場景應用來看,機器視覺在工業領域中的應用主要為檢測、識別、測量以及定位等。在工業領域,機器視覺相對人眼視覺存在顯著優勢,機器視覺擁有精度高、速度快、適應性強、可靠性高、效率高等人工視覺無法比擬的優勢,在我國人工成本增加、數字化轉型、制造業效率和質量要求提高的大背景下,正在逐步替代人工。
SAM為機器視覺開辟了新的可能性
圖像分割技術并非是新鮮事,但SAM能識別出訓練數據集中不存在的物體,或許將會引發新一輪AI視覺應用潮。
SAM三種分割圖像部分的方法:一是“懸停和點擊(Hover&Click)”,當用戶把鼠標放在想要分割出的部分上并點擊時,SAM會自動提取出該部分;二是“方框(Boxing)”,用戶將自己想要的部分框定出來,SAM會識別其中的物體并將其與背景進行分割;三是“全選(Everything)”,在這種模式下SAM會自動識別圖像內的所有物體。
圖像分割是機器視覺中的一項重要任務,其有助于識別和確認圖像中的不同物體,把它們從背景中分離出來,這在自動駕駛(檢測其他汽車、行人和障礙物)、醫學成像(提取特定結構或潛在病灶)等應用中特別重要。SAM模型則建立了一個可以接受文本提示、基于海量數據訓練而獲得泛化能力的圖像分割大模型,必將在機器視覺的應用領域里發放異彩,并帶給機器視覺產業鏈質的改變。
Meta AI也給出了一些行業應用的例子:
自動駕駛:分割道路上的車輛、行人、交通標志等;
醫療影像:分割器官、腫瘤、血管等;
機器人:分割手臂能夠抓取的物體、障礙物等;
虛擬現實:分割人體、頭發、衣服等;
電子商務:分割商品、背景、標簽等。
因此,SAM有望賦能眾多垂直領域,釋放AI強大潛力。從應用角度看,SAM可與其他系統靈活集成,獲取輸入提示,例如,從AR/VR中獲取視線范圍來選擇對象、用文本輸入檢測界定對象等。目前,Meta公司內部已開始使用SAM,對其網站的圖片、審核、Facebook和Instagram用戶推薦內容等進行標記,同時,其官網也展示了SAM在VR/AR、智慧農業等領域的顛覆性應用暢想。此外,在自動駕駛領域,SAM有利于檢測行人、汽車、障礙物等,提升智能汽車算法數據標注的效率,使算法迭代加速;在工業視覺領域,零部件在工業生產線包裝過程中存在檢測速度慢、自動化檢測水平低下、檢測準確率不高等問題,SAM可有效改善這些問題;在醫療領域,SAM可對醫學影像進行分割標注,幫助醫生進行病理分析和診斷;在數據標注領域,SAM可提高注釋圖像效率,新注釋數據則可反過來用于更新SA,迭代改善模型和數據集。我們認為,SAM將賦能自動駕駛、工業視覺、醫療、數據標注等眾多行業領域,相關領域標的將因此充分收益。可以說,SAM是一個令人興奮的新技術,它為機器視覺開辟了新的可能性。
最后
SAM大幅降低計算機識別門檻,機器視覺通用場景應用有望加速推廣,多模態技術的應用也有望進一步提速,在機器視覺領域具備技術儲備和應用場景的公司必將迎來新一輪發展空間。
同時需要強調,相較于傳統的圖像識別解決方案,SAM更加偏向于LLM模型的模式,即通過海量的預先訓練與擴大模型參數,來使得模型獲得自主識別和學習能力,最終實現圖像“AGI”,訓練過程中需要的計算能力,通信能力和存儲能力相較于文字模型更多,因此,海量的算力基建也是機器視覺蓬勃發展的前提之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.