年初,由人工智能研究實驗室Open AI發(fā)布的ChatGPT在全球掀起了一股人工智能新浪潮,推出僅兩個月,活躍用戶數(shù)量就突破了1億,成為歷史上用戶增長速度最快的消費級應(yīng)用程序。這場AI熱潮中,Meta顯得比較安靜,甚至有點不符合其元宇宙玩家的身份。但近日,它卻爆出了大動作,引起業(yè)內(nèi)轟動,Meta推出Segment Anything工具,該模型可以用于分割圖像中的一切對象,包括訓(xùn)練數(shù)據(jù)中沒有的內(nèi)容,交互方面,SAM可使用點擊、框選、文字等各種輸入提示,指定要在圖像中分割的內(nèi)容。對于視頻中物體,它也能準(zhǔn)確識別并快速標(biāo)記物品的種類、名字、大小,并自動用ID為這些物品進(jìn)行記錄和分類。
如果說此前勢如破竹的GPT-4 已經(jīng)做到“回答一切”,SAM的目標(biāo)在于精準(zhǔn)“分割一切”,英偉達(dá)人工智能科學(xué)家Jim Fan將Meta的這項研究稱作計算機(jī)視覺領(lǐng)域的“GPT-3時刻”。它的推出,多家券商均認(rèn)為必然會顛覆機(jī)器視覺領(lǐng)域,“AI視覺”“AR”“VR”則成為高頻關(guān)鍵詞,工業(yè)自動化、自動駕駛、安防等領(lǐng)域都是其商用方向。
機(jī)器視覺產(chǎn)業(yè)鏈迎爆發(fā)風(fēng)口
機(jī)器視覺可分為上游(硬件、算法軟件)、中游(視覺系統(tǒng)、視覺裝備集成)和下游終端應(yīng)用。上游涉及的行業(yè)范圍較為寬廣,主要包括光源、工業(yè)鏡頭、工業(yè)相機(jī)、圖像采集卡和軟件及算法平臺等環(huán)節(jié);中游是機(jī)器視覺產(chǎn)業(yè)鏈最核心的環(huán)節(jié),由視覺系統(tǒng)和視覺裝備集成構(gòu)成;下游為應(yīng)用領(lǐng)域,廣泛應(yīng)用到電子、半導(dǎo)體、機(jī)器人、汽車、醫(yī)療等各行各業(yè)。
在智能化、自動化產(chǎn)業(yè)推動下,中國機(jī)器視覺市場規(guī)模持續(xù)增長。隨著機(jī)器視覺硬件方案的不斷成熟和運算能力的提升,以及軟件在各種應(yīng)用解決方案、3D算法、深度學(xué)習(xí)能力的不斷完善,機(jī)器視覺在電子產(chǎn)業(yè)應(yīng)用的廣度和深度都在提高,并加快向新能源鋰電、光伏等其他領(lǐng)域滲透,在AI、自動駕駛、人臉識別等新興技術(shù)興起的帶動下,我國機(jī)器視覺市場規(guī)模將繼續(xù)保持較高的增速。2021年中國機(jī)器視覺市場規(guī)模138.16億元,同比增長46.79%。預(yù)計2023年中國機(jī)器視覺市場規(guī)模將達(dá)225.56億元。
高工機(jī)器人產(chǎn)業(yè)研究所(GGII)預(yù)測,至2027年我國機(jī)器視覺市場規(guī)模將達(dá)到565.65億元,其中2D視覺市場規(guī)模將達(dá)到407.15億元,3D視覺市場規(guī)模將達(dá)到158.5億元。目前我國機(jī)器視覺在工業(yè)場景中的總體滲透率仍舊在10%以下,對比工業(yè)場景龐大的體量而言,機(jī)器視覺行業(yè)仍有較大發(fā)展空間。
從應(yīng)用領(lǐng)域來看,GGII數(shù)據(jù)顯示,2022年3C電子行業(yè)是機(jī)器視覺應(yīng)用最多的領(lǐng)域,占比達(dá)25%,且已連續(xù)多年應(yīng)用占比第一;其次是汽車、半導(dǎo)體、鋰電池等行業(yè)。從細(xì)分場景應(yīng)用來看,機(jī)器視覺在工業(yè)領(lǐng)域中的應(yīng)用主要為檢測、識別、測量以及定位等。在工業(yè)領(lǐng)域,機(jī)器視覺相對人眼視覺存在顯著優(yōu)勢,機(jī)器視覺擁有精度高、速度快、適應(yīng)性強(qiáng)、可靠性高、效率高等人工視覺無法比擬的優(yōu)勢,在我國人工成本增加、數(shù)字化轉(zhuǎn)型、制造業(yè)效率和質(zhì)量要求提高的大背景下,正在逐步替代人工。
SAM為機(jī)器視覺開辟了新的可能性
圖像分割技術(shù)并非是新鮮事,但SAM能識別出訓(xùn)練數(shù)據(jù)集中不存在的物體,或許將會引發(fā)新一輪AI視覺應(yīng)用潮。
SAM三種分割圖像部分的方法:一是“懸停和點擊(Hover&Click)”,當(dāng)用戶把鼠標(biāo)放在想要分割出的部分上并點擊時,SAM會自動提取出該部分;二是“方框(Boxing)”,用戶將自己想要的部分框定出來,SAM會識別其中的物體并將其與背景進(jìn)行分割;三是“全選(Everything)”,在這種模式下SAM會自動識別圖像內(nèi)的所有物體。
圖像分割是機(jī)器視覺中的一項重要任務(wù),其有助于識別和確認(rèn)圖像中的不同物體,把它們從背景中分離出來,這在自動駕駛(檢測其他汽車、行人和障礙物)、醫(yī)學(xué)成像(提取特定結(jié)構(gòu)或潛在病灶)等應(yīng)用中特別重要。SAM模型則建立了一個可以接受文本提示、基于海量數(shù)據(jù)訓(xùn)練而獲得泛化能力的圖像分割大模型,必將在機(jī)器視覺的應(yīng)用領(lǐng)域里發(fā)放異彩,并帶給機(jī)器視覺產(chǎn)業(yè)鏈質(zhì)的改變。
Meta AI也給出了一些行業(yè)應(yīng)用的例子:
自動駕駛:分割道路上的車輛、行人、交通標(biāo)志等;
醫(yī)療影像:分割器官、腫瘤、血管等;
機(jī)器人:分割手臂能夠抓取的物體、障礙物等;
虛擬現(xiàn)實:分割人體、頭發(fā)、衣服等;
電子商務(wù):分割商品、背景、標(biāo)簽等。
因此,SAM有望賦能眾多垂直領(lǐng)域,釋放AI強(qiáng)大潛力。從應(yīng)用角度看,SAM可與其他系統(tǒng)靈活集成,獲取輸入提示,例如,從AR/VR中獲取視線范圍來選擇對象、用文本輸入檢測界定對象等。目前,Meta公司內(nèi)部已開始使用SAM,對其網(wǎng)站的圖片、審核、Facebook和Instagram用戶推薦內(nèi)容等進(jìn)行標(biāo)記,同時,其官網(wǎng)也展示了SAM在VR/AR、智慧農(nóng)業(yè)等領(lǐng)域的顛覆性應(yīng)用暢想。此外,在自動駕駛領(lǐng)域,SAM有利于檢測行人、汽車、障礙物等,提升智能汽車算法數(shù)據(jù)標(biāo)注的效率,使算法迭代加速;在工業(yè)視覺領(lǐng)域,零部件在工業(yè)生產(chǎn)線包裝過程中存在檢測速度慢、自動化檢測水平低下、檢測準(zhǔn)確率不高等問題,SAM可有效改善這些問題;在醫(yī)療領(lǐng)域,SAM可對醫(yī)學(xué)影像進(jìn)行分割標(biāo)注,幫助醫(yī)生進(jìn)行病理分析和診斷;在數(shù)據(jù)標(biāo)注領(lǐng)域,SAM可提高注釋圖像效率,新注釋數(shù)據(jù)則可反過來用于更新SA,迭代改善模型和數(shù)據(jù)集。我們認(rèn)為,SAM將賦能自動駕駛、工業(yè)視覺、醫(yī)療、數(shù)據(jù)標(biāo)注等眾多行業(yè)領(lǐng)域,相關(guān)領(lǐng)域標(biāo)的將因此充分收益。可以說,SAM是一個令人興奮的新技術(shù),它為機(jī)器視覺開辟了新的可能性。
最后
SAM大幅降低計算機(jī)識別門檻,機(jī)器視覺通用場景應(yīng)用有望加速推廣,多模態(tài)技術(shù)的應(yīng)用也有望進(jìn)一步提速,在機(jī)器視覺領(lǐng)域具備技術(shù)儲備和應(yīng)用場景的公司必將迎來新一輪發(fā)展空間。
同時需要強(qiáng)調(diào),相較于傳統(tǒng)的圖像識別解決方案,SAM更加偏向于LLM模型的模式,即通過海量的預(yù)先訓(xùn)練與擴(kuò)大模型參數(shù),來使得模型獲得自主識別和學(xué)習(xí)能力,最終實現(xiàn)圖像“AGI”,訓(xùn)練過程中需要的計算能力,通信能力和存儲能力相較于文字模型更多,因此,海量的算力基建也是機(jī)器視覺蓬勃發(fā)展的前提之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.