拍照就能識別萬物，AI是怎么看“懂”圖片的？

2025-02-10 20:23:55　來源: 新發(fā)現(xiàn)雜志

上海舉報(bào)

分享至

歡迎來到科普中國特別推出的寒假精品欄目“給孩子的高新科技課”！

人工智能作為當(dāng)今最前沿的科技之一，正在以令人驚嘆的速度改變著我們的生活。從智能語音助手到無人駕駛汽車，從 AI 繪畫到機(jī)器學(xué)習(xí)，它為我們打開了一個(gè)充滿無限可能的未來。本欄目將以通俗易懂的方式，用視頻和文字給孩子講述人工智能的原理、應(yīng)用及其對社會的深遠(yuǎn)影響。

快跟我們一起開啟這場 AI 之旅吧！

先來看視頻：

以下為文字版本：

生活中，AI 圖像識別無處不在。

看到不認(rèn)識的植物？拍張照片，分分鐘就能找到答案。自動駕駛汽車也好像長了眼睛一樣，能輕輕松松判斷出，哪里是道路，哪里是樹木。人臉識別技術(shù)，也讓我們實(shí)現(xiàn)了刷臉支付。

而這一切，都離不開一項(xiàng)技術(shù)——卷積神經(jīng)網(wǎng)絡(luò)。這項(xiàng)技術(shù)，就像 AI 的眼睛。

想了解 AI 的眼睛是怎么工作的，我們先要看一看動物的眼睛是怎么工作的。

從貓眼到 AI 眼：視覺神經(jīng)元的啟示

20 世紀(jì) 50 到 60 年代，大衛(wèi)·休伯爾和托斯坦·威澤爾對貓的視覺進(jìn)行了研究，他們發(fā)現(xiàn)，在一幅畫面進(jìn)入貓的視野之后，貓大腦中負(fù)責(zé)視覺的神經(jīng)元，被不同的東西激活了。

為了方便理解，我們看個(gè)例子。比如這樣一幅畫面，有的神經(jīng)元對畫面中物體的邊緣線條非常感興趣，會著重處理這些信息，有的神經(jīng)元對大塊的顏色比較敏感，更擅長處理這些信息。這些神經(jīng)細(xì)胞一起工作，幫助生物識別各種復(fù)雜的圖像。

埃德加·德加《去外省的賽馬場》（At the Races in the Countryside）1869

這項(xiàng)研究，讓大衛(wèi)和托斯坦獲得了 1981 年諾貝爾生理學(xué)或醫(yī)學(xué)獎，也啟發(fā)了人工智能領(lǐng)域一個(gè)非常重要的算法，卷積神經(jīng)網(wǎng)絡(luò)。

在 1980 年代，日本科學(xué)家福島邦彥設(shè)計(jì)了一個(gè)叫做 Neocognitron 的模型，用來識別日文手寫字符，Neocognitron 中有不同的“層”，用來提取對不同的信息，最后綜合這些信息對識別到的字符進(jìn)行判斷。

這啟發(fā)了一位叫做揚(yáng)·樂昆的法國科學(xué)家，揚(yáng)·樂昆設(shè)計(jì)出了最早的卷積神經(jīng)網(wǎng)絡(luò)，并且基于卷積神經(jīng)網(wǎng)絡(luò)，建立了 LeNet 模型。這個(gè)模型在當(dāng)時(shí)被很多銀行用來識別手寫字符。我們通過一個(gè)簡單的例子，來看看卷積神經(jīng)網(wǎng)絡(luò)是如何工作的。

卷積神經(jīng)網(wǎng)絡(luò)：圖像識別的幕后英雄

和神經(jīng)網(wǎng)絡(luò)相比，卷積神經(jīng)網(wǎng)絡(luò)在識別圖片的時(shí)候，多了兩個(gè)過程：卷積和匯聚。

卷積，這個(gè)過程，是由一個(gè)叫卷積核的東西完成的。

一張圖片，在計(jì)算機(jī)的眼里，其實(shí)是一個(gè)個(gè)像素點(diǎn)組成的矩陣，卷積核不是單獨(dú)去考慮每一個(gè)像素點(diǎn)上的信息，而是同時(shí)對某個(gè)區(qū)域，比如 3×3，5×5 的像素點(diǎn)信息進(jìn)行處理。這樣可以綜合考慮相鄰像素點(diǎn)的信息，更好地提取出更高級特征。

你可以想象一下，卷積核就像是一個(gè)觀測員拿著有特定視野的望遠(yuǎn)鏡去看一幅圖片，把看到的信息處理記錄下來。

而且我們可以設(shè)置有不同側(cè)重點(diǎn)的觀測員，以提取圖片中的不同維度信息。比如，有的觀測員著重提取顏色信息，有的著重提取物體邊緣輪廓信息，有的專門提取某個(gè)特定形狀的信息。最后綜合這些信息，幫助神經(jīng)網(wǎng)絡(luò)做出更好的判斷。

此外，卷積神經(jīng)網(wǎng)絡(luò)還有一個(gè)重要的步驟——匯聚（又稱池化）。

圖片往往是一個(gè)非常大的矩陣，匯聚能夠把一塊區(qū)域里的信息壓縮成一個(gè)信息。假如，對一個(gè) 16×16 的矩陣，可以通過匯聚的方法，提取 2×2 格子里顏色最深一格的信息，就能把它變成這樣的 8×8 的矩陣。如果再進(jìn)行一次相同的匯聚，就可以把 8×8 的矩陣，變成 4×4 的矩陣。雖然圖像匯聚后會有一些變化，但是依然保留了整個(gè)圖像中的基本特征。

卷積和匯聚，讓卷積神經(jīng)網(wǎng)絡(luò)能夠非常好地對圖片信息進(jìn)行提取，對于圖像的學(xué)習(xí)處理效率上有了非常大的提升。

當(dāng)然，卷積神經(jīng)網(wǎng)絡(luò)也會使用跟神經(jīng)網(wǎng)絡(luò)一樣的反向傳播算法，不斷根據(jù)已知結(jié)果逆向調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)，以做出越來越準(zhǔn)確的判斷。

那么，AI如何改變一些行業(yè)的生態(tài)？接下來的幾集中，我們將一同探究。

策劃制作

本文為科普中國-創(chuàng)作培育計(jì)劃作品

出品｜中國科協(xié)科普部

監(jiān)制｜中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

作者丨北京云??御紀(jì)文化傳播有限公司

審核丨秦曾昌北京航空航天大學(xué) 自動化科學(xué)與電氣工程學(xué)院副教授

策劃丨符思佳

責(zé)編丨符思佳??

商靜波趙馨著

費(fèi)塞爾繪

清華大學(xué)出版社

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.