您現在的位置是:首頁 > 網路遊戲首頁網路遊戲

計算機視覺中影象分割的經典演算法

簡介影象分割的問題定義,以及在實際場景中的應用樣例全卷積網路雙線性上取樣特徵金字塔Mask-RCNN本文分為兩個部分,第一部分是傳統視覺的圖分割演算法,雖然現在很少用,但演算法比較優美

粘連物體如何影象分割

影象分割的問題定義,以及在實際場景中的應用樣例

全卷積網路

雙線性上取樣

特徵金字塔

Mask-RCNN

本文分為兩個部分,第一部分是傳統視覺的圖分割演算法,雖然現在很少用,但演算法比較優美。第二部分是深度學習演算法,會介紹最近幾年流行的經典技巧。

什麼是影象分割?

影象分割就是預測影象中每一個畫素所屬的類別或者物體。影象分割有兩個子問題,一個是隻預測類別層面的分割,對每個畫素標出一個位置。第二個是區分不同物體的個體。

計算機視覺中影象分割的經典演算法

應用場景,比如自動駕駛,3D 地圖重建,美化圖片,人臉建模等等。

最常用的資料集

主要介紹三個:Pascal VOC;CityScapes;MSCOCO。

第一個是 Pascal VOC 資料集

計算機視覺中影象分割的經典演算法

這是一個比較老牌的資料集,它提供 20 個類別,包括,人,車等。有 6929 張標註圖片,提供了類別層面的標註和個體層面的標註,也就是說既可以做語義分割,只區分是不是車;也可以做個體分割,區分有幾輛車,把不同的車標記出來。

第二個是CityScapes資料集

計算機視覺中影象分割的經典演算法

主要面向道路駕駛場景,它有 30 個精細的類別。其中有 5000 張圖片進行了精細標註,精確到畫素級別。還有 20000 張圖片有粗糙的標註。它也可以提供語義層面分割和個體層面分割。

第三個是MS COCO資料集

計算機視覺中影象分割的經典演算法

這是目前為止有語義分割的最大資料集,提供的類別有 80 類,有超過 33 萬張圖片,其中 20 萬張有標註,整個資料集中個體的數目超過 150 萬個,最新的一些論文都會在 MSCOCO 資料集上做實驗,因為它的難度最大,挑戰新最高。

傳統的圖切割

圖切割就是移除一些邊,使得兩個子圖不相連;圖切割的目標是,找到一個切割,使得移除邊的和權重最小。

計算機視覺中影象分割的經典演算法

圖切割的優點和缺點

優點是分割效果還不錯,並且是一種普適性的框架 ,適合各種特徵。缺點是時間複雜度和空間複雜度較高,需要事先選取分割塊兒的數目。

圖切割的失敗案列

計算機視覺中影象分割的經典演算法

為了克服這個失敗,有論文提出了 Normalized Cut。它是在圖分割中加入權重引數 Volume。Volume(A) 是 A 中所有邊的權重之和。這種方法平衡了每一個子圖的大小。

計算機視覺中影象分割的經典演算法

深度學習演算法

第一篇比較成功用神經網路做影象分割的論文是 Fully Convolutional Networks (以下簡稱為 FCN)。

傳統神經網路做分類的步驟是,首先是一個影象進來之後經過多層卷積得到降維之後的特徵圖,這個特徵圖經過全連線層變成一個分類器,最後輸出一個類別的向量,這就是分類的結果。

而 FCN 是把所有的全連線層換成卷基層,原來只能輸出一個類別分類的網路可以在特徵圖的每一個畫素輸出一個分類結果。這樣就把分類的向量,變成了一個分類的特徵圖。

計算機視覺中影象分割的經典演算法

為了能讓分類的特徵圖恢復到原圖的大小,採用了上取樣層。具體細節可觀看影片回放。

FCN的結構圖

計算機視覺中影象分割的經典演算法

下面介紹一下怎麼進行圖片放大操作的。

這裡有兩個概念,第一個概念叫反捲積層(Deconvolution);第二個概念叫雙線性差值上取樣(Bilinear Upsampling)。

這裡的「反捲積」其實不是真正的卷積的逆運算,用 Transposed Convolution 代替比較合適,但原論文中用的是 Deconvolution,我們下面還是用這個詞,它可以等效於普通卷積。它的主要目的就是實現上取樣。

計算機視覺中影象分割的經典演算法

反捲積具體是怎麼計算的,詳細過程可到AI慕課學院免費觀看影片回放。

下面講一下Padding和Stride。

Padding和Stride實際指的是普通卷積,而不是反捲積等效的普通卷積。

計算機視覺中影象分割的經典演算法

雙線性上取樣差

計算機視覺中影象分割的經典演算法

雙線性上取樣差值的三個用途:用作初始化反捲積的權重;不用反捲積,使用上卷積+卷積;只使用上取樣。

下面介紹膨脹卷積或帶洞卷積(Dilated Convolution )。

它的用途可以使特徵圖視野變大,但不增加計算量,對於影象分割的好處,更利於提取全域性資訊,這樣就使得分割準確率增加很多。

計算機視覺中影象分割的經典演算法

特徵金字塔(Feature Pyramid)

有以下幾種特徵金字塔

計算機視覺中影象分割的經典演算法

特徵金字塔網路

計算機視覺中影象分割的經典演算法

Pyramid Pooling

計算機視覺中影象分割的經典演算法

前面的是在不同的尺度上提取特徵,而這個是把特徵提取之後pooling到不同的大小。

Mask-RCNN的特點

計算機視覺中影象分割的經典演算法

第一個特點它是多分支輸出的。它同時輸出物體的類別,bounding box和Mask。

第二個特點是它使用了Binary Mask。之前神經網路都是使用多類Mask,而它只需要判斷物體在哪個地方。

最後是RoiAlign層。能比較精確地把物體的位置對應到特徵圖的位置上。

具體講解細節請觀看免費的直播回放影片。

Rol Pooling 與Roi Align的比較

計算機視覺中影象分割的經典演算法

計算機視覺中影象分割的經典演算法

雷鋒網AI 慕課學院提供本次直播回放影片,點選連結直達:http://www。mooc。ai/course/414/learn#lesson/2266。

關鍵詞:計算機視覺、影象分割、深度學習演算法、卷積、反捲積、上取樣、下采樣

Top