每日最新頭條.有趣資訊

100個深度圖像分割算法,紐約大學UCLA等最新綜述論文

新智元推薦

來源:專知

整理編輯:張佳

【新智元導讀】來自紐約大學、滑鐵盧大學、UCLA等學者深度學習圖像分割最新綜述論文,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。戳右邊鏈接上新智元小程序了解更多!

圖像分割(Image Segmentation)是計算機視覺的經典問題之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。在前深度學習時代有大量的方法提出,比如分水嶺、GraphCut等。隨著深度學習的興起,大量的算法提出如R-CNN、Mask-RCNN等。

最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文Image Segmentation Using Deep Learning: A Survey>,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,並提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。

基於深度學習的二維圖像分割算法的時間軸。橙色塊表示語義塊,綠色塊表示實例塊

題目:Image Segmentation Using Deep Learning: A Survey

作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos

參考鏈接:

https://arxiv.org/abs/2001.05566

https://www.zhuanzhi.ai/paper/7a4653117ddaec48f376ae2ed6bf3e31

摘要

圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、擴增實境和圖像壓縮等。研究者們提出了各種圖像分割算法。最近,由於深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力於開發使用深度學習模型的圖像分割方法。在本次綜述中,我們全面回顧了撰寫本文時的論文,涵蓋了語義級和實例級分割的廣泛先驅工作,包括全卷積像素標記網絡、編碼器-解碼器架構、基於多尺度和金字塔的方法、遞歸網絡、視覺注意力模型和在對抗環境下的生成模型。我們調研了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,並討論了該領域未來的研究方向。

1. 引言

圖像分割是許多視覺理解系統的重要組成部分。它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,擴增實境等。從最早的閾值化[3]、基於直方圖的分組、區域生長[4]、k-means聚類[5]、分水嶺[6]等算法,到更先進的主動輪廓[7]、圖割[8]、條件和馬爾科夫隨機域[9]、稀疏[10]-[11]等算法,文獻中已經出現了許多圖像分割算法。然而,在過去的幾年裡,深度學習(DL)網絡已經產生了新一代的圖像分割模型,其性能有了顯著的提高——通常在流行的基準測試中獲得了最高的準確率——致使許多人認為的該領域的範式轉變。例如,圖1展示了一個著名的深度學習模型DeepLabv3[12]的樣本圖像分割輸出。

圖1: DeepLabV3[12]對樣本圖像的分割結果。

圖像分割可以表示為帶有語義標簽的像素分類問題(語義分割)或單個對象的分割問題(實例分割)。語義分割是對所有圖像像素進行一組對象類別(如人、車、樹、天空)的像素級標記,因此通常比圖像分類更難,因為後者預測整個圖像的單個標簽。實例分割進一步擴展了語義分割的範圍,通過檢測和描繪圖像中每個感興趣的對象(例如,對個人的分割)。

我們的調研涵蓋了圖像分割的最新文獻,並討論了到2019年提出的一百多種基於深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,並討論了基於深度學習的圖像分割模型的幾個挑戰和未來可能的方向。

我們將基於深度學習的工作根據其主要技術貢獻分為以下幾類:

完全卷積網絡

卷積模型與圖形模型

Encoder-decoder基礎模型

基於多尺度和金字塔網絡的模型

基於R-CNN的模型(例如實例分割)

擴展卷積模型和DeepLab家族

基於遞歸神經網絡的模型

基於注意力的模型

生成模型和對抗性訓練

具有活動輪廓模型的卷積模型

其他模型

本綜述論文的一些主要貢獻可以總結如下:

本次綜述涵蓋了與分割問題相關的現有文獻,並綜述了截止2019年提出的100多種分割算法,共分為10類。

我們提供了一個全面的調研和使用深度學習的分割算法的不同方面的深度分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略,以及他們的關鍵貢獻

我們提供了一個概述約20個流行的圖像分割數據集,分為2D, 2.5D (RGB-D),和3D圖像。

我們提供了一個比較總結的性質和性能的審查方法的分割目的,在流行的基準上進行。

我們為基於深度學習的圖像分割提出了一些挑戰和潛在的未來方向

該調研的其余部分組織如下: 第2節提供了流行的深度神經網絡架構的概述,作為許多現代分割算法的主乾。第3節全面概述了最重要的、最先進的、基於深度學習的細分模型,截至2019年已有100多個。我們也討論了他們的長處和貢獻超過以往的工作在這裡。第四部分回顧了一些最流行的圖像分割數據集及其特點。第5.1節回顧了評價基於深度學習的細分模型的流行指標。在5.2節中,我們報告了這些模型的定量結果和實驗性能。在第6節中,我們將討論基於深度學習的分割方法的主要挑戰和未來的發展方向。最後,我們在第7節中提出我們的結論。

2 深度神經網絡概述

本節概述計算機視覺社區使用的一些最著名的深度學習體系結構,包括卷積神經網絡(CNNs)[13]、遞歸神經網絡(RNNs)和長短時記憶(LSTM)[14]、編碼器-解碼器[15]和生成對抗網絡(GANs)[16]。隨著近年來深度學習的流行,一些其他的深度神經結構也被提出,如Transformer、Capsule網絡、門控遞歸單元、空間變壓器網絡等,在此不再贅述。

2.1 卷積神經網絡(CONVOLUTIONAL NEURAL NETWORKS, CNNS)

CNNs是深度學習社區中最成功和最廣泛使用的架構之一,特別是在計算機視覺任務中。CNNs最初是由福島在他的開創性論文“新認知元”[17]中提出的,基於Hubel和Wiesel提出的視覺皮層的分級接受域模型。隨後,Waibel等人[18]引入了具有時間接受域權值共享的CNNs和用於音素識別的反向傳播訓練,LeCun等人[13]開發了用於文檔識別的CNN架構(圖2)。

圖 2 卷積神經網絡的體系結構,從[13]。

CNNs主要包括三種類型的層:i)卷積層,在卷積層中,通過卷積一個權值的核(或過濾器)來提取特徵;ii)非線性層,在特徵圖(通常是元素層面)上應用激活函數,通過網絡對非線性函數進行建模;iii)池化層,用關於鄰域的一些統計信息(平均值、最大值等)代替特徵圖的小鄰域,並降低空間分辨率。各層單元局部連接; 也就是說,每一個單元都從一個叫做接受域的小鄰域接受加權輸入,這個鄰域是前一層單元的感受野。通過堆疊層形成多分辨率的金字塔,高層次從越來越廣泛的感受野學習特徵。CNNs的主要計算優勢是一個層中所有的接受域共享權值,這使得參數的數量明顯小於全連通神經網絡。一些最著名的CNN架構包括:AlexNet [19], VGGNet [20], ResNet [21], GoogLeNet [22], MobileNet[23],和DenseNet[24]。

2.2 遞歸神經網絡(RNNS)和LSTM

RNNs[25]廣泛用於處理順序數據,如語音、文本、視頻和時間序列,其中任意給定時間/位置的數據取決於以前遇到的數據。

圖 3 簡單遞歸神經網絡結構。

2.3 編碼器-解碼器和自動編碼器模型

編碼器-解碼器模型是一組模型,這些模型通過兩級網絡將數據點從輸入域映射到輸出域: 編碼器(由編碼函數表示)將輸入壓縮到一個潛在空間表示;解碼器的目標是預測潛在空間表示的輸出。

圖 4 一個簡單的編碼器-解碼器模型的結構。

2.4 生成式對抗網絡(GANS)

GANs是一種較新的深度學習模型家族[16]。它們由兩個網絡組成——一個生成器和一個鑒別器(圖6)。傳統GAN中的生成器網絡學習從噪聲(帶有先驗分布)到目標分布的映射,這類似於“真實”樣本。鑒別器網絡試圖將生成的樣本(“假貨”)與“真貨”區分開來。

圖 5. GAN架構

2.5 遷移學習

在某些情況下, 可以訓練DL-models基於新的應用程序有足夠多數據集(假設足夠數量的標簽的訓練數據), 但在許多情況下沒有足夠的標簽數據從頭訓練模型和一個可以使用遷移學習來解決這個問題。在遷移學習中,一個在一個任務上訓練的模型被重新用於另一個(相關的)任務,通常是通過一些對新任務的適應過程。例如,可以設想將在ImageNet上訓練的圖像分類模型用於不同的任務,例如紋理分類或人臉識別。在圖像分割的情況下,許多人使用在ImageNet(一個比大多數圖像分割數據集更大的數據集)上訓練的模型作為網絡的編碼器,並從這些初始權值重新訓練他們的模型。這裡的假設是,這些預先訓練的模型應該能夠捕獲分割所需的圖像的語義信息,從而使它們能夠用較少標記的樣本訓練模型。

3 基於深度學習的圖像分割模型

本節詳細回顧了到2019年提出的100多種基於深度學習的細分方法,並將其分為10個類別。值得一提的是,有一些部件在這些工作中是很常見的,比如有編碼器和解碼器部分,跳連接,多尺度分析,以及最近使用的膨脹卷積。因此,很難提及每個工作的獨特貢獻,但是根據它們對先前工作的基礎架構貢獻將它們分組比較容易。

3.1 全卷積網絡

Long等人利用全卷積網絡(FCN)提出了最早的語義圖像分割深度學習算法之一。FCN(圖7)隻包含卷積層,這使得它可以獲取任意大小的圖像並生成相同大小的分割圖。作者修改了現有的CNN架構,比如VGG16和GoogLeNet,通過用全卷積層替換所有全連接層來管理非固定大小的輸入和輸出。因此,該模型輸出的是空間分割地圖,而不是分類分數。

圖 6 全卷積圖像分割網絡。FCN學習做出密集的像素級預測 [32]。

通過使用跳躍連接,將模型最後一層的特徵圖向上采樣,並與較早一層的特徵圖融合,該模型結合了語義信息(來自較深、較粗的層)和外觀信息(來自較淺、較細的層),以產生準確、詳細的分段。該模型在PASCAL VOC、NYUDv2和SIFT Flow上進行了測試,獲得了最優的分割性能。

圖 7: Skip連接將粗糙的高級信息和精細的低級信息結合起來。從[32]。

例如,Liu等人提出了一個名為ParseNet的模型,用於解決FCN忽略全局上下文信息的問題。ParseNet通過使用層的平均特性來增加每個位置的特性,從而將全局上下文添加到FCNs中。一個層的特徵映射被合並到整個圖像上,產生一個上下文向量。這個上下文向量被歸一化和未合並,以生成與初始特徵圖大小相同的新特徵圖。然後將這些特徵映射連接起來。簡而言之,ParseNet是一個FCN,所描述的模塊替換了卷積層。

圖 8: ParseNet,顯示了使用額外的全局上下文來產生比FCN (c)更平滑的分割(d)。

FCNs已經應用於多種分割問題,如腦瘤分割[34],實例感知語義分割[35],皮損分割[36],虹膜分割[37]。

3.2 卷積模型與圖形模型

如前所述,FCN忽略了可能有用的場景級語義上下文。為了集成更多的上下文,有幾種方法將概率圖形模型(如條件隨機域(CRFs)和馬爾可夫隨機域(MRFs))合並到DL體系結構中。

Chen等人[38]提出了一種基於CNNs與全連通CRFs結合的語義分割算法(圖9)。他們發現,來自深層CNNs的最後一層的響應並沒有足夠的本地化以進行精確的對象分割(這是由於CNNs的不變性使其適合於分類等高級任務)。為了克服深度CNNs定位性能差的問題,他們將最後一層的響應與全連接的CRF相結合。他們證明了他們的模型能夠以比以前方法更高的準確率定位線段邊界。

圖 9: CNN+CRF模型。將CNN的粗分數圖通過內插插值進行上采樣,並將其反饋給一個全連通的CRF,對分割結果進行細化。從[38]。

3.3 基於編解碼器的模型

另一種流行的圖像分割深度模型是基於卷積編碼-解碼器結構。大多數基於dll的分割工作都使用了某種編解碼器模型。我們將這些工作分為兩類,用於一般分割的編碼器-解碼器模型和用於醫學圖像分割(以便更好地區分應用程序)。

通用分割的編碼器-解碼器模型

Noh等人[43]發表了一篇關於基於反卷積(又稱置換卷積)的語義分割的早期論文。他們的模型(圖10)由兩個部分組成,一個編碼器採用VGG 16層網絡中的卷積層,另一個反卷積網絡以特徵向量為輸入,生成像素級的類概率圖。反卷積網絡由反卷積層和反池層組成,它們識別像素級標簽並預測分割掩碼。

圖 10: 反卷積語義分割。其次是基於VGG 16層網的卷積網絡,是一個多層反卷積網絡來生成精確的分割圖。從[43]。

在另一個很有前途的工作被稱為SegNet, Badrinarayanan等人的[44]提出了一個卷積編碼器-解碼器架構的圖像分割。

圖 11: SegNet沒有全連通層; 因此,該模型是完全卷積的。解碼器使用從編碼器傳輸的池索引對其輸入進行上采樣,以生成稀疏特徵映射。從[44]。

用於醫學和生物醫學圖像分割的編碼器-解碼器模型

受FCNs和編譯碼器模型的啟發,有幾種醫學/生物醫學圖像分割的初步模型。U-Net[50]和V-Net[51]是兩個著名的這樣的架構,現在也在醫療領域之外使用。

Ronneberger等人提出了用於分割生物顯微鏡圖像的u型網。他們的網絡和訓練策略依賴於使用數據擴充來更有效地從可用的帶注釋的圖像中學習。U-Net體系結構(圖13)由兩部分組成,一部分是捕獲上下文的收縮路徑,另一部分是支持精確定位的對稱擴展路徑。

圖 12: U-net模型。藍色方框表示具有指定形狀的feature map塊。從[50]。

圖 13 三維圖像分割的V-net模型。從[51]。

V-Net(圖14)是另一個著名的基於fcn的模型,由Milletari等人提出用於三維醫學圖像分割的[51]。在模型訓練方面,他們引入了一種新的基於Dice系數的目標函數,使模型能夠處理前景和背景中體素數量嚴重不平衡的情況。該網絡被端對端地訓練成描繪前列腺的MRI容積,並學會立即預測整個容積的分割。

3.4 基於多尺度和金字塔網絡的模型

多尺度分析是圖像處理中一個非常古老的概念,在各種神經網絡結構中得到了廣泛的應用。這類模型中最突出的是Lin等人提出的特徵金字塔網絡(Feature Pyramid Network, FPN),它主要用於目標檢測,後來也被應用於分割。利用深錐神經網絡固有的多尺度金字塔結構,構造邊際額外成本的特徵金字塔。為了融合低分辨率和高分辨率的特徵,FPN由自下而上的通路、自上而下的通路和橫向連接組成。然後通過3×3的卷積對拚接後的特徵圖進行處理,得到每個階段的輸出。最後,自頂向下路徑的每個階段生成一個預測來檢測一個對象。對於圖像分割,作者使用了兩個多層感知器(MLPs)來生成掩碼。

Zhao等人開發了金字塔場景解析網絡(PSPN),這是一種多尺度網絡,可以更好地學習場景的全局上下文表示。

圖 14: PSPN架構。CNN生成特徵圖,金字塔池模塊聚合不同的子區域表示。利用上采樣和拚接形成最終的特徵表示,通過卷積得到最終的像素級預測。從[57]。

3.5 基於R-CNN的模型(實例分割)

區域卷積網絡(R-CNN)及其擴展(Fast R-CNN、Faster R-CNN、Maksed-RCNN)已被證明在對象檢測應用中是成功的。R-CNN的一些擴展被大量用於解決實例分割問題;即。的任務,同時執行對象檢測和語義分割。特別是,更快的R-CNN[64]體系結構(圖16)使用區域建議網絡(RPN)提出邊界框候選。RPN提取感興趣區域(RoI), RoIPool層根據這些建議計算特徵,以推斷邊界框坐標和對象的類。

圖15: 更快的R-CNN架構。

Fig. 15: Mask R-CNN architecture for instance segmentation. From[65]

在該模型的一個擴展中,He等人[65]提出了一個用於對象實例分割的掩碼R-CNN,它在許多COCO挑戰中擊敗了之前所有的基準。該模型有效地檢測圖像中的目標,同時為每個實例生成高質量的分割掩碼。很多基於R-CNN的實例分割模型已經被開發出來,例如為mask proposal開發的模型,包括R-FCN [71], DeepMask [72], SharpMask [73], PolarMask[74],以及邊界感知的實例分割[75]。值得注意的是,還有一個很有前途的研究方向是嘗試通過學習自底向上分割的分組線索來解決實例分割問題,如Deep Watershed Transform[76]和Semantic instance segmentation via Deep Metric learning[77]。

3.6 擴張卷積模型和DEEPLAB家族

膨脹卷積(atrous convolution)為卷積層引入了另一個參數,即膨脹率。

圖16: DeepLab模型。VGG-16或ResNet-101等CNN模型採用全卷積方式,使用擴展卷積。雙線性插值階段將特徵映射擴展到原始圖像分辨率。最後,一個完全連接的CRF細化分割結果,以更好地捕捉對象邊界。從[78]

3.7 基於遞歸神經網絡的模型

雖然CNNs天生適合計算機視覺問題,但它們並不是唯一的可能性。RNNs在建模像素之間的短期/長期依賴關係時非常有用,可以(潛在地)改進帳割圖的估計。使用RNNs,像素可以鏈接在一起,並按順序進行處理,從而對全局上下文建模,提高語義分割。不過,挑戰之一是圖像的自然2D結構。

圖17: lstm模型與傳統的像素化RNN模型的比較。從[87]。

3.8 基於注意力的模型

多年來,計算機視覺中一直在探索注意力機制,因此,發現將這種機制應用於語義分割的出版物也就不足為奇了。Chen等人[90]提出了一種注意機制,該機制學會在每個像素位置對多尺度特徵柔化加權。他們採用了一個強大的語義分割模型,並將其與多尺度圖像和注意力模型聯合訓練(圖32)。注意機制優於平均池和最大池,使模型能夠在不同的位置和尺度上評估特徵的重要性。

圖18: 基於注意力的語義分割模型。注意力模型學習對不同尺度的物體分配不同的權重;例如,對於來自scale 1.0的特性,該模型在小人物(綠色虛線圓圈)上分配較大的權重,而對於來自scale 0.5的特性,則在大的子元素(洋紅色虛線圓圈)上分配較大的權重。從[90]。

3.9 生成模型和對抗性訓練

GANs自引入以來,在計算機視覺中得到了廣泛的應用,並被用於圖像分割。Luc等[99]提出了一種針對語義分割的對抗訓練方法。他們訓練了一個卷積語義分割網絡(圖34),同時還訓練了一個對抗性網絡,從分割網絡生成的地物真值分割圖中辨別地物真值分割圖。他們表明,對抗性訓練方法可以提高史丹佛背景和PASCAL VOC 2012數據集的準確性。

圖19: 用於語義分割的GAN。從[99]。

3.10 主動輪廓模型的CNN模型

主動輪廓模型(ACMs)[7]與FCNs之間協同效應的研究是近年來備受關注的課題。一種方法是根據ACM原則制定新的損失函數。例如,Chen等人[106]受到[105]全球能量公式的啟發,提出了一種監督損失層,該層在FCN訓練時將預測面具的面積和大小信息合並在一起,解決了心髒MRI中心室分割的問題。

3.11其他模型

除了上述模型外,還有其他幾種流行的用於分割的DL架構,如:上下文編碼網絡(Context Encoding Network, EncNet),它使用一個基本的特徵提取器,並將特徵映射提供給上下文編碼模塊[113]。RefineNet[114]是一個多路徑優化網絡,它明確地利用了下行采樣過程中可用的所有信息,利用遠程剩餘連接實現高分辨率預測。種子網路[115],介紹了一種自動種子生成技術與深度強化學習,學會解決互動式分割問題,Feedforward-Net[116]映射圖像super-pixels豐富的特性表示從一個序列中提取的嵌套區域增加程度和利用統計結構標簽空間的形象,沒有建立明確的結構化預測機制。但額外的模型包括BoxSup[117],圖卷積網絡[118],寬ResNet [119], Exfuse(增強低級和高級特性融合)[120],雙重圖像分割(DIS) [121], FoveaNet (Perspective-aware場景解析)[122],梯子DenseNet[123],兩國分割網絡(BiSeNet)[124],語義預測指導現場解析(SPGNet)[125],封閉的形狀cnn[126],自適應背景下網絡(AC-Net) [127],動態結構語義傳播網絡(DSSPN)[128],符號圖推理(SGR)[129],級聯網絡(CascadeNet)[130],尺度自適應卷積(SAC)[131],統一感知解析(UperNet)[132]。泛光分割[133]也是一個越來越受歡迎的有趣的分割問題,這方面已經有了一些有趣的研究,包括泛光特徵金字塔網絡[134]、用於泛光分割的注意力引導網絡[135]和無縫場景分割[136]。

4 圖像分割數據集

在本節中,我們提供了一些最廣泛使用的圖像分割數據集的摘要。我們將這些數據集分為3類:2d圖像、2.5D RGB-D(顏色+深度)圖像和3D圖像,並提供了關於每個數據集的特徵的詳細信息。列出的數據集有像素級的標簽,可以用來評估模型的性能。

4.1 二維數據集

圖像分割的研究主要集中在二維圖像上;因此,許多二維圖像分割數據集是可用的。以下是一些最流行的:

PASCAL Visual Object Classes (VOC)

PASCAL Context

Microsoft Common Objects in Context (MS COCO)

Cityscapes

ADE20K / MIT Scene Parsing (SceneParse150)

SiftFlow

Stanford background

Berkeley Segmentation Dataset (BSD)

Youtube-Objects

KITTI

Semantic Boundaries Dataset (SBD)

PASCAL Part

SYNTHIA

Adobe’s Portrait Segmentation

4.2 2.5 d的數據集

RGB-D圖像在研究和工業應用中變得流行起來。以下是一些最流行的RGB-D數據集:

NYU-D V2

SUN-3D

SUN RGB-D

UW RGB-D Object Dataset

ScanNet

4.3 三維數據集

三維圖像數據集在機器人、醫學圖像分析、三維場景分析和建築應用中很受歡迎。三維圖像通常是通過網格或其他體積表示,如點雲。在這裡,我們提到一些流行的3D數據集。

Stanford 2D-3D

ShapeNet Core

Sydney Urban Objects Dataset

5 性能評估

在這一節中,我們首先總結了一些用於評估分割模型性能的流行指標,然後我們提供了在流行數據集上有前景的基於dll的分割模型的定量性能。

Pixel accuracy

Mean Pixel Accuracy (MPA)

Intersection over Union (IoU)

Mean-IoU

Precision / Recall / F1 score

Dice coefficient

基於dll的模型的定量性能

表一: PASCAL VOC測試集上分割模型的準確性

6 挑戰與機遇

毫無疑問,圖像分割已經從深度學習中受益良多,但仍存在一些挑戰。接下來,我們將介紹一些有前景的研究方向,我們相信這將有助於進一步推進圖像分割算法。

6.1 更具挑戰性的數據集

為了實現圖像的語義分割和實例分割,建立了多個大規模的圖像數據集。然而,仍然需要更有挑戰性的數據集,以及不同類型的圖像數據集。對於靜態圖像,具有大量對象和重疊對象的數據集非常有價值。這可以使訓練模型更好地處理密集的對象場景,以及在真實場景中常見的對象之間的大量重疊。

隨著三維圖像分割尤其是醫學圖像分析的日益普及,對大規模三維圖像數據集的需求也越來越大。這些數據集比它們的低維度副本更難創建。現有的用於三維圖像分割的數據集通常不夠大,有些是合成的,因此更大、更具挑戰性的三維圖像數據集可能非常有價值。

6.2 可解釋的深度模型

雖然基於dll的模型在具有挑戰性的基準測試上取得了良好的性能,但是這些模型仍然存在一些問題。例如,深度模型究竟在學習什麽?我們應該如何解釋這些模型學到的特徵?什麽是最小的神經結構,可以達到一定的分割精度,在一個給定的數據集?雖然可以使用一些技術來可視化這些模型的學習卷積內核,但是缺乏對這些模型的底層行為/動態的具體研究。更好地理解這些模型的理論方面可以使模型朝著各種細分場景發展。

6.3 弱監督和非監督學習

弱監督學習和無監督學習正成為非常活躍的研究領域。這些技術有望成為圖像分割的特別有價值的,因為收集標記樣本分割問題在許多應用領域是有問題的,特別是在醫學圖像分析。轉移學習方法是在一組大的標記樣本(可能來自公共基準)上訓練一個通用的圖像分割模型,然後在一些特定目標應用程序的幾個樣本上微調該模型。自監督學習是另一個很有前途的方向,它在各個領域都很有吸引力。在自我監督學習的幫助下,圖像中有許多細節可以用來訓練分割模型,而訓練樣本要少得多。基於增強學習的模型也可能是另一個潛在的未來方向,因為它們在圖像分割方面還沒有得到足夠的重視。例如,MOREL[168]提出了一種用於視頻中移動目標分割的深度強化學習方法。

6.4 各種應用的實時模型

在許多應用中,準確性是最重要的因素; 然而,在一些應用中,分割模型也很重要,它可以運行在接近實時,或至少接近普通的相機幀率(至少每秒25幀)。這對於部署在自動駕駛汽車上的計算機視覺系統很有用。目前的大多數模型都遠遠達不到這一幀率;例如,FCN-8處理低分辨率圖像大約需要100毫秒。基於擴展卷積的模型在一定程度上提高了分割模型的速度,但仍有很大的改進空間。

6.5 記憶效能模型

許多現代的分割模型甚至在推理階段都需要大量的記憶體。到目前為止,許多努力都是為了提高這些模型的準確性,但是為了使它們適用於特定的設備,例如移動電話,網絡必須簡化。這可以通過使用更簡單的模型來實現,也可以通過使用模型壓縮技術來實現,甚至可以訓練一個複雜的模型,然後使用知識蒸餾技術將其壓縮成一個更小的、記憶體效率更高的網絡來模擬複雜的模型。

6.6 三維點雲分割

大量的工作集中在二維圖像分割,但很少有涉及到三維點雲分割。點雲分割在三維建模、自動駕駛汽車、機器人、建築建模等領域有著廣泛的應用。處理三維無序和非結構化數據(如點雲)帶來了幾個挑戰。例如,在點雲上應用CNNs和其他經典深度學習架構的最佳方式還不清楚。基於圖的深度模型可能是點雲分割的一個潛在探索領域,從而支持這些數據的附加工業應用。

7 結論

我們調查了最近100多種基於深度學習模型的圖像分割算法,這些算法在各種圖像分割任務和基準測試中都取得了令人印象深刻的成績。我們將這些算法分為10類:CNN和FCN、RNN、R-CNN、dilated CNN、基於注意力的模型、生成型模型和對抗型模型等。我們總結了這些模型在一些流行基準上的定量性能分析,如PASCAL VOC、MS COCO、Cityscapes和ADE20k數據集。最後,我們討論了一些開放的挑戰和未來幾年圖像分割的潛在研究方向。

參考文獻:

[1] R. Szeliski, Computer vision: algorithms and applications. Springer Science & Business Media, 2010.

[2] D. Forsyth and J. Ponce, Computer vision: a modern approach. Prentice Hall Professional Technical Reference, 2002.

[3] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.

[4] R. Nock and F. Nielsen, “Statistical region merging,” IEEE Transactions on pattern analysis and machine intelligence, vol. 26, no. 11, pp. 1452–1458, 2004.

[5] N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.

[6] L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.

2020,新智元繼續與您一起探索於你的AI新天地!AI技術乾貨,B站風格直播,就在新智元We站小程序!AI你,新智元祝您2020新春快樂!

獲得更多的PTT最新消息
按讚加入粉絲團