介紹
常用的池化方法有最大池化(max-pooling)和均值池化(mean-pooling)。根據相關理論,特徵提取的誤差主要來自兩個方面:
(1)鄰域大小受限造成的估計值方差增大;
(2)卷積層參數誤差造成估計均值的偏移。
一般來說,mean-pooling能減小第一種誤差,更多的保留圖像的背景信息,max-pooling能減小第二種誤差,更多的保留紋理信息。與mean-pooling近似,在局部意義上,則服從max-pooling的準則。
max-pooling卷積核的大小一般是2×2。 非常大的輸入量可能需要4x4。 但是,選擇較大的形狀會顯著降低信號的尺寸,並可能導致信息過度丟失。 通常,不重疊的池化視窗表現最好。
套用
圖像識別
CNN經常用於圖像識別系統。據報導,2012年MNIST資料庫的錯誤率為0.23%。[11]另一篇關於使用CNN進行圖像分類的論文報導說,學習過程“非常快”;在同一篇論文中,截至2011年的最佳公布結果在MNIST資料庫和NORB資料庫中獲得。
當套用於面部識別時,CNN實現了錯誤率的大幅降低。另一篇論文報導“對超過10個科目的5600張靜態圖像”的識別率為97.6%。人工培訓後,CNN用於客觀評估視頻質量;所得到的系統具有非常低的均方根誤差。
ImageNet大規模視覺識別挑戰是對象分類和檢測的基準,包含數百萬的圖像和數百個對象類。在ILSVRC 2014中,大規模的視覺識別挑戰,幾乎所有排名靠前的團隊都使用CNN作為他們的基本框架。優勝者GoogLeNet (DeepDream的基礎)將目標檢測的平均精度提高到了0.439329,分類錯誤降低到了0.06656,這是迄今為止最好的結果。其網路套用了30多個層次。在ImageNet測試中,卷積神經網路的性能與人類接近。[54]最好的算法仍然與小或薄的物體糾纏在一起,比如花的莖上有一隻小螞蟻或手裡拿著一根羽毛筆的人。他們也有使用濾鏡變形的圖像的麻煩,這是現代數位相機日益普遍的現象。相比之下,這些圖像很少麻煩人類。然而,人類往往會遇到其他問題。例如,它們不擅於將物體分類為細粒度類別,例如特定品種的狗或鳥種,而卷積神經網路則處理這種情況。
2015年,CNN的多層次展現了從廣泛的角度發現臉部的能力,包括顛倒,即使部分被競爭性表演遮擋。該網路訓練了20萬張圖像的資料庫,其中包括各種角度和方向的臉部以及另外2000萬張沒有臉部的圖像。他們在50,000次疊代中使用了128個圖像的批次。
視頻分析
與圖像數據域相比,將CNN套用於視頻分類的工作相對較少。視頻比圖像更複雜,因為它具有另一個(時間)維度。然而,CNN在視頻領域的一些擴展已經被探索。一種方法是將空間和時間視為輸入的等效維度,並在時間和空間上執行卷積。另一種方法是融合兩個卷積神經網路的特徵,一個用於空間,另一個用於時間流。基於卷積門限制玻爾茲曼機和獨立子空間分析,介紹了用於訓練時空特徵的無監督學習方案。
自然語言處理
CNN也探索了自然語言處理。 CNN模型對於各種NLP問題是有效的,並且在語義分析,搜尋查詢檢索,句子建模,分類預測以及其他傳統的NLP任務中取得了優異的結果。