對抗樣本

對抗樣本由Christian Szegedy等人提出,是指在數據集中通過故意添加細微的干擾所形成的輸入樣本,導致模型以高置信度給出一個錯誤的輸出。在正則化背景下,通過對抗訓練減少原有獨立同分布的測試集的錯誤率——在對抗擾動的訓練集樣本上訓練網路。

基本定義

對抗樣本(Adversarial examples)是指在數據集中通過故意添加細微的干擾所形成的輸入樣本,會導致模型以高置信度給出一個錯誤的輸出。

對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本

在精度達到人類水平的神經網路上通過最佳化過程故意構造數據點,其上的誤差率接近100%,模型在這個輸入點的輸出與附近的數據點非常不同。在許多情況下, 與 非常近似,人類觀察者不會察覺原始樣本和對抗樣本之間的差異,但是網路會作出非常不同的預測。

發展動態

Christian Szegedy等人 提出了對抗樣本(Adversarial examples)的概念,即在數據集中通過故意添加細微的干擾所形成的輸入樣本,受干擾之後的輸入導致模型以高置信度給出一個錯誤的輸出。他們發現包括卷積神經網路(Convolutional Neural Network,CNN)在內的深度學習模型對於對抗樣本都具有極高的脆弱性。他們的研究提到,很多情況下,在訓練集的不同子集上訓練得到的具有不同結構的模型都會對相同的對抗樣本實現誤分,這意味著對抗樣本成為了訓練算法的一個盲點。

Anh Nguyen等人在CVPR2015上發表的論文 中,他們發現面對一些人類完全無法識別的樣本(Fooling Examples),可是深度學習模型會以高置信度將它們進行分類。這些研究的提出,迅速抓住了公眾的注意力,有人將其當做是深度學習的深度缺陷。

可是kdnuggets上的一篇文章(Deep Learning’s Deep Flaws)’s Deep Flaws 指出,事實上對於對抗樣本的脆弱性並不是深度學習所獨有的,在很多的機器學習模型中普遍存在,因此進一步研究有利於抵抗對抗樣本的算法實際上有利於整個機器學習領域的進步。

對抗樣本產生原因

對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本

這些對抗樣本的主要原因之一是過度線性。 神經網路主要是基於線性塊構建的。因此在一些實驗中,它們實現的整體函式被證明是高度線性的。這些線性函式很容易最佳化。不幸的是,如果一個線性函式具有許多輸入,那么它的值可以非常迅速地改變。如果我們用 改變每個輸入,那么權重為 的線性函式可以改變之多,如果是高維的這會是一個非常大的數。對抗訓練通過鼓勵網路在訓練數據附近的局部區域恆定來限制這一高度敏感的局部線性行為。這可以被看作是一種明確地向監督神經網路引入局部恆定先驗的方法。

對抗訓練

所謂深度學習對抗訓練,就是通過在對抗樣本上訓練模型。既然深度學習的對抗樣本是由於模型的線性特徵所導致,那就可以設計一種快速的方法來產生對抗樣本進行對抗訓練。Szegedy等人的研究認為對抗樣本可以通過使用標準正則化技術解決,可是Goodfellow等人使用常見的正則化方法,如dropout,預訓練和模型平均進行測試,並沒能顯著地提高深度模型對於對抗樣本的抗干擾能力。根據神經網路的Universal Approximation Theory,至少擁有一個隱層的神經網路只要擁有足夠的隱層單元,就可以任意逼近任何一個非線性函式,這是淺層模型所不具備的。因此,對於解決對抗樣本問題,Goodfellow等人認為深度學習至少有希望的,而淺層模型卻不太可能。Goodfellow等人通過利用對抗樣本訓練,對抗樣本上的誤分率被大大降低。同時他們發現選擇原始模型產生的對抗樣本作為訓練數據可以訓練得到具有更高抵抗力的模型。此外,他們還發現,對於誤分的對抗樣本,對抗訓練得到的模型的置信度依然很高。所以通過對抗訓練能夠提高深度學習的對於對抗樣本的抗干擾能力。

對抗訓練有助於體現積極正則化與大型函式族結合的力量。純粹的線性模型,如邏輯回歸,由於它們被限制為線性而無法抵抗對抗樣本。 神經網路能夠將函式從接近線性轉化為局部近似恆定,從而可以靈活地捕獲到訓練數據中的線性趨勢同時學習抵抗局部擾動。

對抗樣本積極作用

對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本
對抗樣本 對抗樣本

對抗樣本也提供了一種實現半監督學習的方法。在與數據集中的標籤不相關聯的點 處,模型本身為其分配一些標籤。模型的標記 未必是真正的標籤,但如果模型是高品質的,那么 提供正確標籤的可能性很大。我們可以搜尋一個對抗樣本,導致分類器輸出一個標籤且。不使用真正的標籤,而是由訓練好的模型提供標籤產生的對抗樣本被稱為虛擬對抗樣本(virtual adversarial example) 。我們可以訓練分類器為和分配相同的標籤。這鼓勵分類器學習一個沿著未標籤數據所在流形上任意微小變化都很魯棒的函式。驅動這種方法的假設是,不同的類通常位於分離的流形上,並且小擾動不會使數據點從一個類的流形跳到另一個類的流形上。

相關詞條

熱門詞條

聯絡我們