儘管幾千年來狗一直在扮演幫助人類完成特定的任務的角色,但是現在它們中的多數都更類似於家庭成員,而非雇員。據美國寵物用品製造商協會統計,2005年美國寵物所有者在寵物身上共花費了約395億美元,比1994年的兩倍還多。
這表明幸運的寵物狗的黃金時代已經到來,但同時作為一名家庭成員的寵物狗又必須滿足一些人類定下的行為標準。或許您不認同當下流行的狗時尚,但狗不是嬌小的、穿皮草的人類,它們有自己的思考和行為方式。然而,每年都有成千上萬隻狗被交到動物收容所,或者被永久性地鎖入後院的圍欄中,只能用於看家。 狗與人類可以快樂地生活在一起,但這需要主人花點心思來縮短兩個物種之間的鴻溝,並將他們的狗訓練成人類社會中行為得體的夥伴。訓狗有多種不同的方法,雖然也有一些訓練員聲稱自己的方法是唯一“正確”的方法,但實際上很多種方法都可以奏效。這些方法的主要區別是,多長時間能夠發揮作用以及狗和訓練員樂於接受的程度如何。
訓狗方式
訓狗通常離不開操作性條件反射。B.F.斯金納是第一位對這一概念進行定義的科學家,他對俄國生理學家巴夫洛夫博士有關動物行為的作品進行了研究。在巴夫洛夫極富創造力的研究中,狗將刺激(這個例子中的刺激物是鈴)與主人的餵食聯繫在一起。該實驗從兩件看似無關的事件(流口水和餵食)開始,隨後增加了第三個元素,即餵食前搖鈴。在經過幾輪的試驗之後,狗學會把鈴聲與餵食聯繫到一起,知道聽到鈴聲後便會有食物。因此,即使不提供食物,它們也會在聽到鈴聲後流口水。 因為在提供食物時狗會自然開始流口水,所以食物就是一種非條件性刺激。不需要特殊的條件反射或特殊訓練就可以使狗流口水,這是一種非條件反射。與
此相反,鈴聲本身不會使狗流口水,它們僅在特定條件下才會將鈴聲與餵食聯繫在一起,從而流口水。所以,鈴聲是一種條件刺激。狗所產生的新反應是對刺激物的反射,是一種條件反射。
許多人可以從自己的狗那裡了解到這一點。當門鈴響時,狗會狂怒咆哮,有時甚至聽到電視裡的門鈴聲也會狂叫。在這種情況下,狗已經將鈴聲刺激與即將到來的陌生人聯繫到了一起。
駕駛時,當我們看到閃動著的燈或者聽到後面有警笛,我們可能會條件反射式地緊張起來並且心率加快。我們已經將警笛聲作為條件與得到罰單時那種不愉快的、有壓力感的經驗聯繫到了一起,這是典型的條件反射。動物和人類都可以將兩個事件聯繫起來,並在預期第二個事件時對第一個事件做出反應。這種類型的學習是被動且無意識的,它在學習者沒有做任何事且經常是沒有任何意識時發生。
巴夫洛夫的作品是有關條件刺激的反射性反應,而斯金納則關注通過添加強化刺激,從而形成的對刺激的特定反應。強化刺激可以是獎勵或者懲罰。能夠增加行為頻率的任何事件都可以稱為獎勵;反之,能夠降低行為頻率的任何事件都可以稱為懲罰。
因為某種特定行為得到獎勵時,我們可能會重複該行為。相反,當我們因為某一行為而得到懲罰時,我們可能會終止該行為。這種類型的學習是主動積極的,它取決於學習者的行為。
由於強化刺激的定義是以其有效性為基礎的,所以記住下面一點很重要。同樣一個獎勵,對於一個人來說也許是有意義的,而對另一個人來說,可能就不是獎勵。類似地,一個環境中的獎勵在其他的環境中可能也不再有吸引力。
斯金納證明,動物和人類都會為得到獎賞而重複某些行為。在他使用老鼠和鴿子所做的實驗中,斯金納展示了動物是如何通過按壓橫桿來獲取食物獎勵的。當第一次將一些動物引入試驗箱時,它們會在箱內隨意移動。當它們偶然按壓橫桿時,會有一小塊食物掉下來。這樣它們很快就學會了有目的地按壓橫桿來獲取食物。隨後,通過對它們逐步進行強化訓練,還可能形成更加複雜的行為。為對預期結果(獲取食物獎勵)作出回響,動物實際在環境中執行了操作(按壓橫桿),因而斯金納將自己的方法稱為“操作性條件反射”。
我們人類也本能地對良好的行為進行獎勵,對不良行為進行懲罰,這是人之常情。在沒有對操作性條件反射進行定義之前,人們已經使用它來訓練動物很長時間了。康拉德·莫斯特上校在1910年出版了《訓狗指南》 ,他使用的是斯金納所研究的許多相同的原理(甚至比斯金納描述這些原理的時間還要早幾十年)。雖然莫斯特上校的訓練方法根據現在的標準顯得有些嚴酷,但他還是被很多人尊稱為“現代訓狗之父”。莫斯特和其他訓練員同時使用獎勵和懲罰塑造並強化動物的行為。
強化刺激
強化刺激可以包括添加一個新元素,或者拿走當前存在的一個元素。這個術語可能有些令人費解。添加某物被稱為“正強化”,然而“正”並不意味著“高興”或者“好”。在這種情況下,“負強化”是移除某物,也並不包括“壞”的意思。因此,獎勵和懲罰可以是正強化,也可以是負強化。
鸚鵡做了揮腿的動作,獎勵它一片水果,這屬於添加積極的刺激(正面獎勵);馬為了逃避馬刺而跑得更快屬於終止消極的刺激(負面獎勵)。儘管“負面獎勵”聽起來似乎前後矛盾,但去除某種消極刺激確實是一種獎勵。
懲罰的原理也完全相同。當狗朝一個方向拉動皮帶時,會在相反的方向得到一個令其疼痛的拖拉刺激,特別是在使用頸圈或叉形鏈時狗得到的刺激會更大,這屬於正面懲罰或修正,狗會因為自身的不良行為而得到不愉快的反
饋。或者,懲罰也可以是去除某種正面刺激,即當小孩行為不當時大人會剝奪其出去和朋友玩的權利,這屬於負面懲罰。
使用強化刺激訓練狗坐下的方法有多種。訓練員可以推狗或將它帶到一個位置坐下來,或者只需等待直至狗自然而然地坐下。當狗坐下時,訓練員可以提供一種正面獎勵,例如,口頭表揚(“狗兒乖!”)、觸摸獎勵(輕拍狗的頭部)、提供狗喜歡的玩具或者食物獎勵。有些訓練員使用電擊項圈作為負面獎勵,這種項圈可以向狗發出適度的電擊,而當狗坐下後,電擊就會停止。這樣狗就學會了通過坐下而消除電
擊。出於人道方面的考慮,許多人對此表示不滿。但是,這種訓練方法所遵循的是與操作性條件反射相同的原理。不管在哪種情況下,狗學會了一聽到“坐下”的命令就立刻坐下,緊接著它就會得到獎勵。 只要對狗有意義的事物都可以作為強化刺激。也許一隻狗認為食物比玩具更具價值,而另一條狗則恰恰相反。具體使用哪種強化刺激並沒有多大的影響,但是從實際情況來看,有些強化刺激確實比其他強化刺激更有效。同樣,沒有必要每次或在每種情況下都使用同一種強化刺激。有些任務則可能需要更具價值的強化刺激。正如PetSmart寵物連鎖店的訓練員丹·奧利里所言,“如果給你一美元讓你從椅子上方跳過去,你可能會做。但你可能不會因為一美元而為我洗車和打蠟。”同樣,如果在相對安靜的家中您的狗樂於為得到某種類型的獎勵而執行某項任務,但在課堂上卻需要更有吸引力的獎勵才能使狗集中注意力。
標記
凱勒和瑪麗安·布里蘭是B.F.斯金納的學生,他們將斯金納的方法進行擴展,用來訓練不同種類的動物。在二十世紀中期,凱勒·布里蘭開始制定適用於訓練海洋哺乳動物的訓練計畫。顯然,為海豚或者逆戟鯨設計有效的懲罰有一定的難度和危險性。另外,對通常遠在地面的訓練員來說,及時獎勵處於水中的海洋哺乳動物也是一件富有挑戰的事情。
在訓狗過程中也會遇到相同的問題。如果狗坐下、跳起,然後再轉一個圈,從而獲得了食物獎勵,那么它可能並不知道是表演的哪一部分取悅了訓練員。特別是在訓練員花了片刻時間去取食物來餵狗時,情況更是如此。通常,狗會將自身
所執行的最後一個動作與所獲得的食物獎勵聯繫到一起。因此,如果狗坐下,然後跳起,接著獲得了食物獎勵,那么狗真正得到訓練的是跳起,而非坐下。
對於懲罰也同樣如此。如果狗從主人身邊跑掉,隨即跟主人玩追捕遊戲,當被主人抓到時自然會遭到懲罰。然而,在狗遭到懲罰前所做的最後一件事卻是回到主人身邊。因此,當狗聽到召喚時很可能減少的行為是回到主人身邊,而非跑掉。
為了解決這個問題,布里蘭設計了一種標記或暗示,這可以告訴動物其行為正確而且馬上會得到獎勵。布里蘭使用典型條件反射將標記信號與獎勵聯繫在一起,因此當狗聽到這一信號時將知道它會獲得獎勵。然後他又通過操作性條件反射使用正面獎勵來塑造動物的行為。
因為標記是即時的,所以有助於強化狗的正確行為。標記本身不屬於獎勵,而只是一種顯示狗行為正確並承諾狗獲得獎勵的信號。因為海洋哺乳類動物本身更傾向於通過聲音進行交流,所以訓練員自然會用哨聲作為標記。
在二十世紀六十年代,凱倫·普賴爾使用了相同的正面強化技術來訓練海豚。她意識到需要廣泛套用此類行為修正,於是在1984年撰寫了《別斃了那條狗》 (Don't Shoot the Dog)一書。除了標題,其實它並不是單單只講訓狗。這本書涉及了有關使用正面強化刺激塑造行為的方法,目標範圍從寵物貓到難管的小孩。目前,許多公司仍在使用這本書向員工傳授高效管理的方法。
普賴爾使用金屬響片作為標記開始塑造狗和其他動物的行為,而一提到現代響片培訓人們最常想到的也是普賴爾這個名字。其他訓練員採用了她的訓練方法,並且隨著網際網路的出現,響片訓練得到了快速的普及。
凱倫·普賴爾將響片描述為對所期望行為進行拍照;在關鍵的時刻按動響片。響片意味著,“你某件事情做得對,並且因此會得到食物獎勵。”
許多初學訓練員會犯這樣的錯誤,他們針對動物的某一行為按動了響片,但卻沒有跟進食物獎勵。沒有實際的獎勵,狗可能還會在一段時間內繼續執行該行為,但這一行為會慢慢消失。
引入命令
響片本身對狗沒有意義。正如巴夫洛夫的鈴聲需要通過典型的條件反射,從而使狗認識到響片聲音意味著“開飯了!”。為此,訓練員需要重複按動“激發”響片,然後立即提供食物獎勵。這樣,狗就會把響片與食物獎勵聯繫到一起。一旦狗認識到響片意味著食物獎勵,它就會開始學習新的行為。
訓練員引導動物執行一種行為的方法會因人而異。有些人倡導使用食物引導狗就位,而其他人只是等待狗自發做出該行為。多數響片訓練員不支持使用手推的方法使狗落位,因為那違背了響片訓練中不施加外力的理念。
一旦狗做出了該行為,把握時機就成為了關鍵。訓練員必須在看到期望行為的同時按動響片。如果狗躺倒,然後又打滾,隨即聽到響片聲,那么打滾
(而不是躺倒)的動作會被標記為期望的行為。
如果您使用響片訓練,按照次序逐步地訓練,可以使狗學到複雜的行為方式。例如,如果您要訓練狗跳圈,那么開始時您可能只需讓狗走到圈前,就可以按動響片並餵食。一旦狗能夠穩定地走到圈前時,您就可以只在狗將頭伸入圈口時按響響片,然後又只在它穿過圈時按響響片。最後,您只在狗真正完成跳圈動作時按響響片。在狗對每一項新的步驟開始學習時,對其進行獎勵的標準也不斷提高。這稱為塑造。
除了發出命令隨即告訴狗該命令的意義何在之外,多數響片訓練員更傾向於在狗可以穩定做出期望行為的時候發出命令。可以先通過食物誘導使狗跟隨做出期望動作,然後藏起食物,再採用誘導動作(比如,拿著食物從狗的鼻
子前方移動到地板,從而訓練狗“下伏”)發出命令的手勢信號。很多訓練員感到手勢信號比口語信號更易於訓練狗,但只要能使狗做出反應,哪種信號都是理想的。一旦狗做出期望的行為,訓練員可以開始使用命令,從而使狗學會將兩者聯繫起來。最後,訓練員將只需在命令發出後就按響響片,而不是在狗自發做出行為時才按響響片。
記住動物屬於情境學習者很重要。這意味著,它們可能在一處了解某個命令的含義,而到了另一處卻不適用。當訓練員站立時狗可能會完美地坐在那裡,但當訓練員坐著向其發出命令時,狗則會變得惘然。當訓練一種新的命令時,訓練員需要添加新的環境(有必要的話可以提前預備),從而幫助狗學習。
消除不良行為
訓練狗做好事要遠比訓練狗不做壞事要容易得多。在準備改掉狗的一個不良行為時,首先需要考慮的是要求狗改掉壞習慣所需的獎勵是什麼。狗必須得到獎勵,否則狗不會堅持做一種行為,但有時獎勵作用不會十分明顯或適得其反。當狗躍向主人而主人卻將其推開的懲罰(對於狗來說,與主人進行肢體接觸屬於身體觸摸獎勵)可能比對狗大吼都更具威懾力。訓練員必須注意不要無故對不良的行為進行獎勵。一旦訓練員察覺並消除意外獎勵(達到可能的最大程度),下一步通常是訓練一種與之相反的行為。狗學會在主人拾起皮帶時坐著不動,不可以同時跳起將主人撲倒。
響片是一種訓練工具,然而訓練員不應當無節制地使用。使用響片的目的是為了告訴狗什麼是期望的行為。一旦狗理解命令並可以穩定執行時,您便可以停止使用響片。您可以繼續獎勵狗,但隨著時間的推移,您可以從一種狗
最喜歡的食物獎勵轉變成一種對狗吸引力稍小的食物獎勵,然後可以轉變成只有口頭獎勵。當行為已完全掌握時,可能根本不需要獎勵,儘管狗與人都希望做好一件好事後得到一些反饋。
操作性條件反射在塑造包括狗在內的幾乎所有動物的行為都非常有用。訓練中強調使用正面強化可以使所有人都樂在其中,並且可以加深訓練員和學習者的情感。使用響片可以精確地指出期望行為,並大大加快訓練進程。狗沒有學會某項任務通常是因為溝通的失敗而不是狗不願意配合,然而一位好的訓練員可以解決這些問題。這種訓練真正的唯一局限是訓練員正確識別有意義的強化刺激的能力,並將期望的行為分解為可管理的步驟的能力。