歷史
B·F·斯金納是第一位定義和描述操作制約原理的學者,而斯金納的兩位學生瑪蕊安·卜利廉同凱勒·卜利廉夫婦兩人觀察出將之套用在動物訓練的可能性,並發展出如今為人們所熟知的正增強方式和塑型法。
其發展開始於二次大戰的鴿子計畫,卜利廉夫婦開辦了一間公司名為“動物行為企業”。 他們在海軍和公開展覽中舉辦了第一次海上哺乳動物訓練計畫,並首創鳥兒自由飛翔秀,舉辦商業動物展覽,其內容包括乳豬競賽和雞隻玩圈叉遊戲等,可說是一整個“IQ動物園”。
1965年凱勒過世後,瑪蕊安嫁給首位參予研究海軍海豚科學專家貝里·鮑伯。 在海洋中,海豚可以找到離訓練者好幾哩以外的目標物。帶著相機的貓可以沿著城市行走進入建築物,載著相機藉由雷射光導向的渡鴉或其他鳥類可以飛到某座某摩天樓的特定窗戶並且照攝裡面的人。海鷗——大自然的海洋搜尋專家,可以找到並且回報救生艇和遠離岸邊的游泳者。
優點
訓練動物的挑戰之一,就是要跟動物溝通如何讓它們準確地知道所發生的行為正是訓練者嘗試要去加強的。舉一個簡單的例子,訓練狗兒退後,正當狗兒要往後移動的同時訓練者馬上就要讓狗兒知道它目前所做的事是正確的。 然而,以往傳統的口頭鼓勵方式“乖狗兒!”會花掉太多時間,在稱讚的同時狗兒可能已經繼續其他的行為了。而當狗兒了解它正在被獎勵時,這行為可能又重複了一次或甚至是坐下和搔癢。另外,不精準的時間點和訓練者音調所傳達的訊息也會讓實際接受的信號意思因而有所不同。在同一段訓練時間當中,訓練者的聲音、發音、音調、音量和重音可能都會有所改變,這會使訓練進度減慢,因為動物必須要去理解某些變化(例如訓練者的音量或是熱忱)是不重要的,而某些變化卻是需要去注意的(例如“好乖”或“不對”)。 制約加強法可以解決這些問題,它使用的可以是任何一種動物可以察覺的信號,只要這信號是簡短(避免不準確的時間點)而且是一致的(避免動物對信號的變換產生混淆)。通常都是用響片或是信號器這種壓下和放掉時會發出“喀喀”的小型金屬片來訓練狗或馬,至於海豚,在制約加強法當中通常是使用口哨。然而並非都是使用聲音來操作制約加強法,我們使用手電筒快速閃光來取代響片訓練金魚,使用會震動的項圈來訓練耳聾的狗兒。
響片訓練當中有幾點常見的問題,依賴使用響片給狗兒信號便是其中之一,響片主要是使用在教導新的行為,或是給予穩定的音調獎勵,等過了這個階段以後響片便不需要了(或是不用依賴)。 有時候狗兒發生期望中的行為時響片正好不在手邊,這時候仍然可以用其他的“喀喀”聲來代替,儘管獎勵效果不如響片,但當下發生的行為仍然還是需要被標記。
另一個會遇到的問題是,當團體上課時狗兒會無法辨別哪一個響片發出來的聲音是屬於它的,然而每年有上百個響片團體課程在舉辦,這證明了此憂慮是多餘的。 在某些情況當中響片音量可能不夠大聲,例如狗兒離開操作者去做狩獵或拾回動作,也有些狗兒對於聲音敏感或是害怕響片。針對這類狀況可以轉換標記工具來解決問題,像是操作者在做遠距離訓練時可以使用口哨來代替,對聲音敏感的狗兒可以使用原子筆蓋或是訂書機取代。同樣地,當響片訓練已經進行後,也可以使用這技巧來解決很多上述提到的問題。
使用
響片訓練第一步是讓狗兒知道響片聲音代表它們將會得到獎勵。為了這么做,訓練者會先將響片“充電”或是“裝滿料”。當訓練者按下響片後,立即地或同時地給予動物獎勵,這獎勵通常是少見的、美味的零食,大小必須是可以小到可以一口立即吃掉。(有些訓練者會用動物最喜愛的玩具來代替零食,然而這個作法會干擾要對動物這加強物保持高度興趣的主要目的。)在每段訓練時間內最多重複二十次。 有些動物比較快知道這個聯結,例如狗兒,通常在可以在一段訓練時間內約五到十次的重複就會知道響片和獎勵的聯結。在訓練進行當中,可以藉由測試等待狗兒的注意力在其他地方時按下響片得知它們是否將響片和獎勵做連結,若狗兒立即看訓練者並期待獎勵代表狗兒已經知道。 之後便可以使用響片來標記訓練者期望發生的行為。在動物發生期望中的行為同時訓練者按下響片並立即給予獎勵。響片訓練重點在於訓練者時間點的掌握,若按下響片的時間稍微太早或太遲都可能會加強到按下當時正在發生的行為。另一重點是如何製造機會讓動物可以頻繁地贏得獎勵,通常專業的狗兒訓練者按下響片和給予獎勵的頻率為兩到三秒一次。最後就算是要完成的目標很簡單也必須要把它切割成更小範圍,或是從最容易達到標準開始慢慢往前推進。
當狗兒要學習如何去碰觸特定目標物時,大部分一開始期望的行為都是從鼻子碰觸開始,像是用鼻子碰觸一小片塑膠,而這訓練可以轉換成實用的任務或是有趣的把戲,像是開關燈或是想到戶外的時候搖鈴當。
訓練鼻子碰觸的方法從讓狗兒用鼻子去碰觸目標物開始,有些訓練者使用引導法,例如將花生奶油醬輕塗在小碟子或是塑膠目標物上,而有的訓練者偏愛使用雕塑法,也就是將目標物放在容易碰觸的地方,像是手握著放在訓練者和狗兒中間,當狗兒一往目標物靠近或真正碰觸就給予獎勵。
當狗兒可以不斷地碰觸目標物後,訓練者就可以將獎勵食物去除並變換目標物位置。 最後訓練者可以將此行為轉換成搖鈴當,舉例來說,把鈴鐺放在目標物前面,每次狗兒都必須要先碰觸鈴鐺才會碰觸到目標物,這時候獎勵每次碰觸到鈴鐺的行為。當狗兒可以確實碰觸鈴當後,訓練者加入開門的動作來當作獎勵狗兒每次碰觸鈴當的行為。
訓練馬兒的標的物法: 對馬兒來說,通常不用先將響片“充電”或是“裝滿料”,因為對馬兒來說最好的方法就是清楚的標記讓馬兒不要期待“尚未獲得”的零食。
訓練方法
響片訓練法有三種方式:一種是誘導法(Magnet),一種是捕捉法(Capture),另一種是塑造法(Shaping)。誘導法較為快速但是並不精確,常常會導致混淆或困惑的情況發生,捕捉法較自然兒精確,但是初期訓練時間教長。塑造法其實是將欲訓練的行為或動作分解成許多相近的步驟再一一以捕捉法訓練並連貫相近的步驟來連成我們欲訓練的行為或動作。
誘導法(Magnet):利用零食誘導狗狗產生訓練者期望的行為或動作一但狗狗做對了,按下響片,並隨之給予零食獎勵。
捕捉法(Capture):完全不使用零食、手勢或聲音…等提示,細微地觀察狗狗的行為或動作,一但狗狗發生訓練者期望的行為或動作時,立刻按下響片並隨之給予零食獎勵。
塑造法(Shaping):完全不使用零食或手勢等提示,細微地觀察狗狗的行為或動作,一但狗狗開始「朝向」訓練者期望的行為或動作反應時,立刻按下響片並隨之給予零食獎勵。也可以說是將訓練者期望的行為或動作分解步驟,各步驟都以捕捉法來訓練,逐漸連成訓練者期望的行為或動作。
相關獎勵
為了區分出響片訓練,以下描述四處通常會發生誤解的地方:
獲得行為和獎\勵時機的差異,兩項重大差異則是給予零食的方式及狗兒不出現行為時的訓練者反應
零食給予的方式
利用行為標定訊號(例如響片)的一大好處就是能夠改變零食給予的方式,它比其他訓練方法更能有效增進訓練成效及加快進展。
利用誘導法時,狗兒在達成誘導姿勢或依訊號出現姿勢時獲得零食,例如誘導狗兒趴下就以趴姿獲賞。訓練等待不動時,狗兒必須留在原地才能獲賞,如果它在獲賞前移動了就不給賞。
響片訓練時,既然響片已標定成功的當下,使行為終結,狗兒不必保持姿勢或位置也會獲賞,響片訓練者可針對每個行為選擇最有效率的零食給予方式,藉以加速學習,下列一些例子顯示行為標定訊號出現之後如何運\用零食增進並加速訓練:
使行為回到起點:例如訓練趴下時,當狗兒趴下,訓練者按下響片,接著把零食遞到它得站起來才吃得到的地方或丟到不遠處,讓它起身去取,狗兒吃下零食後即可再度趴下,如果餵到狗兒嘴裡讓它保持不動姿勢,你將多出一個必須讓它改變姿勢才能再度出現行為的步驟;誘導獎\勵法通常會利用來回誘導兩個姿勢解決這個問題,例如誘導站起來再誘導趴下去。
定位獎\勵:響片訓練者當然也會在原地獎\勵,例如訓練長時間行為(例如等待不動或休息)時,響片聲標定時間已結束,訓練者可能就地獎\勵狗兒,減少重新調整姿勢的必要性。訓練位置相關的行為(例如:腳側隨行)時,直接在定位給予獎\勵狠有效,但並不是非這樣做不可。如果狗兒在響片聲後離開位置,它仍然可獲賞,因為響片本來就代表終結行為。
影響整體反應:給予零食的方式有助提高活潑度或使過於激動的狗兒冷靜下來,例如,按響片後定位餵食或減少多餘的餵食動作可導致較冷靜的反應,從另一方面來看,把零食滾到地上讓狗兒追著它跑可能會提高興奮度。.
要的是動態行為:當想訓練的行為是退後或遠離的動作,給予零食的方式可以讓狗兒回到起點,這時不同於定位予賞的是,訓練者在狗兒尚在動作進行當中即按下響片,不會等到它完成整個動作,例如當它往後退,響片告訴它動作沒有錯,在它回到訓練者面前領賞後即能夠再度出現動作,增強動態動作時若不利用標定訊號將狠困難。
增加距離:響片訓練者狠快便能遠離狗兒,例如訓練狗兒走向標的物或訓練遠距離訊號反應,由於狗兒成功出現行為時零食不必即時出現眼前,訓練者也不必在它眼前。誘導式訓練時,零食必須刻意放在標的物上某處(通常設計起來不容易),或者訓練者只能一點一點地,慢慢拉長離開的距離。
時間:若使用行為標定訊號,增強物不必立刻在行為發生後出現,舉例來說,如果獎\勵是到屋外玩耍,在響片標定行為之後,人走到門口、打開門再讓狗兒出門時可能已經過一段時間。有了這個行為標定訊號的好處,響片訓練者可利用狠多活動作為獎\勵,但誘導式訓練者多半無法這麼做。
不出現動作
講座示範上,第一次看見從未受訓的狗兒或幼犬接受響片訓練的人總是不可思議地發出驚嘆,目睹從未受訓的狗兒沒有聽過響片,在幾分鐘之內即能開心衝到被子上趴下,看來真是神奇,它迅速使狗兒出現一連串看似複雜的行為,首次見識的人不得不對這種魔力印象深刻,他們是看到了,也相信它有可能──只要訓練者經驗老道,但是要他們產生信任,相信這種不作任何指引、不用暴力或肢體、也不作任何控制的作法對自家的狗真會有用?這對任何初入門的響片訓練者都是狠大的問號,對於來看誘導背景、習慣狗兒出現機械化自動反應的人尤其困難,雖然自動反應並非「學習」,即時的成就感對於誘導者具有高度增強作用。
剛開始時,很不容易相信響片這一套會管用──人們必須有耐性,讓響片進行溝通。人類的天生傾向是減輕學習壓力──減少狗兒當下的混淆或可能出現的混淆,急著幫忙狗兒是人們最隱而不見的習性,尤其是誘導式跨域訓練者──狗兒看來困惑時就幫它,狗兒挫折時也幫它,狗兒無助也拯救它。當訓練者喪失對於訓練方法的自信時,誘導法可以填補空缺。
於是當狗兒不提供某項行為(無論是何項行為),訓練者拿出零食作誘導,讓它知道該做什麼,然後再試看看,情況又一樣,狗兒沒法出現行為;零食再度出現,再度誘導它出現行為。訓練者誤以為這麼做就能讓它懂,它是懂得某件事,但是並不是訓練者希望的那件事:狗兒學習到什麼都不要做,直到訓練者拿出零食,然後跟著零食動就能得賞,結果『沒反應的行為受到增強』(或可稱為習得無助)。
狗兒不動的反應並不是意識下的抉擇,它沒有坐在那兒想著:「我知道該做什麼,但是我不會這麼做。」其實是因為它沒有反應的等待行為帶來了好的後果。
更糟的是,訓練者誤以為問題是狗兒只是需要多幾次示範,誘導幾次之後就決心試圖塑形行為或等待它行為出現,所以他試著和狗兒比耐心──看看是否能等到它出現行為,可是狗兒不會這麼做,畢竟它已學會沒反應才會獲賞──只要等著跟隨誘導就好。當訓練者等得久一些,但終究仍掏出零食誘導,這麼做只會拉長狗兒等待零食出現的時間,不但增強等待行為,而且也使這個等待的行為受到隨機增強,變得更不易消失。
無論是否給予訊號,如果狗兒不出現動作之後人們無法克制想誘導的衝動,可能會一路每況愈下,最後到了訓練者所謂的『頑固』地步:「我家狗拒絕服從我,他知道我要什麼,但是它就是不乾。」如果狗兒知道我們要什麼,也知道它照做會獲得狠高報酬,但它仍拒絕這麼做?誘導時它完全會樂意配合,所以既然它不願出現行為,它一定是『故意摃上』訓練者?我們真能相信狗會這麼做?當然不是,答案是訓練者訓練了這種持之以恆的等待行為。
我十分同情落入這種陷阱的訓練者──畢竟,我們都只是想幫幫狗兒,但是暫緩的作法是錯的,這種幫助它的作法會消除讓它自己去發現、去學習的能力,而這種能力對狗兒或訓練者有太大的好處了!
好訊息是,只要訓練者意識到自己無意的行為,並且去除自己想去幫它的衝動──花些時間比耐性,撐得比它久,訓練就會往前邁一大步,而且看見狗兒腦子燈泡亮了的頓悟時刻,這種刺激和興奮也值得耐心等待。