研究現狀
機器人學習是研究機器人如何模擬人類進而實現人類的學習行為,從而能夠像人類一樣通過不斷的學習來改善自身的性能,提高自身的適應能力和智慧型化水平。機器人學習是機器人學領域一個非常重要的研究方向,尤其是近幾十年來一直是研究者研究的重點。但是關於機器人學習的定義,卻一直沒有達成一個統一的認識,不同的研究者根據自己的研究方向或者成果對機器人學習都做了不同的定義。如Marvin Minsky 認為學習是解決新問題的能力,這是從人工智慧角度出發得出的理解:“面對一個新的問題,機器人應該先使用以前成功解決類似問題的方法進行嘗試。”Scott 對學習的定義則是從動物行為學的角度出最多認同的觀點是:機器人學習能力是指機器人在與環境互動時所表現出來的一種自適性,能夠根據特定的任務來改進自己行為從而適應環境的特性。而這種自適性和學習能力是通過下面兩個方面來體現出來的:首先它能感知到環境信息及環境的變化,並學習對感知信息的理解和處理過程;然後當機器人所處環境或目標發生變化時,能夠根據變化改進當前的行為策略或者學習新的行為策略。
學習方法
機器人需要處理的信息紛繁複雜,不同層次的信息表達了不同的需求,同時也對應不同層次的行為。所以相應的存在多種不同的學習方法,常用的有下面幾種:監督式學習(Supervised Learning),進化方法(Evolutionary Methods),強化學習(Reinforce Learning),基於案例的學習(Case-based Learning)和基於先驗知識的學習(Prior knowledge-based Learning)方面。其中最常使用的是前面三種,下面簡單介紹:
監督式學習
在機器人學習的範疇內監督式學習主要是指基於人工神經網路的學習。人工神經網路是在對現代神經科學的研究成果進行總結的基礎上,通過模擬人類大腦的結構及功能而建立起來的一種數學模型。這種方法能夠逼近多種數值類型的目標函式,被廣泛的套用在機器人實現從感知信息到控制決策的映射等方面,並且有許多成功的套用案例,如 Floreano 等人將進化神經網路控制器套用到了無人為干預的自主移動機器人的控制中;Zhu 等人將設計的神經模糊控制器,套用到移動機器人導航控制實驗中,使機器人能夠在行進過程中成功的避開障礙物,最終順利完成導航任務,到達目標點。雖然這種學習方法具有很大的優點,然而它在學習的過程中需要大量的樣本數據進行訓練,因為它在學習的過程中需要提供精確的誤差反饋信號,所以在智慧型機器人領域的套用受到了一定的限制。
進化學習
進化學習方法套用的主要是遺傳算法,這是一種模擬生物進化機制提出來的學習方法,它利用適應度函式來對種群中的個體進行優劣評價,然後對種群進行更新進化,最終得到最優策略。遺傳算法提供的是一種並行的隨機搜尋的最佳化方法,適用於複雜或未知的環境,在解決某些移動機器人的搜尋問題上有很大的優勢,是進化機器人領域的重點研究方向。比如 Hofman 等人在對機器人導航控制方面進行研究時,提出了利用遺傳算法對控制器參數進行最佳化的思路,並取得了良好的結果。
目前對遺傳算法的研究已經受到了廣泛的關注,尤其是關於進化計算的研究越來越受到人們的關注,已經在很多方面獲得了很好的套用。每年在世界各地都有專門關於進化計算的國際會議定時的舉行,進化計算及學習已經從單一的學科發展為集人工智慧,生物科學和計算機科學為一體的交叉性學科。
雖然遺傳算法具有很大的優點,它也存在一些不足,這些不足限制了遺傳算法的廣泛套用和進一步的深入研究。這些不足主要體現在:遺傳算法是全局搜尋算法,所需要的時間相對比較多,搜尋效率卻不是很高。在複雜多變環境中對實時性要求很高的情況下,這種不足愈加明顯。另外還有就是它容易出現早熟現象,搜尋不到全局最優的策略。
強化學習
強化學習是人們從動物學習理論發展而來一種目標導向型的學習方法,它是通過與環境的不斷互動試錯進行學習的,最終獲得足夠的知識使機器人能夠合理的做出行為決策。相比於監督式學習,強化學習有很大的優點:它需要的訓練信息是評估性的,只需要給出評價的“好”或“壞”,對機器人行為進行評估,而不是精確性的信息,這種非精確性的信息形式比較符合動態環境的要求,同時也符合我們的心理習慣,所以一直是人工智慧與機器人學領域的研究熱點。
強化學習的思想最早形成於 20 世紀 50 至 60 年代,快速發展則是在 80年代後期,這時候關於強化學習的各種基本算法都被提出來,如 1988 年 Sutton 在它的著名論文中“Learning to predict by methods of temporal differences”提出的瞬時時差TD 方法,還有 Watkins 等人提出的 Q 學習算法等,這些都是強化學習算法中最基礎也是最重要的算法。到 20 世紀末期國際期刊《Machine Learning》中出了兩個強化學習的專刊,用來刊載強化學習的理論研究論文,充分說明了強化學習已經成為了機器學習領域中很重要的一部分。
從國內來講,強化學習也處於發展階段。閻平凡在1996 的時候就在期刊上發表文章,闡述了強化學習的基本原理,常用的學習算法及在機器人控制方面的套用;蔡自興則將強化學習方法套用到了非線性系統的控制問題上,並做了仿真實驗驗證了其有效性;張汝波將強化學習算法套用到智慧型機器人的導航和避障實驗中。雖然強化學習已經發展了 40 多年了,相應的算法也比較成熟,但是在實際套用時由於在與環境的互動過程中存在著探索與利用的矛盾問題,所以這個學習的過程還是需要一定的時間來完成的。針對強化學習的基礎算法進行改進一直是強化學習研究中的非常重要的內容,研究者也提出了各種各樣的改進算法,但卻不具有通用性,所以如何改進強化學習算法,提高學習速度依然是以後研究的重點內容。
發展方向
當前機器人學習的研究方向主要有三個:
1、面向任務:針對特定的環境或預定任務,研究開發新的機器人學習系統提高機器人完成任務的能力,這個方向主要套用於某些具有特定用途的專業機器人的研究;
2、認知模擬:這是從心理學角度出發進行的研究,主要是研究人類學習過程從而套用於機器人的行為模擬和行為學習,最終提高機器人的智慧型化水平;
3、理論分析研究:這是從基礎理論上研究可能用於機器人學習的方法,這種研究不針對套用領域,而是完全從理論研究的角度出發,是為以後的套用研究做理論上的鋪墊。
這三個研究方向既是相互獨立的又是相輔相成的,它們都有自己確定的目標,但每一個研究方向的發展都會反過來促進其它方向的研究,最終使各個研究問題和學習概念交叉結合發展。