概述
規則歸納是機器學習的一個領域,是從觀察集中將形式規則提取出來。提取的規則可能代表了全面的科學數據模型,或者只是代表了數據的本地模式。
範式
一些主要的規則歸納範式是:
假設檢驗算法
假設檢驗是推論統計中用於檢驗統計假設的一種方法。而“統計假設”是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知參數,就會希望根據結果對未知的真正參數值做出適當的推論。
統計上對參數的假設,就是對一個或多個參數的論述。而其中欲檢驗其正確性的為零假設(null hypothesis),零假設通常由研究者決定,反映研究者對未知參數的看法。相對於零假設的其他有關參數之論述是備擇假設(alternative hypothesis),它通常反應了執行檢定的研究者對參數可能數值的另一種(對立的)看法(換句話說,備擇假設通常才是研究者最想知道的)。
假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F檢驗等等。
關聯規則算法
關聯規則學習(英語: Association rule learning)是一種在大型資料庫中發現變數之間的有趣性關係的方法。它的目的是利用一些有趣性的量度來識別資料庫中發現的強規則。基於強規則的概念,Rakesh Agrawal等人引入了關聯規則以發現由超市的POS系統記錄的大批交易數據中產品之間的規律性。例如,從銷售數據中發現的規則 {洋蔥, 土豆}→{漢堡} 會表明如果顧客一起買洋蔥和土豆,他們也有可能買漢堡的肉。此類信息可以作為做出促銷定價或產品植入等行銷活動決定的根據。除了上面購物籃分析中的例子以外, 關聯規則如今還被用在許多套用領域中,包括網路用法挖掘、入侵檢測、連續生產及生物信息學中。與序列挖掘相比,關聯規則學習通常不考慮在事務中、或事務間的項目的順序。
決策規則算法
統計學,數據挖掘和機器學習中的 決策規則訓練,使用決策樹作為預測模型來預測樣本的類標。這種決策樹也稱作 分類樹或 回歸樹。在這些樹的結構里,葉子節點給出類標而內部節點代表某個屬性。
在決策分析中,一棵決策樹可以明確地表達決策的過程。在數據挖掘中,一棵決策樹表達的是數據而不是決策。
粗糙集規則
粗糙集(rough set),又稱 粗集合。在 粗糙集理論中, 明確集(crisp set)是指傳統的集合,而粗糙集則用於對明確集進行形式上的逼近,即給出該明確集的 上逼近集和 下逼近集。此理論最初由波蘭數學家Zdzisław I. Pawlak所描述,也被視為標準的粗糙集理論。在這標準理論中,上逼近集和下逼近集都是明確集,而在其它一些版本的粗糙集理論中則是模糊集。
算法
一些規則歸納算法如下:
Charade
Rulex
Progol
CN2
機器學習
定義
機器學習是人工智慧的一個分支。人工智慧的研究歷史有著一條從以“推理”為重點,到以“知識”為重點,再到以“學習”為重點的自然、清晰的脈絡。顯然,機器學習是實現人工智慧的一個途徑,即以機器學習為手段解決人工智慧中的問題。機器學習在近30多年已發展為一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為 統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬於無程式可循難度,所以部分的機器學習研究是開發容易處理的近似算法。
機器學習已廣泛套用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人等領域。
分類
機器學習可以分成下面幾種類別:
•監督學習從給定的訓練數據集中學習出一個函式,當新的數據到來時,可以根據這個函式預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。常見的監督學習算法包括回歸分析和統計分類。
監督學習和非監督學習的差別就是訓練集目標是否人標註。他們都有訓練集 且都有輸入和輸出
•無監督學習與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習算法有生成對抗網路(GAN)、聚類。
•半監督學習介於監督學習與無監督學習之間。
•增強學習通過觀察來學習做成如何的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。