n 序列模式的概念最早是由Agrawal和Srikant 提出的。
n 動機:大型連鎖超市的交易數據有一系列的用戶事務資料庫,每一條記錄包括用戶的ID,事務發生的時間和事務涉及的項目。如果能在其中挖掘涉及事務間關聯關係的模式,即用戶幾次購買行為間的聯繫,可以採取更有針對性的行銷措施。
n 例:一個事務資料庫,一個事務代表一筆交易,一個單項代表交易的商品,單項屬性中的數字記錄的是商品ID
序列模式定義
給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素(交易)由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現頻率不低於用戶指定的最小支持度閾值。
符號化表示
項目集(Itemset)是各種項目組成的集合
序列(Sequence)是不同項目集(ItemSet)的有序排列,序列s可以表示為s = <s1s2…sl>,sj(1 <= j <= l)為項目集(Itemset),也稱為序列s的元素
序列的元素(Element)可表示為(x1x2…xm), xk(1 <= k <= m)為不同的項目,如果一個序列只有一個項目,則括弧可以省略
一個序列包含的所有項的個數稱為序列的長度。長度為l的序列記為l-序列
序列模式 VS 關聯規則
問題 | 序列模式挖掘 | 關聯規則挖掘 |
數據集 | 序列資料庫 | 事務資料庫 |
關注點 | 單項間在同一事務內以及事務間的關係 | 單項間在同一事務內的關係 |
套用領域
客戶購買行為模式預測
Web訪問模式預測
疾病診斷
網路入侵檢測