簡訊過濾系統概述
手機簡訊以其短小、迅速、簡便、價格低廉等優點成為一種重要的通信和交流方式, 受到眾多人士的青睞。然而, 手機簡訊與郵件一樣存在著垃圾信息問題。 目前, 垃圾簡訊過濾主要有黑名單過濾、關鍵字過濾和基於文本分類的內容過濾等方式。黑名單過濾和關鍵字過濾方式能快速過濾垃圾簡訊, 但這兩種過濾方式實質是基於規則的過濾, 雖然在一定程度上阻擋了一些垃圾簡訊, 但規則的方法需要更多的用戶自定義設定,很容易被反過濾。基於文本分類的簡訊過濾採用常見的分類算法, 如樸素貝葉斯、svm、神經網路等。黎路 等人將貝葉斯分類套用到j2me 模擬環境中成功地過濾了中獎簡訊和祝福簡訊。浙江大學的金展、范晶等 將樸素貝葉斯和支持向量機結合, 解決了傳統垃圾簡訊過濾系統簡訊特徵和內容未能得到及時更新而導致過濾性能降低的問題。王忠軍將基於樸素貝葉斯簡訊過濾算法與基於最小風險貝葉斯算法進行了實驗分析和比較,結論是基於最小風險的簡訊過濾算法具有較好的性能。 然而, 簡訊過濾的準確率依賴於其訓練樣本的數量及質量, 這些分類算法需要經過訓練學習建立分類器模型,因此在速度上不能很好地滿足簡訊過濾實時性的要求。
簡訊過濾系統套用前景
從現有技術上來說, 垃圾簡訊的過濾在準確率和效率方面仍然不能滿足現實需要。 winnow 算法是在1987 年由nick littlestone 提出並對可行性做了嚴格證明的線性分類算法。當時的目標是想找到一種時空複雜度僅僅與分類對象相關屬性相關的數量呈線性相關的算法。平衡winnow 算法是對基本winnow 算法的一種改進, 該算法具有過濾速度快、性能好、支持反饋更新的優點, 在信息過濾領域有很好的套用前景, 尤其適合於對實時性要求較高的簡訊過濾系統。
簡訊過濾系統特徵提取
特徵提取的方法目前也有很多, 常用的特徵選取方法有: 文檔頻率df(document frequency) 、信息增益ig(information gain) 、互信息mi(mutual information) 、χ2統計等。 將分詞後的詞作為候選特徵, 然後使用特徵提取算法從中提取出對分類最有用的一些特徵, 去除對分類貢獻不大的候選特徵, 以降低特徵的維數。其中χ2的主要思想是認為詞條與類別之間符合χ2分布。χ2 統計量的值越高, 特徵項和類別之間的獨立性越小、相關性越強, 即特徵項對此類別的貢獻越大。χ2 是一個歸一化的值, 該方法比其他方法能減少50%左右的辭彙, 具有分類效果好的優點。本文中採用χ2統計進行特徵提取。 但不是簡單地令特徵項的權重xi=1 或0 , 而是令xi=f(χ2)或0 , 這裡χ2 特指特徵對應的χ2 統計值, 對應關係f 根據實際情況而定。實驗中(n 是一個正整數, 取n=4) 。實驗表明比用布爾權重表示效果要好。 1.3 文本向量表示目前套用較多的是向量空間模型vsm (vectorspace model) , 文中用vsm 將一條簡訊表示為(w1,w2,…,wk,…,wn)的向量形式。其中:wk(k=1 ,2 ,…,n)為第k 個特徵的權重,n 為選定的特徵數。
簡訊過濾系統winnow 分類算法
winnow 算法是二值屬性數據集上的線性分類算法。線性分類問題中表示分類界限的超平面等式如下: w0α0+w1α1+w2α2+…+wkαk=0 , 其中:α0,α1,…,αk分別是屬性的值;w0,w1, …,wk是超平面的權值。如果其值大於0 , 則預測為第一類否則為第二類。 winnow 算法是錯誤驅動型的分類算法, 即當出現錯分的實例時才更新權值向量。設定兩個學習係數α 和β(其中α>1,β<1) , 通過將權值乘以參數α( 或β) 來分別修改權值。