如何實現
Web挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,採用的技術有決策樹、分類、聚類、關聯規則等;另一類是建立一種以機器學習為主的人工智慧模型,採用的方法有神經網路、自然法則計算方法等。
1.Web內容挖掘實現技術
Web上的內容挖掘多為基於文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分標記,如Title、Head等包含的額外信息,可以提高Web文本挖掘的性能。
•文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內容。
•文本分類。分類是在已有數據的基礎上學會一個分類函式或構造出一個分類模型,即通常所說的分類器。
•文本聚類。文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。
•關聯規則。發現關聯規則的算法通常要經過以下三個步驟:連線數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。
2.Web使用記錄挖掘實現技術
在挖掘Web用戶使用記錄時描述用戶訪問的數據包括:IP位址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。
發現用戶使用記錄信息的方法有兩種。一種方法是通過對日誌檔案進行分析,包含兩種方式:一是先進行預處理,即將日誌數據映射為關係表並採用相應的數據挖掘技術來訪問日誌數據;二是直接訪問日誌數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的蒐集和分析發現用戶導航行為。
能挖到什麼
1、獲取競爭對手和客戶信息。Web不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超連結。一個Web頁面的作者建立指向另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的註解收集起來,就可以用來反映該頁面的重要性,並可以很自然地用於權威頁面的發現。另外一種重要的Web頁面是一個或多個Web頁面,它提供了指向權威頁面的連結集合,稱為Hub。Hub頁面本身可能並不突出,或者說可能沒有幾個連結指向它們,但是 Hub頁面卻提供了指向就某個話題而言最為突出的站點的連結。通過分析這類信息,企業可以獲得零售商、中間商、合作商以及競爭對手的信息。
2、發現用戶訪問模式。通過分析和探究Web日誌記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web伺服器系統的性能。 Web日誌記錄資料庫提供了有關Web動態的,基於URL、時間、IP位址和Web頁面內容的豐富信息,對它們進行分析,有助於發現潛在客戶、用戶和市場,有助於聚類用戶並將用戶分門別類,以實現個性化的市場服務。
3、反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。忽視競爭對手的競爭情報活動、低估競爭對手蒐集競爭情報的能力勢必導致企業失去已有的競爭優勢。Web站點是企業與外界進行交流的視窗,同時也是競爭對手獲取競爭情報的一個重要信息源。在競爭情報計算機系統中,可以充分利用Web挖掘技術,通過運用分析訪問者的IP位址、客戶端所屬域、信息訪問路徑,統計敏感信息訪問率等方法識別競爭對手,保護企業敏感性信息。