文本數據挖掘

文本數據挖掘

文本數據挖掘(Text Mining)是指從文本數據中抽取有價值的信息和知識的計算機處理技術。

概念
文本數據挖掘(Text Mining)是指從文本數據中抽取有價值的信息和知識的計算機處理技術。顧名思義,文本數據挖掘是從文本中進行數據挖掘(Data Mining)。從這個意義上講,文本數據挖掘是數據挖掘的一個分支。文本數據挖掘是一個邊緣學科,由機器學習、數理統計、自然語言處理等多種學科交叉形成。
文本挖掘種類
1.基於單文檔的數據挖掘
2.基於文檔集的數據挖掘
文本挖掘方法
1.文本分類
文本分類是一種典型的機器學習方法,一般分為訓練和分類兩個階段。
2.文本聚類
文本聚類是一種典型的無監督式機器學習方法,聚類方法的選擇取決於數據類型。
3信息抽取
4摘要
5壓縮
其中,文本分類和聚類是兩種最重要最基本的挖掘功能。
挖掘工具
1.IBM DB2 intelligent miner
2.SAS text miner
3.SPSS Text Mining
套用
文本挖掘傳統商業方面的套用主要有,企業競爭情報、CRM、電子商務網站、搜尋引擎,現在已擴展到醫療、保險和諮詢行業。

相關詞條

相關搜尋

熱門詞條

聯絡我們