內容簡介
本書介紹了文本分類和偏最小二乘回歸,提出了基於變數投影重要性指標的文本分類特徵選擇方法,論述了偏最小二乘Logistic文本分類模型,闡述了CHTC層次文本分類模型的研究工作,本書可供相關領域科研工作者、大學高年級學生和研究生閱讀。
編輯推薦
《文本挖掘中若干關鍵問題研究》:自動文本分類是將自然文本檔案根據內容自動分為預先定義的一個或幾個類別的過程,基於統計學習、機器學習的文本分類技術已經成為主流技術,《文本挖掘中若干關鍵問題研究》對基於統計學習的文本分類及其相關技術進行了研究,為解決文本分類的稀疏性和高維性問題,基於偏最小二乘理論,提出一種新的維數約簡算法,從提高文本分類性能和準確性出發,運用偏最小二乘的最新理論成果,提出了一種能較好提取潛在語義的新文本分類模型,對於數量龐大的文檔類別,傳統的平坦文本分類的性能受到很大的制約,層次文本分類是一種有效的解決方法,由此提出了一種新的層次文本分類模型。
目錄
前言.
第1章 導論
1.1 研究背景
1.2 文本分類綜述
1.3 本書的內容結構
1.4 本書的創新工作
第2章 文本分類概述
2.1 文本分類的數學定義
2.2 文本分類任務的特點
2.3 文本分類系統的組成
2.4 文檔預處理
2.5 文檔的表示
2.6 常用文本分類模型
2.7 文本分類器學習、測試和評價
第3章 偏最小二乘回歸方法的基本理論
3.1 偏最小二乘回歸的發展歷史
3.2 偏最小二乘回歸的基本原理
3.3 偏最小二乘回歸的基本思想
3.4 數學原理
3.5 偏最小二乘回歸的理論算法