自動聚類是一種典型的無指導機器學習方法。它假設不同的類在特徵空間中占據不同的區域,而且同一類文本占據同一區域。在特徵空間中每個文本對應一個點,文本聚類的目標就是將文檔集合分成若干類,使得在特徵空間中,同一類的文本對應的點,集聚在一個區域中。也就是使同一類中的文本之間的距離最小。
自動聚類技術的目的,是自動地分析採集過來的所有信息,根據內容概念來把相似的文檔聚類到一起(相關性算法),同時完全自動化的生成類別的標題,並提供自動的熱點生成和自動的熱點趨勢分析。
相關詞條
-
聚類
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中...
典型套用 典型要求 計算方法 研究情況 -
數據聚類
數據聚類 (英語 : Cluster analysis) 是對於靜態數據分析的一門技術,在許多領域受到廣泛套用,包括機器學習,數據挖掘,模式識別,圖像分...
簡介 結構性聚類 分散性聚類 -
聚類算法
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法。 聚類(Cluster)分析是由若干模式(Patt...
算法起源 算法用途 聚類要求 算法分類 具體方法 -
文本聚類
文本領域專業術語。
文本聚類的主要套用 聚類算法 -
譜聚類算法
譜聚類算法建立在圖論中的譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優劃分問題,是一種點對聚類算法,對數據聚類具有很好的套用前景。 譜聚類算法將聚類問...
算法簡介 算法步驟 劃分準則 典型的算法 算法的新進展 -
聚類檢索
聚類檢索是在對文獻進行自動標引的基礎上,構造文獻的形式化表示——文獻向量,然後通過一定的聚類方法,計算出文獻與文獻之間的相似度,並把相似度較高的文獻集中...
-
聚類挖掘
,需要有聚類學習算法來自動完成。近年來,隨著數據挖掘的發展,聚類以其特有...檢索領域,聚類分析能夠對Web文檔進行分類,提高檢索效率。聚類就是把一組...儘可能的小,而不同類別上的個體的距離儘可能的大。聚類的結果可以得到一組數據...
-
基於遺傳算法的文本分類及聚類研究
2.2文本的表示 2.5文本分類方法 2.6文本聚類方法
基本相信 內容簡介 目錄 前言 -
自動標引
自動標引(英語:Automatic Indexing)包括關鍵字自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。關鍵字自動提取是一種識別有意義且具有...
作用 發展過程 代表方法 典型套用