相似係數和距離是聚類分析中的兩個專業術語。
為了將樣品(或指標,一個樣品包含n個指標,比如一個“張三”是一個樣品,他的年齡、身高、學歷等等就是指標)進行分類,就需要研究樣品之間關係,目前用的最多的方法有兩個:一種方法是用相似係數,性質越接近的樣品,他們的相似係數的絕對值越接近1,而彼此無關的樣品,他們的相似係數的絕對值越接近於0。比較相似的樣品歸為一類,不怎么相似的樣品歸不同的類。另一種方法是將一個樣品看做p維空間的一個點,並在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。在實際問題中,我們常常用聚類對樣品分類,用相似係數對指標分類。相似係數和距離有各種各樣的定義,而這些定義與變數的類型關係極大,因此先介紹變數的類型。
由於實際問題中,遇到的指標有的是定量的(如長度、重量等),有的是定性的(如性別、職業等),因此將變數(指標)的類型按以下三種尺度劃分:
間隔尺度:變數是用連續的量來表示的,如長度、重量、壓力、速度等等,在間隔尺度中,如果存在絕對零點,又稱比例尺度。
有序尺度:變數度量時沒有明確的數量表示,而是劃分一些等級,等級之間有次序關係,如某產品分上、中、下三等,次三等有次序關係,但沒有數量表示。
名義尺度:變數度量時既沒有數量表示,也沒有次序關係,如某物體有紅、黃、白三種顏色,性別有男女之分,市場供求中有“產”和“銷”等。
不同類型的變數,在定義聚類和相似係數時,其方法是有很大差異的。研究和使用較多的是間隔尺度,現給出間隔尺度的距離和相似係數的定義。
其中(i=1,……,n;j=1,……,p)為第i個樣品的第j個指標的觀測數據。第i個樣品為矩陣X的第i行所描述,所以任何兩個樣品和之間的相似性,可以通過矩陣X中的第K行和第L行的相似程度來刻畫;任何兩個變數和之間的相似性,可以通過第K列和第L列的相似程度來刻畫。
相關詞條
-
相似係數
相似係數是衡量兩個實體,或一個實體與一個實體組或兩個實體組之間相似程度的數量指標,它是進行數量分類的基礎,相似係數根據原始數據計算,實際套用時,又分相似...
簡介 選取原則 分類 -
餘弦相似度
餘弦相似度,又稱為餘弦相似性,是通過計算兩個向量的夾角餘弦值來評估他們的相似度。餘弦相似度將向量根據坐標值,繪製到向量空間中,如最常見的二維空間。
簡介 定義 性質 套用 另見 -
Jaccard係數
Jaccard index , 又稱為Jaccard相似係數(Jaccard similarity coefficient)用於比較有限樣本集之間的相似...
係數基本概念 相似性 廣義係數 主要套用場景 套用舉例 -
輪廓係數
輪廓係數(Silhouette Coefficient),是聚類效果好壞的一種評價方式。最早由 Peter J. Rousseeuw 在 1986 提出...
計算過程 注意事項 -
脂水分配係數
脂水分配係數(lipid-water partition coefficient),為化合物在脂相和水相間達到熱力學平衡時的濃度比值,通常是以化合物在有...
脂水分配係數的定義及意義 脂水分配係數測定的一般方法 -
風載體形係數
它描述的是建築物表面的穩定風壓作用下的靜態壓力的分布規律,主要與建築物的“體形”(工程中叫體型)和尺度有關,當然也跟周圍的環境和地面粗糙度有關。是指風作...
簡介 套用 原理 -
地球內部的構造和物理性質
相似。利用面波的頻散(速度隨頻率的變化)也可以求得地球內部的分層構造和...地球內部的構造和物理性質 正文地球內部具有分層結構,其物理性質在徑向和橫向上都有變化。由於地球內部是不能直接觀測的,而且電磁波在地球表層...
地球內部的構造和物理性質 正文 配圖 相關連線 -
RFLP和RAPD技術
RFLP是發展最早的DNA標記技術。RFLP是指基因型之間限制性片段長度的差異,這種差異是由限制性酶切位點上鹼基的插入、缺失、重排或點突變所引起的。RA...
第一節 概 述 第二節 RFLP技術 第三節 RAPD技術 -
跗肢節
。節肢動物的附肢,和身體相連的一節稱為基肢節(coxopodite),其餘...(subcoxa)和基節(coxa)兩個亞節。附肢的內側和外側常常著生有可活動的突起,稱為內葉(endite)和外葉(exite)。基肢節的內葉叫做基內葉...
簡介 相關介紹 參考資料