數據分類

數據分類

數據分類調研分析的基礎是數據,而數據的類型可以分為連續性的變數和分類變數。數據分類就是把具有某種共同屬性或特徵的數據歸併在一起,通過其類別的屬性或特徵來對數據進行區別。換句話說,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然後確定各個集合之間的關係,形成一個有條理的分類系統。

定義

數據分類就是把具有某種共同屬性或特徵的數據歸併在一起,通過其類別的屬性或特徵來對數據進行區別。為了實現數據共享和提高處理效率,必須遵循約定的分類原則和方法,按照信息的內涵、性質及管理的要求,將系統內所有信息按一定的結構體系分為不同的集合,從而使得每個信息在相應的分類體系中都有一個對應位置。換句話說,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然後確定各個集合之間的關係,形成一個有條理的分類系統。

數據分類的目的是根據新數據對象的屬性,將其分配到一個正確的類別中。分類分析用預測方法預測給定數據對象的類標號,被廣泛地套用到信譽證實、醫療診斷及選擇購物等領域。

我們都知道調研分析的基礎是數據,而數據的類型可以分為:

連續性的變數:比如,身高,體重,化驗值等等,這些變數的特點可以有小數點,可以直接錄入;

2. 分類變數:其變數值是定性的,表現為互不相容的類別或屬性。實際上在調研當中運用最多的就是分類變數,可分為無序變數和有序變數兩類。

①無序分類變數是指所分類別或屬性之間無程度和順序的差別,例如二項分類,性別(男、女),藥物反應(陰性、陽性)等。例如多項分類,血型( O、A、B、AB),職業(工、農、商、學、兵)等。

②有序分類變數是指各類別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類;療效按治癒、顯效、好轉、無效分類。

基本原則

數據分類的基本原則如下:

穩定性

依據分類的目的,選擇分類對象的最穩定的本質特性作為分類的基礎和依據,以確保由此產生的分類結果最穩定。因此,在分類過程中,首先應明確界定分類對象最穩定、最本質的特徵。

系統性

將選定的分類對象的特徵(或特性)按其內在規律系統化進行排列,形成一個邏輯層次清晰、結構合理、類目明確的分類體系。

可擴充性

在類目的設定或層級的劃分上,留有適當的餘地,以保證分類對象增加時,不會打亂已經建立的分類體系。

綜合實用性

從實際需求出發,綜合各種因素來確定具體的分類原則,使得由此產生的分類結果總體是最優、符合需求、綜合實用和便於操作。

兼容性

有相關的國家標準則應執行國家標準,若沒有相關的國家標準,則執行相關的行業標準;若二者均不存在,則應參照相關的國際標準。這樣,才能儘可能保證不同分類體系間的協調一致和轉換。

方法

根據不同的分類方法,可以將統計數據分為以下幾種類型:

按計量層次分類

按照數據的計量層次,可以將統計數據分為定類數據、定序數據、定距數據與定比數據。

1.定類數據。這是數據的最低層。它將數據按照類別屬性進行分類,各類別之間是平等並列關係。這種數據不帶數量信息,並且不能在各類別間進行排序。例如,某商場將顧客所喜愛的服裝顏色分為紅色、白色、黃色等,紅色、白色、黃色即為定類數據。又如,人類按性別分為男性和女性也屬於定類數據。雖然定類數據表現為類別,但為了便於統計處理,可以對不同的類別用不同的數字或編碼來表示。如1表示女性,2表示男性,但這些數碼不代表著這些數字可以區分大小或進行數學運算。不論用何種編碼,其所包含的信息都沒有任何損失。對定類數據執行的主要數值運算是計算每一類別中的項目的頻數和頻率。

2.定序數據。這時數據的中間級別。定序數據不僅可以將數據分成不同的類別,而且各類別之間還可以通過排序來比較優劣。也就是說,定序數據與定類數據最主要的區別是定序數據之間還是可以比較順序的。例如,人的受教育程度就屬於定序數據。我們仍可以採用數字編碼表示不同的類別:文盲半文盲=1,國小=2,國中-3,高中=4,大學=5,碩士=6,博士=7.通過將編碼進行排序,可以明顯地表示出受教育程度之間的高低差異。雖然這種差異程度不能通過編碼之間的差異進行準確的度量,但是可以確定其高低順序,即可以通過編碼數值進行不等式的運算。

3.定距數據。定距數據是具有一定單位的實際測量值(如攝氏溫度、考試成績等)。此時不僅可以知道兩個變數之間存在差異,還可以通過加、減法運算準確的計算出各變數之間的實際差距是多少。可以說,定距數據的精確性比定類數據和定序數據前進了一大步,它可以對事物類別或次序之間的實際距離進行測量。例如,甲的英語成績為80分,乙的英語成績為85分,可知乙的英語成績比甲的高5分。

4.定比數據。這是數據的最高等級。它的數據表現形式同定距數據一樣,均為實際的測量值。定比數據與定距數據唯一的區別是:在定比數據中是存在絕對零點的,而定距數據中是不存在絕對零點的(零點是人為制定的)。因此定比數據間不僅可以比較大小,進行加、減運算,還可以進行乘、除運算。

在統計分析中,區分數據的類型十分重要,不同測度類型的數據,扮演的角色是不一樣的。

按來源分類

數據的來源主要有兩種渠道:一種是通過直接的調查獲得的原始數據,一般稱為第一手或直接的統計數據;另一種是別人調查的數據,並將這些數據進行加工和匯總後公布的數據,通常稱之為第二手或間接的統計數據。

按時間狀況分類

1.時間序列數據。它是指在不同的時間上蒐集到的數據,反映現象隨時間變化的情況。

2.截面型數據。它是指在相同的或近似的時間點上蒐集到的數據,描述現象在某一時刻的變化情況。

相關詞條

相關搜尋

熱門詞條

聯絡我們