定義
分治法的思想是將一個難以直接解決的問題分解成容易求解的子問題,以便各個擊破、分而治之。利用分治法求解問題的過程是,將整個問題分解成若干子問題後分而治之;如果分解得到的子問題仍然不易求解,可反覆使用分治策略將這些子問題分成更小的子問題,直至產生出容易求解的子問題,最後逐步合成這些子問題的解,以得到問題的解。歸併分類就是分治法中的一種算法。
分類
分類問題就是按照關鍵值的一種排序關係,如大於關係。如根據關鍵值的不增或不減次序,把檔案中的各種記錄一次排列起來,可使得一個無序檔案變成有序檔案。
檔案的物理表示法
(1)向量表示。要分類的初始檔案的各個記錄,按其自然順序存放在連續一塊記憶體空間中。
(2)鍊表表示。要分類檔案的每個記錄作為鍊表結構的一個結點,並按照各個記錄的原始次序連結起來。
(3)地址向量。將要分類檔案的各個記錄存貯到記憶體的各塊中,這些存貯塊的地址是不連續的。按各記錄的原始次序,將這些塊的首地址依次存如記憶體的一塊連續單元中,這樣由各塊的首地址組成一個向量,這個向量就是地址向量。
分類技術
分類技術根據記錄所處的環境不同而分為內部分類和外部分類兩大類。內部分類是指分類期間全部數據都存放在記憶體的分類方法;外部分類則是針對大量記錄而言的,分類期間,全部記錄已不能同時存放在記憶體,需要記錄在內、外存之間移動。常見的幾種內部分類技術包括:
(1)計數分類。主要思想是對於每個記錄,都要計算檔案中其它記錄的關鍵字值有多少是大於該記錄的關鍵字值,從而找到這個記錄的正確分類位置,這是一種效率較低的分類方法。
(2)選擇分類。以教師對學生的考試成績按分數進行分類為例,首先找到成績最好的試卷,並把它出來,作為新一疊試卷的頭一份試卷,然後在剩餘的試卷中再選出分數最高的試卷,並把它放在新的那疊試卷之上,如此繼續下去,最後就完成了按分數高低分類這些試卷,這個過程即為選擇分類。
(3)冒泡分類。每一次僅進行相鄰兩個記錄的比較,使位於檔案底部的合適記錄一下子放到檔案的頂部,而只能每次向上移動一步,緩慢升到頂部,因此一個檔案的全部分類是由多次重複比較相鄰記錄的關鍵字而實現的。
(4)線性插入;將原始檔案順序的第二個記錄的關鍵字與第一個記錄的關鍵字進行比較後,把第二個記錄放到一個相對於第一個記錄的合適位置。然後再取第三個記錄於前二個記錄進行比較關鍵字,並把第三個記錄放到相對於前兩個記錄的合適位置,如此繼續下去,最後完成分類。
(5)折半插入,它是線性插入的改進。
(6)歸併分類,兩個分類檔案的歸併問題和k個分類檔案的歸併問題。
算法
基本思想
設待分類的數據序列包含n個數據元素。
(1)先把該序列分成n個子序列,每個子序列只包含一個數據,顯然,這n個子序列都是有序的;
(2)將這n個子序列兩個一組,可分成(n+1)/2(取整)個互不相交的組;
(3)對每個組的2個子序列進行二路歸併,總共得到(n+1)/2個有序子序列;
(4)對這些有序子序列兩個一組,對每個組進行二路歸併。
如此繼續下去,最後得到一個有序的結果序列。
程式
算法分析
歸併分類算法時間複雜度為O(nlogn)。歸併分類方法相當充分地反映了使用分治策略對數據對象分類的長處,但是仍存在一些明顯的不足,從而限制了分類效率的進一步提高。
首先,每當計畫被分為只含有兩個元素的子集合時,還需要使用二次遞歸調用將這子集合分成單個元素的集合。這表明該算法執行到將集合分成含元素相當少的子集合時,很多時候不是用在實際的分類,而是消耗在遞歸外了。
另外,歸併算法使用了輔助數組,這是一個明顯的不足之處,但是由於不可能在兩個已分類集合的原來位置上進行適當的歸併,所以這n個位置的附加空間對於本算法是必須的,不過,使用一個以整數表示的鍊表信息數組來代替輔助數組可以節省一些附加空間。
改進的歸併分類算法
改進算法1
使用連結的歸併分類模型,,其主要算法如下:
在這個算法中,利用輔助數組LINK[low:high]將全長數組A[low:high]按非降次序分類。LINK中值表示按分類次序給出A下標的表,並將p置於指示這表開始處。
改進算法2
使用連結表歸併已分類的集合,其主要算法如下: