順序統計樹

順序統計樹

在計算機科學,順序統計樹是二叉搜尋樹的變種。除了插入、查詢和刪除,這種數據結構還支持以下兩種操作:選擇樹中最小元素和對樹中的元素進行排名(rank)。這兩種操作的平均時間複雜度是O(log n)。當所用數據結構是平衡二叉樹時,這是最壞複雜度。

簡介

二叉搜尋樹,是指一棵空樹或者具有下列性質的二叉樹:若任意節點的左子樹不空,則左子樹上所有節點的值均小於它的根節點的值;若任意節點的右子樹不空,則右子樹上所有節點的值均大於它的根節點的值;任意節點的左、右子樹也分別為二叉搜尋樹;沒有鍵值相等的節點。二叉搜尋樹相比於其他數據結構的優勢在於查找、插入的時間複雜度較低。為O(log n)。二叉搜尋樹是基礎性數據結構,用於構建更為抽象的數據結構,如集合、multiset、關聯數組等。順序統計樹是二叉搜尋樹的一種變體,最大的特點是能對樹中的元素進行排名和基於順序統計量對樹中的元素進行選擇,即使用選擇算法。對於樹中的每個節點,需要額外維護以這個節點為根的子樹大小(該節點下點的個數)。通過改進順序統計樹,能夠實現其他數據結構(例如, 維護節點的高度能實現AVL樹, 維護節點顏色能實現紅黑樹)。 直接使用節點大小的信息,也能實現加權平衡樹。

選擇算法

在計算機科學中,選擇算法是一種在列表或數組中找到第k個最小數字的算法;這樣的數字被稱為第k個順序統計量。該算法尋找的對象主要有三種:最小、最大和中位數。已知存在O(n)(最壞情況下為線性時間)的選擇算法,還有對於結構化數據可能有次線性的表現的算法;在極端的情況下,對於已排序數據是O(1)。選擇是一些更複雜問題的子問題,如最近鄰和最短路徑問題。 許多選擇算法是由排序算法推廣而來,反之,一些排序算法可由反覆套用選擇算法推導出來。最簡單的選擇算法是通過遍歷列表找到最小(或最大)的元素,在此過程中跟蹤當前的最小(或最大)值。這中算法與選擇排序有關。相反地,最困難的選擇算法是尋找中位數,這必然需要n/2的空間。 事實上,一個專門的中位選擇算法可用來構造一個一般選擇算法,例如中位數的中位數。已知最好的選擇算法是快速選擇(quickselect),它與快速排序有關。和快速排序類似,它有漸進最佳的複雜度,但是最壞情況的複雜度較差。不過這可以通過調整基準(pivot)的選擇來最佳化。

通過對列表或數組的排序,然後選擇所需的元素,選擇算法可以規約為排序算法。這種方法對於選擇單個元素是低效的,但需要從數組中做出很多選擇時是高效的。在這種情況下,僅僅需要一個起初一個代價昂貴的排序,緊接著就是各種便宜的選擇操作了 – 對於數組而言是 O(1)。儘管對於鍊表而言,即使排序後,選擇操作也需要 O(n),這是由於缺乏隨機訪問造成的。通常的,排序需要耗費 O(n log n) 的時間,其中n是列表的長度,儘管對於非比較算法而言可能更低一些,如基數排序和計數排序。

相比將整個列表或數組進行排序,還可以用偏排序來選擇第k小或第k大的元素。第k小的(第 k 大的) 也就是偏排序後列表中最大的 (最小的) 那個 – 這在數組中會耗費 O(1) 來訪問,在鍊表中會耗費 O(k)。

紅黑查找樹與加權平衡樹

紅黑查找樹就是一種平衡的二叉查找樹。一棵二叉查找樹如果滿足下列性質,則稱為紅黑樹:

(1)每個結點或是紅色的,或是黑色的(增加一位表示顏色的存儲位);

(2)每個葉結點(空指針NIL)是黑色的;

(3)如果一個結點是紅色的,則它的兒子應是黑色的;

(4)從任一給定結點到其子孫葉結點的每條簡單路徑上都具有相同個數的黑結點 。

紅黑樹和AVL樹一樣都對插入時間、刪除時間和查找時間提供了最好可能的最壞情況擔保。這不只是使它們在時間敏感的套用如實時套用(real time application)中有價值,而且使它們有在提供最壞情況擔保的其他數據結構中作為建造板塊的價值;例如,在計算幾何中使用的很多數據結構都可以基於紅黑樹。

紅黑樹是2-3-4樹的一種等同。換句話說,對於每個2-3-4樹,都存在至少一個數據元素是同樣次序的紅黑樹。在2-3-4樹上的插入和刪除操作也等同於在紅黑樹中顏色翻轉和旋轉。這使得2-3-4樹成為理解紅黑樹背後的邏輯的重要工具,這也是很多介紹算法的教科書在紅黑樹之前介紹2-3-4樹的原因,儘管2-3-4樹在實踐中不經常使用。

紅黑樹相對於AVL樹來說,犧牲了部分平衡性以換取插入/刪除操作時少量的旋轉操作,整體來說性能要優於AVL樹。

加權平衡樹是一種可以用來實現集合、字典(映射)和序列的平衡樹。這些樹結構在20世紀70年代被Nievergelt和Reingold作為有界限的自平衡樹或BB[α]樹提出。讓這些結構普及的是高德納。就像其他自平衡樹一樣,加權平衡樹儲存的賬簿信息可以在樹結構被插入和刪除操作打亂時,通過平衡結點和操作樹旋轉來使樹結構重新達到平衡。特別的地方是,加權平衡樹的每個結點儲存這個結點下子樹的大小,並且這個結點左右子樹的大小保持著某種內在聯繫。不同於AVL樹(儲存子樹的高度)和紅黑樹(儲存虛構的“顏色”位),加權平衡樹儲存記賬信息的方式是對套用真正有用的屬性:一棵樹下元素的數量等於它的根的大小,然而這個根的大小是一個用來實現順序統計樹操作的有用數據,也就是說,可以得到一個大小為n的集合下的最大元素或者決定一個順序結構下一個元素的索引。加權平衡樹在函式程式語言社區下面非常受歡迎以及被用來實現MIT Scheme的集合和映射結構還有Haskell語言的實現。

代碼實現

相關詞條

熱門詞條

聯絡我們