分散式數據處理系統

分散式數據處理系統(Distributed Data Stream Management System,DDSMS)是可以對數據進行分散式處理的系統。DDSMS可以極大地縮短數據處理時間,提高回響速度,在實際生活中具有極其廣泛的用途。

背景介紹

科技的進步和網路技術的日新月異,增加了數據處理的難度,大量的實時數據流不斷地衝擊著套用系統的處理極限,要求套用系統能夠做出及時的反應,並且還要提高準確性,這些挑戰對於傳統的資料庫技術相當棘手。分散式數據處理系統(DBMS)的適用範圍有限,處理靜態的小規模數據結構還可以,面對大型的網路數據流,DBMS體現出來的弊端較為明顯,它沒有能力應對動態的數據流,更不可能形成隨時間而變化的查詢結果,它在大規模的網路套用環境中的作用受到限制,存在技術性障礙。所以開發新的數據模型是目前網路套用系統發展的關鍵環節。分散式數據模型引起研究者的關注,它是專門的數據流結構模型,可以將產生的數據結構套用於分散式環境。

要想在海量數據中準確、快速的尋找到答案,需要耗費大量的時間、空間資源,對系統的性能也有更高的要求。雖然外部存儲大量數據集的技術已經發展的比較成熟,並在各大領域得到廣泛套用,但它不支持連續查詢,而且查詢效率低,並不適用於數據流套用,無法達到實時性的要求。為了實現高速處理大規模數據,往往要求系統的回響時間短、處理速度快。在進行數據處理時,系統仍然在進行工作,仍有大量數據輸入進來。為了達到實時性的要求,必須儘量縮短處理時間,提高回響效率。如果處理速度不夠,會有大量數據堆積,造成系統擁塞或停滯。因此,設計一種分散式數據處理系統,提高查詢處理速度和系統的負載最佳化是一件具有現實意義的事情。

研究現狀

近幾年,隨著數位化信息技術的發展,分散式數據流處理技術迅猛發展,大量專家學者和研究機構致力於分散式數據流處理技術的研究,學術界和產業界充分認識到分散式數據流處理技術具有廣闊的套用前景和發展空間。

北京大學、哈爾濱工業大學走在了分散式數據處理系統的前沿,引領了分散式數據處理技術的發展潮流。北京大學資料庫實驗室研製並推出了原型阿爾戈斯(Argus)系統,具有很強的兼容性和可移植性,既能作為處理數據流的通用系統,也可以移植到其他作業系統上提供資料庫的服務。與此同時,他們基於該系統開發了一套流查詢語言,與結構化查詢語言十分相似,能夠輕鬆實現查詢數據流的功能。國內外大量科研機構和專家學者開始了分散式數據處理系統的研究,創建了與數據流管理相關的體系結構和系統模型,用以滿足各大企業對新型數據管理的需求。

需求分析

DDSMS所處理的是一種隨時間變化的數據信息序列,也就是數據流,它的特點是:連續的、潛在的、無限的、快速的,而且傳統的DDSMS在實際處理過程中,這種數據序列具有到達順序不可控、數據的速率不穩定、數據量巨大等特點。這些特點使得設計一個DDSMS需要具有以下的功能:

(1)由於物理存儲空間的限制和處理效率的要求,對數據流進行線上處理時,一般只掃描數據一遍;

(2)在一定的時間內,能夠對數據進行排序,使無序變為有序。

(3)對用戶而言,傳統的DDSMS的程式設計使用戶對數據的查詢具有很好的實時性;

(4)傳統的DDSMS在處理數據中,當遇到數據流的數據量巨大已超過系統的承載能力時,隨機或者有選擇地清除一些數據以緩解系統數據的膨脹;

(5)傳統的DDSMS對異常數據的處理也提出了一些要求,首先要迅速,同時要合乎實時的要求;

(6)及時的數據用戶的接口能夠為用戶提供方便的數據信息查詢。

系統結構

如圖對DDSMS提供了一個可供參考的抽象系統結構。

通過取樣的方法控制數據輸入的流量可以輸入監聽器。查詢庫可以處理共享,它存儲系統的連續查詢,連續查詢已經在系統中註冊。視窗查詢的臨時工作區,關於每個數據源的物理位置等靜態存儲這三個部分構成數據存儲。在當前數據流狀態上,既可以一次查詢也可以連續查詢。輸入的監控器和查詢的處理器互相聯繫,其結果存儲在臨時快取中或通過流輸給用戶,而且通過變化數據輸入速率可以對查詢計畫進行最佳化。

這個系統可以分為下面兩個部分:

(1)伺服器方面:伺服器訪問接口可以處理客戶和伺服器相互的所有命令和數據,伺服器訪問的接口被稱作是外界和伺服器的紐帶。伺服器等待連線用戶,控制器監聽特定的連線埠訪問接口,通過用戶給的命令、處理結果或者數據流,最終返回查詢的結果。

(2)終端接口:終端的接口是為用戶操作提供的接口,禁止了其中的作用過程,控制命令和查詢接口構成了終端的接口,DLL在終端中是終端接口模組。

區別

與資料庫管理系統的區別

如果我們把數據集看作一個特殊的數據流,那么可以把DDSMS定義為一個傳統資料庫系統的擴展。下面我們先對DDSMS和DBMS進行下歸納比較。傳統資料庫管理系統(DBMS)與DDSMS在功能和性能方面的幾種差異:

(1)基本的計算模型不相符。傳統的資料庫管理系統假定DBMS 被動地存儲數據單元,而用戶主動發起查詢等操作,這是個用戶主動,DBMS被動的模型。而DDSMS從外部數據源獲取數據,當系統檢測到符合查詢條件的數據時將數據返回給用戶,這是個DDSMS主動,用戶被動的模型。

(2)DBMS的查詢是精確的查詢,目前還沒有DBMS提供內建的功能支持近似查詢。而DDSMS由於數據量巨大並且快速變化,在很多時候只能提供近似的查詢結果。

(3)DBMS提供的是一次查詢,一次查詢獲得查詢結果,而DDSMS是連續查詢,只要用戶註冊了一個查詢,並且沒有註銷這個查詢,那么這個查詢將一直有效,DDSMS向用戶不斷地返回查詢結果。

(4)DBMS通常不考慮與事務相關聯的時間和空間的限制,其調度與處理決策不考慮數據的各種時間特性,其系統的設計指標並不強調實時性和查詢服務質量的自適應性,而實時性和自適應性正好是數據流套用所必需的。

相關詞條

熱門詞條

聯絡我們