不確定性數據

不確定性數據的產生原因比較複雜。可能是原始數據本來就不準確或是採用了粗粒度的數據集合,也可能是原始數據是為了滿足特殊套用目的或是經過處理缺失值或者數據集成而生成的。

近四十年來,傳統的確定性數據管理技術得到了極大的發展,造就了一個幾百億的資料庫產業。資料庫技術和系統已經成為建設信息化社會基礎設施的重要支撐。在傳統資料庫的套用中,數據的存在性和精確性均確鑿無疑。近年來,隨著技術的進步和人們對數據採集和處理技術理解的不斷深入,不確定性數據得到廣泛的重視。在許多現實的套用中,例如:經濟、軍事、物流、金融、電信等領域,數據的不確定性普遍存在,不確定性數據扮演關鍵角色。傳統的數據管理技術卻無法有效管理不確定性數據,這就引發了學術界和工業界對研發新型的不確定性數據管理技術的興趣。
(1) 原始數據不準確。這是產生不確定性數據最直接的因素。首先,物理儀器所採集的數據的準確度受儀器的精度制約;其次,在網路傳輸過程(特別是無線網路傳輸)中,數據的準確性受到頻寬、傳輸延時、能量等因素影響;最後,在感測器網路套用與RFID套用等中,周圍環境也會影響原始數據的準確度。
(2) 使用粗粒度數據集合。很明顯,從粗粒度數據集合轉換到細粒度數據集合的過程會引入不確定性。例如,假設某人口分布資料庫以鄉為基礎單位記錄全國的人口數量,而某套用卻要求查詢以村為基礎單位的人口數量,查詢結果就存在不確定性。
(3) 滿足特殊套用目的。出於隱私保護等特殊目的,某些套用無法獲取原始的精確數據,而僅能夠得到變換之後的不精確數據。
(4) 處理缺失值。缺失值產生的原因很多,裝備故障、無法獲取信息、與其他欄位不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之後的數據可看作服從特定機率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特徵。
(5) 數據集成。不同數據源的數據信息可能存在不一致,在數據集成過程中就會引入不確定性。例如,Web中含很多信息,但是由於頁面更新等因素,許多頁面的內容並不一致。
對某些套用而言,還可能同時存在多種不確定性。例如,基於位置的服務(Location-Based Service, LBS)是移動計算領域的核心問題,在軍事、通信、交通、服務業等中有著廣泛的套用。LBS套用獲取各移動對象的位置,為用戶提供定製服務,該過程存在若干不確定性。首先,受技術手段(例如GPS技術)限制,移動對象的位置信息存在一定誤差。其次,移動對象可能暫時不在服務區,導致LBS套用採集的數據存在缺失值情況。最後,某些查詢要求保護用戶的隱私信息,必須採用“位置隱私”等方式處理查詢。
從二十世紀八十年代末開始,針對機率資料庫(probabilistic database)的研究工作就從未間斷,這類研究工作將不確定性引入到關係數據模型中去,取得較大研究進展。近年來,針對不確定性數據的研究工作則在更廣的範圍之內取得更大的進展,即:在更豐富的數據類型上處理更多種類的查詢任務。圖1描述了不確定性數據管理技術的典型框架,它包含四大部分:模型定義、預處理與集成、存儲與索引、查詢分析處理。

相關詞條

熱門詞條

聯絡我們