(1) 原始數據不準確。這是產生不確定性數據最直接的因素。首先,物理儀器所採集的數據的準確度受儀器的精度制約;其次,在網路傳輸過程(特別是無線網路傳輸)中,數據的準確性受到頻寬、傳輸延時、能量等因素影響;最後,在感測器網路套用與RFID套用等中,周圍環境也會影響原始數據的準確度。
(2) 使用粗粒度數據集合。很明顯,從粗粒度數據集合轉換到細粒度數據集合的過程會引入不確定性。例如,假設某人口分布資料庫以鄉為基礎單位記錄全國的人口數量,而某套用卻要求查詢以村為基礎單位的人口數量,查詢結果就存在不確定性。
(3) 滿足特殊套用目的。出於隱私保護等特殊目的,某些套用無法獲取原始的精確數據,而僅能夠得到變換之後的不精確數據。
(4) 處理缺失值。缺失值產生的原因很多,裝備故障、無法獲取信息、與其他欄位不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之後的數據可看作服從特定機率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特徵。
(5) 數據集成。不同數據源的數據信息可能存在不一致,在數據集成過程中就會引入不確定性。例如,Web中含很多信息,但是由於頁面更新等因素,許多頁面的內容並不一致。
對某些套用而言,還可能同時存在多種不確定性。例如,基於位置的服務(Location-Based Service, LBS)是移動計算領域的核心問題,在軍事、通信、交通、服務業等中有著廣泛的套用。LBS套用獲取各移動對象的位置,為用戶提供定製服務,該過程存在若干不確定性。首先,受技術手段(例如GPS技術)限制,移動對象的位置信息存在一定誤差。其次,移動對象可能暫時不在服務區,導致LBS套用採集的數據存在缺失值情況。最後,某些查詢要求保護用戶的隱私信息,必須採用“位置隱私”等方式處理查詢。
從二十世紀八十年代末開始,針對機率資料庫(probabilistic database)的研究工作就從未間斷,這類研究工作將不確定性引入到關係數據模型中去,取得較大研究進展。近年來,針對不確定性數據的研究工作則在更廣的範圍之內取得更大的進展,即:在更豐富的數據類型上處理更多種類的查詢任務。圖1描述了不確定性數據管理技術的典型框架,它包含四大部分:模型定義、預處理與集成、存儲與索引、查詢分析處理。
相關詞條
-
基於分形的DEM數據不確定性研究
內容介紹《基於分形的DEM數據不確定性研究》內容簡介:地理空間數據的不確定性是普遍的,確定性是有條件的、相對的。 《基於分形的DEM數據不確定性研究》應...
內容介紹 -
不確定性分析
不確定性分析是對生產、經營過程中各種事前無法控制的外部因素變化與影響所進行的估計和研究。經濟發展的不確定因素普遍存在,如基本建設中就有:投資是否超出、工...
簡介 由來 產生因素 方法 -
不確定性人工智慧(第2版)
類1524.2.1 分類與聚類中的不確定性1524.2.2 用數據場實現...2917.2.3 遊走在高斯和冪律分布之間的雲模型2947.3 大數據呼喚不確定性...內容簡介 不確定性人工智慧(第2版) 本書討論了人類知識和智慧型中...
內容簡介 目錄 -
中國通貨膨脹不確定性研究
《中國通貨膨脹不確定性研究》,是蘇梽芳編著,由社會科學文獻出版社出版的書籍。
基本信息 內容簡介 作者簡介 目錄 -
不確定性支持向量機
基於可能性理論的模糊支持向量分類機 模糊支持向量分類機 模糊線性支持向量機
基本信息 作者簡介 內容簡介 圖書目錄 -
不確定性與粒計算
模糊粗糙集模型的穩健性分析 模糊粗糙集模型的對比分析 軟模糊粗糙集的定義
基本信息 內容簡介 目錄 -
持續經營不確定性審計意見的異質性研究
2.1.2持續經營不確定性審計意見的特性研究 2.2.1持續經營不確定性審計意見研究 2.2.2審計意見研究
圖書信息 內容簡介 目錄 -
數據挖掘技術
數據挖掘是從大量的、不完全的、有噪聲的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
1. 引言 2. 數據挖掘的任務 3.數據挖掘對象 -
告別魔數:科學諮詢的不確定性與質量管理
第1章 第2章 第12章
圖書信息 作者簡介 內容簡介 目錄