發展歷史
2013年,中山大學孫偉教授針對現有數據信息規範、安全問題提出“數據空間”概念。
2013-2016年,中山大學孫偉教授對“數據空間”概念進行深入的探索研究並發表了相關論文「1」
2018年10月,數據空間(data space)項目由華南軍民融合創新研究院籌劃啟動,由孫偉教授帶領的信息技術教育部重點實驗室(中山大學)為核心團隊打造。
2019年1月18號,針對安卓用戶發布了數據空間1.0測試版,該版本支持個體自定義個人數據的多級許可權,通過二維碼方式進行數據許可權分級分享。
數據空間的書面意義
我們所說的數據空間實際是指主體數據空間,與之相對的是公共數據空間。主體數據空間是公共數據空間的一個子集,隨著主體需求的不斷變化,數據項不斷從公共數據空間納入到主體數據空間中。主體、數據集、服務是數據空間的三個要素。主體是指數據空間的所有者,可以是一個人或一個群組,也可以是一個企業。數據集是與主體相關的所有可控數據的集合,其中既包括對象,也包括對象之間的關係。主體通過服務對數據空間進行管理,例如數據分類、查詢、更新、索引等,都需要通過數據空間提供的服務完成。由此可見,數據空間是一種不同於傳統數據管理的新的數據管理理念,是一種面向主體的數據管理技術。與傳統的數據管理技術類似,數據空間管理也面臨數據模型、數據集成、查詢與索引等各種技術的研究。
數據空間的產品信息
數據空間是一種面向全對象的全生命周期的分散式多元標籤數據存儲的底層框架,是一種讓數據安全、高效連線的技術體系。
是圍繞數據與用戶關聯、數據與業務流程的映射,面向對象全生命周期業務進行梳理及關聯,形成標準化的數據業務流;是利用數據身份技術、多級許可權訪問控制機制明確數據主權邊界,從而達到數據主權回歸及數據下放流通的目的,再通過多級保護安全算法(RSA,AES, SM)和數據脫敏技術對數據構建一座安全防護牆。基於數據空間的基礎特性,數據通過“三維合一”的特性匯總存儲後匯集成“三流合一”的數據流動體系。
數據空間的產品特性
•面向對象性
數據空間基於大數據存儲資料庫,以個體為對象,將其全生命周期內所產生的關聯數據進行標準化的數據定義,個體可通過服務對數據空間進行業務管理,例如數據分類、查詢、更新、索引、授權等,是一種面向對象對數據分散式管理技術。
•安全性
基於數據空間底層架構的數據組織方式,運用的是細粒度分層訪問控制技術及細粒度分層保護安全算法,與傳統資料庫中的粗粒度存儲方式相比,數據空間的安全管理技術更為可靠。
•授權共享性
數據空間是一款專業化的數據存儲的底層技術框架,其數據的覆蓋面是全過程覆蓋,其中包括元數據的抽取、數據細粒度標準化定義、數據多維度標籤分類存儲、數據多維度業務拓展套用等過程,囊括了數據的全加工過程,在數據三個維度的特性中,通過數據的流轉逐漸形成“三流合一”的數據流動體系。
•數據資產性
通過數據標準建立、數據主權確權以及數據使用下放,形成數據流通規則為數據實現資產特性提供了充分的條件,促進“政府立法、企業執行、個人得益”。
數據空間的套用意義
社會的發展是有一定規律的,信息社會的產品生產,必然與農業社會、工業社會一樣,要經歷手工勞動、小作坊製作發展到大規模專業化生產。管理信息系統,這一信息社會的特有產品,必然要進入專業化和規模化的生產,首先是要通過構件的產品化、配置的模組化、規則的自定義、展現的智慧型化將傳統的剛性管理信息系統,轉變為柔性的管理信息系統;其次是要將交易和數據處理分開,因為它們的環境需求不一樣,前者強調的快速回響,後者強調的高速計算和大容量存儲。作為數據處理的代表性產品“數據倉庫”,自其誕生開始就因為數據源難以整理、算法要持續發展、結果的套用面窄和使用率低等原因,成功地案例很少。為此,將數據倉庫的概念加以拓展,通過拓展數據範圍和起點,全面覆蓋各類管理信息;跟蹤數據口徑和規則,有利於對算法的管理和監控;延伸數據加工和處理,既延伸了功能覆蓋面,又為數據跟蹤和維護提供了有效的機制,形成一種專業化的,專門進行數據獲取、存儲、加工、分析、展現的信息管理構件(產品)。鑒於與傳統數據倉庫產品的區別,並更能準確標識其屬性,該構件可稱其為“數據空間”。
數據空間的數據覆蓋面。
既然是專業化的數據處理產品,其數據覆蓋面就應該是全過程覆蓋。根據加工過程可分為以下數據域:原始憑證域、數據準備域、模型組織域、加工規則域、歸檔管理域、結果展現域等。
原始憑證域。數據處理全過程的起點,是在日常管理活動完成後,經過數據抽取到數據空間的數據,這個數據起點稱之為原始憑證域。
數據準備域。其業務意義是針對原始數據,根據套用需求涉及的業務主題,進行基礎信息分類匯集和匯總的加工和分類的處理環節;其技術意義是形成後續數據處理的最小粒度信息;是將數據從按照每次交易組織的信息形式轉化成按照分析主題組織的信息形式進行加工的過程。
模型組織域。其業務意義是為核算、預測、數據挖掘等輔助管理活動,生成和保存經過分類、匯總的最小粒度信息;是根據業務需求涉及的算法、規則,進行進一步加工、組織的環節;其技術意義是為將信息轉變成為知識的數據加工和增值過程;這裡對數據組織的關注是如何完成數據的增值利用,如何組織數據更有利於算法的實現、更有利於提升加工效率、更有利於算法的可持續發展和完善。
加工規則域。其業務意義是描述並記錄數據空間中所有數據的屬性包括:來源、口徑、代碼等;描述並記錄數據在整個數據空間的增值過程所涉及的路徑、算法、形式等;描述並記錄數據空間中所有數據,對外展現結果的樣式、對象、變革、效果等;技術意義是全面管理數據的增值過程,實現每個增值環節描述的標準化、維護的簡易化、規則的可視化、實現的工具化;化解每個增值環節的耦合度、實現數據空間的業務無關性,有利於實現配置獨立、共享工具、互換工具;
歸檔管理域。從業務意義上說,它是按管理活動分類的,經過不可抵賴性封裝的,遵循檔案管理標準,按時間積累的歷史信息。從技術意義上說,它是為保存和查詢歷史信息提供的信息化手段;是為快速檢索歷史信息進行的科學分類;是為紙質信息和電子信息進行關聯的技術方法。
結果展現域。其業務意義是為其他各數據域積累和組織的信息進行人性化的展現,從以人為本的角度,向用戶提供最佳的數據套用體驗。其技術意義是要實現將來自多種數據源不同數據形態(結構化、非結構化)的數據,以多種展現形式(表、圖、多媒體)加以反映;要能夠通過加工規則域的關聯,實現各種信息的關聯展現。
數據空間的功能覆蓋面。
作為管理信息系統的構件,數據空間必須提供相應的操作功能,配合一體化的管理信息系統,滿足用戶獲取數據、套用數據、管理數據的需求。這些功能主要體現在以下方面:
1、公共構件:即與一體化的管理信息系統共享的信息系統構件。其包括:
與交易類套用共享的一體化門戶。不僅能夠為用戶提供個性化地操作提示和工作推送,還要能夠在另外的視窗推送與正在辦理的業務相關的背景資料、管理信息、遵從差異等等。
與交易類套用共享的許可權管理構件。通過對機構、人員、資源三個樹狀結構的配置及其相互關係的配置,實現整個組織中用戶和許可權的統一管理、共享使用、分別(依權)配置;要能夠採用CA和數字加密技術實現用戶對數據訪問的身份控制。
與交易類套用共享的過程控制構件。通過共享的工作流引擎,在配置各項管理活動的每個環節時,同時配置該環節涉及的相關參考依據和關聯信息;在各項管理活動的相應環節,針對特定管理對象,推送相關操作的同時,將該管理對象與這個操作有關的背景資料、參考資料一併推送。
2、個性構件:即涉及數據分析套用專有的構件或工具。其包括:
數據詞典。為數據空間中的每個原始數據項(數據元)進行描述的數據集合。
規則定義。描述數據抽取的來源、條件、目標等;描述數據加工的算法、口徑、結果等;描述數據校驗的對象、邏輯、閾值等信息的集合。
檔案管理。定期對各類稅務管理信息按照檔案管理的規定,根據每個管理活動,分單位進行標準化的立卷歸檔。
模型建立。從多種角度的描述,並建立相應的數據組織,繼而通過從數據準備域進行載入,產生能夠真正為用戶所理解的,並真實反映整個組織特性的,能夠提供用戶快速、一致、互動地存取的有價值信息。
界面展示。不僅要實現最佳用戶體驗的效果,還要能以標準化的封裝,加工成能夠以Web方式展現的形式,以便通過流程引擎的推送,在公共的門戶構件中加以展現和鑽取。
3、用戶體驗。
一是及時推送。要能通過流程引擎的推送和關聯,讓用戶在相應的工作崗位和工作環節中,及時、快捷、智慧型地查看與該環節相關的,涉及相關管理對象的有關輔助資料、分析數據和差異信息;
二是準確定位。涉及管理遵從差異的信息,必須要能夠分解到準確的時間、範圍、對象、差值、依據等;
三是口徑一致。所有進入數據空間管理的數據,在任何時間針對某一時點的數據查詢,只要口徑一致,必須結果一致;
四是支持發展。用戶要能夠根據需求的發展,通過對數據的來源、取數的規則、加工的算法、展現的效果進行增加、完善、註銷等維護操作,確保數據套用的可持續發展;
五是用戶界面要簡潔、直觀;
六是幫助提示。利用幫助(滑鼠右鍵或其它功能鍵)可以展示相關數據結果的加工邏輯、數據口徑等;
七是記憶訂閱。可以對用戶常用的查詢和習慣進行記憶,方便後續查詢;可以由用戶對定時加工的報表、信息等內容進行訂閱,按時推送。
八是過程管理。要實現信息資源全面的生命周期管理。
4、功能的實現過程。首先要考慮需求的不確定性。人的認識是隨著工作進程不斷深入的,既要儘可能在需求編寫階段,全面、廣泛、細緻地了解和描述需求,還要形成一個對需求持續完善的機制。其次要考慮套用習慣的轉變。由人組成的社會系統是一個最大的慣性系統,絕對不能採用在某個時點,讓整個組織一次性過渡到一個新的套用狀態,這如同讓電梯從一樓一瞬間到達頂樓,這會出問題的。
數據空間的社會價值
數據空間充分地考慮了如何在最大程度上利用和展現數據的有效性及可行性,使得其在打破“數據孤島”,推動多源異構數據快速融合方面快速確立了領先優勢。而基於數據空間底層架構的數據組織方式,也使得簡捷快速使用產生大數據分析挖掘潛在的數據價值成為了可能。從而真正激活沉睡的數據,為政府研判社會發展態勢提供科學參考。