定義
信息化是將現實世界中的事物和現象以數據的形式存儲到CYBER空間中,是一個生產數據的過程。這些數據是自然和生命的一種表示形式,這些數據還記錄了人類的行為,包括工作、生活和社會發展。今天,數據被快速大量地生產並存儲在CYBER空間中,這種現象稱為數據爆炸(data explosion),數據爆炸在CYBER空間中形成數據自然界(data nature )。數據是CYBER空間中的唯一存在,需要研究和探索CYBER空間中數據的規律和現象。另外,探索CYBER空間中數據的規律和現象,就是探索宇宙的規律、探索生命的規律、尋找人類行為的規律、尋找社會發展的規律的一種重要手段,例如:可以通過研究數據來研究生命(生物信息學)、研究人類行為(行為信息學)。數據學(Dataology)和數據科學(Data Science)(以下稱數據學)是關於數據的科學或者研究數據的科學,定義為:研究探索cyberspace中數據界(datanature)奧秘的理論、方法和技術,研究的對象是數據界中的數據。與自然科學和社會科學不同,數據學和數據科學的研究對象是Cyberspace的數據,是新的科學。數據學和數據科學主要有兩個內涵:一個是研究數據本身,研究數據的各種類型、狀態、屬性及變化形式和變化規律;另一個是為自然科學和社會科學研究提供一種新的方法,稱為科學研究的數據方法,其目的在於揭示自然界和人類行為現象和規律。
數據學已經有一些方法和技術,例如:數據獲取 、數據存儲與管理 、數據安全 、數據分析、可視化等;還需要有基礎理論和新技術,例如:數據存在性、數據測度、時間、數據代數、數據相似性與簇論、數據分類與數據百科全書、數據偽裝與識別、數據實驗、數據感知等等。數據學的理論和方法將改進現有的科學研究方法,形成新型的科學研究方法,並且針對各個研究領域開發出專門的理論、技術和方法,從而形成專門領域的數據學,例如:行為數據學、生命數據學、腦數據學、氣象數據學、金融數據學、地理數據學,等等。
研究內容
● 基礎理論研究。科學的基礎是觀察和邏輯推理,同樣要研究數據自然界中觀察方法,要研究數據推理的理論和方法,包括:數據的存在性、數據測度、時間、數據代數、數據相似性與簇論、數據分類與數據百科全書等。
● 實驗和邏輯推理方法研究。需要建立數據科學的實驗方法,需要建立許多科學假說和理論體系,並通過這些實驗方法和理論體系開展數據自然界的探索研究,從而認識數據的各種類型、狀態、屬性及變化形式和變化規律,揭示自然界和人類行為現象和規律。
● 領域數據學研究。將數據學的理論和方法套用於許多領域,開發出專門的理論、技術和方法,從而形成專門領域的數據學,例如:腦數據學、行為數據學、生物數據學、氣象數據學、金融數據學、地理數據學等等。
● 數據資源的開發利用方法和技術研究。數據資源是重要的現代戰略資源,其重要程度將越來越凸顯,在本世紀有可能超過石油、煤炭、礦產,成為最重要的人類資源之一。這是因為人類的社會、政治和經濟都將依賴於數據資源,而石油、煤炭、礦產等資源的勘探、開採、運輸、加工、產品銷售等等無一不是依賴數據資源的,離開了數據資源,這些工作都將無法開展。
體系框架
數據學研究的工作過程是:從數
據自然界中獲得一個數據集;對該數據集進行勘探發現整體特性;進行數據研究分析(例如使用數據挖掘技術)或者進行數據實驗;發現數據規律;將數據進行感知化等等。數據學的基本框架如下圖所示:與其他學科的關係
數據是存在於CYBER空間中的東西;信息是自然界、人類社會及人類思維活動中存在和發生的現象;知識是人們在實踐中所獲得的認識和經驗。數據可以作為信息和知識的符號表示或載體,但數據本身並不是信息或知識。數據學的研究的對象是數據,而不是信息,也不是知識。通過研究數據來獲取對自然、生命和行為的認識,進而獲得信息和知識。數據學的研究對象、研究目的和研究方法等等都與已有的計算機科學、信息科學和知識科學有著本質的不同。
自然科學研究自然現象和規律,認識的對象是整個自然界,即自然界物質的各種類型、狀態、屬性及運動形式。行為科學是研究自然和社會環境中人的行為以及低級動物行為的科學,已經確認的學科包括心理學、社會學、社會人類學和其它類似的學科。數據學支持了自然科學和行為科學的研究工作。隨著數據學的進展,越來越多的科學研究工作將會直接針對數據進行,這將使人類認識數據,從而認識自然和行為。人類探索現實自然界,用計算機處理人類的發現、人類的社會、自然與人,在這個過程中,數據已經巨量產生,並正在經歷大爆炸,人類在不知不覺中創造了一個更複雜的數據自然界。自第二次數據爆炸以來,人們生活在現實自然界和數據自然界兩個世界裡,人、社會和宇宙的歷史將變為數據的歷史。人類可以通過探索數據自然界來探索自然界,人類還需要探索數據自然界特有的現象和規律,這是賦予數據學的任務。可以期望,目前的所有的科學研究領域都可能形成相應的數據學。