歷史
數據視覺化源於20世紀50年代的計算機圖形學,計算機第一次根據數據生成了圖形和圖像。該學科的興起,始於1987年美國國家科學基金會的學術報告“科學計算的可視化”,作者是 Bruce H. McCormick, Thomas A. DeFanti 和 Maxine D. Brown。在這篇報告中強調了對“以新興計算機技術為基礎的視覺化手段”的需求。隨著計算機性能的不斷提高,建立更加龐大和複雜的數據模型成為可能,從而催生出了各種海量數據。此外,一些新興的數據採集設備也產生了各種海量數據,如醫用掃瞄器,電子顯微鏡,這些數據以文字,數字及各種媒體形式保存起來。此時,非常需要套用先進的計算機圖形技術來處理和可視化這些海量數據。
“科學計算可視化”即後來的“科學視覺化”,最初僅指科學計算過程中的一部分,例如計算機建模中顯示的模型,機械模擬中的仿真環境。今年來,在商業、財務、管理和數字媒體等領域出現了各種海量數據,數據可視化也正日益被這些領域所關注。20世紀90年代初產生一項名為信息視覺化的新興研究,為不同套用領域中的海量信息處理提供支持。因此, “數據可視化”一詞同時被科學領域和信息視覺化領域所接受。
自此,數據視覺化作為一個不斷發展的概念,其影響範圍不斷擴大,因此對它的定義最好是相對靈活的廣義界定。數據視覺化指的是一種先進的技術,利用圖形學,圖像處理,計算機視覺,用戶界面等方式,通過表達,模型,物理展示,界面互動,動畫等形式視覺化的解釋數據。
套用領域
目前,學術界對數據視覺化套用範圍的劃分存在不同的版本,但都有一個共同的重點——信息表達。例如,Michael Friendly (2008)將數據視覺化的套用領範圍分為:統計性圖表和主題性製圖。又例如,Data Visualization: Modern Approaches(2007)一文中給出了數據視覺化的七個套用範圍:
思維導圖新聞類信息傳達數據類信息傳達關係類信息傳達網站的信息傳達文本類信息表達工具說明和服務說明 所有這些主題都與圖形設計和信息表達緊密相關。
另一方面,從計算機科學的角度看Frits H. Post (2002)對數據可視化進一步細分,劃分了若干個子領域:
可視化算法與技術立體可視化信息可視化多分辨方法建模技術互動技術和信息架構 數據視覺化的成功興起首先歸因於其穩固的核心思想:利用計算機生成的圖像,以深入了解數據的模式結構和邏輯關係。其次,人類視覺感知系統不僅廣泛滲透在指導和解釋各類複雜對象的過程中,而且在模擬和採集來自不同科學領域中的海量數據中也發揮著關鍵作用。因此,數據視覺化對於計算機科學領域、管理領域、行政領域等涉及海量數據的領域顯得格外重要,並且將在未來發揮更加廣泛的影響。
相關領域
數據採集
數據採集是指從現實世界中採樣數據,這個可以由計算機來操作。有時縮寫DAQ或DAS。數據採集通常包括:獲取信號、生成波形、通過處理信號以獲得所需的信息。完整的數據採集系統還包括適宜的感測器,把測量到的數據轉換成電信號,這是數據採集所需的硬體條件。
數據分析 數據分析是尋找和總結數據,提煉有用信息,推導結論的過程。數據分析與數據挖掘關係緊密,但是數據挖掘主要注重的是更大量的數據,較少著眼於結論推導。在統計套用領域,有些人把數據分析分為描述統計學,探索性因子分析和驗證性因子分析。探索性因子分析(EDA)主要著眼於發現數據中的新特點;驗證性因子分析(CDA)則側重於論證假設。 數據分析的類型: 探索性因子分析(EDA):一種對數據概況不清時的假設分析,是對於假設測試的常規統計手段。由John Tukey命名。 定性數據分析( QDA )或定性研究:是指對非數字數據進行分析,例如文字,照片等。
數據規劃
數據規劃指機構所具有的完善、穩定的數據理念,以及建立過程中涉及到的人力、流程、相關技術手段。 通過建立良好的數據規劃可以: 提高決策效率,增強決策信心 減少決策風險 提高數據安全性 最大限度地挖掘數據潛力 保證信息的質量
數據管理
是利用計算機硬體和軟體技術對數據進行有效的收集、存儲、處理和套用的過程。其目的在於充分有效地發揮數據的作用。實現數據有效管理的關鍵是數據組織。隨著計算機技術的發展,數據管理經歷了人工管理、檔案系統、資料庫系統三個發展階段。在資料庫系統中所建立的數據結構,更充分地描 述了數據間的內在聯繫,便於數據修改、更新與擴充,同時保證了數據的獨立性、可靠性、安全性與完整性,減少了數據冗餘,提高了數據共享程度及數據管理效率。
數據挖掘
指從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。它已經被廣泛的套用於金融行業和財務分析中,現在在科學領域的數據分析中也使用的越來越多。 數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。數據挖掘,又稱為資料庫中知識發現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為資料庫中知識發現過程的一個基本步驟。知識發現過程由以下步驟組成:
數據清理數據集成數據選擇數據變換數據挖掘模式評估知識表示
數據建模
數據建模指的是對各類數據的抽象組織,確定資料庫需管轄的範圍、數據的組織形式等直至轉化成現實的資料庫。 將經過系統分析後抽象出來的概念模型轉化為物理模型後,在visio或erwin等工具建立資料庫實體以及各實體之間關係的過程。
建模過程中的主要活動包括:
確定數據及其相關過程(如實地銷售人員需要查看線上產品目錄並提交新客戶訂單)。定義數據(如數據類型、大小和默認值)。確保數據的完整性(使用業務規則和驗證檢查)。定義操作過程(如安全檢查和備份)。選擇數據存儲技術(如關係、分層或索引存儲技術)。