大數據治理

大數據治理

大數據將打開各行各業的數據“潘多拉魔盒”。社交網站、電商巨頭、電信運營商乃至金融、醫療、教育等行業,都將加入大數據的“淘金”熱潮,政府部門同樣會從大數據中獲益匪淺。如何將海量數據套用於決策、行銷和產品創新?如何利用大數據平台最佳化產品、流程和服務?如何利用大數據更科學地制定公共政策、實現社會治理?所有這一切,都離不開大數據治理。可以說,在大數據戰略從頂層設計到底層實現的“落地”過程中,治理是基礎,技術是承載,分析是手段,套用是目的。桑尼爾·索雷斯的《大數據治理》的翻譯出版,正當其時。 《大數據治理》一書較好地滿足了理解大數據治理框架的需要,系統地闡述了大數據治理的各個版塊,分析了五大類大數據的治理,考察了大數據治理在典型行業的實踐,並深入淺出地介紹了當今主流的大數據技術與平台。該書具有一定的可參照性、可操作性和可讀性,是大數據治理領域值得一讀的參考書。

內容簡介

桑尼爾·索雷斯的《大數據治理》是一個信息治理專家奉獻的鴻篇巨製,作者以極其實用和通俗易懂的風格,傾心向讀者解讀大數據治理這一複雜主題
作為一家大公司的資深IT專家,我本人在面對數據窘境時,感覺不知所措。對數據領域的從業人員來說,面臨的問題多過答案。我所在的組織是南非的主導電信運營商,我們擁有海量的電話詳單、位置數據和社交媒體生成的數據。要明智地使用數據,就必須管理所有數據。
本書匠心獨運,揭開了大數據的迷人景致,為我們應對大數據領域的挑戰,提供了必要的智力成果。

作者簡介

作者:(美)桑尼爾·索雷斯 譯者:匡斌
桑尼爾·索雷斯是信息資產公司LLC的創始人和執行合伙人,LLC專注於幫助組織構建信息治理計畫。曾任IBM的信息治理總監,合作客戶遍布六大洲和眾多行業。
除本書外,桑尼爾著有《IBM數據治理統一流程》、《說服企業實施信息治理:行業和工作職能最佳實踐》兩書,前者被許多組織用作信息治理計畫的藍本,並被譯成中文。匡斌,中國聯通研究院信息室/編輯部副主任、博士,具有16年電信行業從業經驗。專注於電信行銷、電信規制、電信運營業新業態等領域的研究。
個人著譯:《電信行銷:理論精要》(編著)、《電信行銷:案例精選》(編著)、《競爭與混沌:1996年電信法出台以來的美國電信業》(譯)。

媒體推薦

大數據涉及不同來源的複雜數據。倘若缺乏得當的數據治理,那就很難正確地整合數據。《大數據治理》一書為您提供了制訂大數據治理計畫所必需的信息和見識,而大數據治理計畫是支持大數據整合項目不可或缺的。好樣的,桑尼爾!
Symphony IRI Group技術研究副總裁 傑·猶斯科 博士
本書是一個信息治理專家奉獻的鴻篇巨製,作者以極其實用和通俗易懂的風格,傾心向讀者解讀大數據治理這一複雜主題。
作為一家大公司的資深IT專家,我本人在面對數據窘境時,感覺不知所措。對數據領域的從業人員來說,面臨的問題多過答案。我所在的組織是南非的主導電信運營商,我們擁有海量的電話詳單、位置數據和社交媒體生成的數據。要明智地使用數據,就必須管理所有數據。
本書匠心獨運,揭開了大數據的迷人景致,為我們應對大數據領域的挑戰,提供了必要的智力成果。
本書的字裡行間,流淌著豐富的信息。如今,我終於有機會將本書所述的理念和知識融會貫通。我更有信心應對公司面臨的大數據挑戰,對此,我滿懷熱忱,決心已定。
拜桑尼爾在本書中提供的指南所賜,我們所有數據從業人員都將獲得成功!
南非電信數據治理辦公室主任 柯馬林·伽迪
可以說,在大數據戰略從頂層設計到底層實現的“落地”過程中,治理是基礎,技術是承栽,分析是手段,套用是目的。《大數據治理》一書的翻譯出版,正當其時。
相信在可預見的將來,經過循序漸進的治理,大數據將成為重要的國家資源和企業的核心生產要素。大數據將給中國的政府、企業和其它組織,帶來切切實實的收益。
工業和信息化部軟體服務業司司長 陳偉 教授
大數據的淘金之旅,需要腳踏實地的努力。大數據治理是連線大數據科學和套用的橋樑,若要到達風光無限的大數據彼岸,大數據治理一定是“必修課”之一。
大數據的思想啟蒙運動正在開始,從大數據治理起步,不斷探索這個領域的產權、法律和交易等問題,才能成為進入大數據世界的先行者。
寬頻資本董事長 田溯寧 博士
2013年,IBM在全球進行了5次有關大數據的調研,發現:超過2/3的企業正在使用大數據分析來支持企業創收策略;近40%的企業在採納大數據分析後的6個月內,就看到了快速的投資回報(ROI)。
大數據治理是大數據分析的基礎。本書梳理了大數據治理的各個方面,分享了全球很多經典案例,對於企業充分利用大數據幫助創造新的市場機會,有很大借鑑意義。
IBM全球副總裁兼IBM軟體集團大中華區總經理 胡世忠

圖書目錄

第一部分 開篇
第1章 大數據治理概述
第2章 大數據治理的框架
2.1 大數據類型
2.2 信息治理準則
2.3 大數據治理的產業和功能場景
第3章 成熟度評估
3.1 IBM信息治理委員會的成熟度模型
3.2 評估成熟度的示例問題
第4章 業務案例
4.1 通過大數據治理,提高運營實時性和旅客安全度
4.2 量化大數據治理對客戶隱私的財務影響
4.3 通過治理大數據生命周期,降低IT成本
4.4 評估數據質量和主數據對大數據計畫的影響
4.5 計算大數據質量的價值
第5章 路線圖
5.1 路線圖案例研究
第二部分 大數據治理準則
第6章 大數據治理的組織
6.1 繪製關鍵流程圖並建立職責分配模型,以識別大數據治理中的利益攸關者
6.2 確定新角色和既有角色的適當組合
6.3 酌情任命大數據主管
6.4 在傳統信息治理角色的基礎上,酌情增加大數據責任
6.5 建立承擔包括大數據在內的責任混合式信息治理組織
第7章 元數據
7.1 創建一個體現關鍵大數據術語的業務定義的詞庫
7.2 理解對ApacheHadoop中元數據的持續支持
7.3 對業務詞庫中的敏感大數據進行標記
7.4 從相關的大數據存儲中輸入技術元數據
7.5 將相關的數據源與業務詞庫中的術語進行連結
7.6 使用運營元數據監測大數據的流動
7.7 保留技術元數據,以支持數據血統和影響分析
7.8 從非結構化檔案中採集元數據,支持企業搜尋
7.9 擴展既有的元數據角色,將大數據納入其中
第8章 大數據隱私
8.1 識別敏感的大數據
8.2 對元資料庫中的敏感大數據進行標記
8.3 應對國家、州(省)層面的隱私立法和隱私限制
8.4 管理個人數據跨國界流動的情況
8.5 監控特權用戶對敏感大數據的訪問
第9章 大數據質量
9.1 與商業上的利益攸關者協作,建立並測度大數據質量的置信區間
9.2 利用準結構化和非結構化數據,提高人口稀疏的結構化數據的質量
9.3 使用流數據分析技術解決記憶體中的數據質量問題,無須將中間結果輸入硬碟
9.4 任命對信息治理委員會負責的數據主管,由其負責提高測度的質量
第10章 業務流程整合
10.1 識別將會受到大數據治理影響的關鍵流程
10.2 建立關鍵活動的流程圖
10.3 針對業務流程中的關鍵步驟,制定大數據治理政策
第11章 主數據整合
11.1 提高主數據的質量,以支持大數據分析
11.2 利用大數據提高主數據的質量
11.3 提高關鍵參考數據的質量和一致性,以支持大數據治理計畫
11.4 審視社交媒體平台政策,以確定與主數據管理整合的程度
11.5 從非結構化文本中挖掘有用信息,以豐富主數據
第12章 管理大數據的生命周期
12.1 基於規制和業務要求,擴展保留時間表,將大數據包含其中
12.2 提供法律保留區,並支持電子證據展示(eDiscovery)
12.3 壓縮大數據並將其存檔,降低IT成本,提高套用績效
12.4 管理實時流數據的生命周期
12.5 保留社交媒體記錄,以符合規制要求,並支持電子證據展示
12.6 基於規制和業務要求,正當合理地處置不再需要的大數據
第三部分 大數據的類型
第13章 Web和社交媒體數據
13.1 在制定有關客戶社交媒體數據的可接受使用的政策時,考慮不斷變化的規制和習俗
13.2 制定有關雇員和求職者社交媒體數據的可接受使用的政策
13.3 利用置信區間評估社交媒體數據的質量
13.4 制定有關Cookies與其他Web跟蹤裝置的可接受使用的政策
13.5 在不侵犯隱私並遵從規制要求的基礎上,定義連線線上和離線數據的政策
13.6 確保網路統計數據的一致性
第14章 機器對機器的數據
14.1 評估目前可用的地理位置數據
14.2 制定關於客戶地理位置數據的可接受使用的政策
14.3 制定關於雇員地理位置數據的可接受使用的政策
14.4 保證RFID數據的隱私安全
14.5 制定與其他類型M2M數據的隱私相關的政策
14.6 處理元數據和M2M數據的質量問題
14.7 制定與M2M數據的保留期有關的政策
14.8 提高主數據的質量,以支持M2M計畫
14.9 確保SCADA設施免遭網路攻擊
第15章 大體量交易數據
第16章 生物計量學數據
16.1 評估與生物計量學數據的可接受使用相關的隱私含義
16.2 與法律顧問通力合作,確定演進中的規制對使用客戶和雇員生物計量學數據的影響
第17章 人工生成的數據
17.1 制定禁止敏感的人工生成數據的政策
17.2 使用非結構化的人工生成數據,提高結構化數據的質量
17.3 管理人工生成數據的生命周期,降低成本並遵循規制要求
17.4 從非結構化的人工生成數據中獲得洞察力,以豐富MDM
第四部分 行業視角
第18章 醫療保健機構
18.1 利用非結構化數據,提高人口稀疏的結構化數據的質量
18.2 提取從結構化數據中無法獲得的更多臨床因素
18.3 設定關鍵業務術語的一致性定義
18.4 確保跨科室的患者主數據的一致性
18.5 與美國HIPAA的規定一致,符合受保護的健康信息的隱私要求
18.6 創造性管理參考數據,以獲得更多臨床洞察
第19章 公用事業部門
19.1 複製儀表讀數
19.2 主關鍵字的參照完整性
19.3 異常的儀表讀數
19.4 客戶地址的數據質量
19.5 信息生命周期管理
19.6 資料庫監測
19.7 技術架構
第20章 通信服務提供商
20.1 大數據類型
20.2 將大數據與主數據進行整合
20.3 大數據隱私
20.4 大數據質量
20.5 大數據生命周期管理
第五部分 大數據技術
第21章 大數據的參考架構
21.1 大數據源
21.2 開源基礎組件
21.3 Hadoop發行版
21.4 流數據分析
21.5 資料庫
21.6 大數據整合
21.7 文本分析
21.8 大數據發現
21.9 大數據質量
21.10 大數據的元數據
21.11 信息政策管理
21.12 主數據管理
21.13 數據倉庫與數據集市
21.14 大數據分析與報告
21.15 大數據安全與隱私
21.16 大數據生命周期管理
21.17 雲
第22章 大數據平台
22.1 IBM
22.2 甲骨文
22.3 SAP
22.4 微軟
22.5 HP
22.6 Informatica
22.7 SAS
22.8 Teradata
22.9 EMC
22.10 Amazon
22.11 谷歌
22.12 Pentaho
22.13 Talend
附錄 縮略語列表
譯者後記

文摘

第1章 大數據治理概述
當下,數據正在將我們淹沒。蔚為壯觀的數據,來自於社交媒體、電話GPS信號、公用事業智慧型儀表、RFID標籤、數字圖片和其他數據源中的線上視頻。IDC宣稱,2011年,數字世界的信息量超過1.8ZB(澤位元組,1.8億GB),預計將以每兩年翻番的速度增長。大部分數據可視為大數據。談到大數據,通常以“3V”——體量(Volume)、速度(Velocity)和多樣性(Variety)概括其特徵。我們增加了一個“V”(Value),代表數據的價值。以下是對這四個特徵的簡單描述:
體量(數據的靜態描述)。大數據通常具有較大體量。企業被數據堆砌,很容易積攢TB(太位元組)級和PB(拍位元組)級的信息,甚至在將來可輕易積攢ZB級的信息。
速度(數據的動態描述)。通常具有時間敏感性,流數據的分析必須以毫秒計,以支撐實時決策。
多樣性(數據的多格式化)。大數據包括結構化數據、準結構化數據和非結構化數據,如電子郵件、音頻、視頻、點擊流、日誌文檔和生物計量學數據。
價值(數據的經濟有效性)。組織正在努力以經濟有效的方式從大數據中獲得洞察力。這正是ApacheHadoop等開源技術大行其道的原因所在。本書後續章節中詳細介紹的Hadoop,是一種以經濟有效的方式處理成百上千台計算機中的大數據集的軟體。
組織必須治理全部大數據,由此引出了本書的主題。我們將大數據治理定義如下:
大數據治理是廣義信息治理計畫的一部分,即制定與大數據有關的數據最佳化、隱私保護與數據變現的政策。
我們將上述大數據治理的定義分解為以下部分:
(1)大數據是廣義信息治理計畫的一部分。信息治理機構必須採取以下措施,以將大數據整合到既有的信息治理框架中:
擴展信息治理憲章的外延,將大數據治理納入其中;
拓寬信息治理委員會成員的範圍,將數據科學家等大數據的超級用戶吸納進來;
任命處理社交媒體等特定大數據的主管;
將大數據與元數據、隱私、數據質量和主數據等信息治理準則結合。
(2)大數據治理關乎政策制定。政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數據治理政策可能申明,未經顧客知情並同意,組織不得將顧客的Facebook資料整合到其主數據記錄中。
(3)大數據必須最佳化。考慮一下組織是如何將現實世界的準則套用到大數據治理中的。公司設計了精緻的企業資產管理計畫,對機器、飛機、交通工具和其他資產進行妥善管理。與對實物資產進行登記類似,組織必須對大數據進行如下最佳化:
元數據——建立大數據類別信息
數據質量管理——像公司對實物資產進行定期檢修一樣,定期淨化大數據。
信息生命周期管理——對大數據進行存檔,並在沒必要繼續保存某些數據時,將其刪除。
(4)大數據隱私至關重要。組織同樣必須建立旨在防止大數據誤用的適當政策。組織在處理社交媒體、地理定位、生物計量學和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規制和法律風險。
(5)大數據必須變現。所謂變現,就是將數據等資產轉化為現金的過程,變現的方式可以是將數據賣給第三方,也可以是利用數據開發新的服務。在傳統的會計準則下,不允許公司在平衡報表中將信息視同為財務資產,除非信息是從外部來源購買的。儘管傳統的會計處理趨於保守,但在當下,公司意識到,必須將大數據視為具有財務價值的企業資產。例如,運營部門可以通過感測器數據,根據定期檢修計畫,提高設備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數據激活Facebook的應用程式,提升顧客忠誠度。
P3-5

後記

2012年以來,中國大陸的大數據思想啟蒙運動如火如荼。在盛楊燕、周濤、塗子沛、黃海、胡世忠、趙國棟、郭昕等有識之士的推動下,中文版大數據圖書接踵而至,譯、著兼備,知、行俱顧。一時間,從學術界、產業界、投資界到傳媒業,大數據炙手可熱,大數據概念迅速普及。然而,與海量的大數據相比,與大數據作為“潛力股”的革命性意義相比,大數據領域的著述不過滄海一粟而已,連“小數據”中的“小數據”都算不上。《大數據治理》一書的翻譯出版,就試圖為中國讀者提供一個大數據治理領域的“小參考文本”。
在移動網際網路時代,每個人都是大數據的創造者,隨著技術的成熟,數量遠超芸芸眾生的感測器,將成為忠實而智慧的大數據採集者。作為一種具有戰略意義的新資源,大數據具有自生性和可人工生成的特徵,這是黃金、石油和貨幣等傳統資源望塵莫及的:黃金具有稀缺性;石油不可再生;貨幣多了引起通貨膨脹。
大數據很美,絕不是看上去很美。相對於傳統資源來說,大數據的規模變現周期大為縮短。以石油和大數據而論,從“價值認知”到“產業規模化”,同樣的驚險一躍,二者不啻天壤之別。沈括在《夢溪筆談》中即預言石油“後必大行於世”,而石油真正成為國民經濟的血液,卻在工業革命讓石油勘探開採技術逐漸成熟之後。放到當今產業界的現實語境下,大數據的大變現尚有待時日。好在,單就技術而論,數據科學和技術的突飛猛進,已將大數據變現的時日,縮小到可能的“3年”、“5年”,抑或“10年”。這樣的時日,足夠讓人躍躍欲試。
如果說翻譯是內容的中英文映射(Map),那么,寫譯後感就是感想的升華(sublimation)。映射和升華(MapSublimation),是一個苦中有樂的學習和提升過程。全書譯成之際,譯者最強烈的感受是:大數據治理需要保持孜孜以求的進取心和如履薄凍的敬畏心。
先說進取心。大數據治理是一項系統工程,不可能一蹴而就。大到大數據技術平台的搭建、組織的變革、政策的制定、流程的重組,小到元數據的管理、主數據的整合、各種類型大數據的個性化治理和大數據的行業套用,無不需要艱苦細緻的工作。相對於大數據分析,大數據治理少了些激盪人心的宏圖,多了些具體而微的細節,少了些明媚,多了些陰霾。沒有一如既往的進取心,是無法實現大數據的有效治理的。
再論敬畏心。大數據的變現,不是隱私的變現。在大數據治理的全過程中,對可識別的個人信息等數據隱私,應心存敬畏,行有所止。隱私這把“達摩克利斯之劍”,高懸在每一個大數據“掘金”者的頭頂,因噎廢食的悲觀主義和掩耳盜鈴的技術至上做派,同樣是不可取的。在挖掘價值和呵護隱私之間實現妥協與平衡,不僅是一門科學,也是一種藝術。
“又快又好”,顯然很難得兼,大數據治理如此,譯事亦如此。“信達雅”的境界,很多時候需要犧牲效率。受時間和能力所限,本書的譯文顯然不乏敗筆。毫無疑問,所有的疏漏、不當和謬誤,是譯者當之無愧的“專利”。祈望方家指正!
需要特別說明的是,原書為保持各章節的相對獨立性,少數章節存在重複之處,譯者對前後文重複內容適當作了刪節。另,為節約篇幅計,原書附錄B、C、D三部分和索引未予翻譯。
感謝清華大學出版社劉志彬先生為本書中文版面世所作的工作,感謝原作者桑尼爾先生對譯者的信任,感謝伊利諾伊大學(厄巴納一香檳分校)陳穎博士為本書在中國大陸出版所作的努力,感謝國家“千人計畫”專家、中國聯通研究院大數據暨雲計算首席專家陳一聽博士利用休息時間通覽譯稿,並提出寶貴意見。感謝中國聯通研究院劉誠明院長對譯者給予的支持和鼓勵。
感謝工信部軟體服務業司司長陳偉教授、寬頻資本董事長田溯寧博士欣然為本書中文版作序,感謝IBM全球副總裁兼IBM軟體集團大中華區總經理胡世忠先生對本書中文版的讚譽。 對於本書的成色和翻譯的質量,讀者,也只有讀者,才是最公正的裁判。是為譯者後記。
譯者 匡斌
二零一四年元月二十日

序言

在不到兩年時間中,大數據迅速成為熱門詞,但對其的解讀,卻見仁見智。數據科學家醉心於前沿的數據技術開發,經濟學家關注大數據的產業價值,企業家期盼大數據的陽光照進日常的經營現實,法學家強調隱私保護……
欣慰的是,擁抱大數據成為各方的共識,且思且行的大數據“淘金”之旅,已然啟動。大數據的“淘金”之旅,需要腳踏實地的努力。大數據治理是連線大數據科學和套用的橋樑,若要到達風光無限的大數據彼岸,大數據治理一定是“必修課”之一。要實現大數據的變現,就離不開科學的大數據治理,離不開與時俱進的管理革新。因此,桑尼爾的《大數據治理》一書,可謂應運而生。中國聯通研究院的匡斌先生將該書翻譯成中文,相信對中國讀者會有所助益。
大數據治理是傳統信息治理的延續和擴展。它不可能與傳統的信息治理切割,延續性既是保護歷史投資的需要,也體現了信息治理準則的一脈相承。
不同類型數據的整合,結構化數據與非結構化數據、準結構化數據的整合,主數據與社交媒體等其他類型數據的整合,不同部門乃至不同行業數據的整合,都需要大量細緻的工作。大數據治理涉及人員、流程和軟體,大數據需要去偽存真,需要刪繁就簡,需要化大為小。凡此種種,不勝枚舉。
大數據治理的約束條件構成一個三層結構的金字塔,最底層無疑是特定的文化背景和規制環境。根深蒂固的隱私文化,動態演進的隱私規制,是發掘大數據價值面臨的最大挑戰。第二層則是技術。大數據技術是治理大數據的基礎,前向兼容、後向擴展、簡便易用的大數據平台和解決方案,自然語言處理、人臉識別等非結構化數據處理等技術,形成“物”的制約。第三層則是人的因素。大數據治理呼喚大批熟稔大數據技術的人才,也需要更多的大數據管理者和套用開發者,他們可以得心應手甚至出神入化地將技術、行業、流程、功能等進行整合。
說到底,大數據治理的核心是人。人既是大數據價值的追求者,又是大數據隱私的主體和捍衛者。就這個意義而言,人的因素是大數據治理的最大制約。人類歷史上每一個技術發明與創造,均有“善”與“惡”兩面,文明的進步就是發揮技術“善”的一面,治理控制“惡”的一面。
《大數據治理》一書以實用性為導向,通過教科書式的體例安排,對大數據治理進行了全方位的解構,並將大數據治理規程化。對於尚處於大數據戰略起飛階段的組織,本書是一本很好的大數據治理參考藍本。作者舉重若輕,以樸素無華的語言,微言大義的案例,為致力於大數據治理的實操者,奉獻了一本有價值的通俗讀物。
縱觀當今的大數據技術、平台和解決方案,海外廠商仍占據了絕對主流地位。有關大數據的研究和著述,同樣如此。現階段,“拿來主義”尤有必要。從大數據的體量看,中國在大數據領域的潛在地位,無異於中東地區在石油業的地位。相信在不遠的將來,在大數據領域,中國將異軍突起。
大數據的思想啟蒙運動正在進行。從大數據治理起步,不斷探索這個領域的產權、法律和交易等問題,才能成為進入大數據世界的先行者。
寬頻資本董事長 田溯寧
2014年1月10日

相關詞條

熱門詞條

聯絡我們