大數據預測

大數據預測

大數據預測是大數據最核心的套用,大數據預測將傳統意義預測”拓展到“現測”。大數據預測的優勢體現在它把一個非常困難的預測問題,轉化為一個相對簡單的描述問題,而這是傳統小數據集根本無法企及的。從預測的角度看,大數據預測所得出的結果不僅僅得到處理現實業務簡單、客觀的結論,更能用於幫助企業經營決策,收集起來的資料還可以被規劃,引導開發更大的消費力量。

基本信息

特徵

實樣而非抽樣

在小數據時代,由於缺乏獲取全體樣本的手段,人們發明了“隨機調研數據”的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是獲取一個隨機樣本代價極高,而且很費時。人口調查就是典型一例,即使一個大國都做不到每年都發布一次人口調查,因為隨機調研實在是太耗時耗力。但有了雲計算和資料庫以後,獲取足夠大的樣本數據乃至全體數據,就變得非常容易。谷歌可以提供谷歌流感趨勢的原因就在於它幾乎覆蓋7成以上的北美搜尋市場,已經完全沒有必要去抽樣調查這些數據,只需要對大數據記錄倉庫進行挖掘和分析。

但是這些大數據樣本也有缺陷,實際樣本不等於全體樣本,依然存在系統性偏差的可能。所以存在一個數據規模的閾值問題。數據少於這個閾值,問題解決不了;達到這個閾值,就可以解決以前束手無策的大問題;而數據規模超過這個閾值,對解決問題也沒有更多的幫助。我們把這類問題稱為“預言性數據分析問題”,即在做大數據處理之前,可以預言,當數據量到達多大規模時,該問題的解可以達到何種滿意程度。如何確定閾值?當前的學術界還沒有一個完整的解決方案。

效率而非精確

過去使用抽樣的方法,就需要在具體運算上非常精確,因為所謂“差之毫厘便失之千里”。構想一下,在一個總樣本為1億人口中隨機抽取1000人,如果在1000人上的運算出現錯誤的話,那么放大到1億中偏差將會很大。但全樣本時,有多少偏差就是多少偏差而不會被放大。谷歌的人工智慧專家諾維格寫道:大數據基礎上的簡單算法比小數據基礎上的複雜算法更加有效。數據分析的目的並非就是數據分析,而是有多種決策用途,故而時效性也非常重要。

精確的計算是以時間消耗為代價的,在小數據時代,追求精確是為了避免放大的偏差不得已而為之。在大數據時代,快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多。但是,在需要依賴大數據進行個性化決策時,張冠李戴是個很大忌諱,精確性就變得非常重要。所以在效率和精確之間存在一個平衡點,這是大數據預測中一個棘手問題。

相關而非因果

大數據研究不同於傳統的邏輯推理研究,需要對數量巨大的數據做統計性的搜尋、比較、聚類、分類等分析歸納,因此繼承了統計科學的一些特點。統計學關注數據的相關性或稱關聯性。所謂“相關性”是指兩個或兩個以上變數的取值之間存在某種規律性。“相關分析”的目的就是找出數據集裡隱藏的相互關係網(關聯網),一般用支持度、可信度、興趣度等參數反映相關性。難道大家都喜歡購買A和B,就一定等於你買了A之後的果就是買B嗎?未必,但的確需要承認,機率很大。知道喜歡A的人很可能喜歡B但卻不知道其中的原因。

亞馬遜的推薦算法非常有名,它能夠根據消費記錄來告訴用戶可能會喜歡什麼,這些消費記錄可能是別人的,也可能是該用戶歷史的記錄。但它不能說出喜歡的原因。如果把這種推薦算法用於亞馬遜的物流和倉儲布局,僅僅了解相關性遠遠不夠,必須“知其然,還知其所以然”。否則將帶來額外的損失。這也是相關性預測和因果性預測的分界線。

案例

2009年全球首次出現甲型H1N1流感,在短短几周之內迅速傳播開來,引起了全球的恐慌,公共衛生機構而臨巨大壓力,如何預防這種疾病的傳染。預防的核心是預測病情的蔓延程度,現實的情況是人們可能患病多日、實在忍不住才會去醫院,即使醫生在發現新型流感病例時,同時告知美國疾病控制與預防中心(CDC ),然後CDC匯總統計,整體上大約需要兩周時間。對於一種飛速傳播的疾病而言,信息滯後兩周將會帶來非常嚴重的後果,能否提前或者同時對疫情進行預測呢?

碰巧的是,在甲型H1N1流感爆發的幾周前,谷歌的工程師們在《自然》雜誌上發表了論文,通過谷歌累計的海量搜尋數據,可以預測冬季流感的傳播。在網際網路普及率比較高的地區,當人們遇到問題時,網路搜尋已經成為習慣。谷歌保留了多年來所有的搜尋記錄,而且每天都會收到來自全球超過30億條的搜尋指令,谷歌的數據分析師通過人們在網上的搜尋記錄就可以來完成各種預測。就流感這個具體問題,谷歌用幾十億條檢索記錄,處理了4.5億個不同的數字模型,構造出一個流感預測指數。結果證明,這個預測指數與官方數據的相關性高達97%。和CDC流感播報一樣,可以判斷流感的趨勢和流感發生的地區,但是比CDC的播報可以提前兩周,有力地協助衛生當局控制流感疫情。

總之,2009年甲型H 1N 1流感爆發的時候,與滯後的官方數據相比,谷歌的流感趨勢是一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常及時、有價值的數據信息。谷歌並不懂醫學,也不知道流感傳播的原理,但是以事物相關性為基礎,以大數據為樣本,其預測精準性與傳統方式不相上下,而且其超前性是傳統方式所無法比擬的。

流程

大數據的“4V”特徵表明其不僅僅是數據海量,對於大數據的分析將更加複雜、更追求速度、更注重實效。數據量呈指數增長的同時,隱藏在海量數據的有用信息卻沒有相應比例增長,反而使我們獲取有用信息的難度加大。以視頻為例,連續的監控過程,可能有用的數據僅有一兩秒。數據科學家必須藉助預測分析軟體來評估他們的分析模型和規則,預測分析軟體通過整合統計分析和機器學習算法發揮作用。

統計與分析主要利用分散式資料庫,或者分散式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方而,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。

IBM SPSS和SAS是兩個數據科學家常用的分析軟體。R項目則是一個非常流行的開源工具。如果數據量大到“大數據”的程度,那么還需要一些專門的大數據處理平台如Hadoop或資料庫分析機如0racle的Exadata。

面臨的困境

21世紀以來,爆炸性增長的“未來新石油”逐漸俘虜人類社會。海量相關關係的過度分析大面積披露數據隱私,掌控核心資源的預測方肆意侵害數據對象的知情權與收益權;數據主導決策模式的無差別適用逐漸磨滅創造力、限制自山發展,全面破壞終極尊嚴、平等自山、公平正義等最基本的倫理衡標。

結果預判挑戰自由

巨量數據結果預判促使大量企業放棄高風險的試錯創新,整個社會全力追逐大機率反向提高預測精準度,最終完全擊垮自主運營模式。再次,隨著國際互動與利益交換全面數據化,結果預判口漸披露各國政府出於國家安全與秩序穩定等利益考量而隱瞞的特定決策理山和過程。例如,預測方對口本軍國主義演變軌跡、中國軍力增減趨勢及歐美海外軍事干預等的量化分析逐漸成為國際政治格局的重要影響因素。

隱私披露挑戰尊嚴

大數據預測系統使巨量結構化與非結構化數據中分離識別真實資料與意圖,逐步達到只要有合理的商業動機推動數據挖掘過程,任何形式的隱私都是算法上不可能。廣大用戶陷入以隱私披露為代價獲取便利的個性化服務之尷尬境地,尊嚴受損現象層出不窮。

信息壟斷挑戰公平

雖然大數據預測引領人類無限接近控制未來的終極夢想,採集與分析過程卻不可能徹底消除人為推斷與解釋數據造成的隱性偏差。山於資源與技術實力處於劣勢的社會主體難以察覺預測方篡改數據內容的不法行為,一些追求利潤最大化的企業通過假造分析與預測結果控制市場活動、輿論導向與政治格局等,打破整個社會的平衡狀態。同時,預測方不僅未告知數據權人信息挖掘的真實情況,還利用避風港原則與格式契約附加條款等規避通知義務、安保義務與收益分享義務等。大量偏遠鄉村與貧困人口的信息化程度遠不及城鎮地區與富裕群體,大數據預測在經濟發達地區與人群的迅速普及導致地區性與階層性信息壟斷,剝奪弱勢群體的平等競爭機會。

固化標籤挑戰正義

海量數據儲流實現了信息資源的永久保留。大數據預測通過對包括數據權人刪除或遺忘的信息在內的巨量數據的上百萬次假設驗證控制錯誤率,揭不員工離職傾向、客戶消費能力與死亡期、社會主體違法犯罪的可能性等,嚴重違反文明社會“所有人一律平等”的基本倫理要求並剝奪尋找新的生存與發展機會的基本權益。

相關詞條

相關搜尋

熱門詞條

聯絡我們