工具介紹
開源大數據生態圈
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
一體機資料庫/數據倉庫
IBM PureData(Netezza), OracleExadata, SAP Hana等等。
數據倉庫
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
數據集市
Style Intelligence、QlikView、 Tableau 、 國內永洪科技 Yonghong Data Mart 等等。
Yonghong Data Mart是基於自有技術研發的一款數據存儲、數據處理的軟體。針對客戶需要處理需求數據的量級不同,IT系統架構的不同和存儲系統的不同,提供了兩種解決方案供客戶選擇一種本地模式,一種是MPP模式。當需要處理的數據量級別處於TB級以下,或者採用普通存儲結構,或者單機已經足夠滿足性能需求,建議用戶選擇本地模式。當面對異構資料庫存儲系統,需要處理的數量級別在TB級和PB級以上,或者IT系統和存儲系統採用分散式,或者需要MPP模式才能滿足性能需求,基於分散式架構的並行處理模式更適合客戶的需求。
Yonghong Data Mart底層技術:
1. 分散式計算
2. 分散式通信
3. 記憶體計算
4. 列存儲
5. 庫內計算
前端展現
用於展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用於展現分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、 國內永洪科技 Yonghong Z-Suite等等。
大數據分析,不能碰的禁區
沒有明確分析數據的目的
要分析一個數據,首先要明確自己的目的,為什麼要收集和分析這樣一份數據。只有明確了目的之後,才能夠把握好接下來應該收集哪些數據,應該怎么收集數據,應該分析哪些數據等。
沒有合理安排時間
數據分析也要合理安排時間,一般有幾個步驟,收集數據、整理數據、分析數據、美化表格。在做這些之前,要預估每一個步驟需要花多少時間,哪一步比較重要,需要花更多的時間等。這些都要在開始收集數據前就計畫好,然後在操作的過程中完成每一個步驟。
重收集輕分析
例如,做任務的時間為3個星期,卻用了兩個多星期來收集數據,最後基本沒有時間去分析,緊趕慢趕最後交上來一份沒有怎么分析的數據。數據分析重點應該在於分析,應該以最快的速度收集完數據,才有更多的時間整理和分析,最後經過分析的數據才是最有價值的。
收集數據太多,導致無法整理及分析
在我們開始收集數據的時候,容易犯的一個毛病就是看到什麼內容比較符合的就都收集下來。這樣的情況使得數據越來越多,表格里文檔里的內容越來越多,到最後一看,自己都暈了。其實在收集數據的時候也要有一個標準,什麼樣的數據是需要的,什麼數據是不符合條件的,作一個初步的判斷,這樣就可以減少整理的工作量了。
不懂得分析哪些數據
這是比較普遍的問題,收集了數據後不知道要分析哪些項目,哪些數據點才能體現出分析的目的。其實這也是前面說的目的不明確造成的,不清楚為什麼要收集這份數據,這份數據是用來做什麼用的,那就不會有一個評判標準,就沒有辦法找到數據的要點。
表格不美觀,不清晰
做數據分析一般使用的是excel表格記錄,一份美觀清晰的表格不僅使我們可以清楚的看到這份數據的重點,方便查到所想要的數據。在收集數據的過程中,也可以提高收集和分析數據的效率。新型的分析工具大數據魔鏡鏡有500多種可視化效果,讓可視化效果更美觀。
套用實例
2014年6月28日,奧地利研究人員發表研究公報稱,通過對多家網上博彩公司長期以來的賠率、各球隊的歷史表現和球員傷病情況進行大數據分析,他們預測東道主巴西隊問鼎世界盃勝算較大。
奧地利因斯布魯克大學與維也納經濟大學的研究人員推出了一套“博彩共識模型”。根據這套大數據分析模型,巴西隊問鼎本屆世界盃的幾率為22.5%,阿根廷隊為15.8%,德國隊為13.4%。從數據上看,東道主奪冠的勝算大大超過其他國家隊。
巴西世界盃關係
2014巴西世界盃於7月1
4日凌晨落下帷幕,德國戰車1:0戰勝阿根廷,第四次捧起大力神杯。
與往屆世界盃不同的是:數據分析
成為巴西世界盃賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大數據也在全力演繹世界盃背後的分析故事。一向以嚴謹著稱的德國隊引入專門處理大數據的足球解決方案,進行比賽數據分析,最佳化球隊配置,並通過分析對手數據找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數據分析預測賽果...... 大數據,不僅成為賽場上的“第12人”,也在某種程度上充當了世界盃的"預言帝"。
大數據分析邂逅世界盃,是大數據時代的必然發生,而大數據分析也將在未來改變我們生活的方方面面。