RichData網際網路行業大數據智慧型分析

RichData網際網路行業大數據智慧型分析

a – –

方案概述

中國的網際網路發展雖然起步比國際網際網路發展晚,但是進入新世紀以來,同樣快速發展。據CNNIC公布的最新網際網路發展調查報告顯示,截至到2006年12月,中國網際網路網民數達到1.37億,同1997年10月第一次調查的62萬網民人數相比,網民人數已是當初的221倍。寬頻上網人數達到9070萬,位居全球第二位,手機上網網民數1700萬。中國網站數為843000個,全國網頁數為44.7億個。這些數字都是非常驚人的。
近年來網際網路發生了巨大的變化,移動網際網路、社交網路、電子商務大大擴展了網際網路的疆界和套用領域。網際網路行業在大數據技術浪潮中的異軍突起,也將為整個信息技術產業帶來新的機遇。一方面,大數據會催生對IT產品與解決方案更多的需求,將涵蓋從硬體、軟體到信息服務等多個層面;另一方面,越來越多的網際網路公司正在通過雲交付的模式,將自身對於大數據集的存儲、計算與分析能力開放給第三方,使得數據即服務(DataasaService)成為影響產業格局的新一代業務模式。
網際網路行業大數據“4V+1S”特性:數據規模大、數據價值稀疏珍貴、數據的多樣性、數據的實時性和數據的社會性成就了移動網際網路大數據的超凡影響力。
1. 數據規模大–V(Volume)

11

2. 數據價值稀疏珍貴–V(Value)

22

3. 數據的多樣性–V(Variety)

33

4. 數據的實時性–V(Velocity)

44

5. 數據的社會性–S(Social)

55

方案架構

網際網路行業大數據總體系統框架分為五層,分別是數據層,存儲層,計算層,模型層,套用層。模型層是整個大數據的核心部分,為上層套用提供數據支撐。

系統架構系統架構

針對網際網路行業大數據分析的特點,引入大數據平台架構,實現對海量用戶點擊數據、用戶行為數據、用戶反饋數據、用戶上網數據等等的存儲和管理,保證網際網路海量狀態數據的實時性和高效運營。

方案優勢

彩訊網際網路大數據解決方案在數據分析、數據管理、數據處理、數據可視化等重要技術上具有優勢:
1. 數據分析技術:包括數據挖掘、機器學習等人工智慧技術,主要套用於用戶行為分析,用戶特性分析,用戶流失分析,產品關聯分析,個性化行銷等方面。由於網際網路數據安全行、穩定性、實時性要求都比較高,彩訊網際網路大數據解決方案內置自主開發的函式模型庫,除包含常用的統計分析算法外,還內置了多種常用數據挖掘算法及分析模型。外掛程式式的函式模型庫,可動態增加新算法模型。同時,還提供行業分析模型及類似BI的分析和展示工具。
2. 數據管理技術:包括關係型和非關係型數據管理技術、數據融合和集成技術、數據抽取技術、數據清洗和過濾技術。網際網路數據多樣性、多元化的特性決定的數據本身的質量不高,準確性、及時性均有所欠缺,也對數據管理技術提出了更高的要求。彩訊網際網路大數據解決方案內置ETL服務子系統與ETL配置工具,支持從檔案,DB、數據流中導入數據。靈活的進行數據轉換配置和任務配置。
3. 數據處理技術:包括分散式計算技術、記憶體計算技術、流處理技術。網際網路數據的海量增長使得企業需要通過新型數據處理技術來更有效的利用軟硬體資源,在降低IT投入、維護成本和物理能耗的同時,為網際網路大數據的發展提供更為穩定、強大的數據處理能力。彩訊網際網路大數據解決方案包含RichHadoop分散式計算框架和RichStreaming流計算框架,同時集成了hive、hbase等成熟組件。
4. 數據展現技術:包括可視化技術、歷史流展示技術、空間信息流展示技術等。主要套用與用戶網際網路搜尋行為、互動行為、消費行為監視、網際網路產品間關聯關係及趨勢展現等方面。網際網路數據種類繁雜,統計指標複雜,呈現樣式多樣化,因此需要大力發展數據展現技術,提高網際網路數據的直觀性和可視性,從而提升網際網路數據的可利用價值。彩訊網際網路大數據解決方案自助分析工具包含報表工具和分析工具。自定義報表工具,實現了基於XML的定義檔案來可程式性地生成報表的能力。圍繞著報表引擎,開發用戶圖形界面,用戶可以使用嚮導,無需編程,通過工具配置一步接一步完成創建一個報表。數據展示格式靈活,能更大程度上滿足用戶的數據需求。多維分析工具,提供豐富的圖形化展現界面和接口。用java語言開發支持MDX(多維表達式)的查詢語言、分析型XML和olap4j的接口技術規範。實現了從SQL和其它數據源讀取數據,在記憶體緩衝區中生成集合數據。

方案價值

網際網路行業當前主要是面臨對數據實時分析要求較高,海量數據處理效率低、缺少分析方法、分析軟體能力差等問題。彩訊網際網路行業解決方案通過最佳化當前業界先進的大數據處理技術和模式,構建與網際網路業務松耦的中間性的大數據統計、分析和挖掘平台。利用大數據平台,通過資源的線性擴展,可以實現單條信息秒級的線上處理性能、TB級數據離線分散式處理、PB級數據的存儲。

相關詞條

相關搜尋

熱門詞條

聯絡我們