概述
大數據浪潮,洶湧來襲,與網際網路的發明一樣,這絕不僅僅是信息技術領域的革命,更是在全球範圍加速企業創新、引領社會變革的利器。現代關係學之父德魯克有言,預測未來最好的方法,就是去創造未來。而“大數據戰略”,則是當下領航全球的先機。
“大數據”(Big Data)指一般的軟體工具難以捕捉、管理和分析的大容量數據。“大數據”之“大”,並不僅僅在於“容量之大”,更大的意義在於:通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”。
“大數據”能幫助企業找到一個個難題的答案,給企業帶來前所未有的商業價值與機會。大數據同時也給企業的IT系統提出了巨大的挑戰。通過不同行業的“大數據”套用狀況,我們能夠看到企業如何使用大數據和雲計算技術,解決他們的難題,靈活、快速、高效地回響瞬息萬變的市場需求。
行業現狀
今天,越來越多的行業對大數據套用持樂觀的態度,大數據或者相關數據分析解決方案的使用在網際網路行業,比如百度、騰訊、淘寶、新浪等公司已經成為標準。而像電信、金融、能源這些傳統行業,越來越多的用戶開始嘗試或者考慮怎么樣使用大數據解決方案,來提升自己的業務水平。
在“大數據”背景之下,精通“大數據”的專業人才將成為企業最重要的業務角色,“大數據”從業人員薪酬持續增長,人才缺口巨大。
課程設定
大數據專業將從大數據套用的三個主要層面(即數據管理、系統開發、海量數據分析與挖掘)系統地幫助企業掌握大數據套用中的各種典型問題的解決辦法,包括實現和分析協同過濾算法、運行和學習分類算法、分散式Hadoop集群的搭建和基準測試、分散式Hbase集群的搭建和基準測試、實現一個基於、Mapreduce的並行算法、部署Hive並實現一個的數據操作等等,實際提升企業解決實際問題的能力。
核心技術
(1)大數據與Hadoop生態系統。詳細介紹分析分散式檔案系統HDFS、集群檔案系統ClusterFS和NoSQL Database技術的原理與套用;分散式計算框架Mapreduce、分散式資料庫HBase、分散式數據倉庫Hive。
(2)關係型資料庫技術。詳細介紹關係型資料庫的原理,掌握典型企業級資料庫的構建、管理、開發及套用。
(3)分散式數據處理。詳細介紹分析Map/Reduce計算模型和Hadoop Map/Reduce技術的原理與套用。
(4)海量數據分析與數據挖掘。詳細介紹數據挖掘技術、數據挖掘算法–Minhash, Jaccard and Cosine similarity,TF-IDF數據挖掘算法–聚類算法;以及數據挖掘技術在行業中的具體套用。
(5)物聯網與大數據。詳細介紹物聯網中的大數據套用、遙感圖像的自動解譯、時間序列數據的查詢、分析和挖掘。
(6)檔案系統(HDFS)。詳細介紹HDFS部署,基於HDFS的高性能提供高吞吐量的數據訪問。
(7)NoSQL。詳細介紹NoSQL非關係型資料庫系統的原理、架構及典型套用。
相關院校
南陽理工學院,北京航空航天大學, 山西大學計算機科學與技術學院