內容介紹
本書是您縱情享用數據之美的得力助手。作為處理海量數據集的理想工具,Apache Hadoop架構是MapReduce算法的一種開源套用,是Google(谷歌)開創其帝國的重要基石。本書內容豐富,展示了如何使用Hadoop構建可靠、可伸縮的分散式系統,程式設計師可從中探索如何分析海量數據集,管理員可以了解如何建立與運行Hadoop集群。.本書完全通過案例學習來展示如何用Hadoop解決特殊問題,它將幫助您:
使用Hadoop分散式檔案系統(HDFS)來存儲海量數據集,通過MapReduce對這些數據集運行分散式計算..
熟悉Hadoop的數據和I/O構件,用於壓縮、數據集成、序列化和持久處理
洞悉編寫MapReduce實際應用程式時常見陷阱和高級特性
設計、構建和管理專用的Hadoop集群或在雲上運行Hadoop
使用Pig這種高級的查詢語言來處理大規模數據
利用HBase這個Hadoop資料庫來處理結構化和半結構化數據
學習Zookeeper,這是一個用於構建分散式系統的協作原語工具箱
如果您擁有海量數據,無論是GB級還是PB級,Hadoop都是完美的選擇。本書是這方面最全面的參考。