內容簡介
本書以各個企業在大數據浪潮中跌宕起伏的經歷為核心來講述大數據發展史,並分析各個大數據企業迥異的發展歷程,探討在新技術浪潮來臨時應該如何應對。 本書主要分為兩部分,前半部分講述谷歌、微軟、IBM、雅虎、亞馬遜、阿里巴巴等大公司在大數據浪潮中的發展史,後半部分講述各個大數據創業公司的發展歷程和現狀。在每部分的最後,還通過專門的文章分析並總結了各企業在大數據浪潮中的作為和選擇所產生的影響。全書從公司的視角出發為大家呈現了一幅波瀾壯闊的大數據領域發展史,讀者不僅可以了解大數據技術,更能領略大數據領域的全貌,從各公司的故事中吸取教訓,學習思路。本書適合對大數據技術和商業思維有興趣的讀者閱讀。
圖書目錄
1 谷歌的大數據路:從擁有“三駕馬車”到喪失先發優勢 1
谷歌的“三駕馬車”開啟了大數據時代,然而在這個新時代里,谷歌卻喪失了先發優勢。這是為什麼呢?我認為是谷歌對待開放架構的態度相對保守導致的。
2 谷歌的大數據路:一場影響深遠的論戰 7
在大數據發展史上,以麥可·斯通布雷克為代表的資料庫元老級人物,針對MapReduce向谷歌提出了質疑。這場著名的論戰給整個業界帶來了動盪,最後誕生了Spark。
3 谷歌的大數據路:谷歌的“黑科技” 14
在大數據的上半場,谷歌以“三駕馬車”引領時代,但後來因為決策失誤喪失了先發優勢;而在大數據的下半場,谷歌帶著“黑科技”Spanner資料庫系統閃亮登場,效果如何呢?
4 如何讀懂類似谷歌“三駕馬車”這樣的技術論文 20
讀懂一篇技術論文,首先需要明白“論文是寫給誰看的”和“論文是怎么寫出來的”這兩個基本問題,然後就可以有針對性地提升自己閱讀論文的功力。
5 雅虎:大數據領域的“活雷鋒” 26
雅虎,這個早已淡出我們視線的公司,卻是大數據領域的“活雷鋒”,可以說正是它促成了今天的Hadoop生態圈。這篇文章就來說說它的故事。
6 IBM的大數據路——起早貪黑趕了個“晚集” 31
作為歷史悠久的計算機公司,IBM早早涉足了大數據領域,最終卻只能寄希望於比自己的產品起步還要晚的Spark,我們來看看其中發生了什麼。
7 三大社交媒體公司對Hadoop生態圈的貢獻 35
雅虎把Hadoop開源以後,當時著名的三大社交媒體公司Facebook、LinkedIn和Twitter都加入了這個生態圈,並做出了巨大貢獻。Hadoop生態圈給我們的啟示是,抱團取暖才是生存之道。
8 微軟的大數據發展史:微軟矽谷研究院 41
微軟矽谷研究院曾經在微軟的大數據發展歷程中扮演了非常特殊的角色,它推出的Dryad和DryadLINQ可以說是兩個另類的產品,雖然未曾大受歡迎,卻對大數據的發展有著不可磨滅的貢獻。
9 微軟的大數據發展史:必應的Cosmos 47
Cosmos是微軟必應搜尋引擎下面的團隊開發的大數據基礎架構,代表了微軟在大數據方面的最高成就。
10 微軟的大數據發展史:Azure的發展 53
微軟大數據發展史上的另一個分支是微軟雲計算平台下的大數據項目Azure。這個項目產生了HDInsight、Azure Data Lake、CosmosDB三大平台,但最後只有CosmosDB取得成功。
11 亞馬遜的大數據故事:從先驅者到一味索取者 59
在大數據技術發展的早期,亞馬遜發表了Dynamo系統的論文,成為和谷歌“三駕馬車”的論文一樣具有深遠影響的論文。然而隨著大數據的發展和Hadoop生態圈的建立,亞馬遜對大數據圈的貢獻極少,但亞馬遜自己卻從中獲得了巨大的利益。
12 亞馬遜的大數據故事:創新和“拿來”並存的雲服務 64
亞馬遜不僅在Hadoop生態系統里蓬勃發展,還推出了自己的數據分析產品。這些產品有些是亞馬遜自己研發的,有些則只是對開源的產品進行了包裝。但是,亞馬遜一如既往地沒有反哺開源項目。
13 阿里巴巴的大數據故事:數據分析平台發展史 70
國內大數據平台做得最好的公司當屬阿里巴巴。本文就來介紹一下阿里巴巴數據分析平台的發展情況:數據分析平台的疊加開發。
14 阿里巴巴的大數據故事:流計算引擎發展史 75
在阿里巴巴的發展過程中,流數據處理一直是一項十分重要的技術,阿里巴巴也在這方面做了很多有意義的項目。本文就來介紹一下阿里巴巴的流計算引擎JStorm與Blink的發展史。
15 大公司的大數據戰略得失:自建“輪子”成本高 80
大公司的大數據平台可分為兩類,一類是自己搭的基礎架構(自建“輪子”),另一類是抱團取暖所形成的Hadoop生態圈,兩者各有利弊。本文將分析第一種情況,主要以谷歌、微軟、阿里巴巴自己搭建的大數據平台架構為代表。
16 大公司的大數據戰略得失:抱團取暖的Hadoop生態圈 86
除了自建“輪子”的公司,其他各大公司走向了一條抱團取暖的道路,就是你搭一個模組,我搭一個模組,大家一起開源出來,最後組成了一個叫作Hadoop的生態圈。其中有為社區積極做貢獻的公司,也有以賺錢為目的的公司,還有一味索取的公司。
17 Hadoop三國之“魏國”——Cloudera 91
Hadoop領域曾經有三家發行商互相角逐,其中不乏各種戰術與謀略,仔細琢磨,你會發現這三家公司的關係與三國時期的魏蜀吳之間的關係非常相似。本文講述Hadoop三國之“魏國”——Cloudera的故事。
18 Hadoop三國之“吳國”——MapR 97
Hadoop三國之“吳國”MapR,實力強大卻很少參與競爭,這篇文章就來說說它特立獨行的故事。
19 Hadoop三國之“蜀國”——Hortonworks 103
Hadoop三國之“蜀國”Hortonworks始終堅持100%開源,本文講述它的故事。
20 Hadoop及其發行商的未來 111
Hadoop已誕生十多年,圍繞其生態圈誕生了諸多企業,例如前面講的社交媒體公司、三大發行商,而亞馬遜卻最終成為最大的受益者。
21 文檔資料庫的締造者MongoDB(上) 116
MongoDB的誕生像一場意外。它是一個文檔型資料庫,由10gen公司開發,以易用性聞名。本文就來講述MongoDB團隊的開發重心、商業運作模式和產品盈利方式。
22 文檔資料庫的締造者MongoDB(下) 127
MongoDB的開發團隊一向重視用戶體驗而不重視核心功能,其負面影響終於以一次安全危機的方式暴露。加上公司曾經獲得具有CIA背景的風投公司的投資,這一併引起了很多人的顧慮。當然,這一切都擋不住MongoDB公司最終的成功上市。
23 以MongoDB為例,看基礎架構類產品創業 132
作為一款基礎架構類產品,MongoDB以其易用性聞名,然而MongoDB的開發者不注重系統的可靠性,只注重可用性,導致很多MongoDB的用戶轉向了其他產品。基礎架構類產品的創業者應該如何平衡可用性和可靠性?這是一個值得深思的問題。
24 直面MongoDB,談微軟的NoSQL戰略 137
2013年,MongoDB在資料庫市場中的占有率很高,成為很多創業者和初創企業的首選。微軟究竟做了哪些事情,將Cosmos DB變成能與MongoDB競爭的產品的呢?
25 Palantir:神秘的大數據獨角獸公司 144
Palantir是一家神秘的大數據創業公司,由矽谷著名投資人彼得·蒂爾創辦,其主要服務對象是美國政府部門、特情組織和軍隊,所以外界對其了解甚少。
26 Splunk:機器日誌數據分析帝國 149
Splunk是大數據圈裡少有的盈利並且蓬勃發展的企業。它主要服務於機器日誌數據分析領域,隨後又不斷拓展業務,演變開發了若干不同類型的軟體。在本文中我們就來好好聊聊Splunk的進階史。
27 Confluent:Kafka項目背後的公司 155
Kafka是LinkedIn開發的開源項目,它主要通過日誌檔案傳輸的方式在不同的數據源之間同步數據。而Confluent公司是Kafka開源項目的創始人離開LinkedIn以後所創立的公司,主要致力於Kafka項目的商業化。在本文中,我們來講講這家公司的故事。
28 Powerset:HBase的“老東家” 160
Powerset是一家在多年前被微軟收購的創業公司,目前在語義搜尋方面開疆拓土。它為開源社區貢獻了BigTable的Hadoop版實現。本文就來講講這家公司的發展史。
29 Cassandra和DataStax公司的故事 166
Cassandra是開源社區仿照Amazon Dynamo開發的產品,它最初由Facebook開發並開源,卻又被公司內部棄用。創業公司DataStax對Cassandra大力支持,造就了今天繁榮的Cassandra社區。
30 Databricks:Spark的數據“金磚”王國 172
Spark是Hadoop生態圈裡大紅大紫的項目,它甚至取代了Hadoop MapReduce的地位。Databricks是對這個項目進行商業化的企業。本文就來聊聊這家企業的故事。
31 Data Artisans和浴火重生的新一代大數據計算引擎Flink 178
Data Artisans是對Flink進行商業化的公司。Apache Flink是一個年輕的新型處理引擎,是Hadoop社區里Spark的主要競爭對手。Flink設計理念先進,但是工程實現方面相對落後。
32 Dremio:基於Drill和Arrow的大數據公司 183
Dremio是另外一家大數據創業公司,其創始人是從MapR公司跳槽出來的。Dremio的主要產品就是Dremio項目,它吸收了MapR主導的開源項目Drill的精華,以開源項目Arrow為核心開發。本文就來講講Dremio公司和Dremio平台的來龍去脈。
33 Imply:基於Druid的大數據分析公司 189
開源大數據項目Druid由Metamarkets開發。開始時籍籍無名,後來被一些大公司,尤其是Airbnb使用和推廣以後,受到了很多關注。
34 Kyligence:麒麟背後的大數據公司 194
麒麟(英文名字是Kylin)是第一個全部由中國人主導的Apache頂級開源項目,Kyligence則是對這個項目進行商業化的公司。本文就來看看麒麟和Kyligence的故事。
35 Snowflake:雲端的彈性數據倉庫 200
Snowflake是一個構建在雲端的彈性數據倉庫,它背後的公司與之同名。Snowflake公司的創始人和管理層都有強大的背景,本文就來講一下Snowflake及其公司的故事。
36 TiDB:一個國產新資料庫的創業故事 205
TiDB是位於北京的一家創業公司PingCAP的產品,它的目標是實現一個開源的類似谷歌Spanner的系統,這個產品非常有特色,本文就來聊聊TiDB和它背後的公司。
37 大數據創業公司的前景:紅海vs.藍海 211
關於創業的市場,通常有紅海和藍海的說法,藍海容易成功,紅海相對艱難。對大數據創業公司來說,藍海多半指的是套用軟體類的市場,而紅海指的則是基礎架構軟體類的市場。本文將對比分析一下這兩類市場。
38 如何通過分析企業的技術積累來判斷其發展前景 216
通過分析企業的技術積累,能夠有效地判斷企業的發展前景如何。我們需要關注三個方面:技術適用的場景是否有巨大的盈利空間,技術本身是否有領先和獨到之處,以及技術的積累是否足夠深和廣。