人物生平
1、2006年加入聯想研究院,負責聯想網盤,任高級研究員
2、2010年加入百度基礎架構部,負責Hadoop平台開發,任高級研發工程師
3、2011年創業Carbonite China,負責整個Carbonite在中國的技術架構及管理,任高級架構師與技術總監(CTO)
4、2013年加入AdMaster,負責技術與架構,任技術副總裁
5、2018年任精碩科技集團高級技術副總裁兼nEqual CTO
重要事件
1、分享《分散式資料庫挑戰與分析》,內容主要介紹分散式資料庫介紹(包括ACID、CAP理論模型等)、OLTP和OLAP對比分析、分散式資料庫遇到的問題分析以及分散式資料庫實際案例分析等。
2、分享《分散式存儲在網盤和線上備份的套用研究》,內容主要覆蓋HDFS和HBase網盤和線上備份的分散式檔案系統中小檔案的存儲,備份檔案至雲端的優先權策略,檔案全路徑的存放方式,Namespace的管理等內容。
3、分享《Hadoop在網盤和線上備份的套用與挑戰》,內容主要為HDFS和HBase在網盤和線上備份的套用、大數據的挖掘與處理、小檔案的存儲、備份檔案至雲端、檔案全路徑存放方式以及Namespace的管理等方面的問題。還有MongoDB的經驗分享:儘量創建索引;限定返回結果條數;Filter只返回需要的數據;最佳化主鍵,儘量自己控制主健ID;UUID主鍵使用BinaryData數據類型存儲;注意檔案大小不超過16M。
4、分享《大數據分散式系統並行設計與I/O最佳化》,內容主要為介紹了分散式並行系統定義,分散式並行系統的特點和分散式並行系統的設計,並解析了單台機器並行設計的方法,分散式並行I/O最佳化的方法和單台機器分散式化的構想。
5、分享《基於Hadoop的雲存儲套用實戰》,內容主要為內容包括數據存在的隱患、雲備份用戶使用場景、雲備份的特點、雲備份系統架構、分散式資料庫架構、HBase經驗分享、分散式檔案系統HDFS。
6、分享《Python在廣告監測數據中的分析套用》,內容主要有介紹Python在廣告數據分析的套用,包括數據採集,分析,挖掘,可視化等方面。
7、分享《混合異構數據的清洗、存儲、挖掘架構選型和設計策略》,內容主要有在大數據網際網路背景下,數據源產生非常多,導致對數據的清洗、存儲、挖掘都提出非常高的要求,主要介紹由於Admaster的數據源類型多樣,包括有被動獲取的請求,也有微博,SNS,新聞,部落格,論壇,行業網站等主動抓取的請求,所以重點介紹離線數據分析如何建立在Hadoop之上,而流式計算和實時計算則為什麼採用Storm、Spark、MongoDB、MySql等。
8、分享《Hadoop在行銷數據挖掘的實踐》,內容主要有介紹由於廣告數據的多樣化,包括有曝光、點擊等被動獲取的請求;微博、新聞、部落格、論壇、行業網站等主動抓取的請求;問卷調查數據的補充;第三方數據的輸入。導致對數據的清洗(ETL)、存儲(Data Storage)、挖掘(Data Mining)都提出非常高的要求。將會介紹每天近100億請求的性能是如何最佳化的,以及每天近1000億數據的數據分析是如何實現的,還有數據從多IDC採集到同步中心機房如何實現分鐘級的計算。最後將會重點介紹AdMaster 根據累積了超過7年的實際廣告主和品牌的網路行銷數千個實際案例的經驗,自身研發的ADH(Advertising Distribution Hadoop)的發展及特點。其中包括內置的廣告算法,套用調度器的最佳化,還有關於線上數據(HBase),離線數據(MapReduce),實時數據(Spark),流式數據(Storm)等方式的整合介紹。
9、分享《Hadoop在廣告監測技術的實踐》,內容主要介紹廣告行銷數據流程、廣告監測技術特點、廣告監測數據差異、廣告數據挖掘平台架構 、ADH在廣告行銷數據挖掘的特、AdMaster數據分析平台六點展開演講。
社會評價
2006年碩士畢業,一直從事雲存儲、雲計算開發及架構工作,多年Hadoop實戰經驗,專注於分散式存儲、分散式計算、大數據分析等方向,有多個發明專利,《一種分散式檔案系統及其數據訪問方法》 和《一種數據備份的版本管理方法及裝置》 等。曾多次被烏鎮世界網際網路大會、CSDN、51CTO、IT168、InfoQ、阿里技術邀請為嘉賓分享Hadoop大數據在網際網路的套用。
獲獎記錄
1、2017年度大數據行業-領軍人物
2、有發明專利《一種分散式檔案系統及其數據訪問方法》 ,《一種數據備份的版本管理方法及裝置》 等
3、2017年獲Top10大數據最佳實踐案例