內容介紹
《數據挖掘與數據化運營實戰:思路、方法、技巧與套用》是目前有關數據挖掘在數據化運營實踐領域比較全面和系統的著作,也是諸多數據挖掘書籍中為數不多的穿插大量真實的實踐套用案例和場景的著作,更是創造性地針對數據化運營中不同分析挖掘課題類型,推出一一對應的分析思路集錦和相應的分析技巧集成,為讀者提供“選單化”實戰錦囊的著作。作者結合自己數據化運營實踐中大量的項目經驗,用通俗易懂的“非技術”語言和大量活潑生動的案例,圍繞數據分析挖掘中的思路、方法、技巧與套用,全方位整理、總結、分享,幫助讀者深刻領會和掌握“以業務為核心,以思路為重點,以分析技術為輔佐”的數據挖掘實踐套用寶典。《數據挖掘與數據化運營實戰:思路、方法、技巧與套用》共19章,分為三個部分:基礎篇(第1~4章)系統介紹了數據分析挖掘和數據化運營的相關背景、數據化運營中“協調配合”的核心,以及實踐中常見分析項目類型;實戰篇(第6~13章)主要介紹實踐中常見的分析挖掘技術的實用技巧,並對大量的實踐案例進行了全程分享展示;思想意識篇(第5章,第14~19章)主要是有關數據分析師的責任、意識、思維的培養和提升的總結和探索,以及一些有效的項目質控制度和經典的方法論介紹。
海報:
作者介紹
盧輝,阿里巴巴商業智慧型部數據分析專家,從事資料庫行銷和數據化運營分析多年,曾在不同行業以商務拓展(BD)經理、項目經理、市場行銷部經理、高級諮詢顧問、數據分析專家的身份親歷大量的資料庫行銷和網際網路行業數據化運營套用項目。目前在阿里巴巴主要從事數據化運營的數據挖掘規劃、項目管理、實施,擁有比較豐富的網際網路行業數據化運營項目經驗。關注數據化運營的規劃和數據挖掘項目的管理。作品目錄
推薦序前言
第1章 什麼是數據化運營
1.1 現代行銷理論的發展歷程
1.1.1 從4P到4C
1.1.2 從4C到3P3C
1.2 數據化運營的主要內容
1.3 為什麼要數據化運營
1.4 數據化運營的必要條件
1.4.1 企業級海量數據存儲的實現
1.4.2 精細化運營的需求
1.4.3 數據分析和數據挖掘技術的有效套用
1.4.4 企業決策層的倡導與持續支持
1.5 數據化運營的新現象與新發展
1.6 關於網際網路和電子商務的最新數據
第2章 數據挖掘概述
2.1 數據挖掘的發展歷史
2.2 統計分析與數據挖掘的主要區別
2.3 數據挖掘的主要成熟技術以及在數據化運營中的主要套用
2.3.1 決策樹
2.3.2 神經網路
2.3.3 回歸
2.3.4 關聯規則
2.3.5 聚類
2.3.6 貝葉斯分類方法
2.3.7 支持向量機
2.3.8 主成分分析
2.3.9 假設檢驗
2.4 網際網路行業數據挖掘套用的特點
第3章 數據化運營中常見的數據分析項目類型
3.1 目標客戶的特徵分析
3.2 目標客戶的預測(回響、分類)模型
3.3 運營群體的活躍度定義
3.4 用戶路徑分析
3.5 交叉銷售模型
3.6 信息質量模型
3.7 服務保障模型
3.8 用戶(買家、賣家)分層模型
3.9 賣家(買家)交易模型
3.10 信用風險模型
3.11 商品推薦模型
3.11.1 商品推薦介紹
3.11.2 關聯規則
3.11.3 協同過濾算法
3.11.4 商品推薦模型總結
3.12 數據產品
3.13 決策支持
第4章 數據化運營是跨專業、跨團隊的協調與合作
4.1 數據分析團隊與業務團隊的分工和定位
4.1.1 提出業務分析需求並且能勝任基本的數據分析
4.1.2 提供業務經驗和參考建議
4.1.3 策劃和執行精細化運營方案
4.1.4 跟蹤運營效果、反饋和總結
4.2 數據化運營是真正的多團隊、多專業的協同作業
4.3 實例示範數據化運營中的跨專業、跨團隊協調合作
第5章 分析師常見的錯誤觀念和對治的管理策略
5.1 輕視業務論
5.2 技術萬能論
5.3 技術尖端論
5.4 建模與套用兩段論
5.5 機器萬能論
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸
第6章 數據挖掘項目完整套用案例演示
6.1 項目背景和業務分析需求的提出
6.2 數據分析師參與需求討論
6.3 制定需求分析框架和分析計畫
6.4 抽取樣本數據、熟悉數據、數據清洗和摸底
6.5 按計畫初步搭建挖掘模型
6.6 與業務方討論模型的初步結論,提出新的思路和模型最佳化方案
6.7 按最佳化方案重新抽取樣本並建模,提煉結論並驗證模型
6.8 完成分析報告和落地套用建議
6.9 制定具體的落地套用方案和評估方案
6.10 業務方實施落地套用方案並跟蹤、評估效果
6.11 落地套用方案在實際效果評估後,不斷修正完善
6.12 不同運營方案的評估、總結和反饋
6.13 項目套用後的總結和反思
第7章 數據挖掘建模的最佳化和限度
7.1 數據挖掘模型的最佳化要遵循有效、適度的原則
7.2 如何有效地最佳化模型
7.2.1 從業務思路上最佳化
7.2.2 從建模的技術思路上最佳化
7.2.3 從建模的技術技巧上最佳化
7.3 如何思考最佳化的限度
7.4 模型效果評價的主要指標體系
7.4.1 評價模型準確度和精度的系列指標
7.4.2 ROC曲線
7.4.3 KS值
7.4.4 Lift值
7.4.5 模型穩定性的評估
第8章 常見的數據處理技巧
8.1 數據的抽取要正確反映業務需求
8.2 數據抽樣
8.3 分析數據的規模有哪些具體的要求
8.4 如何處理缺失值和異常值
8.4.1 缺失值的常見處理方法
8.4.2 異常值的判斷和處理
8.5 數據轉換
8.5.1 生成衍生變數
8.5.2 改善變數分布的轉換
8.5.3 分箱轉換
8.5.4 數據的標準化
8.6 篩選有效的輸入變數
8.6.1 為什麼要篩選有效的輸入變數
8.6.2 結合業務經驗進行先行篩選
8.6.3 用線性相關性指標進行初步篩選
8.6.4 R平方
8.6.5 卡方檢驗
8.6.6 IV和WOE
8.6.7 部分建模算法自身的篩選功能
8.6.8 降維的方法
8.6.9 最後的準則
8.7 共線性問題
8.7.1 如何發現共線性
8.7.2 如何處理共線性
第9章 聚類分析的典型套用和技術小竅門
9.1 聚類分析的典型套用場景
9.2 主要聚類算法的分類
9.2.1 劃分方法
9.2.2 層次方法
9.2.3 基於密度的方法
9.2.4 基於格線的方法
9.3 聚類分析在實踐套用中的重點注意事項
9.3.1 如何處理數據噪聲和異常值
9.3.2 數據標準化
9.3.3 聚類變數的少而精
9.4 聚類分析的擴展套用
9.4.1 聚類的核心指標與非聚類的業務指標相輔相成
9.4.2 數據的探索和清理工具
9.4.3 個性化推薦的套用
9.5 聚類分析在實際套用中的優勢和缺點
9.6 聚類分析結果的評價體系和評價指標
9.6.1 業務專家的評估
9.6.2 聚類技術上的評價指標
9.7 一個典型的聚類分析課題的案例分享
9.7.1 案例背景
9.7.2 基本的數據摸底
9.7.3 基於用戶樣本的聚類分析的初步結論
第10章 預測回響(分類)模型的典型套用和技術小竅門
10.1 神經網路技術的實踐套用和注意事項
10.1.1 神經網路的原理和核心要素
10.1.2 神經網路的套用優勢
10.1.3 神經網路技術的缺點和注意事項
10.2 決策樹技術的實踐套用和注意事項
10.2.1 決策樹的原理和核心要素
10.2.2 CHAID算法
10.2.3 CART算法
10.2.4 ID3算法
10.2.5 決策樹的套用優勢
10.2.6 決策樹的缺點和注意事項
10.3 邏輯回歸技術的實踐套用和注意事項
10.3.1 邏輯回歸的原理和核心要素
10.3.2 回歸中的變數篩選方法
10.3.3 邏輯回歸的套用優勢
10.3.4 邏輯回歸套用中的注意事項
10.4 多元線性回歸技術的實踐套用和注意事項
10.4.1 線性回歸的原理和核心要素
10.4.2 線性回歸的套用優勢
10.4.3 線性回歸套用中的注意事項
10.5 模型的過擬合及對策
10.6 一個典型的預測回響模型的案例分享
10.6.1 案例背景
10.6.2 基本的數據摸底
10.6.3 建模數據的抽取和清洗
10.6.4 初步的相關性檢驗和共線性排查
10.6.5 潛在自變數的分布轉換
10.6.6 自變數的篩選
10.6.7 回響模型的搭建與最佳化
10.6.8 冠軍模型的確定和主要的分析結論
10.6.9 基於模型和分析結論基礎上的運營方案
10.6.10 模型落地套用效果跟蹤反饋
第11章 用戶特徵分析的典型套用和技術小竅門
11.1 用戶特徵分析所適用的典型業務場景
11.1.1 尋找目標用戶
11.1.2 尋找運營的抓手
11.1.3 用戶群體細分的依據
11.1.4 新品開發的線索和依據
11.2 用戶特徵分析的典型分析思路和分析技術
11.2.1 3種劃分的區別
11.2.2 RFM
11.2.3 聚類技術的套用
11.2.4 決策樹技術的套用
11.2.5 預測(回響)模型中的核心自變數
11.2.6 假設檢驗的套用
11.3 特徵提煉後的評價體系
11.4 用戶特徵分析與用戶預測模型的區別和聯繫
11.5 用戶特徵分析案例
第12章 運營效果分析的典型套用和技術小竅門
12.1 為什麼要做運營效果分析
12.2 統計技術在數據化運營中最重要最常見的套用
12.2.1 為什麼要進行假設檢驗
12.2.2 假設檢驗的基本思想
12.2.3 T檢驗概述
12.2.4 兩組獨立樣本T檢驗的假設和檢驗
12.2.5 兩組獨立樣本的非參數檢驗
12.2.6 配對差值的T檢驗
12.2.7 配對差值的非參數檢驗
12.2.8 方差分析概述
12.2.9 單因素方差分析
12.2.10 多個樣本組的非參數檢驗
12.2.11 卡方檢驗
12.2.12 控制變數的方法
12.2.13 AB Test
第13章 漏斗模型和路徑分析
13.1 網路日誌和布點
13.1.1 日誌布點
13.1.2 日誌採集
13.1.3 日誌解析
13.1.4 日誌分析
13.2 漏斗模型與路徑分析的主要區別和聯繫
13.3 漏斗模型的主要套用場景
13.3.1 運營過程的監控和運營效率的分析與改善
13.3.2 用戶關鍵路徑分析
13.3.3 產品最佳化
13.4 路徑分析的主要套用場景
13.5 路徑分析的主要算法
13.5.1 社會網路分析方法
13.5.2 基於序列的關聯分析
13.5.3 最樸素的遍歷方法
13.6 路徑分析案例的分享
13.6.1 案例背景
13.6.2 主要的分析技術介紹
13.6.3 分析所用的數據概況
13.6.4 主要的數據結論和業務解說
13.6.5 主要分析結論的落地套用跟蹤
第14章 數據分析師對業務團隊數據分析能力的培養
14.1 培養業務團隊數據分析意識與能力的重要性
14.2 數據分析師在業務團隊數據分析意識能力培養中的作用
14.3 數據分析師如何培養業務團隊的數據分析意識和能力
14.4 數據分析師培養業務團隊數據分析意識能力的案例分享
14.4.1 案例背景
14.4.2 過程描述
14.4.3 本項目的效果跟蹤
第15章 換位思考
15.1 為什麼要換位思考
15.2 從業務方的角度換位思考數據分析與挖掘
15.3 從同行的角度換位思考數據分析挖掘的經驗教訓
第16章 養成數據分析師的品質和思維模式
16.1 態度決定一切
16.1.1 信念
16.1.2 信心
16.1.3 熱情
16.1.4 敬畏
16.1.5 感恩
16.2 商業意識是核心
16.2.1 為什麼商業意識是核心
16.2.2 如何培養商業意識
16.3 一個基本的方法論
16.4 大膽假設,小心求證
16.5 20/80原理
16.6 結構化思維
16.7 優秀的數據分析師既要客觀,又要主觀
第17章 條條大道通羅馬
17.1 為什麼會條條大道通羅馬
17.2 條條大道有側重
17.3 自覺服從和積極回響
17.3.1 自覺服從
17.3.2 積極回響
17.4 具體示例
第18章 數據挖掘實踐的質量保障流程和制度
18.1 一個有效的質量保障流程制度
18.1.1 業務需求的收集
18.1.2 評估小組評估需求的優先權
18.1.3 課題組的成立及前期摸底
18.1.4 向業務方提交正式課題(項目)計畫書
18.1.5 數據分析挖掘的課題展開
18.1.6 向業務方提交結論報告及業務落地套用建議
18.1.7 課題(項目)的落地套用和效果監控反饋
18.2 質量保障流程制度的重要性
18.3 如何支持與強化質量保障流程制度
第19章 幾個經典的數據挖掘方法論
19.1 SEMMA方法論
19.1.1 數據取樣
19.1.2 數據探索
19.1.3 數據調整
19.1.4 模式化
19.1.5 評價
19.2 CRISP-DM方法論
19.2.1 業務理解
19.2.2 數據理解
19.2.3 數據準備
19.2.4 模型搭建
19.2.5 模型評估
19.2.6 模型發布
19.3 Tom Khabaza的挖掘9律