內容簡介
大數據時代,掌控數據首先需要掌握數據的處理能力。俗話說,“工欲善其事,必先利其器”。InformaticaPowerCenter作為業界廣泛使用的數據處理工具之一,被全球多數大型機構、組織認可並採用。《InformaticaPowerCenter權威指南》全面地介紹了InformaticaPowerCenter的主要功能及高級特性。
《InformaticaPowerCenter權威指南》分為3個部分:第一部分——基礎篇,包括第1~4章系統介紹了PowerCenter的基礎組件和常用功能,並在其中穿插了大量實踐案例;第二部分——高級篇,包括第5~8章,系統介紹了PowerCenter並行、集群、性能調優和字元集管理等高級內容;第三部分——擴展篇,包括第9章,簡要介紹了CDC,與Hadoop、MPP集成,以及非結構化和半結構化數據處理能力。
《InformaticaPowerCenter權威指南》適合PowerCenter的入門者及有一定PowerCenter使用經驗的用戶參考,也可作為各數據倉庫、大數據專業培訓機構的培訓教材。
目錄
第1章 PowerCenter Hello World世界 1
1.1 Informatica Hello World 1
1.2 PowerCenter架構和客戶端簡介 3
1.2.1 PowerCenter架構 3
1.2.2 PowerCenter客戶端 6
1.3 PowerCenter Hello World 7
第2章 PowerCenter基礎組件 27
2.1 Source 27
2.1.1 資料庫源 28
2.1.2 文本檔案源 30
2.2 Target 33
2.2.1 資料庫目標 33
2.2.2 文本檔案目標 34
2.3 Expression表達式 35
Expression中的變數連線埠(Variable Port) 40
2.4 Filter 41
2.5 Source Qualifier 43
2.5.1 Source Qualifier的作用 43
2.5.2 資料庫數據源的Source Qualifier 44
2.5.3 Source Qualifier自定義SQL 47
2.5.4 Source Qualifier複雜關聯 48
2.6 Sorter 49
2.7 Joiner 51
2.7.1 關聯類型 52
2.7.2 Sorted Joiner 54
2.7.3 Joiner有什麼獨特作用 55
2.7.4 自關聯(Self-Join) 56
2.8 Lookup 57
2.8.1 Lookup Caching enabled 59
2.8.2 非連線的Lookup 61
2.8.3 Lookup SQL Override 63
2.8.4 共享Lookup Cache 65
2.8.5 Dynamic Lookup 65
2.8.6 Lookup、Source Qualifier和Joiner的對比 69
2.9 Stored Procedure 70
2.9.1 Connected Stored Procedure 70
2.9.2 Unconnected Stored Procedure 72
2.9.3 Pre- or Post-Session Stored Procedure 74
2.10 Union 76
2.11 Transaction Control 78
2.11.1 Transaction Control有效性問題 79
2.11.2 Transaction Control組件 80
2.12 Sequence 80
2.12.1 Sequence的常規用法 80
2.12.2 共享Sequence 82
2.12.3 可重用的Sequence 83
2.13 Aggregator 84
2.13.1 條件聚合 85
2.13.2 使用Aggregator進行行列轉換 86
2.14 Rank 88
2.15 Update strategy 90
2.15.1 Treat source rows as屬性的使用 91
2.15.2 Update strategy使用 93
2.15.3 如何實現Update else Insert 94
2.15.4 Update Stagety案例:緩慢變化維 98
2.16 SQL Transformation 104
2.16.1 Script Mode 104
2.16.2 Static Query Mode 106
2.16.3 Dynamic Query Mode 108
2.17 Java Transformation 109
2.17.1 Java Transformation簡介 109
2.17.2 Passive Java Transformation 114
2.17.3 Active Java Transformation 121
2.17.4 常見錯誤說明 123
2.18 Normalizer 124
2.19 Router 126
2.20 Custom Tranformation 128
2.21 HTTP Transformation 129
2.22 XML組件組 132
2.23 Transformation中的一些概念 135
2.23.1 Connect與Unconnect 135
2.23.2 Active與Passive 136
第3章 Workflow執行、監控 138
3.1 Session 139
3.1.1 Reusable Session 139
3.1.2 非Reusable Session 141
3.2 最簡單、最常用的Workflow 143
3.2.1 並行執行 143
3.2.2 串列執行 144
3.2.3 調度 146
3.3 Worklet 147
3.4 Command 148
3.5 Control 150
3.6 傳送E-mail 151
3.6.1 配置傳送E-mail 151
3.6.2 Workflow中使用E-mail 151
3.7 Event Tasks 155
3.7.1 用戶自定義事件使用 156
3.7.2 預定義事件使用 158
3.8 Timer 159
3.9 Decision 159
3.10 Assignment 160
第4章 常用功能匯集 163
4.1 Debugger 163
4.2 Mapplet/Reusable Transformation 165
4.2.1 Reusable Transformation 165
4.2.2 Mapplet 167
4.3 使用Shortcut 169
4.3.1 Local Shortcut 170
4.3.2 Global Shortcut 171
4.4 Session相關屬性 173
4.4.1 Properties Tab相關屬性 173
4.4.2 Config Object Tab相關屬性 174
4.5 參數和變數 176
4.5.1 Mapping參數 176
4.5.2 Mapping變數 180
4.5.3 系統/Session參數與變數 184
4.5.4 Workflow/Worklet變數 189
4.5.5 Local 變數(Local Variables) 191
第5章 PowerCenter高級套用 193
5.1 任務分區(Partition) 193
5.1.1 Database Partitioning 196
5.1.2 Hash Partitioning 201
5.1.3 Key Range Partitioning 204
5.1.4 Pass Through Partitioning 205
5.1.5 Round-robin Partitioning 211
5.2 記憶體管理 214
5.2.1 DTM記憶體 215
5.2.2 Transformation Cache 216
5.3 格線計算 219
5.3.1 Grid架構 219
5.3.2 Grid負載均衡 221
5.3.3 Grid與任務分區(Partition) 224
5.4 高可用性(HA) 227
5.4.1 PowerCenter自帶的HA方案 228
5.4.2 依託第三方廠商的HA方案 229
5.4.3 兩種HA方案對比 230
5.5 Web Service 套用 230
5.5.1 Web Service Hub 231
5.5.2 Web Service調度/監控接口 232
5.5.3 Web Service Provider 234
5.5.4 Web Service Consumer 246
5.6 Pushdown Optimization 251
5.6.1 Pushdown最佳化是什麼 252
5.6.2 Pushdown最佳化類型 252
5.7 版本控制及部署 256
5.7.1 Check In/Check Out 256
5.7.2 Team-Based開發的一些有用功能 258
5.7.3 Label與Deployment Group 260
5.7.4 複製對象從開發Repository到生產Repository 264
第6章 PowerCenter實戰匯總 266
6.1 PowerCenter字元集 266
6.1.1 Oracle資料庫 267
6.1.2 DB2字元集 268
6.1.3 AS/400字元集 268
6.1.4 ODBC字元集 269
6.1.5 文本檔案字元集 270
6.1.6 Repository Service字元集 271
6.1.7 Integration Service字元集 272
6.1.8 Data Movement Mode 273
6.2 UNIX ODBC配置 274
6.2.1 ODBC常規配置 274
6.2.2 My SQL社區版ODBC配置 276
6.3 使用Mapping動態分發檔案 277
6.4 超越EDW,商品自動價格跟蹤 279
6.5 pmcmd命令 283
6.6 pmrep命令 284
6.7 infasetup命令 284
6.8 Mapping Architect for Visio 286
6.9 MX View語句 293
6.10 PowerCenter與其他工具集成 294
第7章 性能調優 297
7.1 性能調優過程 298
7.2 發現瓶頸 299
7.2.1 定位目標寫瓶頸及調優 301
7.2.2 定位源讀瓶頸及調優 302
7.2.3 定位Mapping/Session瓶頸 303
7.2.4 定位系統瓶頸 305
7.3 Mapping調優 305
7.3.1 Transformation最佳化 305
7.3.2 列級別的最佳化 310
7.3.3 其他方面的最佳化 312
7.4 Session調優 313
7.4.1 記憶體調優 313
7.4.2 PowerCenter高級特性支持高性能 313
7.4.3 其他手段 314
7.5 SQL Override調優 316
第8章 PowerCenter Troubleshooting 317
8.1 安裝、啟動過程的錯誤 317
8.2 開發過程的錯誤 319
8.3 Session運行錯誤 320
8.4 源讀或者目標寫的錯誤 321
第9章 PowerCenter擴展能力 322
9.1 PowerExchange CDC(變化數據捕捉) 322
9.1.1 PowerExchange CDC的3種模式 323
9.1.2 開放資料庫CDC基本原理 325
9.1.3 CDC常見的一些討論 326
9.1.4 CDC Real-Time for Oracle安裝配置(實例) 327
9.1.5 CDC定義註冊組和添加捕獲註冊(實例續) 331
9.1.6 CDC Mapping開發及運行(實例) 334
9.2 PowerCenter與SAP 336
9.2.1 R/3、mySAP、ECC 337
9.2.2 PowerCenter與BW 338
9.3 PowerCenter與MPP資料庫 339
9.4 PowerCenter與Hadoop 340
9.4.1 接口能力 341
9.4.2 PowerCenter on Hadoop 344
9.5 元數據管理與業務術語管理 345
9.5.1 元數據的血緣分析 346
9.5.2 元數據影響分析 347
9.5.3 業務數據管理 347
9.6 B2B Data Transformation 348
作者簡介
杜紹森,任Informatica大中國區首席顧問。從PowerMart 5開始使用Informatica產品,自PowerCenter 8.1.1版本發布就一直任職於Informatica公司,服務於Informatica近10年時間,幫助Informatica用戶設計和構建系統,或者對系統進行重構和調優。之前曾作為系統架構師、項目經理等服務於惠普及本地公司,從事電信行業計費及數據倉庫項目。