高可用性:設計、技術和運作過程

本書是一部由哈里斯. 科恩企業計算學會強力推出的最新IT專業人士解決方案專著。全書圍繞計算機系統可用性管理制度問題展開了全面、系統的論述,其核心是如何使IT資源得到高效益利用,實現計算機系統的“高可用性”-- 即可用性最大化。全書涉及到產品和技術、IT技術人員和用戶、運作過程及組織體系等,具有很強的針對性和實用性。讀者對象:IT專業技術人員,相關專業大學師生,廣大計算機使用客戶及對IT感興趣的大眾。弗洛伊德. 皮耶達德 現任AK Asia服務公司總裁。AK Asia服務公司總部設在菲律賓馬尼拉市,是一家處於領導地位的網際網路服務公司。麥可. 霍金斯 一位資深的管理諮詢師,一直致力於研究整個亞洲和北美洲大型公司的IT基礎設施的運行和管理,成果顯著。

封底文字

由兩位在lT業界領軍人物共同推出的這本《高可用性》,薈萃了他們為應用程式實現可用性最大化所潛心研究的成果.他們的研究範圍包括了每一個參與人員和過程相關的重要課題。他們的最終目標是:幫助企業迅速顯著地提高其戰略性應用程式的價值.並且不會多餘地浪費掉一分錢。

●全面加強可用性、可恢復性、可維修性和可管理性

●深刻理解如何使你的用戶來定義所需的可用性

●努力達成服務水平的協定,並且落實這些協定

●建立多平台的戰略.從大型主機到辦公桌面

●利用標準化及其他技術,有效降低管理成本

●冗餘、備份、容錨、分區、自動化以及其他高可用性解決方案

●利用槓桿原理來最佳化企業當前已經建立起來的硬體和作業系統之可用性特徵

探索如何創建更易於維護的系統。掌握如何預防問題的發生,掌握如何根據商業的變化,來調整你正在奉行的可用性戰略。無論你的IT在企業中發揮著怎樣的作用,無論你的IT體系結構屬於怎樣的類型,本書都能夠令你在提高可用性級別方面,取得突破性的進展.而這.正是你的企業e化的當務之急!

目錄信息

第一章今天複雜的計算環境

●複雜、複雜、還是複雜……………………………………1

多重技術和協定……………………………………………1

各種各樣的廠商……………………………………………2

各種各樣的用戶……………………………………………2

無處不在的位置……………………………………………3

日新月異的變化……………………………………………3

更大的商業需求……………………………………………3

令人望而生畏的工作環境…………………………………4

●所有權總成本(TCO)方面的幾個問題 ……………………4

如何定義所有權總成本……………………………………4

所有權總成本的工業化評估………………………………6

所有權總成本研究揭示的意義……………………………6

導致所有權總成本居高不下的幾個原因…………………8

一種典型的方案:辦公室系統的選擇……………………9

可用性已經成為所有權總成本最大的貢獻者……………10

●總結…………………………………………………………10

第二章實現更高的可用性

●判定用戶對可用性的需求…………………………………12

服務水平協定………………………………………………12

幫助用戶確立他們對可用性的需求………………………13

●可用性的級別及測定………………………………………14

高可用性.級別(High Availability Level) …………14

不間斷運行級別(Continuous Operations level) ……15

不間斷可用性級別(Continuous Availability Level) 15

可用性指標的量化…………………………………………16

可用性:用戶為主的測量標準……………………………17

端對端可用性的測量………………………………………19

●總結…………………………………………………………20

第三章系統可用性計畫的要點

●明確係統部件………………………………………………22

●注重處理關鍵性部件………………………………………24

●可用性四大要素……………………………………………25

●總結…………………………………………………………25

第四章建立系統管理制度

●過程、數據、工具和組織…………………………………26

●個人計算機(PC)領域的系統管理(或此類工作的不足)……………………………………27

●集中式:令IT企業離而復歸………………………………28

●熟悉需要管理的系統………………………………………28

●管理的基礎:5個階段 ……………………………………30

階段l:樹立目標 …………………………………………30

階段2:制訂計畫 …………………………………………30

階段3:貫徹執行 …………………………………………31

階段4:質量測量 …………………………………………31

階段5:跟蹤控制 …………………………………………31

●確立系統管理制度…………………………………………32

第五章加強服務水平的管理

●服務水平管理………………………………………………33

過程要求……………………………………………………33

數據和測量要求……………………………………………36

組織要求……………………………………………………37

工具要求……………………………………………………38

服務水平管理的益處………………………………………38

●問題處理管理………………………………………………39

過程要求……………………………………………………39

數據和測量要求……………………………………………43

組織要求……………………………………………………44

工具要求……………………………………………………45

問題處理管理的益處………………………………………46

●變更管理……………………………………………………47

過程要求……………………………………………………48

數據和測量要求……………………………………………50

組織要求……………………………………………………51

工具要求……………………………………………………52

變更管理的益處……………………………………………52

●安全管理……………………………………………………53

過程要求……………………………………………………53

數據和測量要求……………………………………………57

組織要求……………………………………………………59

工具要求……………………………………………………61

安全管理的益處……………………………………………62

●資產和配置管理……………………………………………62

過程要求……………………………………………………63

數據和測量要求……………………………………………65

組織要求……………………………………………………67

工具要求……………………………………………………68

●可用性管理…………………………………………………69

過程要求……………………………………………………70

數據和測量要求……………………………………………72

組織要求……………………………………………………73

工具要求……………………………………………………74

可用性管理的益處…………………………………………74

第六章計算環境:從集中式到分散式

●系統管理制度………………………………………………75

●集中式計算環境……………………………………………75

●分散式計算環境……………………………………………76

●今天計算環境中的系統管理………………………………77

確定合理的職能與控制……………………………………77

選擇一種實施戰略…………………………………………78

●推行一種部署戰略(Deployment strategy) ……………81

例外性管理…………………………………………………8l

政策化管理…………………………………………………81

性能數據標準化……………………………………………82

分散式系統管理員所承擔的責任…………………………82

系統管理體系結構的清晰界定……………………………82

過程專管所屬………………………………………………83

●總結…………………………………………………………83

第七章滿足多重可用性需要的技術

●冗餘(Redundancy)…………………………………………85

硬體冗餘舉例………………………………………………85

軟體冗餘舉例………………………………………………87

環境冗餘舉例………………………………………………88

影響成功的關鍵性因素……………………………………88

●關鍵資源的備份(Backup)…………………………………89

備份的方法…………………………………………………89

硬體備份舉例………………………………………………9l

軟體備份舉例………………………………………………9l

IT操作備份舉例……………………………………………92

獲得成功的關鍵因素………………………………………93

●集群…………………………………………………………95

集群與冗餘之比較…………………………………………95

硬體和軟體集群舉例………………………………………96

IT操作集群舉例……………………………………………98

環境集群舉例………………………………………………98

獲得成功的關鍵性因素……………………………………98

●容錯(Fault Tolerence) …………………………………99

硬體容錯舉例………………………………………………100

軟體容錯舉例………………………………………………100

環境容錯舉例………………………………………………101

獲得成功的關鍵性因素……………………………………101

●隔離或者分區………………………………………………102

硬體隔離舉例………………………………………………103

軟體隔離舉例………………………………………………103

隔離的其他優點……………………………………………104

獲得成功的關鍵性因素……………………………………105

●自動化操作…………………………………………………106

控制台和網路操作舉例……………………………………108

工作負荷量(WOI"kload)管理舉例 ………………………108

系統資源監測舉例 ………………………………………109

問題處理管理應用程式……………………………………109

資源分布舉例 ……………………………………………110

備份和恢復舉例……………………………………………110

獲得成功的關鍵性因素……………………………………111

●安全接入機制………………………………………………112

安全接入的幾個步驟………………………………………113

安全的類型…………………………………………………115

密碼管理……………………………………………………119

獲得成功的關鍵性因素……………………………………121

●標準化………………………………………………………122

硬體標準化舉例……………………………………………123

軟體標準化舉例……………………………………………124

網路標準化舉例……………………………………………125

過程和程式標準化舉例……………………………………125

名稱標準化舉例……………………………………………126

獲得成功的關鍵性因素……………………………………127

向標準化過渡………………………………………………128

●總結…………………………………………………………129

第八章系統可靠性之特殊技術

●使用可靠的部件……………………………………………131

硬體部件可靠性實現最大化之技術………………………131

軟體部件可靠性實現最大化之技術………………………133

人員相關類可靠性實現最大化之技術……………………136

環境相關類可靠性實現最大化之技術……………………137

供應商可靠性的幾項指標…………………………………138

●利用程式設計使故障率實現最小化………………………139

正確性(correctness) ……………………………………139

堅固性(robustness)………………………………………141

擴展性(extensibility) …………………………………142

復用性(reusability) ……………………………………144

●採取措施應對獨立於環境之外的干擾……………………145

使用發電機…………………………………………………145

使用獨立的空調設備………………………………………145

使用消防裝置………………………………………………145

使用升高地板………………………………………………146

安裝設備輪鎖………………………………………………146

將計算機房設在二樓………………………………………146

●採取故障避免(也稱免錯)(fault avoidance)措施………………………………………………………147

分析問題的傾向及其統計結果……………………………147

使用先進的硬體技術………………………………………147

使用軟體維修工具…………………………………………148

●總結…………………………………………………………148

第九章系統可恢復性之特殊技術

●故障識別自動化技術………………………………………149

奇偶校驗檢查存儲器………………………………………149

錯誤檢查和校正(ECC)存儲器 ……………………………150

數據確認例行程式(data validation routine) ………150

●快速恢復技術………………………………………………151

●最低限度使用缺乏穩定性的存儲媒體……………………151

對中央存儲器進行定期的數據更新………………………151

自動檔案保存特性…………………………………………152

●總結…………………………………………………………152

第十章系統可維修性之特殊技術

●在線上系統的重新定義………………………………………153

添加或者拆除輸入/輸出(I/O)設備……………………153

可選性子系統斷電…………………………………………154

確認或者拒絕變更…………………………………………154

●出錯信息可掌握技術………………………………………154

使用標準化通用術語………………………………………154

採納普遍的套用軟體已使用的術語………………………155

提供發生的問題、原因和影響以及如何進行處理的信息…………………………………………155

提供上下文相關性(context-sensitive)幫助 …………156

提供選項以便更加詳細地查看更多的誤差信息…………………………………………………156

在錯誤被清除後,繼續提供誤差信息的可用性……………………………………………………156

●完善檔案資料技術…………………………………………157

手頭要有一本《操作手冊》………………………………157

編寫關於基本問題隔離和恢復的指南手冊………………158

提供系統配置圖表…………………………………………158

實現資源標籤加注…………………………………………158

提供一個技術圖書館………………………………………159

●安裝最新的修改和補丁程式(fixes and patches) …………………………………159

●總結…………………………………………………………160

第十一章系統可管理性之特殊技術

●使用可管理的系統部件……………………………………161

簡單網路管理協定(SNMP)………………………………163

公共管理信息協定(CMIP)………………………………164

桌式管理界面(DMI) ……………………………………164

公共信息管理格式(CIM) ………………………………165

聯線管理(WfM) …………………………………………165

●管理應用程式………………………………………………166

系統管理問題(sytems Management lssus) ……………167

自動化的系統管理能力……………………………………168

系統管理應用程式和工作系統(Framework) ……………168

●加強IT人員的系統管理制度教育…………………………171

信息系統的商業價值………………………………………171

管理原理……………………………………………………171

基本的數值分析技術………………………………………171

●總結…………………………………………………………172

第十二章總結性論述

●系統管理制度的意義………………………………………173

●首先從何處人手……………………………………………174

●故障停機分析………………………………………………175

●確定故障的單點(single point)…………………………176

●現有條件下的挖潛…………………………………………176

●推薦一項實用策略…………………………………………177

●總結……………………………………………………177

附錄A 部分選用產品的可用性特徵

●可選用作業系統之可用性特徵………………………179

美國NoveU公司推出的NetWare作業系統的可用性特徵………………………………………………179

美國Sun公司推出的solaris 8作業系統的可用性特徵………………………………………………183

IBM公司推出的AIx作業系統的可用性特徵……………186

美國微軟公司推出的windOW82000伺服器及專業版之可用性特徵…………………………………………188

IBM公司推出的OS/400作業系統之可用性特徵………………………………………………………195

●可選用硬體部件之可用性特徵………………………196

美國IBM公司推出的S/390綜合伺服器之可用性特徵………………………………………………196

美國IBM公司推出的AS/400中等系統之可用性特徵………………………………………………198

美國IBM公司推出的RS/6000之可用性特徵 …………202

康柏公司推出的Proliant伺服器之可用性特徵………204

●可選用軟體部件之可用性特徵………………………207

美國Oracle(甲骨文)公司推出的Oracle8i資料庫之可用性特徵………………………………………………207

附錄主要譯名中英文對照表…………………………………209

相關詞條

熱門詞條

聯絡我們