內容簡介
生物信息學套用計算機技術對各種生物數據進行管理和分析,以期發現生物數據所反映的生物規律,促進生命科學的發展。一方面,生命科學實驗產生的巨量的生物數據保存在世界各地的相關研究機構中,或隱含在浩瀚的科學文獻里。這些數據反映了生命科學研究的整體進展和成果,有重疊更相互補充,這就需要將這些生物數據整合在一起。另一方面,生物信息學也希望採用數據挖掘技術對生物數據進行分析,以期發現生物規律,因此根據生命科學的需要和領域知識,設計出有效的生物數據挖掘算法和軟體工具是一個重要的研究內容。
作者簡介
朱揚勇,1963年生,浙江武義人。1994年於復旦大學獲計算機軟體專業理學博士學位。現為復旦大學計算機科學技術學院教授;上海市政府信息化專家;上海生物信息技術研究中心學術委員會委員;上海市計算機學會理事;上海市生物信息學會理事等。長期從事資料庫、數據挖掘、生物信息等方面的研究,已發表論文100餘篇,出版《資料庫系統設計與開發》等教材5本。作為項目負責人,主持國家自然科學基金、“863計畫”、上海市科委重點發展基金等10多項課題的研究工作。目前主要從事數據科學的研究,是該領域的主要倡導者。
目錄
第1章 背景知識
1.1 生物信息學
1.1.1 基本概念
1.1.2 研究內容
1.1.3 研究方法
1.1.4 研究機構
1.2 數據整合
1.2.1 數據資源
1.2.2 數據整合的動因
1.2.3 數據整合的概念
1.2.4 數據整合的內容
1.3 數據挖掘
1.3.1 數據挖掘的定義
1.3.2 數據挖掘的任務
1.3.3 數據挖掘的類型
1.3.4 相關技術的差異
第2章 數據整合與數據挖掘方法
2.1 數據整合的方法
2.1.1 數據整合的方式
2.1.2 數據整合的步驟
2.2 數據挖掘的方法
2.2.1 數據挖掘過程示例
2.2.2 數據挖掘過程模型
2.2.3 數據挖掘套用方式
2.3 數據清潔技術
2.3.1 數據的質量問題
2.3.2 數據清潔的主要工作
2.4 數據倉庫技術
2.4.1 數據倉庫的概念
2.4.2 數據組織
2.4.3 主題設計
2.4.4 數據載入
2.4.5 數據規約
2.5 小結
第3章 生物數據源
3.1 生物數據
3.1.1 生物序列數據
3.1.2 生物分子結構數據
3.1.3 晶片及基因表達數據
3.1.4 生物網路數據
3.2 生物數據組織
3.2.1 生物數據的資料庫組織形式
3.2.2 生物數據的網際網路組織形式
3.3 生物資料庫
3.3.1 生物序列資料庫
3.3.2基因組資料庫
3.3.3 結構資料庫
3.3.4 晶片和基因表達資料庫
3.3.5 生物文獻資料庫
3.4 生物數據源的特徵
3.5 小結
第4章 複雜生物數據源的數據抽取
4.1 生物數據抽取
4.1.1 生物數據抽取面臨的問題
4.1.2 包裝器的要素
4.1.3 抽取算法
4.1.4 元數據生成與包裝器生成工具
4.2 包裝器的設計
4.2.1 基於實例切分的抽取算法
4.2.2 基於定位器多結點共享的數據抽取模型
4.2.3 數據抽取模型描述
4.2.4 元數據的生成和維護
4.2.5 數據抽取模型表達能力
4.3 包裝器解決方案
4.3.1 面向無噪聲複雜數據源的解決方案
4.3.2 面向含噪聲複雜數據源的解決方案
4.3.3 ReDE和L-樹包裝器生成工具的架構
4.3.4 ReDE和L-樹包裝器生成工具的實現技術
4.4 L-樹匹配:面向複雜數據源的數據抽取算法
4.4.1 L-樹上的數據映射機制
4.4.2 L-樹匹配算法的相關概念
4.4.3 L-樹匹配算法
4.4.4 L-樹匹配算法舉例
4.5 基於L-樹的包裝器生成工具
4.5.1 將ERE擴充成數據抽取腳本語言
4.5.2 可視化編輯調試環境
4.5.3 ERE的可視化構建
4.5.4 ERE的邏輯檢查
4.5.5 抽取結果的可視化評價
4.5.6 以XML格式輸出抽取結果
4.6 小結
第5章 生物數據整合案例
5.1 生物數據整合系統的設計
5.1.1 生物數據整合的關鍵問題分析
5.1.2 生物數據整合目標的確立
5.1.3 生物數據整合方式和技術的設計
5.2 基於GO的數據整合
5.2.1 GO簡介
5.2.2 DB2GO表
5.2.3 語義相似資料庫表
5.2.4 以GO統一數據的邏輯和語義
5.3 數據抽取和增量更新
5.3.1 數據抽取
5.3.2 數據的增量更新
5.4 基於GO的查詢技術
5.4.1 異構生物資料庫的語義查詢
5.4.2 BioDW中語義查詢的體系結構
5.4.3 GO語義相似性度量方法
5.4.4 語義相似性查詢
5.5 BioDW系統
5.5.1 BioDW的系統結構
5.5.2 BioDW的系統的數據規模
5.5.3 BioDW的數據查詢
5.6 小結
第6章 生物序列數據挖掘進展
6.1 生物序列數據挖掘的基本概念和內容
6.1.1 生物序列相似性
6.1.2 生物序列模式挖掘
6.1.3 生物序列聚類分析
6.1.4 生物序列分類分析
6.1.5 生物序列關聯分析
6.1.6 生物序列異常分析
6.2 生物序列數據挖掘的研究階段
6.2.1 基於統計技術的數據挖掘方法的套用階段
6.2.2 一般化數據挖掘方法的套用階段
6.2.3 專門數據挖掘技術的設計階段
6.3 生物序列數據挖掘研究與套用現狀
6.3.1 生物序列模式挖掘方面
6.3.2 生物序列聚類分析方面
6.3.3 生物序列分類分析方面
6.3.4 生物序列關聯分析方面
6.3.5 生物序列異常分析方面
6.4 生物序列數據挖掘研究趨勢
6.5 小結
第7章 生物序列數據挖掘技術
7.1 序列數據源
7.2 生物序列模式挖掘
7.2.1 生物序列模式挖掘問題
7.2.2 基於多支持度的生物序列模式挖掘框架
7.2.3 基於多支持度的生物序列模式挖掘算法
7.3 生物序列聚類分析
7.3.1 生物序列聚類問題分析
7.3.2 蛋白質序列聚類
7.3.3 基因序列聚類
7.4 生物序列分類分析
7.4.1 生物序列分類問題分析
7.4.2 轉錄因子分類
7.4.3 基於支持向量機的轉錄因子分類算法
7.5 小結
第8章 基因晶片數據挖掘
8.1基因表達譜晶片數據挖掘
8.1.1基因表達譜數據分析
8.1.2 基因表達相似性分析
8.1.3 基因表達共發生分析
8.1.4 基因表達路徑分析
8.1.5 特殊表達基因分析
8.2 基因表達譜資料庫建設
8.2.1 基因表達譜晶片數據的標準
8.2.2 基因表達譜資料庫建設的難點
8.2.3 資料庫結構設計
8.2.4 數據載入與數據管理
8.2.5 自動導入數據
8.3 基因表達譜數據挖掘系統
8.3.1 數據挖掘框架
8.3.2 BDMAPA架構擴展
8.3.3 基因表達譜晶片數據挖掘系統
8.4 小結
第9章 轉錄因子、順式調控元件挖掘系統
9.1 轉錄因子、順式調控元件挖掘原理
9.1.1 轉錄因子、順式調控元件挖掘原理
9.1.2 順式調控元件文本挖掘原理
9.2 轉錄因子、順式調控元件挖掘系統設計
9.2.1 數據挖掘軟體
9.2.2 數據分析服務
9.2.3 綜合的轉錄因子、順式調控元件資料庫
9.3 小結
第10章 生物序列資料庫管理系統
10.1 生物數據處理面臨的問題
10.1.1 生物數據存儲方式
10.1.2 生物序列資料庫的查詢需求
10.2 生物序列數據模型BioSeg
10.2.1 數據結構
10.2.2 代數操作
10.2.3 Open BUILT?IN函式
10.2.4 等價規則
10.2.5 BioSeg模型的特點
10.3 生物序列資料庫管理系統的設計
10.3.1 代數查詢實例
10.3.2 查詢語言
10.3.3 體系結構
10.4 小結
參考文獻
致謝