基本簡介
化學信息學是一門套用信息學方法來解決化學問題的學科。20世紀中後期,伴隨著計算機技術的發展,化學家開始意識到,多年來所積累的大量信息,只有通過計算機技術才能讓科學界容易獲得和處理,換言之,這些信息必須通過資料庫的形式存在,才能為科學界所用。這一新領域出現以後,沒有一個恰當的名稱。活躍在這個領域的化學家總是說他們在“化學信息”領域工作。然而,因為這一名稱難以將處理化學文獻的工作和發展計算機方法來處理化學信息的研究分別開來。所以,一些化學家就稱之為“計算機化學”,以強調採用計算機技術來處理化學信息工作的重要性。但是,這個名稱容易與理論化學計算,即“計算化學”混淆。
1973年,由NATO高級研究所夏季學校在荷蘭Noordwijkerhout舉辦的一次研討班,首次將在在不同化學領域工作,但都是採用計算機方法處理化學信息,或是用計算機技術從化學數據中獲取知識的科學家集中在一起。這次研討班的名稱就定為“化學信息學的計算機表征與處理”。參加這次會議的科學家主要從事化學結構資料庫,計算機輔助有機合成設計,光譜信息分析和化學計量學等方面的研究,或者開發分子模擬軟體。研討班期間,這些化學家意識到,一個新的研究領域已經形成,而且,它隱含在化學各分支之間。
從那之後,套用於解決化學問題的計算機科學和信息學方法悄然進入了化學的各個領域。
而“化學信息學”這一名詞的出現還是最近的事情。以下是幾個最早的定義:“套用信息技術和信息處理方法已成為藥物發現過程中的一個很重要的部分。化學信息學實際上是一種信息源的混合體。它可將數據轉換為信息,再由信息轉換為知識,從而使我們在藥物先導化合物的識別和組織過程的決策變得更有效。”——Brown Medicinal, Chemistry,1998,33,375-384。“化學信息學——一個老問題的新名詞”——M.Hane,R.Green. Chemical Biology,1999,33,375-384。“化學信息學是一個廣義性的名詞,它將包含化學信息的設計,製造,組織,處理,檢索,分析,傳播,和使用。”——G.Paris (美國化學會 1999年8月會議)。
研究內容
1、化合物登記(compound registration)。這包括將每一個化合物的立體化學參數,相關光譜數據(如NMR)、純度數據(如HPLC)、各種生物活性測定數據等各種相關數據動態組合在資料庫中。
2、構效關係的研究工具和技術。這包括套用各種軟體建立各種構效關係模型,其中使用了各種化學計量學方法(如多元統計回歸分析等)。構效關係模型就是關聯用數值表征的分子結構與其生物活性間的相關性。傳統的QSAR研究是通過自由能將各種獨立變數聯繫起來,即相似性是通過簡單的數值來度量的。但是,化學結構之間的相似性度量相對比較複雜,化學結構只有在一定描述的空間中才能被度量和比較。如何描述一個化學分子是相當活躍的研究領域,只有在一個正確有效的描述空間內才有可能客觀度量分子之間的相似性和差異性,從而進行有目的的篩選,並得到一個理想的目標分子庫。現在很多人在研究通過二維、三維甚至更高維的藥效團指紋圖譜來表征分子,它與傳統的自由能表述完全不同,其效果更為直觀,新的描述方法如特徵樹(feature tree)等也被廣泛套用。
3、虛擬資料庫組裝技術(virtual database assembly)。它通過計算化學方法組合各種基元化學分子結構和片段,虛擬合成大量的候選化合物,然後在這樣一個虛擬化合物庫中篩選目標藥物分子。上述工作包括採用合適的描述因子和相應的算法進行計算庫設計(computational library design)。值得指出,有效的計算庫在分子設計中往往起關鍵作用。遺傳算法已成為計算庫設計的重要工具,它能對一個虛擬庫中各個計算化學性質特性值進行最佳化,從而最優地接近目標。Crame等對庫設計的背景和外延問題作了闡述,Drewry和Young對庫設計的各種方法進行了全面的總結。一種基於已知活性片段(對於目標受體)的方法被套用在單體選擇中。經驗表明,庫的設計應建立在產品空間的計算化學特性值基礎上,而不是在單體空間中。這需要有效的化合物虛擬合成技術,包括:1.片段標記(fragment marking),2.合成反應模擬技術。合成化學家一般偏愛後一種,但在分子的各片段都已定義好的情況下,使用前者更加快速。雜交系統(hybrid system)也被用來進行庫設計。這些方法都需要通過模型計算得到化合物的物理化學性質值。James F Blake[18]對藥物的各種性能值,如吸附性、滲透性、水溶性等預測模型進行了評述。
4.資料庫挖掘技術(database mining)。這主要是從大量的候選類藥分子中尋找出所需要的藥物分子,一般通過亞結構(substructure)、2D或3D相似性度量、分子形狀(shape)、框架(framework)、藥效團等來進行搜尋,或者根據受體和配體之間的三維結構進行藥物三維空間篩選。挖掘技術的效果既依賴於對目標分子的認識,如分子三維結構、化學特性等;也依賴於挖掘工具,如計算速度等。從一個多維特徵描述空間中選擇一個子集作為代表集就是所謂分子的虛擬篩選。通過對數據集合的研究,Bayada等得出結論:Ward的二維指紋圖譜對於隨機選擇有最大的改善;但在另一項研究中發現,分割的化學結構(partitioned chemical descriptor)描述空間適用於不同的子集篩選,解決了有關聚類的技術。Deborah K.等使用回歸分類法(recursive partition)進行藥物篩選,並將其運用到14 G-protein 雙受體檢驗中。
5、統計方法和技術。統計方法如主成分分析、因子分析等被廣泛地用來進行分子描述因子(descriptor)的減維,從而可以更加簡單有效地表述分子信息並降低計算的複雜程度。
6.大型數據的可視化表達。在化學信息學的研究中需要對成千上萬個分子的構效關係模型進行表達,若通過圖表的方式用電腦程式自動地進行數據的過濾和表達有利於分析。
學科套用
現代科學的最新發展使得各學科所面對的化學物質體系變得越來越複雜,辨識研究的任務越來越繁重,既有複雜成分定性定量分析問題,又有不確定性的化學模式識別問題;不但有大型資料庫管理問題,還有數據規律的發現問題等等。化學信息學(chmoinformatics) 就是為解決化學領域中大量數據處理和信息提取任務而結合其他相關學科所形成的一門新學科。這門新學科是在化學計量學(chemometrics) 和計算化學(computational chemistry) [3]的基礎上演化和發展起來的,吸收與融合了許多學科的精華。
化學計量學的發展隨著計算機技術的引進,使化學家獲得大量的化學數據成為易事。例如,人們可以在對樣品一無所知的情況下,從分析儀器的計算機數據採集系統獲得諸如峰高、峰位、峰面積等一系列數據。然而,數據並非等同於信息,尤其是有價值的信息。因此,如何利用現代計算工具與信息處理方法快速地處理和解析化學量測數據,成為一個十分迫切的需求。在這種情況下,出現了將數學、統計學與計算機技術套用於化學的化學計量學。作為在80年代蓬勃興起的新技術,它運用數學、統計學、計算機技術等工具設計或選擇化學量測的最優方法,處理與解析化學量測數據,試圖最大限度地提取待測物質體系的化學相關信息。
在分析化學研究方面,高鴻曾預言分析化學與統計學、數學結合的年代將會到來。作為化學量測科學,分析化學從採樣、實驗設計到分析信號的數據處理和解析、化學信息的提取與利用,無一不涉及到化學計量學所研究的統計與數學方法。化學計量學對現代分析化學基礎理論的發展作出了重要貢獻,基本形成了分析信息理論、分析採樣理論、分析實驗設計與最佳化理論、分析檢測理論、分析校正理論、分析誤差理論、分析儀器信號處理技術、化學資料庫及專家系統技術等,極大地豐富了現代分析化學的理論與技術工具。
此外,化學計量學在工業生產中已得到廣泛套用。例如,多元校正方法已經在啤酒生產和藥物製造中成為常規的監控手段;在造紙、化工、食品、飲料、化妝品等行業中,也被用於過程監測(process monitoring);近來,這些方法還被用於生化發酵、半導體晶片等間歇操作生產過程的監測。到目前為止,化學計量學套用最成功的領域是:多元校正、定量構效關係的建模、化學模式識別、多元過程仿真與監測等。但是,隨著其套用範圍的擴大,研究對象變得越來越複雜,所要處理的數據維數越來越高,數據量也越來越龐大。例如,在藥物設計領域的先導化合物虛擬篩選中,需要處理的化合物達到1040。顯然,傳統的化學計量學已經難以勝任藥物學、生命科學、環境科學、材料科學等領域所提出的化學複雜問題計算和解析,由此迫切需要派生和發展一門包容化學計量學本身的新學科。這就是化學信息學迅速崛起的重要原因。
計算化學的發展計算化學是應化學數據定量分析的需求而產生的,它為化學信息學提供數據計算和信息解析工具。隨著認識層次的深入,化學領域中的各種對象大部分可以用一定的數學模型來抽象和表征;而模型的求解需要藉助於各種數學的手段來進行。因此,化學學科對科學計算的要求越來越高。例如,各種化學反應可以用一定的微分方程來建模,通過數學模型仿真其反應、傳遞等各種過程。但是,求解微分方程帶來了更高的計算要求。通常,大量的微分方程無法通過理論推導方法求解,這就需要通過數值計算的方法來求近似解。同樣,在微觀世界中,隨著對分子結構的認識不斷深入,我們可以通過各種數學模型來模擬分子的狀態,如通過薛丁格方程可以模擬電子云的運動狀態;通過量子力學、分子動力學、統計力學等各種方法可以準確地完成分子的模擬;這就意味著現代化學研究中需要建立更多的模型,並需要解決更多的科學計算問題。
隨著科學技術的發展,人們對客觀世界的認識正在逐步加深,各研究領域中的規律性知識不斷地被總結出來,從而使得各種模型的建立成為可能。科學發展到今天,人們已越來越傾向於從數學的角度來看待問題、認識問題和解決問題。因此,計算化學的問世極大地推進了化學及其各相關學科的現代發展,已經成為解決化學領域中複雜問題的技術支撐和有力工具。一般而言,計算化學需要滿足兩個基本要求:1.準確求解問題;2.快速求解問題。因此計算化學一直向著這兩個方向在不斷發展。一方面,它將多元統計分析方法(如PLS、PCA、判別分析、聚類分析、因子分析、回歸分析等)及人工智慧方法(如模式識別、ANN、遺傳算法、專家系統等)等各類計算手段包容進來,以完成對化學領域對象的準確建模任務;另一方面,它將資料庫技術、快速搜尋算法、並行計算技術等各種提高計算速度的方法包容進來,完成資料庫快速搜尋任務,實現藥物虛擬篩選等套用目標。由於在表面科學、藥學和材料科學中需要對延展分子系統(extended molecular system)進行定量描述,而這一類化學體系的實驗信息又很少,這就需要通過計算化學的手段來解決。通常這類科學計算的計算量非常大,以現有計算機的計算能力,按一般的算法難以快速地給出計算結果,無法實現人機互動。並行計算機及其並行算法的引入,極大地提高了計算速度,使很多問題的計算求解成為可能。由此可見,計算化學的主要任務就是運用高性能科學計算工具,為化學領域問題求解提供途徑。
發展現狀
伴隨著藥物發現和製造技術發展而產生的化學信息學最早是由Frank Brown 用下述簡潔語言定義的:綜合信息資源,將數據(data)轉化為信息(information),將信息轉化為知識(knowledge),並將它用於特定藥物先導化合物的辨識和最佳化領域的一門學科。眾所周知,由於組合化學的出現使得藥物學發生了革命性的變化。現代藥物設計可以利用計算化學的方法,通過分子建模和仿真虛擬合成各種化合物(solid phase synthesis)。但是,通過這種方法得到的可供篩選的化合物庫非常龐大,理論上可以合成的類藥分子超過1040個。顯然,如果去實際合成每一個藥物來進行篩選是不可能的,因此必須從大量的數據中總結出規律,並利用這些規律進行虛擬的高通量篩選(HTS),以減少需要實際合成的化合物,同時儘可能地接近目標化合物。面對如此大量的數據,需要將原本獨立的化學、數學及計算機等學科融合起來,構建一系列計算技術工具,以便完成從數據到信息,從信息到知識"的整個化學信息處理過程。這些技術工具不僅包括實驗數據的分析處理,同時也包括分子各種性質的計算、化合物資料庫的建立、分子的虛擬合成、QSAR的研究、化學結構和性質資料庫的建立、基於三維結構的分子設計、統計方法的研究等。化學信息學正是在上述需求基礎上發展起來的一門交叉學科。它綜合了數學、化學、生物學、信息學、計算機套用、藥物學等學科知識,主要研究如何適當地選取化合物庫(library)的多樣性(diversity)、如何表征藥物分子特徵、如何度量不同分子間的差異性、如何識別類藥(drug like)分子、分子結構和生物性能(bioactivity)關係、如何研發相應的計算機軟硬體等,這就包括了化學計量學及計算化學的研究任務和內容。
化學信息學方法與傳統的化學計量學方法相比,更注重於有用信息的提取和更注重計算速度的提高。為滿足信息提取的需要,它大量採用了人工智慧領域和信息科學領域的先進方法和工具。例如,運用數據挖掘技術去發現大量原始數據中的隱含規則;運用特徵提取技術和編碼技術進行模式的表達;運用資料庫技術完成大型數據的儲存和搜尋;運用計算機仿真技術模擬分子的合成,以及受體和配體之間的匹配等。而為滿足計算速度方面的要求,它一方面採用更高性能的計算機硬體,如並行計算機等;另一方面研究設計更為高效的算法,以最大限度地利用計算機硬體所能提供的計算能力。顯然,化學信息學所研究的問題已經超越了傳統化學計量學所研究的範疇,現有的化學計量學方法難以解決分子設計研究領域大量出現的新問題。從這個意義上講,化學信息學的創立和發展是化學學科拓展的歷史必然。化學信息學在化學領域、化工領域、藥物設計領域、材料科學領域等許多領域中都已得到廣泛的套用。例如,在化工領域中,化學信息學被用來對反應條件進行最佳化和篩選催化劑等,這主要是通過對實驗數據進行建模,然後使用該預測模型實現對實驗工作的指導;在藥物設計領域,主要被用來進行分子模擬、虛擬合成、構效關係分析、虛擬篩選等;在材料科學領域,化學信息學被用於分子模擬和分子設計,並在分子性能預測的基礎上,從所設計的分子中篩選出進行實際合成的分子,以便得到經過性能最佳化的材料。
重要意義
當前課程建設的新任務
近年來國外部分大學正嘗試在化學教育中系統地增加化學信息學課程。化學信息學的發展將推動傳統的化學教育模式的改革。2003年德國的Johann Gasteiger出版了“Chemoinformatics A Textbook”一書,該教科書系統、全面、深入淺出地介紹了化學信息學的各個研究領域及其研究現狀和今後的發展動向。在國內,中國教育部理科化學教學指導委員會已將化學信息學列入高等學校化學專業和套用化學專業的化學教學基本內容。目前,化學信息學作為一門新的教學課程,其課程的要求、內容、教學方式和教材等已經是課程建設的一項新任務。國外化學信息學的教學側重於專業方向教學,交叉性強,涵蓋廣。而中國化學信息學的教學,由於課時的限制,其教學內容多側重於化學文獻學。這種傳統的信息獲取方法,已經嚴重阻礙了學生們的發展眼光,束縛了學生們獲取新信息的手腳,不利於學生們的個性發展和長遠發展,是捨本逐末的短視行為。甚至在高職院校化學專業,認為化學信息學是可有可無的課程。他們認為只要教會學生們基本的技能,讓學生短期內找到工學是最重要,而個人長期的發展被嚴重的忽視了。這種教育思想是與高等教育的初衷格格不入的,是應該改變並及時得到修正的。
高職學生提供解決問題
化學研究中主要面對的三大研究對象是:結構確定、分子設計和合成設計。化學信息學的研究內容將主要針對化。學的三大研究對象開展相關的計算機模擬方法及其套用研究:計算機輔助結構確定、計算輔助分子設計和計算機輔助合成設計。並有其獨特的解決化學問題的方法,主要可以分為三大類:基於數據、基於邏輯和基於原理。第一類主要是指建立多種資料庫管理系統和資料庫,利用其中的數據;第二類主要是利用已有的資料庫中的數據,並在此基礎上,利用歸納、推理和分類等方法將數據轉化成知識,並對知識實施有效的管理,以便於知識得到廣泛的套用。最終,能用於解決實際的化學問題;第三類主要是利用已有的量子化學的理論,對相關的化學問題開展研究。其中,前兩類方法而言,它們注重於適用大量的化學信息(整體)的分析處理,其核心在於化學結構的分析比較、相關物化性質的分析處理的方法和套用研究。而第三類方法主要注重化合物個體的相關性質精確分析的方法及其套用研究。這三類方法的合理組合將促進化學界的研究方法和工業界的生產方式不斷革新。同時它是綠色化學和綠色化工的基礎,是聯繫化學化工為國民經濟可持續性發展服務的橋樑,是實現化學創新的有效方法之一。從三類方法中可以看出,高職學生在前兩方面的套用將會得到十分重要的幫助。
提高學生整合信息內容
當今時代信息具有四大特點:信息量大、延伸範圍廣、傳播速度快、交叉性能強。這些信息的記載、組織與交流對化學學科的發展起到越來越重要的推動作用,同時也成為化學學科的一個重要組成部分。化學信息可分為兩大部分,即化學物質的化學信息和媒體形式的化學信息。前者是利用科學的原理和方法通過測量得到的化學成分的相關信息,如物質的物理、化學性質,物質中各成分的定性、定量以及結構信息等。後者是化學信息的記錄形式,如圖書、期刊、專利等。化學信息的傳播使化學工作者們共享測量的原理、方法及測量結果。學生們要想充分利用有益的測量數據和結果,必須首先學會整合信息內容,提高自己整合信息的綜合能力。既不能丟掉有用信息,又不能使用虛假信息。其次,還要學會表示、管理、變換和使用化學信息。當前最先進的手段是利用計算機表示和管理化學信息,因為計算機能方便地將數據信息的數字元號保存、讀入、計算和輸出。同時,計算機也可以把化學信息中的結構信息用線性編碼等方式表示出來。並能保證結構信息的“惟一性”和“無二義性”。化學信息學從計算機與Internet基礎開始,到在線上文獻檢索、到資料庫的資源與使用、再到信息的表示方式以及小波分析等方面作了詳細地介紹和闡述,已經不再是原來的狹義的信息檢索等方面的內容。這門交叉性較強的學科勢必能使學生具備完善的分析、處理、變換和使用信息的能力。即綜合整合信息的能力。
培養學生信息素質
信息素質是一種涉及信息內容、傳播、分析、信息檢索以及評價各方面的綜合能力。1999年6月,黨中央、國務院發布《關於深化教育改革全面推進素質教育的決定》,明確指出“要讓學生感受和理解知識產生和發展的過程,培養學生的科學精神和創新思維習慣,重視培養學生收集處理信息的能力,獲取新知識的能力、分析和解決問題的能力”。這說明中國政府已經意識到了信息素質教育的重要性。只有提高全民尤其是大學生以科學精神為核心的信息意識和以創新思維為核心的信息能力等基本信息素質,才能把民族潛能轉化為民族智慧型,全面提高民族的競爭力。對於高職院校學生來說,化學信息學可以提高其自覺篩選吸收信息的能力,養成創新思維習慣,自覺具有課題查新的意識,具備渴求知識的欲望,掌握必備的信息處理能力,提高在今後工作崗位上的競爭力,適應日後深造和社會終身學習的客觀要求。
培養創新人格
化學信息學首先能培養學生的良好信息素質,良好的信息素質會使學生在走入社會之後具備較好的獨立性、堅持性、合作性以及自信心和責任心等,而這五個要素是學生創新人格的具體體現。有了良好的獨立性,學生在智力活動和實際活動中能夠獨立自主地發現問題和解決問題。有了良好的堅持性,學生會在創新活動中冷靜面對和睿智的思考他所面臨的一切困難。會在諸多困難中尋找到一絲曙光,為自己找到達到創新目標的途徑和方法。化學信息學在利用計算機和網路技術的基礎上,本身就特彆強調廣域的合作性,有了良好信息素質的學生一定不會為了獨立的個性素質而捨棄合作。相反,會更樂於接觸更多的人,也會把自己的想法和做法與合作者共享。良好的信息素質當然也加強了學生們的責任心和自信心。自信是成功的一半,反過來,學生掌握了更多的知識和信息之後,在廣域合作或廣泛獲取有用信息的基礎上,一定會找到解決問題的有效辦法,這不僅不會消磨其克服困難的意志,反而會更加增強他的自信心和責任心,使得他在工作中表現的更加盡善盡美,創造性地完成創新任務。