交叉參照方法在毒理學領域的套用
交叉參照已日趨作為非測試方法的一種,被套用於化學品安全評估中。 歐盟化學品管理署公布的物質卷宗和美國環保署公布的高產量物質危害報告中,有相當一部分物質均採用交叉參照方法。交叉參照,即由一個(或多個)化合物的節點信息預測另一個(或多個)具有相似特性的化合物的同一節點,從而替代測試數據。科學合理的假說是交叉參照套用的前提條件,建立假說的基本原則。
建立假說的基本原則
科學合理的假說是交叉參照套用的前提條件,建立假說的基本原則包括:
化學結構相似性
具有相同的官能團,如醛基 、 環氧化物 、 酉旨鍵 、 特殊的金屬離子等; 規律性變化,如碳鏈的依次增加或縮短等,主要是一 些碳氫化合物的溶劑 、 石油產物 、 天然複合物; 額外增加或缺失官能團不會影響物質最終的毒性表征。其判斷主要依賴於現有的毒理學數據,考慮該結構基團可能產生的毒性差異。用於預測類似物的軟體AIM(Analog ldentifieation Methodology),可基於化學結構初步篩選類似物,但不能直接代替交叉參照。
性質相似性
具有相似的理化特性包括,分子量 、 溶解性 、 辛醇/水分配係數 、 蒸汽壓 、粒徑等; 基本的毒代動力學特性 、 代謝途徑 、 作用機制等信息; 具有相同的前體或分解產物。
物質鑑定
物質的組分 、 純度和雜質特性需要進行評估。其中一些雜質可能會影響整體毒性,有必要確定雜質的成分和水平,明確雜質的危害特性,判斷該差異是否會產生額外的影響。
類似物數據質量
合理假說建立的重要因素之一是類似物數據的相關性和可靠性。只有先保證現有的試驗數據質量相關且可靠,交叉參照方法的結果才有效,才可能被接受。
其他支撐數據
分組法中,如篩選到的相似物質數量越多,得到的趨勢越顯著,評估的完整性越高。 單節點的評估中,一些分子相關效應有利於增加可信度,如分子表現出親電子,則皮膚致敏和致突變的機率將增加。 有些缺失的相關信息,可嘗試採用(O)SAR模型預測,如下。Toxtree,OECD toolbox等。
科學上的限制和實際情況的影響
交叉參照套用的限制因素主要包括科學上的限制和實際情況的影響。
科學上的限制
1、相似程度無法量化,只能主觀描述;
2、作用機制相似性無法獲得。
實際情況的影響
1、類似物的數據質量不受控制;
2、目標物質和類似物的物質表征無法比較。因此,交叉參照假說的建立可能存在不確定性,這往往取決於論據的充分性和可靠性,如試驗數據的質量是否足夠可靠,相似性假說建立是否合理,證據權衡結果是否明確等綜合因素考慮。
多媒體交叉參照檢索系統
描述並實現了一個面向數字圖書館的多媒體交叉參照檢索系統。該系統將對多模態數據的檢索無縫地融合到一個系統中,基於交叉參照圖模型,多模態交叉參照搜尋引擎綜合計算媒體對象與查詢之間在語義和內容層上的相似度;系統還支持用戶相關反饋調整交叉參照圖模型。實驗結果表明,該系統能夠比較有效地進行多模態交叉參照檢索。
多模態交叉參照搜尋引擎處理
在交叉參照圖模型的輔助下,可以進行多模態交叉參照檢索。多模態交叉參照檢索是一種全新的檢索模式,目標是把多模態數據融合到一個檢索系統中。它允許用戶提交同種或者不同模態的媒體對象作為查詢例子,在一次查詢過程中返回多種模態的媒體對象,並且可以根據檢索結果,使用用戶感興趣的另一種模態的媒體對象繼續進行檢索。
首先通過預處理模組,提取多媒體文檔中的媒體對象以及它們的底層特徵並存入相應的媒體庫中,同時建立交叉參照圖模型。用戶查詢由多模態交叉參照搜尋引擎處理。為了提高檢索的準確率,該搜尋引擎具有兩個功能:
(1)基於交叉參照圖模型計算媒體對象與查詢在語義層上的相似度;
(2)通過支持向量聚類引發各個單模態搜尋引擎進行基於內容的檢索。最後通過結果融合模組把查詢結果反饋給用戶。用戶的相關反饋被語義學習和結果修正模組處理,用於更新交叉參照圖模型並且改進各個搜尋引擎的查詢結果。多媒體交叉參照檢索系統的查詢過程分為如下幾個步驟:
Step1、用戶提交一組查詢例子(可以是多個不同模態的媒體對象)給多模態交叉參照搜尋引擎,基於建立的交叉參照圖模型對查詢進行語義相似檢索,檢索返回的結果是語義層上最為相似的多模態對象集合;
Step2、將Step1返回的結果集合分解成單模態對象集合,然後採用支持向量聚類分別對每個單模態對象集合進行聚類,根據聚類結果選擇某個聚類的質心作為查詢輸入到各個單模態搜尋引擎,引發基於內容的檢索;
Step3、對多模態交叉參照搜尋引擎和各個單模態搜尋引擎返回的結果進行融合,這個過程實際上是對查詢結果 在語義層和底層感知特徵上的相似度進行融合;
Step4、根據用戶相關反饋更新圖模型,同時對本次查詢的結果進行修正。
多模態交叉參照搜尋引擎
首先用戶提交一組查詢例子,然後基於交叉參照圖模型,採用Dijkstra最短路徑算法對查詢例子進行擴展,生成一個候選集合,候選集合中的媒體對象被認為與查詢例子在語義上具有一定的相似性,需要對其進行排序。候選媒體對象與查詢例子之間的相似度和以下三個條件有關:
(1)與大量的相關候選媒體對象有關聯;
(2)通過高權重的邊和相關候選媒體對象有關聯;
(3)與大量高權重的相關候選媒體對象有關聯。假設候選集中有n個媒體對象,可以用一個n維的相似度矢量SV=〈sv,sv,…,sv〉表示候選集中媒體對象與查詢例子之間的相似度,其中對象o與查詢例子之間的相似度用sv表示。首先,把SV初始化為單位矢量,然後根據無向的鄰接矩陣進行疊代計算,直到SV收斂為止(文獻已經證明這種算法是收斂的)。對候選集中的媒體對象按sv降序排序,得到最終的查詢結果。
支持向量聚類
由於交叉參照圖模型是基於多媒體文檔的語義框架建立的,多媒體文檔創建時具有一定的主觀性,初始的交叉參照圖模型不能完全反映媒體對象的真實語義信息,因此多媒體交叉參照檢索系統還必須結合基於內容的檢索。為了引發各個單模態搜尋引擎進行基於內容的檢索,需要利用多模態交叉參照搜尋引擎返回的查詢結果。但是這個查詢結果集是一個多模態數據集合Q,不同模態的媒體對象在底層感知特徵上具有很大的差別,必須把Q分解成單模態對象集合Q-S,然後分別對單模態集合聚類,選擇一個合適的聚類質心作為單 模態搜尋引擎的輸入,進行基於視覺 、聽覺或幾何特徵的多媒體檢索。採用支持向量聚類算法對每個單模態檢索得到的結果進行聚類,它能夠將特徵數據映射到高維空間去處理任意分布數據的聚類,並且通過Mercer核函式來處理異常點,而且在其特徵空間中不需要進行精確的運算,具有較好的聚類效果。假設對單模態對象集合Q-S進行聚類後形成m個聚類集合{C,C,…,C},可以選擇一個最優的聚類。其中C表示聚類集合包含的元素個數。採用聚類質心而不是查詢例子去引發基於內容的檢索有兩個原因:
(1)單模態查詢例子集合有可能為空,這種情況下就只能採用聚類質心;
(2)在基於內容的檢索過程中,初始的查詢例子往往不能完全表達用戶的查詢需求,需要用戶的相關反饋對初始查詢進行調整,採用聚類質心作為初始查詢可以達到這個目的。