話題檢測與跟蹤
話題檢測與跟蹤(Topic Detection and Tracking)是近年提出的一項信息處理技術,這項技術旨在幫助人們應對日益嚴重的網際網路信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續跟蹤。自從1996年以來,該領域進行了多次大規模評測,為信息識別、採集和組織等相關技術提供了新的測試平台。由於話題檢測與跟蹤相對於信息檢索、數據挖掘和信息抽取等自然語言處理技術具有很多共性,並且面向具備突發性和延續性規律的新聞語料,因此逐漸成為當前信息處理領域的研究熱點。
與一般的信息檢索或者信息過濾不同,TDT所關心的話題不是一個大的領域(如美國的對華政策)或者某一類事件(如恐怖活動),而是一個很具體的“事件(Event)”,如美國911事件、江澤民訪美等等。為了區別於語言學上的概念,TDT評測會議對“話題”進行了定義:所謂話題(Topic),就是一個核心事件或活動以及與之直接相關的事件或活動。而一個事件(Event)通常由某些原因、條件引起,發生在特定時間、地點,涉及某些對象(人或物),並可能伴隨某些必然結果。通常情況下,可以簡單地認為話題就是若干對某事件相關報導的集合[1]。“話題檢測與跟蹤”則定義為“在新聞專線(Newswire)和廣播新聞等來源的數據流中自動發現主題並把主題相關的內容聯繫在一起的技術”
。例如,“俄克拉荷馬城爆炸案”這個主題包括1995年美國聯邦大樓被炸、悼念儀式、州和美國聯邦政府的一系列調查、對Timothy McVeigh的指控等等。這個定義和其它與話題有關的研究不同,那些研究主要處理信息分類問題,比如任何與爆炸有關的事件。處理分類問題需要專門的分類體系,註解起來效率低而且主觀色彩濃厚。TDT與其它研究不同之處還在於它強調新事件的發現,希望找出不在人們意料之中的或沒有人知道如何去查詢的事件。
TDT是一項綜合的技術,需要比較多的自然語言處理理論和技術作為支撐,因此這些測評對其進行了細化。根據不同的套用需求,TDT評測會議把話題檢測和跟蹤分成五個子任務。
● 報導切分(Story Segmentation)找出所有的報導邊界,把輸入的源數據流分割成各個獨立的報導。
● 話題跟蹤(Story Tracking)給出某話題的一則或多則報導,把後輸入進來的相關報導和該話題聯繫起來。它實際上包括兩步,首先給出一組樣本報導,訓練得到話題模型,然後在後續報導中找出所有討論目標話題的報導。
● 話題檢測(Story Detection)發現以前未知的新話題。
● 首次報導檢測(New Event Detection)在數據流中檢測或發現首次,並且只能是首次討論某個話題的報導。與話題檢測本質相同,區別只在於結果輸出的形式不同。
● 關聯檢測(Link Detection)判斷兩則報導是否討論的是同一個話題。
主要實現方法
構造一個實用化的TDT系統是進行TDT研究的主要目的之一,也是檢驗現有方法優劣的基礎。從參評的數量來看,話題發現和話題跟蹤兩個子任務最受關注。因此我們介紹的實現方法也以這兩個任務為主。總體而言,要實現話題發現與跟蹤功能,需要解決以下主要問題:
(1)話題/報導的模型化
(2)話題-報導相似度的計算
(3)聚類策略
(4)分類策略(閾值選擇策略)
[1]顯然,對這種相關性必須做一個界定,不能任由集合無限擴大。為此,TDT會議組織者在構造TDT語料時,對挑選出來的每個話題都定義了相關性判定規則。
末端脫氧核苷酸轉移酶
末端脫氧核苷酸轉移酶 : This enzyme functions physiologically by adding extra nucleotides to the joining regions between antigen receptor gene segments during the gene rearrangement process, thereby increasing genetic diversity.
TDT:MPEG-2傳送流中的時間與日期表
在數位電視領域中,TDT是MPEG-2傳送流中包含的各種業務信息(SI)表之一,是時間與日期表的縮寫,用於更新IRD的內部時鐘,其語法結構如下圖所示:
table_id | section SYNTAX indicator | reserved future use | reserved | section length | UTC time |
IRD的內部時鐘。至少30s要傳輸TDT。
".tdt" 網點紙檔案
TDT格式是日本專業漫畫軟體comicstudio中,濾鏡《PowerTone3》的網點紙格式。將《PowerTone3》濾鏡安裝到Adobe Photoshop的濾鏡中同樣可以運行".tdt"格式的網點紙檔案。
TDT: Transmission disequilibrium test(傳遞不平衡分析)
用於消除群體遺傳學中由於奠基者效應,瓶頸效應和遺傳漂變等造成的群體間基因頻率超級較大的群體分層或層化現象的統計學方法
列車發車計時器(TDT)
列車發車計時器(Train Depart Timer, TDT),設於各車站,為列車運行提供車站發車時機,列車到站晚點情況的時間指 示,提示列車按計畫時刻表運行.正常情況下,在列車整列進入站台後,按系統給定站 停時間倒計時顯示距計畫時刻表的發車時間,為零時指示列車發車;若列車晚點發車, 則 TDT 增加停站時間的計時.在特殊情況下,若實施了站台扣車控制,TDT 給出"H"顯 示;如有提前發車命令,TDT 立即顯示零;列車通過車站時 TDT 顯示"="
熱力致死時間
熱力致死時間
(thermal death time)
指在某一恆定溫度條件下,將食品中的某種微生物活菌全部殺死所需要的時間 min.
熱中子衰減時間
thermal decay time 熱中子衰減時間測井(TDT) 斯倫貝謝開發的一種核測井儀器,阿特拉斯稱為中子壽命測井儀,國內多接受後者的稱法(簡稱其為sigma log)。