20世紀90年代末,由美國國防高等研究計畫署(Defense Advanced ResearchProjects Agency,DARPA)發起,麻薩諸塞大學阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(Carnegie Mellon University,CMU),Dragon Systems等研究機構共同參與制定和設計了話題檢測與跟蹤任務及評測體系(Topic Detection and Tracking,TDT)。
TDT面向新聞信息流,以無結構信息流的話題結構檢測,跨媒體、跨語言的未知話題識別和已知話題信息的跟蹤為主線,1996 以來先後開發了TDT-Pilot,TDT-2至TDT-5的五期語料。這些語料由大量英語、漢語和阿拉伯語的新聞報導構成,例如1996年的TDT-Pilot語料庫是來自路透社新聞專線和CNN新聞廣播的16000篇新聞報導。而除2004年開發的TDT-5是純文本語料庫以外,其它各語料庫均包含文本和廣播兩類新聞報導。