話題發現

話題發現 (Topic Detection),又稱話題檢測,是指將新聞專線和新聞報導等來源的數據流中的信息歸入不同的話題,並在必要時建新話題的技術。它來源於TDT(Topic Detection and Tracking)任務,包括首次報導檢測,線上話題檢測,最新事件檢測,事件回顧檢測和層次話題檢測等子任務。

20世紀90年代末,由美國國防高等研究計畫署(Defense Advanced ResearchProjects Agency,DARPA)發起,麻薩諸塞大學阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(Carnegie Mellon University,CMU),Dragon Systems等研究機構共同參與制定和設計了話題檢測與跟蹤任務及評測體系(Topic Detection and Tracking,TDT)。

TDT面向新聞信息流,以無結構信息流的話題結構檢測,跨媒體、跨語言的未知話題識別和已知話題信息的跟蹤為主線,1996 以來先後開發了TDT-Pilot,TDT-2至TDT-5的五期語料。這些語料由大量英語、漢語和阿拉伯語的新聞報導構成,例如1996年的TDT-Pilot語料庫是來自路透社新聞專線和CNN新聞廣播的16000篇新聞報導。而除2004年開發的TDT-5是純文本語料庫以外,其它各語料庫均包含文本和廣播兩類新聞報導。

相關詞條

熱門詞條

聯絡我們