短文本檢索

短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。

定義

短文本(short text) 是指長度較短的文本,它是和文檔或長文本相對而言的,短文本可以是一個小的段落、幾句話、一句話甚至一個短語,常見的短文本有微博、微信、手機簡訊、即時信息、twitter等,具有海量、不規範、特徵稀疏以及訊息相關性等特點。信息檢索 是從大規模非結構化數據(通常是文本)的集合(通常保存在計算機上)中找出滿足用戶信息需求的資料(通常是文檔)的過程。進而我們定義:短文本檢索是從海量、無結構、不規範以及相關的短文本數據集合中找出滿足用戶信息需求的過程。

短文本檢索的表示

我們用q表示用戶查詢,D表示短文本集合,則短文本信息檢索可以形式化的表示為{r1,r2,…,rn}=Search(q|D), 其中r1,r2,…,rn表示返回的與查詢相關短文的排序結果。

相關詞條

熱門詞條

聯絡我們