非結構化文本數據
以文本(如字元、數字、標點、各種可列印的符號等)作為數據形式的非結構化的數據;非結構化或半結構化文本數據的典型代表是圖書館資料庫中的文檔,這些文檔可能包含結構欄位,如標題、作者、出版日期、長度、分類等,也可能包含大量非結構化文本成分,如摘要和正文內容。
如何快速、準確地從來自非結構化數據源的大規模文本信息資源中提取符合需要的簡潔、精煉、可理解的知識,這就涉及到文本挖掘技術。
非結構化數據
不方便用資料庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
非結構化資料庫
是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。