常規的壓縮方法是基於字元的壓縮,但是,為了能夠在信息檢索系統中進行快速的單詞匹配,壓縮的基本單位是單詞而不是字元。
在選擇壓縮方法時,除了要考慮空間的節省程度外,還要考慮壓縮文檔的編碼和解碼速度。
統計方法
統計方法依賴於對每個符號在文本中出現的機率進行估計,估計得越準確,壓縮的效果就越好。
文本中所有可能的符號的集合稱為字母表。對每個符號進行機率估計的任務稱為建模。
模型的本質是建立信息庫中文檔的機率分布。一旦有了這些機率,符號就轉成二進制數,這個過程稱為編碼。編碼和解碼都使用了同一個模型,解碼是編碼的逆過程。常見的統計編碼方案有兩種:霍夫曼編碼和算術編碼。
相關詞條
-
音頻視頻信號壓縮技術
音頻視頻信號壓縮技術 (audio-video signal compression technology) 對聲音和圖象數據進行壓縮的數字編碼技術。它...
簡介 壓縮的方法 數據冗餘 有損壓縮編碼和無損壓縮編碼 -
資料壓縮
資料壓縮也稱為數據壓縮。在計算機科學和資訊論中,資料壓縮或者源編碼是按照特定的編碼機制用比未經編碼少的資料位元(或者其資訊相關的單位)表示資訊的過程。
概要 套用 理論 -
視頻壓縮技術
所謂視頻編碼方式就是指通過特定的壓縮技術,將某個視頻格式的檔案轉換成另一種視頻格式檔案的方式。目前視頻流傳輸中最為重要的編解碼標準有國際電聯的H.261...
視頻編碼的基本原理 去時域冗餘信息 -
管理海量數據——壓縮、索引和查詢(第2版)(經典再現全新修訂版)
3336.8 圖像壓縮技術總結 334第7章 文本圖像 3377.1 文本圖像壓縮概念 3397.2 有損壓縮和... 161.5 MG海量文檔管理系統 20第2章 文本壓縮 232.1...
-
多媒體技術
多媒體技術是指通過計算機對文字、數據、圖形、圖像、動畫、聲音等多種媒體信息進行綜合處理和管理,使用戶可以通過多種感官與計算機進行實時信息互動的技術,又稱...
組成內容 基本要素 關鍵特性 主要用途 基本特點 -
資料庫壓縮
資料庫壓縮,是資料庫技術與壓縮技術結合的產物。國內有一款資料庫壓縮產品可以在www.dbplus.cn 查詢到,但是具體套用實例則不詳。
-
文本數據挖掘
文本數據挖掘(Text Mining)是指從文本數據中抽取有價值的信息和知識的計算機處理技術。
-
多媒體技術套用
多媒體技術套用是當今信息技術領域發展最快、最活躍的技術,是新一代電子技術發展和競爭的焦點。多媒體技術融計算機、聲音、文本、圖像、動畫、視頻和通信等多種功能於一體。
基本簡介 套用現狀 其他相關 -
常用多媒體檔案格式與壓縮標準解析
jp2圖像檔案格式 mp3音頻檔案格式 mp4視頻檔案格式
基本信息 內容簡介 目錄