文本壓縮技術

文本壓縮是指用較少的位或位元組來表示文本,這樣將可以顯著地減小計算機中存儲文本的空間大小。
常規的壓縮方法是基於字元的壓縮,但是,為了能夠在信息檢索系統中進行快速的單詞匹配,壓縮的基本單位是單詞而不是字元。
在選擇壓縮方法時,除了要考慮空間的節省程度外,還要考慮壓縮文檔的編碼和解碼速度。
統計方法
統計方法依賴於對每個符號在文本中出現的機率進行估計,估計得越準確,壓縮的效果就越好。
文本中所有可能的符號的集合稱為字母表。對每個符號進行機率估計的任務稱為建模。
模型的本質是建立信息庫中文檔的機率分布。一旦有了這些機率,符號就轉成二進制數,這個過程稱為編碼。編碼和解碼都使用了同一個模型,解碼是編碼的逆過程。常見的統計編碼方案有兩種:霍夫曼編碼和算術編碼。

相關詞條

熱門詞條

聯絡我們