基本信息
DjVu(念作 "déjà vu",法語“曾經見過,似曾相識”之意),是一種用於保存圖書的檔案格式,和PDF有相似之處。它的原理是把圖像分離成前景層和背景層進行壓縮。通過將文字和背景分離開來,DjVu可以用高解析度來還原文字,使銳利邊緣得以保留,並最大限度地提高可辨性;同時用較低的解析度來壓縮背景圖片,從而使整個圖像的質量得到了保證。
DjVu格式背後的一項主要技術是將圖像分為背景層(紙的紋理和圖片)和前景層(文本和線條)。傳統的圖像壓縮格式對於簡單的圖片來說,還可以接受,但對於強對比色彩區域之間的色彩反差的表現則大打折扣,這也是為什麼它們對於文字的還原難以令人滿意的原因。一般來說,要確保文字和線條的清晰度需要較高的解析度(通常為300dpi),而反映連續色彩圖像和紙張的背景機理則不需要那么高的解析度(通常為100dpi) 。因此,要提高清晰度,最好的方法就是將這些元素分為不同的層來進行處理。
主要優勢
檔案更小,容量更大
利於檔案的快速瀏覽,傳送和下載
支持IE、NS等多種瀏覽器,外掛程式免費下載
支持多種格式檔案的轉換(pdf,dwg,jpg,tif,bmp,doc等)
支持網頁中的圖文列印
能夠快速獲取檔案中的文字內容
支持文本關鍵字搜尋
支持本地路徑和網路路徑超連結
支持水印、數字等多種圖像加密技術
公開標準,其解碼程式和部分編碼程式可在網上免費獲得
擁有瀏覽器外掛程式,可直接在 LizardTech 公司的主頁上下載
DjVu套用範圍非常廣泛:圖書檔案、古籍數位化,政府單位、金融檔案單據的電子化管理,加工製造業相關說明書、維修手冊、圖紙等的電子化,城市建設,地圖等。
產生背景
隨著網際網路的逐漸普及和掃描存儲設備的成本逐步降低,越來越多的檔案開始以數位化的形式在網上處理、傳播和保存。人們對於信息的瞬間獲取需要使得電腦螢幕成為各種信息的最佳顯示媒介。然而世界上90%以上的信息仍然在紙上。大量紙質檔案,包括經典印書籍、繪畫、彩色圖片和照片,都擁有十分珍貴的價值,而其中被發布在網路上的卻寥寥無幾。
制約這些信息在網上發布的一個瓶頸就在於掃描圖像的檔案大小問題。現階段,如果要保證文字和影像的清晰效果,就必須要用較高的解析度來進行掃描,其所得檔案往往十分巨大,難以在網上下載。於是,為了達到差強人意的下載速度就不得不降低解析度,這也意味著圖像質量和可辨性得不到保證。傳統的網路圖像格式,如JPEG、GIF和PNG等,在普通解析度下的圖像大小都十分巨大。這也使得網路內容開發者們面對現存的印刷材料寶庫只能望洋興嘆。
在過去數年中,人們對於有效處理彩色圖像檔案的技術的需求越來越強烈,而這種技術實際上就是一種有效的彩色圖像的壓縮技術。當人們試圖建立古代或歷史文獻的網上數字圖書館,製作電子商務網站的網上購物索引,或進行網路出版時,這種技術就顯得尤為重要。另外,低成本、高質量彩色掃瞄器,以及高解析度數位相機的出現,也為這類技術的套用提供了契機。
DjVu就是在這種背景下由美國電報電話公司實驗室(AT&T Labs)於1996年開發成功的一項新的圖片壓縮技術。通過這項技術,幾乎所有的傳統印刷資料都可在網上以高速傳播。
DjVu在紙質世界和比特世界之間搭起了一座橋樑。它使得高質量的掃描圖像可以輕易地在網際網路上進行發布。 DjVu有兩大優勢:
第一是可以將500M以上的高清晰雜誌壓縮到只有10M左右甚至更小的容量,而雜誌質量絲毫不受影響。
第二是由於徹底改變了傳統的網際網路傳輸方式,在觀看DjVu格式的檔案時,甚至比打開普通的網頁更快。
格式轉換
DjVu ---> PDF
利用Adobe Acrobat的虛擬印表機功能就可以將Djvu轉化為pdf格式,如果用Djvu的ie外掛程式的話,可以直接利用外掛程式中的一個列印按鈕(可以看見),而不是檔案選單中的列印功能,這樣效果最好,選擇列印,然後選擇虛擬印表機pdf。注意轉換以後的檔案一般情況下要比Djvu要大得多,有時甚至是原來的10倍之多,但也有差不多的,關鍵看Djvu檔案的來源。
PDF ---> DjVu
常見的方法一般是安裝體積龐大的Document Express Enterprise with DjVu或者安裝LizardTech公司出的專門列印程式,但不太方便。
pdf2djvugui: 是一個綠色軟體,使用簡單,每次只須執行資料夾bin內的pdf2djvugui這個執行檔就可以了,其他參數可自行設定,每次可轉換一個檔案。但這個軟體也有不足之處,就是對一些語言(包括中文)文本識別過的pdf檔案轉換成djvu時可能無法進行,必須選擇Text Extraction為No Text Extraction。
主要套用
DjVu的套用非常廣泛,任何掃描的高解析度圖像和數字生成的檔案都可以通過DjVu的方式在網上進行發布。有了DjVu,網路內容提供商們就可以將大量寶貴的書籍、雜誌、索引、手稿、報紙和古代歷史資料通過掃描而在網上發布了。原來被保存在這些物質載體上的信息,現在可以通過比特的形式被更為廣泛的客群所獲取了。具體來說,DjVu的套用主要體現在以下幾個方面:
商業方面
產品照片的網上發布是一個重要用途。雖然電子商務正在逐漸普及,但網上產品的圖像質量卻另人難以滿意。一般來說,這些產品圖片不是只有郵票大小,就是要花上幾分鐘來下載,而且對於局部的細節無法放大觀看。DjVu則可以解決這些問題。通過分層逐步解碼,圖像可以很快顯示出來,而且還可以利用拖動和放大功能來觀察所有細節。這些特點也非常適用於拍賣物品的圖片發布。商業套用的另一個方面是公司報告的網上發布。目前,PDF格式是公司報告的一個主要發布方式。一份60頁A4大小公司報告用PDF格式來發布,其大小大概在4MB左右,而掃描之後以DjVu格式保存,其檔案大小則不超過800K。此外,其他公司檔案,如技術手冊、CAD繪圖、財務檔案、稅務和郵件等,都可通過DjVu在公司內部網中保存。
教育方面
DjVu將成為電子圖書網上發行的最佳手段。即使已經有了完全電子生成的數字版本,DjVu仍然是螢幕顯示的最佳選擇。例如,對於頁面上包括一定數量的顏色、圖片、公式、線條和其它非文字對象(如大學教材)時,DjVu的超強壓縮功能將大大縮小檔案的尺寸,使其在性能上優於PDF格式。對於網頁設計者來說,DjVu外掛程式的壓縮界面和自動裝載功能,以及和網頁瀏覽器的完全兼容等也是可圈可點之處。另外,DjVu格式的電子書也具有文字查找功能,對於讀者查找關鍵字也非常方便。對於學術作品的網路發布來說,DjVu也是很好的方式。目前,人們主要是將文字處理軟體完成的作品壓縮,然後在網上發布。這樣做的缺點在於,必須先將整個檔案下載,之後才能閱讀,而且一旦檔案當中插有圖片時,檔案又大得驚人。用DjVu則可以將數字生成或掃描生成的任何檔案進行有效的壓縮和快速的顯示,而且不受檔案內容的限制,這也是為什麼越來越多的科學家、研究者和學生開始在網上利用DjVu來發布他們作品的原因。圖書館的資料保存和檔案管理也將受益於DjVu。原來以各種形態出現的文檔,現在都可通過掃描壓縮成DjVu格式,並在網路資料庫中保存。這樣一來,所有的資料都能十分逼真的轉化為數字形式。讀者也就可以更加便利地在網上獲取一些以前很難看到的珍貴材料。
文學藝術方面
對人類早期的手稿和印刷品進行網上發布是DjVu的“殺手鐧”。迄今為止,DjVu是唯一能夠將這些材料纖毫畢現地在網上發布的壓縮技術。公眾以前基本無法接觸到的稀有珍藏,現在都可以毫無限制地在網上傳播,公眾只需花幾秒鐘的時間就可以在自己家裡的電腦螢幕上欣賞到這些珍貴的歷史資料,而歷史學家和研究者們則可以對所有的色彩和細節部分進行細緻的分析。除以文字為主的文獻資料外,繪畫作品也可通過DjVu在網上發布。雖然前文強調的是DjVu對文字邊緣清晰呈現的能力,但對色彩的壓縮和還原,DjVu的表現同樣出色。通過基於微波理論的連續色彩壓縮技術,DjVu對繪畫圖像的處理要優於JPEG格式。特別對於高壓縮比例的圖像來說,DjVu的優勢比較明顯。其連續顯示、放大和移動功能也使用戶的讀圖體驗超越傳統。而且,與文字資料不同的是,繪畫圖像的壓縮顯示沒有前景和背景的分層,因此整幅圖下載起來更為流暢。
行政司法方面
地圖和土地登記檔案可以通過DjVu在網上發布。由於地圖對圖例標記的清晰度要求極高,用傳統的圖像壓縮技術很難將地圖以高解析度在網上發布。人們目前在網上能看到的JPEG格式的地圖,要么根本看不清上面的文字和標記,要么就需要花很長的時間來下載,對電腦記憶體的要求也很高。通過DjVu,則可以輕鬆地將地圖和各種土地登記檔案在網上傳播。
例如,美國國會圖書館的一張1915年出版的黃石國家公園的地圖,原始檔案為5900x6900 像素,大小為121MB,用DjVu壓縮後只有450KB,在當前任何一台電腦上都可以毫不費力地清晰顯示。而用JPEG格式壓縮的檔案則有2.1MB大小,如果沒有十分充裕的記憶體空間,是無法自如顯示的。另外,許多法律檔案,如各種法庭記錄(口供書、判決書等)、不動產記錄(房屋平面圖、買賣契約、抵押證書等)以及稅收記錄等,都可以通過DjVu方便地在網上保存和發布,有利於提高檔案管理效率和司法透明度。例如,喬治亞州科布縣克拉克最高法院就通過DjVu將所有的司法檔案在網上進行發布,用戶可以通過各種標準對檔案進行搜尋。
產品意義
DjVu,作為一種新的彩色檔案壓縮技術,在紙質世界和比特世界之間搭起了一座橋樑。它使得高質量的掃描圖像可以輕易地在網際網路上進行發布。專門針對網路發行而設計的DjVu技術,以其友好的用戶界面和網路功能博得了越來越多的商業和非商業用戶的垂青,其套用將會使方興未艾的網路傳播進入一個新的階段。
使原有的網上圖片傳播更加便捷
隨著讀圖時代的到來,網上圖片傳播的地位將越來越高。原來以JPEG、GIF和PNG等格式在網上發布的圖片,不論是圖像質量還是下載時間,都難以令人滿意。DjVu以其科學有效的壓縮模式,使網上圖片傳播的硬體和頻寬瓶頸得以突破。普通網民可以在普通的計算機上方便快速地進行圖片瀏覽和發布。
使原來無法上網的資料能夠在網上發布
當人類網路傳播逐步由初期的硬體建設發展為一種文化產業,網上內容的開發和建設成為當務之急。除了直接以數字方式進行網上內容生產(如直接在電腦上用字處理軟體和圖像製作軟體進行生產)之外,一個資源最豐富的渠道就是將人類傳統的紙質信息轉化成數字信息而在網上發布,也就是將人類的文化遺產數位化。要成功地實現這一轉化,除了掃描技術之外,還必須要有高效的圖像壓縮技術。DjVu技術就是解決這一問題的關鍵。它可以將以前由於掃描檔案大小原因而難以在網上發布的資料輕易地搬上網際網路,從而使人類寶貴的知識遺產能夠得到更為廣泛的傳播。
有利於推進電子商務和電子政務的發展
消費者在網上無法得到全方位的產品外觀,並對其細節進行研究,是制約電子商務發展的因素之一。DjVu技術的出現,使得產品圖片的發布輕而易舉,而且成本低廉,為電子商務的發展消除了這方面的障礙。對於電子政務來說,政府可以通過DjVu技術方便地將各種檔案在網上存檔和發布,不僅可以提高行政管理效率,也有利於保護公眾的知情權。