Apache Tika

Apache Tika 利用現有的解析類庫,從不同格式的文檔中(例如HTML, PDF, Doc),偵測和提取出元數據和結構化內容。

簡介

功能包括:

偵測文檔的類型,字元編碼,語言,等其他現有文檔的屬性。

提取結構化的文字內容。

該項目的目標使用群體主要為搜尋引擎以及其他內容索引和分析工具。程式語言為Java.

支持的文檔格式

目前支持的文檔格式和對應的解析類庫如下:

Tika 解析器類

格式 描述
Microsoft® Excel® 在所有的 Tika 版本中都有對 Excel 電子數據表的支持,基於的是 POI 的 HSSF 庫。
Microsoft Word®(application/msword) 在所有的 Tika 版本中都有對 Word 文檔的支持,基於的是 POI 的 HWPF 庫。
Microsoft PowerPoint® 在所有的 Tika 版本中都有對 PowerPoint 演示的支持,基於的是 POI 的 HSLF 庫。
Microsoft Visio® (application/vnd.visio) 在 Tika V0.2 中加入了對 Visio 圖表的支持,基於的是 POI 的 HDGF 庫。
Microsoft Outlook® 在 Tika V0.2 中加入了對 Outlook 訊息的支持,基於的是 POI 的 HSMF 庫。
GZIP 壓縮 (application/x-gzip) 在 Tika V0.2 中加入了對 GZIP 的支持,基於的是 Java 5 類庫中的 GZIPInputStream 類。
bzip2 壓縮 (application/x-bzip) 在 Tika V0.2 中加入了對 bzip2 的支持,基於的是 Apache Ant 的 bzip2 解析代碼,而它最初基於的是 Aftex Software 的 Keiron Liddle 的工作成果。
MP3 音頻(audio/mpeg) 在 Tika V0.2 中加入了對 MP3 檔案的 ID3v1 標記的解析。如果找到,如下的元數據將被提取並設定: TITLETitleSUBJECTSubject
MIDI 音頻 (audio/midi) Tika 使用 javax.audio.midi 內的 MIDI 支持來解析 MIDI 序列檔案。很多卡拉 OK 檔案格式都基於的是 MIDI 並包含嵌入文本歌曲形式的歌詞,並且 Tika 知道該如何提取。
Wave 音頻 (audio/basic) Tika 通過 javax.audio.sampled 包支持取樣的 wave 音頻(.wav 檔案等)。只有取樣元數據才被提取。
Extensible Markup Language (XML) (application/xml) Tika 使用 javax.xml 類解析 XML 檔案。
HyperText Markup Language (HTML) (text/html) Tika 使用 CyberNeko 庫解析 HTML 檔案。
圖像 (image/*) Tika 使用 javax.imageio 類從圖像檔案中提取元數據。
Java 類檔案 Java 類檔案的解析基於的是 ASM 庫以及 JCR-1522 的 Dave Brosius 的工作成果。
Java Archive Files JAR 檔案的解析是綜合使用 ZIP 和 Java 這兩種類檔案解析器完成的。
OpenDocument (application/vnd.oasis.opendocument.*) Tika 使用 Java 語言中的內置 ZIP 和 XML 特性來解析多為 OpenOffice V2.0 或更高版本所用的 OpenDocument 文檔類型。較早的 OpenOffice V1.0 格式也受支持,但它們目前不能像較新的格式那樣被自動檢測。
純文本 (text/plain) Tika 使用 International Components for Unicode Java 庫(ICU4J)來解析純文本。
Portable Document Format (PDF) (application/pdf) Tika 使用 PDFBox 庫來解析 PDF 文檔。
Rich Text Format (RTF) (application/rtf) Tika 使用 Java 的內置 Swing 庫來解析 RTF 文檔。
TAR (application/x-tar) Tika 使用來自 Apache Ant 的 TAR 解析代碼的調整版本來解析 TAR 檔案。而此 TAR 代碼基於的是 Timothy Gerard Endres 的工作成果。
ZIP (application/zip) Tika 使用 Java 的內置 ZIP 類來解析 ZIP 檔案。

項目歷史

該項目於2007年3月開始啟動,最開始是ApacheLucene項目的子項目,2010年5月成為Apache組織的頂級項目。

相關詞條

熱門詞條

聯絡我們