MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。
雖然MG4J(managing Gigabytes for Java)不是一個像Lucene、Egothor和xapian那樣的信息檢索庫,但是我們相信正在讀這本書的每一位軟體工程師都應該知道它,因為它對構建Java信息檢索庫提供了低水平的支持。MG4J是在一本很流行的書問世之後被命名的,這本書是由H.Witten,Alistair Moffat和Timothy所寫,名字是《管理十億位元組:壓縮並且索引文檔和圖片》。在使用他們的分散式、可容錯的網頁爬蟲UbiCrawler收集到大量的網頁數據後,它的作者需要一個軟體來解析那些收集來的數據,由於這個需求,MG4J誕生了。
MG4J的庫提供了最佳化的類來處理I/O,轉化索引檔案的壓縮等等。這個項目的主頁是:http://mg4j.dsi.unimi.it/;標記庫是免費的、開源的,在LGPL許可的方式發布,當前的版本是0.8.2。