htmlparser

htmlparser

htmlparser 是一個純的java寫的html(標準通用標記語言下的一個套用)解析的庫,它不依賴於其它的java庫檔案,主要用於改造或提取html。

簡介

htmlparser   是一個純的java寫的html(標準通用標記語言下的一個套用)解析的庫,它不依賴於其它的java庫檔案,主要用於改造或

提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.1。

毫不誇張地說,htmlparser就是目前最好的html解析和分析的工具。

無論你是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱讚。

基本功能

1、信息提取

• 文本信息抽取,例如對HTML進行有效信息搜尋;

• 連結提取,用於自動給頁面的連結文本加上連結的標籤;

• 資源提取,例如對一些圖片、聲音的資源的處理;

• 連結檢查,用於檢查HTML中的連結是否有效;

• 頁面內容的監控。

2、信息轉換

• 連結重寫,用於修改頁面中的所有超連結;

• 網頁內容拷貝,用於將網頁內容保存到本地;

• 內容檢驗,可以用來過濾網頁上一些令人不愉快的字詞;

• HTML信息清洗,把本來亂七八糟的HTML信息格式化;

• 轉成XML格式數據。

常用代碼

取得一段html代碼裡面所有的連結的java版本:

相關詞條

相關搜尋

熱門詞條

聯絡我們