簡介
htmlparser 是一個純的java寫的html(標準通用標記語言下的一個套用)解析的庫,它不依賴於其它的java庫檔案,主要用於改造或
提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.1。
毫不誇張地說,htmlparser就是目前最好的html解析和分析的工具。
無論你是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱讚。
基本功能
1、信息提取
• 文本信息抽取,例如對HTML進行有效信息搜尋;
• 連結提取,用於自動給頁面的連結文本加上連結的標籤;
• 資源提取,例如對一些圖片、聲音的資源的處理;
• 連結檢查,用於檢查HTML中的連結是否有效;
• 頁面內容的監控。
2、信息轉換
• 連結重寫,用於修改頁面中的所有超連結;
• 網頁內容拷貝,用於將網頁內容保存到本地;
• 內容檢驗,可以用來過濾網頁上一些令人不愉快的字詞;
• HTML信息清洗,把本來亂七八糟的HTML信息格式化;
• 轉成XML格式數據。
常用代碼
取得一段html代碼裡面所有的連結的java版本: