Web數據挖掘(第2版)

Web數據挖掘(第2版)

《Web數據挖掘(第2版)》是2012-12-11出版的圖書。

圖書簡介

本書旨在講述上述的網際網路數據挖掘任務以及它們的核心挖掘算法;儘可能涵蓋每個話題的廣泛內容,給出足夠多的細節,以便讀者無須藉助額外的閱讀,即可獲得相對完整的關於算法和技術的知識。其中第5章--監督學習的部分內容、結構化數據的抽取、信息整合、觀點挖掘和Web使用挖掘--是本書的特色,這些內容在其他書籍中沒有提及,但它們在Web數據挖掘中卻占有非常重要的地位。當然,傳統的Web挖掘主題,如搜尋、頁面爬取和資源探索以及連結分析在書中也做了詳細描述。

本書儘管題為“Web數據挖掘”,但依然涵蓋了數據挖掘和信息檢索的核心主題;因為Web挖掘大量使用了它們的算法和技術。數據挖掘部分主要由關聯規則和序列模式、監督學習(分類)、無監督學習(聚類)這三大重要的數據挖掘任務,和半監督學習這個相對深入的主題組成。而信息檢索對於Web挖掘而言最重要的核心主題都有所闡述。因此,本書自然的分為兩大部分,第1部分包括第2~5章,介紹數據挖掘的基礎,第2部分包括第6~12章,介紹Web相關的挖掘任務。

有兩大指導性原則貫穿本書始末。其一,本書的基礎內容適合本科生閱讀,但也包括足夠多的深度資料,以滿足打算在Web數據挖掘和相關領域研讀博士學位的研究生。書中對讀者的預備知識幾乎沒有作任何要求,任何對算法和機率知識稍有理解的人都應當能夠順利地讀完本書。其二,本書從實踐的角度來審視Web挖掘的技術。這一點非常重要,因為大多數Web挖掘任務都在現實世界中有所套用。

圖書前言

作為網際網路上最重要的套用之一,Web(全球資訊網)提供了便捷的文檔發布與獲取機制,並逐步成為各類信息資源的聚集地。據Google於2008年發布的官方報告,他們已經在網際網路上發現超過1萬億個Web文檔,而且這個數字還在以每天新增幾十億的速度持續增長。面對如此巨大的信息量,普通Web用戶往往迷失其中,他們迫切需要一種機制快速定位到所需信息。Web挖掘便應運而生,伴隨Web的發展而備受關注。它建立在信息檢索、數據挖掘以及知識管理等技術的基礎上,通過對大量Web文檔進行分析來獲得隱含的知識和模式,從而幫助人們更好地進行信息搜尋和決策制定。也正是Web挖掘技術的不斷進展推動了Web的進一步蓬勃發展。

目前Web挖掘已經引起了學術界、工業界、社會學家的廣泛關注,也吸引了眾多研究人員與開發人員投身其中。國內外很多大學與研究機構先後開設了Web挖掘課程。但長期以來並沒有專門針對Web挖掘的教材與專著。劉兵教授2006年出版的這本著作填補了該領域的空白。該教材針對Web挖掘中眾多關鍵主題進行了深入分析。清華大學出版社獨具慧眼,決定將該書翻譯成中文版在國內出版,這必將對我國Web挖掘的教學與研究產生積極的推動作用,有幸承擔該書的翻譯工作,我們感到十分榮幸。

本書是由伊利諾伊大學芝加哥分校(UIC)的劉兵(Bing Liu)教授歷經一年的時間所著的“Web Data Mining”的翻譯版。劉兵教授是Web挖掘研究領域的國際知名專家,曾擔任多個國際期刊的編輯,也是多個國際學術會議(如WWW, KDD與AAAI等)的程式委員會委員。劉兵教授在Web內容挖掘、網際網路觀點挖掘、數據挖掘等領域有非常高的造詣。他先後在國際著名學術期刊與重要國際學術會議上發表論文一百多篇。本教材中的部分章節也融入了劉兵教授從事Web挖掘研究多年的心血。

全書主要包括前言與12章節。本書的翻譯和審校由俞勇、薛貴榮和韓定一共同完成。其中,俞勇負責前言、第1至2章,薛貴榮負責第3至7章,韓定一負責第8至12章。參加翻譯工作的還有韓定一(前言、第1、8章)、徐生良(第2章)、凌霄(第3章)、郭晉文(第4、5章)、王亮(第6章)、陳林虎(第7章)、傅臨雲(第9章)、第7張迪(第10章)、包勝華(第11章)和王樂天(第12章)。上海交通大學APEX數據和知識管理實驗室的全體同學參加了本書的校對工作。

在本書的翻譯過程中,得到了劉兵教授的大力支持。他向譯者提供了全文書稿的最終版本,並對翻譯工作提出了指導性建議。同時,感謝微軟亞洲研究院李航博士的引薦,使我們有機會學習和翻譯此書。最後,感謝清華大學出版社的編輯們,是他們使得本書能夠儘快與讀者見面。

相關詞條

熱門詞條

聯絡我們