Web數據挖掘[清華大學出版社書籍]:《Web數據挖掘》是2011年清華 -百科知識中文網

圖書簡介

前言

譯者

2009年3月譯者序序言

過去幾十年里，Web的迅速發展使其成為世界上規模最大的公共數據源。Web數據挖掘的目標是從Web超連結、網頁內容和使用日誌中探尋有用的信息。依據在挖掘過程中使用的數據類別，Web挖掘的任務可以被劃分為三種主要類型：Web結構挖掘、Web內容挖掘和Web使用挖掘。Web結構挖掘從表征Web結構的超連結中尋找知識。Web內容挖掘從網頁內容中抽取有用的信息和知識。而Web使用挖掘則從記錄每位用戶點擊情況的使用日誌中挖掘用戶的訪問模式。

因此，本書自然的分為兩大部分。第一部分，包括第2~5章，介紹數據挖掘的基礎。第二部分，包括第6~12章，介紹Web相關的挖掘任務。

有兩大指導性原則貫穿本書始末。其一，本書的基礎內容適合本科生閱讀，但也包括足夠多的深度資料，以滿足打算在Web數據挖掘和相關領域研讀博士學位的研究生。書中對讀者的預備知識幾乎沒有作任何要求，任何對算法和機率知識稍有理解的人都應當能夠順利地讀完本書。其二，本書從實踐的角度來審視Web挖掘的技術。這一點非常重要，因為大多數Web挖掘任務都在現實世界中有所套用。在過去的幾年中，我有幸直接或間接地與許多研究人員和工程人員一起工作，他們來自於多個搜尋引擎、電子商務公司，甚至是對在業務中利用Web信息感興趣的傳統公司。在這個過程中，我獲得了許多現實世界問題的實踐經歷和第一手知識。我儘量將其中非機密的信息和知識通過本書傳遞給讀者，因此本書能在理論和實踐中有所平衡。我希望本書不僅能夠成為學生的教科書，也能成為Web挖掘研究人員和實踐人員獲取知識、信息，甚至是創新想法的一個有效渠道。

序言序言致謝

在撰寫本書的過程中，許多研究人員都給予我無私的幫助；沒有他們的幫助，這本書也許永遠無法成為現實。我最深切的感謝要給予Filippo Menczer和Bamshad Mobasher，他們熱情地撰寫了本書中重要的兩個章節，他們也是相關領域的專家。Filippo負責Web爬取這一章，Bamshad負責Web使用挖掘這一章。我還要感謝Wee Sun Lee（李偉上），他幫助完成第5章半監督學習的很大一部分。

Jian Pei（裴健）幫助撰寫了第2章中PrefixSpan算法，並且檢查了MS-PS算法。Eduard Dragut幫助撰寫了第10章的最後一節，並且多次閱讀並修改這一整章。Yuanlin Zhang對第9章提出很多意見。我對他們所有人都有所虧欠。

還有許多研究人員以各種方式提供了幫助。Yang Dai（戴陽）和Rudy Setiono在支持向量機（SVM）上提供幫助。Chris Ding（丁宏強）對連結分析提供了幫助。Clement Yu（余德）和ChengXiang Zhai（翟成祥）閱讀了第6章。Amy Langville閱讀了第7章。Kevin C.-C. Chang（張振川）、Ji-Rong Wen（文繼榮）和Clement Yu（余德）幫助了第10章的許多方面。Justin Zobel幫助理清了索引壓縮的許多議題。Ion Muslea幫助理清了包裹簡介的一些議題。Divy Agrawal、Yunbo Cao（曹雲波）、Edward Fox、Hang Li（李航）、Xiaoli Li（李曉黎）、Zhaohui Tan、Dell Zhang（張德）和Zijian Zheng幫助檢查了各個章節。在此對他們表示感謝！

和許多研究人員的討論也幫助本書的成形。這些人包括Amir Ashkenazi、Imran Aziz、 Roberto Bayardo、Wendell Baker、Ling Bao、Jeffrey Benkler、AnHai Doan、Byron Dom、Michael Gamon、Robert Grossman、Jiawei Han（韓家煒）、Wynne Hsu、Ronny Kohavi、David D. Lewis、Ian McAllister、Wei-Ying Ma（馬維英）、Marco Maggini、Llew Mason、Kamel Nigan、Julian Qian、Yan Qu、 Thomas M. Tirpak、Andrew Tomkins、Alexander Tuzhilin、Weimin Xiao、 Gu Xu（徐谷）、Philip S. Yu和 Mohammed Zaki.

我的學生們（不論已畢業或是在讀）檢查了許多算法的正確性並且作出了許多修正。他們包括Gao Cong（從高）、Minqing Hu、Nitin Jindal、Xin Li、Yiming Ma、Yanhong Zhai 和Kaidi Zhao。本書中一些章節是我在伊利諾伊斯大學芝加哥分校的研究生課程講義。我要感謝這些課程的學生幫我實現了一部分算法。他們提出的問題在某些情況下也幫助我修正算法。在這裡我不可能完全列出他們的名字，但我要特別感謝John Castano、Xiaowen Ding、Murthy Ganapathibhotla、Cynthia Kersey、Hari Prasad Divyakotti、Ravikanth Turlapati、Srikanth Tadikonda、Makio Tamura、Haisheng Wang和Chad Williams，他們指出講義中文本、舉例或算法的錯誤。來自德保羅大學的Michael Bombyk 也指出了不少筆誤。

與Springer出版社的員工一起工作是一段令人愉快的經歷。感謝編輯Ralf Gerstner在2005年初徵詢我對撰寫一本有關Web挖掘的書籍是否感興趣。從那以後，我們一直保持著愉快的合作經歷。我還要感謝校對Mike Nugent提高了本書內容的表達質量，以及製作編輯Michael Reinfarth引導我順利完成了本書的出版過程。還有兩位匿名評審也給出不少有見解的評論。伊利諾伊斯大學芝加哥分校計算機科學系對本項目提供了計算資源和工作環境的支持。

最後，我要感謝我的父母和兄弟姐妹，他們給予我一貫的支持和鼓勵。我將最深刻的感激給予我自己的家庭成員：Yue、Shelley和Kate。他們也在許多方面給予支持和幫助。儘管Shelley和Kate還年幼，但他們閱讀了本書的絕大部分，並且找出了不少筆誤。我的妻子將家裡一切事情打理得秩序井然，使我可以將充分的時間和精力用在這本書上。謹以此書獻給他們！

Bing Liu（劉兵）

Web數據挖掘[清華大學出版社書籍]

圖書簡介

目錄

相關詞條

Web數據挖掘[清華大學出版社書籍]

Web數據挖掘[10]

《Web數據挖掘》

Web數據挖掘（第2版）

數據挖掘原理與算法(第二版)

數據倉庫與數據挖掘教程

《數據挖掘原理與套用》

數據挖掘：概念、模型、方法和算法

PHP Web安全開發實戰

熱門詞條