駕馭文本：文本的發現、組織和處理:《駕馭文本：文本的發現、組織和處理》是 -百科知識中文網

內容簡介

《駕馭文本：文本的發現、組織和處理》處理是目前網際網路內容套用(如搜尋引擎、推薦引擎)的關鍵技術。本書涵蓋了文本處理概念和技術的多個方面，包括文本預處理、搜尋、字元串匹配、信息抽取、命名實體識別、分類、聚類、標籤生成、摘要、問答等。《駕馭文本：文本的發現、組織和處理》的特點在於通過實例來理解文本處理的這些概念和技術，讀者利用現有的開源工具就可以自己實現這些實例。

《駕馭文本：文本的發現、組織和處理》適合於網際網路文本內容處理領域的開發人員閱讀，也適合有志於加入這一領域的學生、從業人員閱讀。即使對於已經從事多年文本處理研究和開發工作的人員來說，《駕馭文本：文本的發現、組織和處理》也不失為一種有益的補充性讀物。

內容提要

《駕馭文本：文本的發現、組織和處理》處理是當前網際網路內容套用(如搜尋引擎、推薦引擎)的關鍵技術。本書涵蓋了文本處理概念和技術的多個方面，包括文本預處理、搜尋、字元串匹配、信息抽取、命名實體識別、分類、聚類、標籤生成、摘要、問答等。《駕馭文本：文本的發現、組織和處理》的特點在於通過實例來理解文本處理的這些概念和技術，讀者利用現有的開源工具就可以自己實現這些實例。

作者簡介

Grant Ingersoll是一位工程師、講師和培訓師，也是Lucene代碼的提交者已經機器學習項目Mahout的聯合創始人。

Thomas Morton是OpenNLP和Maximum Entropy(最大熵)的主要開發者。

Drew Farris是一位技術顧問、軟體開發人員及Mahout、Lucene和Solr的貢獻者。

譯者簡介

王斌，博士，中國科學院信息工程研究所研究員，博士生導師，研究方向為信息檢索與自然語言處理。主持國家級、省部級科研項目20餘項，發表學術論文120餘篇。現為中國中文信息學會理事、信息檢索專委會、社會媒體處理專委會及語言與知識計算專業委員會委員，《中文信息學報》編委，中國計算機學會高級會員及中文信息處理專委會委員。

駕馭文本：文本的發現、組織和處理

內容簡介

內容提要

作者簡介

譯者簡介

目錄

相關詞條

張一兵

和學

Word 2010實用技巧大全

苦難是金:從一貧如洗到億萬富豪

CC系

CC派

cc[國民黨中央俱樂部的簡稱]

中央俱樂部

新文化史學

熱門詞條