王斌[信息檢索、大數據專家]

王斌[信息檢索、大數據專家]

王斌,小米公司自然語言處理首席科學家 ,原中國科學院信息工程研究所研究員、博導、第二研究室信息檢索課題組組長,研究方向為信息檢索與自然語言處理。《現代信息檢索導論》、《大數據:網際網路大規模數據挖掘與分散式處理》、《機器學習實戰》、《Mahout實戰》譯者。

人物生平

教育背景

1996-09--1999-07 中國科學院計算技術研究所 博士
1993-09--1996-07 武漢大學計算機科學系 碩士
1989-09--1993-07 武漢大學計算機科學系 學士

學歷

中國科學院計算技術研究所 19960901--19990701 博士研究生畢業
武漢大學計算機科學系 19930901--19960701 碩士研究生畢業
武漢大學計算機科學系 19890901--19930701 本科畢業

學位

中國科學院計算技術研究所 19960901--19990701 工學博士學位
武漢大學計算機科學系 19930901--19960701 工學碩士學位
武漢大學計算機科學系 19890901--19930701 理學學士學位

出國學習工作

愛爾蘭都柏林城市大學 20040701-20041225 國家留學基金委高級訪問學者

工作經歷

2018-08--今 小米集團 自然語言處理首席科學家

2014-09--2018-08 中國科學院信息工程研究所 研究員

1999-07--2014-08 中國科學院計算技術研究所 助研、副研

社會兼職

2014-03--今 ACL2014 PC
2014-02--今 SIGIR2014 PC
2013-03--今 AIRS2013 Area Co-chair
2013-01--今 ACL2013 PC
2012-03--今 AIRS2012 Area Co-chair,Area Co-chair

1989年9月從江西省萬年中學考入武漢大學計算機科學系,分別於1993年、1996年獲得 理學學士及工學碩士學位,1996年9月進入中國科學院計算技術研究所第二研究室機器翻譯組(導師:張祥 研究員,課題組長:劉群)攻讀博士研究生,1999年7月畢業並獲得博士學位,後留所工作至今。2002年獲得國家留學基金委高級訪問學者資助,並於2004年出訪愛爾蘭都柏林城市大學。 歷任中國科學院計算技術研究所前瞻研究實驗室信息檢索課題組組長、副研究員、博士生導師,現為中國科學院信息工程研究所第二研究室(信息內容安全技術國家工程實驗室)信息檢索課題組組長、研究員、博士生導師。主要研究方向為信息檢索及自然語言處理。
近年來,先後主持多項國家973子課題、863、國家自然科學基金、國際合作基金、國家信息安全保障持續發展計畫、北京市自然科學 基金、企業橫向合作等課題。目前在包括國際重要會議SIGIR、CIKM、EMNLP等在內的會議和刊物上發表及合作發表學術論文100餘篇。獲得軟體註冊3項,專利6項。 領導開發的多個系統在相關部門實際使用。獨譯《信息檢索導論》、《大數據:網際網路大規模數據挖掘與分散式處理》兩本斯坦佛大學教材,合譯《機器學習實戰》。自2006年開始在中國科學院大學講授《現代信息檢索》課程。擔任ACL、CIKM、COLING、AIRS多個國際國內會議的程式委員會及組織委員會委員。 現為中文信息學會理事、中文信息學會信息檢索專業委員會委員 、《中文信息學報》編委、中國計算機學會高級會員/Yosef委員及中國計算機學會中文信息處理專業委員會委員。

領導課題組多次參加國際文本檢索評測會議(TREC)並獲得好成績,獲得2004年度國家科技進步二等獎,所在團隊多次被評為計算所優秀集體,多次獲得所優秀員工獎及優秀教師獎。 獲得研究生院朱李月華優秀教師獎,講授課程獲得研究生院“優秀課程”稱號。

至2014年已招收碩士、博士研究生30餘名,畢業20餘名。

研究方向

主要研究興趣為信息檢索(Information Retrieval, IR)及自然語言處理(Natural Language Processing, NLP)。 信息檢索是研究大規模環境下的信息獲取、組織、存儲和訪問的一門學科,而自然語言處理是對文本進行分析和理解的一門學科。希望通過能夠綜合自然語言理解(NLP)、機器學習(Machine Learning-ML)、數據挖掘(Data Mining-DM)、統計分析(Statistical Analyis-SA)等技術用於信息檢索中,來提高信息檢索的精度。

1、 信息檢索的基本理論、模型和算法

2、 信息檢索的性能最佳化技術

3、 信息檢索的套用

目前開展的研究包括:

(1) 基於查詢的理解(Query Understanding)及用戶行為分析(User Action Mining)進行快速的自適應信息檢索(Adaptive IR)和互動式信息檢索(Interactive IR)。

(2) 基於社區的問答系統相關技術研究;

(3) 檢索性能的最佳化技術研究;

(4) 面向社交網路的檢索相關技術研究。

出版著作

發表論文

(1) 面向微博搜尋的時間敏感的排序學習方法,CCIR2014,2014,通訊作者
(2) 基於用戶回答順序的社區問答答案質量預測研究,CCIR2014,2014,通訊作者
(3) Computing and Applying Topic-level User Interactions in Microblog Recommendation,SIGIR2014,2014,通訊作者
(4) Query Dependent Time Sensitive Ranking for Microblog Search,APWeb2014,2014,通訊作者
(5) Context Sensitive Microblog Recommendation based on Users Activity Session,APWeb2014,2014,通訊作者
(6) 一種用於壓縮的索引表示形式,CCIR2013,2013,通訊作者
(7) 一種基於多源信息融合的音樂推薦方法,CCIR2013,2013,通訊作者
(8) Learning to Rank for Question Routing in Community Question Answering,CIKM2013,2013,通訊作者
(9) 一種基於社會化標籤的信息檢索方法,中文信息學報,2013,通訊作者
(10) 利用時間序列信息的微博查詢擴展方法,CCIR2013,2013,通訊作者
(11) 社區問答問題檢索中的問題-回答主題模型,Question-Answer Topic Model for Question Retrieval in Community Question Answering,CIKM2012,2012,通訊作者
(12) Document Re-ranking using Partial Social Tagging(,WI2012,2012,通訊作者
(13) A Category-integrated Language Model for Question Retrieval in Community Question Answering,AIRS2012,2012,通訊作者
(14) Exploiting and Exploring Hierarchical Structure in Music Recommendation,AIRS2012,2012,通訊作者
(15) Query Reformulation Based on User Habits for Query-by-Humming Systems ,AIRS2012,2012,通訊作者
(16) Document Re-ranking using Partial Social Tagging,WI2012,2012,通訊作者
(17) 面向微博搜尋的時間感知的混合語言模型,CCIR2012,2012,通訊作者
(18) CICF:一種基於上下文信息的協同過濾算法,CCIR2012,2012,通訊作者
(19) 一種基於液體狀態機的音樂和弦序列識別方法,CCIR2012,2012,通訊作者
(20) 一種面向問題檢索的使用類別信息的新方法,CCIR2012,2012,通訊作者
(21) 社區問答問題推薦中的雙重用戶角色模型,Dual Role Model for Question Recommendation in Community Question Answering ,SIGIR2012,2012,通訊作者
(22) 用戶感知的Web搜尋引擎快取及預取技術研究,User-Aware Caching and Prefetching Query Results in Web Search Engines,SIGIR2012,2012,通訊作者
(23) Yet another Sorting-Based Solution to the Reassignment of Document Identifiers,AIRS2012,2012,通訊作者
(24) 文檔聚類中用戶相關的標籤推薦技術,User-related Tag Expansion for Web Document ClusteringWeb,ECIR2011,2011,通訊作者
(25) 社會標註中類別屬性對信息檢索的影響研究,Exploring Categorization Property of Social Annotations for Information Retrieval,CIKM2011,2011,通訊作者
(26) 利用聚類技術提高無相關判斷檢索評估的研究,Using Clustering to Improve Retrieval Evaluation without Relevance Judgments,COLING,2010,通訊作者
(27) 基於層次馬爾科夫模型的隱性概念擴展,Improved Latent Concept Expansion Using Hierarchical Markov Random Fields,CIKM2010,2010,通訊作者
(28) 基於維基百科的自適應偽相關反饋研究,Query Dependent Pseudo Relevance Feedback Based on Wikipedia,SIGIR2009,2009,通訊作者
(29) QueryTrans: 基於查詢軌跡圖的查詢相似性研究,QueryTrans: Finding Similar Queries Based on Query Trace Graph,WI2009,2009,通訊作者
(30) 基於子關聯強度排序的面向信息檢索的中文分詞研究, Information Retrieval Oriented Word Segmentation based on Character Association Strength Ranking,EMNLP2008,2008,通訊作者
(31) 詞項依賴模型中句法關係的有效性研究,A Study on Effectiveness of Syntactic Relationship in Dependence Retrieval Model,IJCNLP2008,2008,通訊作者
(32) 文本分類中一種擴展的DF特徵選擇方法,An Extended Document Frequency Metric for Feature Selection in Text Categorization,ARIS2008,2008,通訊作者
(33) 基於維基百科的實體輔助性查詢重構研究,Entity-Based Query Reformulation Using Wikipedia,CIKM2008,2008,通訊作者
(34) 基於主題覆蓋度的查詢性能預測研究,Query Performance Prediction for Information Retrieval Based on Covering Topic Score,Journal of Computer Science and Technology (JCST),2008,通訊作者
(35) 基於短語語義信息的詞項依賴研究,Utilizing Phrase Based Semantic Information for Term Dependency,SIGIR2008,2008,通訊作者
(36) 融合詞項依賴的信息檢索評估和分析,An Evaluation and Analysis of Incorporating Term Dependency for Ad-hoc Retrieval ,ECIR2008,2008,通訊作者
(37) 基於線性分類器的垃圾郵件過濾研究, Using Online Linear Classifiers to Filter Spam Emails,Pattern Analysis and Application (PAA),2006,通訊作者
(38) GJM-2: 語言模型中通用JM平滑方法的一個特例,GJM-2: A Special Case of General Jelinek-Mercer Smoothing Method Language Modeling to Ad Hoc IR ,ARIS2005,2005,通訊作者
(39) 跨語言漢英信息檢索中基於實例的短語翻譯研究,Exmaple-based Phrase Translation in Chinese-English CLIR ,SIGIR2002,2002,通訊作者

發表著作

(1) Mahout實戰,Mahout in Action,人民郵電出版社,2014-03,第1作者
(2) 機器學習實戰,Machine Learning in Action,人民郵電出版社,2013-06,第4作者
(3) 大數據:網際網路大規模數據挖掘與分散式處理,Mining of Massive Datasets,人民郵電出版社,2012-09,第1作者
(4) 信息檢索導論,An introduction to information retrieval,人民郵電出版社,2010-09,第1作者

個人生活

所獲獎勵

國家科技進步二等獎 (2004年度)
計算所所長獎教金 (2006年度)、北緯通信獎教金(2008年度)
計算所所優秀員工 (2006年度、2008年度)
計算所所優秀團隊 (2002年度、2004年度)
朱李月華優秀教師獎(2011)
中國科學院大學年度優秀課程(2012)

課程教學

中國科學院大學,現代信息檢索(2006.9至今)

興趣愛好

桌球、歷史文學、傳記文學。

相關詞條

熱門詞條

聯絡我們