圖書詞頻統計器

圖書詞頻統計器

“圖書詞頻統計器”考察自1800年到21世紀的辭彙變化。任何人都可以使用其界面。只要在搜尋欄輸入想要搜尋的辭彙,便可看到自1800年到21世紀的辭彙變化,以中文辭彙為例,主要的變化可在20世紀初,上世紀40年代和80年代看到,詞頻的數據增減曲線代表著時代和文化的變化。如輸入中文的“愛情”,這個辭彙分別在上世紀30年代,60年代達到兩個小高潮,在80年代則到達了最頂峰,如輸入“工業”一詞,在60年代和90年代出現了兩個高峰,而當輸入“網際網路”時,則只有近新世紀時才出現一個最大峰值。

簡介

圖書詞頻統計器圖書詞頻統計器

谷歌本周推出了與哈佛大學合作的科學實驗項目“圖書詞頻統計器”,可對1800年到2000年世界上4%的圖書,總計5億個辭彙進行詞頻統計,查看語言和文化的發展趨勢,實驗基於谷歌圖書館的數字圖書,目前這一實驗項目也支持中文。

“谷歌實驗室”正式發布了這一項目,其基於谷歌圖書館自有的500萬本已經數位化了的小說和非小說,將其中的共5億個辭彙進行統計,這些書最早出版於1800年,最遲則到2000年,其中包括了英語法語西班牙語德語中文俄羅斯語

使用方法

任何人都可以使用其界面。只要在搜尋欄輸入想要搜尋的辭彙,便可看到自1800年到21世紀的辭彙變化,以中文辭彙為例,主要的變化可在20世紀初,上世紀40年代和80年代看到,詞頻的數據增減曲線代表著時代和文化的變化。如輸入中文的“愛情”,這個辭彙分別在上世紀30年代,60年代達到兩個小高潮,在80年代則到達了最頂峰,如輸入“工業”一詞,在60年代和90年代出現了兩個高峰,而當輸入“網際網路”時,則只有近新世紀時才出現一個最大峰值。

英文詞頻的變化同樣顯示了英語國家的社會變化,如“女性”一詞在70年代很少出現,但之後卻開始出現高峰,和西方國家女權主義運動同步,此外,還可以看到,“弗洛伊德”的出現頻率要高於“伽利略”、“達爾文”或“愛因斯坦”。

這一實驗項目是谷歌和哈佛大學合作而成,其實驗研究已在權威科學雜誌《科學》刊登論文。對於語言、文學、歷史和藝術研究,這一實驗將提供很大的參考價值,同時,非學術界的普通人也可以通過任何辭彙的搜尋查看社會文化的發展趨勢。

儘管歷史上的大部分圖書已屬於公共領域,但20世紀仍有不少書屬於著作權範圍,所以谷歌沒有提供單本書的下載,但是,網友可以定製對詞頻的統計,而這些統計數據結果也屬於“創造共享計畫”,可以免費下載。

相關詞條

相關搜尋

熱門詞條

聯絡我們