搜尋引擎原理

搜尋引擎原理,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵字)進行索引,建立索引資料庫的全文搜尋引擎。

基本信息

搜尋引擎原理概述

搜尋引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵字)進行索引,建立索引資料庫的全文搜尋引擎。當用戶查找某個關鍵字的時候,所有在頁面內容中包含了該關鍵字的網頁都將作為搜尋結果被搜出來。在經過複雜的算法進行排序後,這些結果將按照與搜尋關鍵字的相關度高低,依次排列。

搜尋引擎結構劃分

搜尋引擎的基本上分為四個步驟:
1. 爬行和抓取
搜尋引擎派出一個能夠在網上發現新網頁並抓檔案的程式,這個程式通常稱之為蜘蛛。搜尋引擎從已知的資料庫出發,就像正常用戶的瀏覽器一樣訪問這些網頁並抓取檔案。搜尋引擎會跟蹤網頁中的連結,訪問更多的網頁,這個過程就叫爬行。這些新的網址會被存入資料庫等待抓取。所以跟蹤網頁連結是搜尋引擎蜘蛛發現新網址的最基本的方法,所以反向連結成為搜尋引擎最佳化的最基本因素之一。 搜尋引擎抓取的頁面檔案與用戶瀏覽器得到的完全一樣,抓取的檔案存入資料庫。
2.索引
蜘蛛抓取的頁面檔案分解、分析,並以巨大表格的形式存入資料庫,這個過程既是索引(index).在索引資料庫中,網頁文字內容,關鍵字出現的位置、字型、顏色、加粗、斜體等相關信息都有相應記錄。
3.搜尋詞處理
用戶在搜尋引擎界面輸入關鍵字,單擊“搜尋”按鈕後,搜尋引擎程式即對搜尋詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜尋,判斷是否有拼寫錯誤或錯別字等情況。搜尋詞的處理必須十分快速。
4.排序
對搜尋詞處理後,搜尋引擎程式便開始工作,從索引資料庫中找出所有包含搜尋詞的網頁,並且根據排名算法計算出哪些網頁應該排在前面,然後按照一定格式返回到“搜尋”頁面。
再好的搜尋引擎也無法與人相比,這就是為什麼網站要進行搜尋引擎最佳化。沒有SEO的幫助,搜尋引擎常常並不能正確的返回最相關、最權威、最有用的信息。

搜尋引擎數據結構

搜尋引擎的核心數據結構倒排檔案(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的檔案叫倒排檔案,即次索引。倒排檔案中包括了所有副鍵值,並列出了與之有關的所有記錄主鍵值,主要用於複雜查詢。 與傳統的SQL查詢不同,在搜尋引擎收集完數據的預處理階段,搜尋引擎往往需要一種高效的數據結構來對外提供檢索服務。而現行最有效的數據結構就是“倒排檔案”。倒排檔案簡單一點可以定義為“用文檔的關鍵字作為索引,文檔作為索引目標的一種結構(類似於普通書籍中,索引是關鍵字,書的頁面是索引目標)。

全文搜尋引擎

在搜尋引擎分類部分我們提到過全文搜尋引擎從網站提取信息建立網頁資料庫的概念。搜尋引擎的自動信息蒐集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍內的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜尋引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜尋引擎資料庫,因此目前最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵字查找信息時,搜尋引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵字的匹配程度,出現的位置/頻次,連結質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁連結返回給用戶。

搜尋引擎目錄索引

與全文搜尋引擎相比,目錄索引有許多不同之處。
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。
此外,在登錄搜尋引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄。
最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵字搜尋,也可按分類目錄逐層查找。如以關鍵字搜尋,返回的結果跟搜尋引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜尋引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜尋引擎現在也提供目錄搜尋,

相關搜尋

熱門詞條

聯絡我們