基本概述
搜尋引擎收錄是搜尋引擎收錄一個網站頁面具體的數量值,收錄的數量越多,收錄的時間越快,證明此網站對搜尋引擎比較友好。
比較常用的搜尋引擎收錄有baidu(百度)google(谷歌)yahoo(雅虎)sogou(搜狗)youdao(有道)soso(搜搜)bing(必應)、360(360)。
收錄原理
收集待索引網頁的url
Internet上存在的網頁數量絕對是個天文數字,每天新增的網頁也不計其數,搜尋引擎需要首先找到要索引收錄的對象。
具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至於是否叫這么兩個名字更是眾說紛紜,當然,名字本身並不重要——至少到目前為止。
主流的看法是,在Google的robots中,的確存在著相當部分專門為真正的索引收錄頁準備“素材”的robots——在這裡我們姑且仍稱之為FreshBot吧。
——它們的任務便是每天不停地掃描Internet,以發現並維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網頁時,目的並不在於索引這個網頁,而是找出這個網頁中的所有連結。
——當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網頁時不具備“排它性”。
也即是說,位於Google不同的數據中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、快取頁面時則不會出現類似的情況。
即Google會限制由某個數據中心的robots來完成這項工作的,而不會出現兩個數據中心同時索引網頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從伺服器訪問日誌中時常可以看到源自不同IP的GoogleBot在很短的時間內多次訪問同一個網頁證明FreshBot的存在。
因此,有時候發現GoogleBot頻繁訪問網站也不要高興得太早,也許其根本不是在索引網頁而只是在掃描url。
FreshBot記錄的信息包括網頁的url、TimeStamp(網頁創建或更新的時間戳),以及網頁的Head信息(註:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網頁信息的,而是將這部分工作交由DeepBot完成。
不過,筆者傾向於前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網站設定禁止索引、收錄的頁面排除在外,以提高效率,而網站進行此類設定時除使用robots.txt外還有相當部分是通過mata標籤中的“noindex”實現的,不讀取目標網頁的head似乎是無法實現這一點的),如果網頁不可訪問,比如說網路中斷或伺服器故障,FreshBot則會記下該url並擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。
總的來說,FreshBot對伺服器頻寬、資源的占用還是比較小的。最後,FreshBot對記錄信息按不同的優先權進行分類,向DeepBot提交,根據優先權不同,主要有以下幾種:
A:新建網頁;
B:舊網頁/新的TimeStamp,即存在更新的網頁;
C:使用301/302重定向的網頁;
D:複雜的動態url:如使用多個參數的動態url,Google可能需要附加的工作才能正確分析其內容。——隨著Google對動態網頁支持能力的提高,這一分類可能已經取消;
E:其他類型的檔案,如指向PDF、DOC檔案的連結,對這些檔案的索引,也可能需要附加的工作;
F:舊網頁/舊的TimeStamp,即未更新的網頁,注意,這裡的時間戳不是以Google搜尋結果中顯示的日期為準,而是與Google索引資料庫中的日期比對;
G:錯誤的url,即訪問時返回404回應的頁面。
優先權按由A至G的順序排列,依次降低。需要強調的是,這裡所言之優先權是相對的,比如說同樣是新建網頁,根據指向其的連結質量、數量的不同,優先權也有著很大的區別,具有源自相關的權威網站連結的網頁具有較高的優先權。
此外,這裡所指的優先權僅針對同一網站內部的頁面,事實上,不同網站也有有著不同的優先權,換言之,對權威網站中的網頁而言,即使其最低優先權的404url,也可能比許多其他網站優先權最高的新建網頁更具優勢。
網頁的索引與收錄
接下來才進入真正的索引與收錄網頁過程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語言、網站位置等不同,對特定網站的索引工作將分配至不同的數據中心完成。
整個索引過程,由於龐大的數據量,可能需要幾周甚至更長時間才能完成。
正如上文所言,DeepBot會首先索引優先權較高的網站/網頁,優先權越高,出現在Google索引資料庫及至最終出現在Google搜尋結果頁面中的速度便越快。
對新建網頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應的網頁便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用“site”搜尋時常常看到標註為補充結果只顯示網頁url或只顯示網頁標題與url但沒有描述的頁面,此即是處於這一階段網頁的正常結果。
當Google真正讀取、分析、快取了這個頁面後,其便會從補充結果中挑出而顯示正常的信息。
——當然,前提是該網頁具有足夠的連結,特別是來自權威網站的連結,並且,索引庫中沒有與該網頁內容相同或近似的記錄(DuplicateContent過濾)。
對動態url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態url出現在補充結果中的幾率遠大於使用靜態url的網頁,往往需要更多、更有價值的連結才能從補充結果中逸出。
而對於上文中之“F”類,即未更新的網頁,DeepBot會將其時間戳與Google索引資料庫中的日期比對,確認儘管可能搜尋結果中相應頁面信息未來得及更新但只要索引了最新版本即可——考慮網頁多次更新、修改的情況——;至於“G”類即404url,則會查找索引庫中是否存在相應的記錄,如果有,將其刪除。
數據中心間的同步
前文我們提到過,DeepBot索引某個網頁時會由特定的數據中心完成,而不會出現多個數據中心同時讀取該網頁,分別獲得網頁最近版本的情況,這樣,在索引過程完成後,便需要一個數據同步過程,將網頁的最新版本在多個數據中心得到更新。
這就是之前著名的GoogleDance。不過,在BigDaddy更新後,數據中心間的同步不再象那樣集中在特定的時間段,而是以一種連續的、時效性更強的方式進行。
影響收錄
網站標題
網站標題、描述、關鍵字的寫法在站長們的心目中一直是很慎重的一件事情,直接關係到網站的排名與流量,而且這三大標籤在網站上線之後不能輕易修改,這就需要站長們事先做好準備,如果說事先沒有考慮好,上線之後又去修改的話百度會認為你的網站不穩定,剛上線就修改關鍵標籤,有作弊嫌疑,然後就把你的網站丟進沙盒,慢慢考察,此時想要百度收錄網站至少要等到一個月之後,而且保證這段時間每天給網站添加高質量的文章。
外部連結
增加外部連結,能讓搜尋引擎有效地抓取和收錄網頁。
網站內容
原創的網站內容更容易被收錄,採集、複製他人信息等做法一般很難收錄。
原創文章的最大好處,就是可以一舉多得,可以增加網站被搜尋引擎收錄的機率,也可提升網站最佳化排名。
百度特點
1.基於字詞結合的信息處理方式 巧妙解決了中文信息的理解問題,極大地提高了搜尋的準確性和查全率。
2.支持主流的中文編碼 包括gbk(漢字內碼擴展規範)、gb2312(簡體)、big5(繁體),並且能夠在不同的編碼之間轉換。”
3.智慧型相關度算法 採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的信息,從而最大限度保證了檢索結果相關性。
4.檢索結果更直觀 能標示豐富的網頁屬性(如標題、網址、時間、大小、編碼、摘要等),並突出用戶的查詢串,便於用戶判斷是否閱讀原文。
5.百度搜尋支持二次檢索 可在上次檢索結果中繼續檢索,逐步縮小查找範圍,直至達到最小、最準確的結果集。利於用戶更加方便地在海量信息中找到自己真正感興趣的內容。
6.相關檢索詞智慧型推薦技術 在用戶第一次檢索後,會提示相關的檢索詞,幫助用戶查找更相關的結果,統計表明可以促進檢索量提升10-20%.
7.高性能伺服器和本地化伺服器 運用多執行緒技術、高效的搜尋算法、穩定的unix平台、和本地化的伺服器,保證了最快的回響速度。百度搜尋引擎在中國境內提供搜尋服務,可大大縮短檢索的回響時間(一個檢索的平均回響時間小於0.5秒)
8.可以提供多種服務方式 可以在7天之內完成網頁的更新,是目前更新時間最快、數據量最大的中文搜尋引擎。
9.檢索結果輸出類別聚合 支持內容類聚、網站類聚、內容類聚+網站類聚等多種方式。支持用戶選擇時間範圍,提高用戶檢索效率。
10.智慧型性、可擴展的搜尋技術 擁有目前世界上最大的中文信息庫,為用戶提供最準確、最廣泛、最具時效性的信息提供了堅實基礎。
11.結構、算法等的最佳化 分散式結構、精心設計的最佳化算法、容錯設計保證系統在大訪問量下的高可用性、高擴展性、高性能和高穩定性。
12.高可配置性使得搜尋服務能夠滿足不同用戶的需求。
13.先進的網頁動態摘要顯示技術。
14.獨有百度快照。
15.支持多種高級檢索語法,使用戶查詢效率更高、結果更準。已支持“+”(and)、“-”(not)、“|”(or)、“site:”、“domain:”、“intitle:”、“inurl”,還將繼續增加其它高效的搜尋語法。
提高收錄
基本當搜尋引擎收錄了站點之後,並且也已經能夠看到搜尋引擎收錄的數量,所希望的一定是讓搜尋引擎收錄更多的頁面。如果要提高搜尋引擎的收錄量,大量增加網站內容是其一。更多要做的是為搜尋引擎的蜘蛛程式打造一個良好的網站結構。 想要提高站點的收錄率,可以採取以下幾個方法:
提高外鏈
外鏈是SEO的良藥,無論是提高搜尋引擎排名還是提高網站的收錄量,特別是高質量的外部連結。連結建設的工作,要伴隨搜尋引擎最佳化方案的開始至結束。
增加原創
原創性的內容,一旦被搜尋引擎收錄之後,此類的內容頁面就不是那么容易被搜尋引擎刪除。如果是重複率太高的網站內容,即使是讓搜尋引擎收錄之後,也很容易被搜尋引擎定期清理掉。讓網站保持一定比例的原創內容,能夠培養網站的權重以及確保搜尋引擎不會收錄了又刪除這些頁面。
最佳化結構
最佳化網站內部連結,良好的網站結構會讓蜘蛛順著連結,一層層的讀取網站的內容。網站結構差的網站,會讓蜘蛛感覺走進了迷宮。如果你的網站很龐大,最好是建立清晰的網站導航、全面的網站地圖等用戶體驗套用,這樣做能夠引導收錄也方便網站的用戶。
研究收錄
搜尋引擎的收錄程式是一隻有思維、有辨別能力的收錄。我們別把它當成單純的網站內容搬運工,它在讀取你內容的時候,它會對這些內容進行價值以及其他方面的辨別。作為網站的管理員,要研究收錄的規則、爬取規律等,與搜尋引擎的收錄打交道也是重要的一門學問。 對於提高網站的頁面收錄數量,我們要讓自己變得更加主動。換句話說,就是自己掌握主動權。與其坐等收錄上門,不如引導收錄。
網站地圖
網站地圖又稱站點地圖,它就是一個頁面,上面放置了網站上所有頁面的連結。大多數人在網站上找不到自己所需要的信息時,可能會將網站地圖作為一種補救措施。搜尋引擎收錄非常喜歡網站地圖。
為什麼要建立網站地圖呢?大多數人都知道網站地圖對於提高用戶體驗有好處:它們為網站訪問者指明方向,並幫助迷失的訪問者找到他們想看的頁面。對於搜尋引擎最佳化,網站地圖的好處就更多了:
1.為搜尋引擎收錄提供可以瀏覽整個網站的連結。
2.為搜尋引擎收錄提供一些連結,指向動態頁面或者採用其他方法比較難以到達的頁面。
3.作為一種潛在的著陸頁面,可以為搜尋流量進行最佳化。
4.如果訪問者試圖訪問網站所在域內並不存在的URL,那么這個訪問者就會被轉到“無法找到檔案”的錯誤頁面,而網站地圖可以作為該頁面的“準”內容。
新站收錄
百度不收錄新站的解決方法:
(1)最好等網站的所有內容都完工後再上傳到網站空間
(2)網站上傳後,到百度提交下網站:幾大搜尋引擎的網站登錄入口
(3)到百度搜藏註冊3-5個賬號,然後收藏網址
(4)到樂收,好望角等網路收藏夾收藏網址
(5)到百度貼吧,A5等權重高的網站發布連結誘餌(帶上自己的網址),引誘百度收錄過來爬去
(6)第一個月每天有規律的更新2-5篇原創文章
(7)不要採取SEO作弊方式最佳化
基本上按照上面的操作步驟,1-30天內都能收錄首頁。如果過了1個月,網址還沒有收錄,您可以嘗試把首頁的布局做個改版。