定義
搜尋引擎 (searchengine)是指根據一定的策略、運用特定的電腦程式蒐集網際網路上信息,在對信息進行組織和處理後,是為用戶提供檢索服務的系統。一個搜尋引擎由搜尋器、索引器 、檢索器和用戶接口 四個部分組成。搜尋器的功能是在網際網路 中漫遊,發現和蒐集信息。索引器的功能是理解搜尋器所搜尋的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。如果想要搜尋引擎為我們服務那就必須要學習SEO,用SEO的技術來最佳化網站,可以讓你的網站排名上百度首頁,從而獲得更多的流量。那么該如何學習SEO呢,你可以來這個群,群號前面是235中間是142後面是871,組合起來就可以看到我們的群了,群里有SEO的大神解答,每天還有SEO的公開課,能幫助你更好的學習,不是真心想要學習的就不要加了。發展史
網際網路發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選網際網路上的優秀網站,並簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站。也有人把這種基於目錄的檢索服務網站稱為搜尋引擎,但從嚴格意義上講,它並不是搜尋引擎。
1990年,加拿大麥吉爾大學計算機學院的師生開發出Archie。
當時,全球資訊網還沒有出現,人們通過FTP來共享交流資源。Archie能定期蒐集並分析FTP伺服器上的檔案名稱信息,提供查找分別在各個FTP主機中的檔案。用戶必須輸入精確的檔案名稱進行搜尋,Archie告訴用戶哪個FTP伺服器能下載該檔案。雖然Archie蒐集的信息資源不是網頁(HTML檔案),但和搜尋引擎的基本工作方式是一樣的:自動蒐集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。
起源
所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名稱查找檔案的系統,於是便有了Archie。搜尋引擎是SEO中一小部分知識想更深入了解SEO,可以加群:前面叄叄仈,中間六貳柒後面七伍肆,Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名稱列表,用戶必須輸入精確的檔案名稱搜尋,然後Archie會告訴用戶哪一個FTP地址可以下載該檔案。 由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。
發展(1)
世界上第一個Spider程式,是MIT Matthew Gray的World wide Web Wanderer,用於追蹤網際網路發展規模。剛開始它只用來統計網際網路上的伺服器數量,後來則發展為也能夠捕獲網址(URL)。
搜尋引擎一般由以下三部分組成:
爬行器(機器人、蜘蛛)
索引生成器
查詢檢索器
發展(2)
Excite 的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜尋軟體版本,後來被叫做Excite for Web Servers。
註:Excite後來曾以概念搜尋聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改元搜尋引擎 Dogpile
發展(3)
1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜尋效率明顯提高。
註:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務
Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。
發展(4)
1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。
第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜尋引擎概念上好聽,但搜尋效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。
發展(5)
智慧型檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網路,給予用戶智慧型知識提示,最終幫助用戶獲得最佳的檢索效果。
發展(6)
個性化趨勢是搜尋引擎的一個未來發展的重要特徵和必然趨勢之一。一種方式通過搜尋引擎的社區化產品(即對註冊用戶提供服務)的方式來組織個人信息,然後在搜尋引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜尋結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶的搜尋需求限定的範圍,然後按照用戶需求範圍擴展到網際網路上其他的同類網站給出最相關的結果。另外一種是針對大眾化的,Google個性化搜尋引擎,或者yahooMindSet,或者我們都知道的前台聚類的vivisimo。但是無論其中的哪一種實現方式,即Google的主動選擇搜尋範圍,還是yahoo(http://blog.sina.com.cn/u/2941211752),vivisimo的在結果中重新組織自己需要的信息,都是一種實驗或者創想,短期內無法成為主流的搜尋引擎套用產品。
發展(7)
格線技術(great global grid):由於沒有統一的信息組織標準對網路信息資源進行加工處理,難以對無序的網路信息資源進行檢索、交接和共享乃至深層次的開發利用,形成信息孤島。格線技術就是要消除信息孤島實現網際網路上所有資源的全面連通。
美國全球信息格線
Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程式。由於專門用於檢索信息的Robot程式像蜘蛛(spider)一樣在網路間爬來爬去,因此,搜尋引擎的Robot程式被稱為spider程式。
1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的連結關係來檢測全球資訊網規模的“機器人(Robot)”程式。開始,它僅僅用來統計網際網路上的伺服器數量,後來也能夠捕獲網址(URL)。
1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個伺服器的內容。WebCrawler是網際網路上第一個支持搜尋檔案全部文字的全文搜尋引擎,在它之前,用戶只能通過URL和摘要搜尋,摘要一般來自人工評論或程式自動取正文的前100個字。
1994年7月,卡內基·梅隆大學(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程式接入到其索引程式中,創建了Lycos。除了相關性排序外,Lycos還提供了前綴匹配和字元相近限制,Lycos第一個在搜尋結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜尋引擎的數據量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜尋引擎的重要代表。
1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理,提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜尋引擎,是Washington大學碩士生Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式發布AltaVista。AltaVista是第一個支持自然語言搜尋的搜尋引擎,第一個實現高級搜尋語法的搜尋引擎(如AND、 OR、 NOT等)。用戶可以用AltaVista搜尋新聞組(Newsgroups)的內容並從網際網路上獲得文章,還可以搜尋圖片名稱中的文字、搜尋Titles、搜尋Java applets、搜尋ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或刪除URL的搜尋引擎,並能在24小時內上線。AltaVista最有趣的新功能之一,是搜尋有連結指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜尋框區域下放了“tips”以幫助用戶更好的表達搜尋式,這些小tip經常更新,這樣,在搜尋過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜尋引擎廣泛採用。1997年,AltaVista發布了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜尋結果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜尋引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜尋喜好設定。
1997年8月,Northernlight搜尋引擎正式現身。它曾是擁有最大資料庫的搜尋引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級搜尋語法,第一個支持對搜尋結果進行簡單的自動分類。
1998年10月之前,Google只是史丹福大學(Stanford University)的一個小項目BackRub。1995年博士生Larry Page開始學習搜尋引擎設計,於1997年9月15日註冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。Google以網頁級別(Pagerank)為基礎,判斷網頁的重要性,使得搜尋結果的相關性大大增強。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google贏得了極高的口碑和品牌美譽。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個在非英語國家起的名字。
Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發布了自己的搜尋引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜尋引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜尋可利用ODP自動分類,支持Flash和pdf搜尋,支持多語言搜尋,還提供新聞搜尋、圖像搜尋、視頻、MP3、和FTP搜尋,擁有極其強大的高級搜尋功能。(2003年2月25日,Fast的網際網路搜尋部門被Overture收購)。
1996年8月,sohu公司成立,製作中文網站分類目錄,曾有“出門找地圖,上網找搜狐”的美譽。隨著網際網路網站的急劇增加,這種人工編輯的分類目錄已經不適應。sohu於2004年8月獨立域名的搜尋網站“搜狗”,自稱“第三代搜尋引擎”。
Openfind 創立於1998年1月,其技術源自台灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜尋引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜尋引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜尋引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜尋領域。
2000年1月,兩位北大校友,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度(Baidu)公司。2001年8月發布Baidu.com搜尋引擎Beta版(此前Baidu只為其它入口網站搜狐新浪Tom等提供搜尋引擎),2001年10月22日正式發布Baidu搜尋引擎,專注於中文搜尋。Baidu搜尋引擎的其它特色包括:百度快照、網頁預覽/預覽全部網頁、相關搜尋詞、錯別字糾正提示、mp3搜尋、Flash搜尋。2002年3月閃電計畫(Blitzen Project)開始後,技術升級明顯加快。後推出貼吧、知道、地圖、國學、百科、文檔、視頻、部落格等一系列產品,深受網民歡迎。2005年8月5日在納斯達克上市,發行價為USD 27.00,代號為BIDU。開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄。
2003年12月23日,原慧聰搜尋正式獨立運做,成立了中國搜尋。2004年2月,中國搜尋發布桌面搜尋引擎網路豬1.0,2006年3月中搜將網路豬更名為IG(Internet Gateway)。
2004年8月3日,搜狐公司推出搜狗,目的是增強搜狐網的搜尋技能,主要經營搜狐公司的搜尋業務。在搜尋業務的同時,也推出搜狗輸入法、免費信箱、企業信箱等業務。2010年8月9日搜狐與阿里巴巴宣布將分拆搜狗成立獨立公司,引入戰略投資,注資後的搜狗有望成為僅次於百度的中文搜尋工具。
2005年6月,新浪正式推出自主研發的搜尋引擎“愛問”。2007年起,新浪愛問使用google搜尋引擎。
2005年,擁有中國最大IM用戶群資源優勢的騰訊自然不願意放棄搜尋業務。騰訊董事長馬化騰曾多次在公開場合闡述其發展戰略:為用戶量身打造滿足各層次需求的線上生活模式,而SOSO網上線正是“線上生活模式”的具體體現。05年12月,騰訊搜尋獲得的www.soso.com域名就已可打開,但當時只是跳轉so.qq.com,此次SOSO網正式成立。
2007年7月1日 全面採用網易自主研發的有道搜尋技術,並且合併了原來的綜合搜尋和網頁搜尋。有道網頁搜尋、圖片搜尋和部落格搜尋為網易搜尋提供服務。其中網頁搜尋使用了其自主研發的自然語言處理、分散式存儲及計算技術;圖片搜尋首創根據拍攝相機品牌、型號,甚至季節等高級搜尋功能;部落格搜尋相比同類產品具有抓取全面、更新及時的優勢,提供“文章預覽”,“部落格檔案”等創新功能。
2012年8月,奇虎360推出綜合搜尋業務。
分類
全文索引
全文搜尋引擎是名副其實的搜尋引擎,國外代表有Google,國內則有著名的百度搜尋。它們從網際網路提取各個網站的信息(以網頁文字為主),建立起資料庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
根據搜尋結果來源的不同,全文搜尋引擎可分為兩類,一類擁有自己的檢索程式(Indexer),俗稱“蜘蛛”(Spider)程式或“機器人”(Robot)程式,能自建網頁資料庫,搜尋結果直接從自身的資料庫中調用,上面提到的Google和百度就屬於此類;另一類則是租用其他搜尋引擎的資料庫,並按自定的格式排列搜尋結果,如Lycos搜尋引擎。
目錄索引
目錄索引雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類的網站連結列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo、新浪分類目錄搜尋。
元搜尋引擎
元搜尋引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜尋引擎上搜尋,並將結果返回給用戶。著名的元搜尋引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜尋引擎中具代表性的是搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源排列搜尋結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。
其他非主流搜尋引擎形式:
1、集合式搜尋引擎:該搜尋引擎類似元搜尋引擎,區別在於它並非同時調用多個搜尋引擎進行搜尋,而是由用戶從提供的若干搜尋引擎中選擇,如HotBot在2002年底推出的搜尋引擎。
2、門戶搜尋引擎:AOL Search、MSN Search等雖然提供搜尋服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他搜尋引擎。
3、免費連結列表(Free For All Links簡稱FFA):一般只簡單地滾動連結條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。
工作原理
第一步:爬行
搜尋引擎是通過一種特定規律的軟體跟蹤網頁的連結,從一個連結爬到另外一個連結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜尋引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。比如:蜘蛛如果跟蹤連結想去爬行一個站點的時候,先要通過robots檔案說明,如果robots檔案不允許蜘蛛爬行的話,蜘蛛是不能跟蹤連結的。當然,蜘蛛也需要理解HTTP返回碼、nofollow標籤、mate標籤等等,所以蜘蛛的爬行是在一定規律和要求下進行的。除了搜尋引擎蜘蛛要遵循的一些規則外,還有一些搜尋引擎蜘蛛無法做到的事情。比如:要求註冊的站點,FLASH里的連結,圖片裡的連結等等。所以,我們了解搜尋引擎蜘蛛爬行的時候,不能一味的認為搜尋引擎蜘蛛無所不能。
第二步:抓取存儲
搜尋引擎是通過蜘蛛跟蹤連結爬行到網頁,並將爬行的數據存入原始頁面資料庫。其中的頁面數據與用戶遊覽器得到的HTML是完全一樣的。搜尋引擎蜘蛛在抓取頁面是,也做一定的重複內容檢測,一旦遇到權重很低的網站上有大量抄襲、採集或者複製的內容,很可能就不在爬行。這也就是為什麼有一些採集站的數據量很大,但是收錄量很低的原因。不過,大部分的去重工作,還是在預處理階段進行。
第三步:預處理
搜尋引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
1、提取文字
現在搜尋引擎的排名,還是主要以文字內容為基礎。蜘蛛抓取到資料庫里的原始頁面檔案,需要進行文字提取,去除頁面中的標籤、JS程式、圖片等無法用於排名的內容。當然,搜尋引擎也會提取遊覽器中發現顯示的標籤文字、圖片注釋文字、FLASH注釋文字和錨文本文字等。
2、中文分詞
中文分詞主要是針對中文搜尋引擎的特有步驟,英文搜尋引擎不存在這個步驟。由於中文字和詞是連載一起的,搜尋引擎要分辨哪些字組成的一個詞,所以進行一種分詞步驟。中文分詞一般都是按照兩種方法,一種是詞典匹配;一種是基於統計分析。詞典匹配比較容易理解,是根據以往詞典中出現的詞語匹配。而基於統計分析,主要是分析大量的文字樣本,計算出字與字相鄰出現的頻率,來判斷是不是一個詞。在這裡,我們就比較容易理解關鍵字里所說到的完全匹配,基本上是基於詞典匹配,反之則是根據統計分析出來的詞。
3、去停詞
去停詞主要是去除對內容無關緊要的一些助詞(如中文的:的,地,哈。英文的the.a,an等),使索引數據主題更為突出,減少無謂的計算量。
4、消除噪音
消除噪音主要是去除一些對頁面主題內容沒什麼貢獻,並且大量重複出現的文字。比如,導航、頁腳、和廣告等
5、去重
去重處理,其實就是搜尋引擎判斷是否原創的一種計算方式。一般情況,搜尋引擎運用的方法是對頁面特徵關鍵字計算指紋,也就是說從頁面主題內容中選取最有代表性的一部分關鍵字,然後計算這些關鍵字的數字指紋。實驗證明,一般複製的內容即使增加了的、地、哈等文字或者把段落重新組合,都能被搜尋引擎輕易判斷出來。這些只能從推理上來理解,現階段的搜尋引擎還不能完全判斷原創內容,因為還會涉及到頁面被抓去的時間的先後,網站的信任度等很多方面的信息。
6、正向索引
正向索引主要是指搜尋引擎在完成了以上5個步驟後,就得到了獨特的、能反應頁面內容的、以詞為單位的內容。搜尋引擎就可以分詞程式劃分好的詞,把頁面轉化成關鍵字組成的集合。搜尋引擎索引程式將頁面及關鍵字形成詞表的結構存儲進索引庫。實際上在搜尋引擎索引庫中,關鍵字也已經轉換成為關鍵字的ID,這樣的資料庫結構就稱為正向索引。
7、倒排索引
倒排索引是指搜尋引擎將正向索引資料庫重新構造為倒排索引,把檔案對應到關鍵字的影視轉換為關鍵字到檔案的映射。在倒排索引中是以關鍵字為主,每個關鍵字對應著一系列檔案,這些檔案都出現了這個關鍵字。這樣當用戶搜尋某個關鍵字的時候,排序程式在倒排索引中定位到這個關鍵字就可以馬上找到所有包含這個關鍵字的檔案。一般用戶在搜尋引擎中搜尋關鍵字時,都是運用的倒排索引。
8、連結關係計算
連結關係是搜尋引擎排名的重要依據。所以,搜尋引擎對於大量網頁的導入及導出連結、連結的權重、相關性等數據進行充分的計算,從而作為某個檔案對應關鍵字的排序依據。
9、特殊檔案處理
對於搜尋引擎無法爬行和讀取的flash、圖片、js等檔案,暫時無法作為搜尋引擎的排名考量指標,僅能以特殊檔案的代替檔案作為唯一有價值的排序依據。
搜尋引擎的預處理階段也是在後台完成的,用戶搜尋時感覺不到這個過程。
第四步:排名
用戶在搜尋框輸入關鍵字後,排名程式調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由於搜尋引擎的數據量龐大,雖然能達到每日都有小的更新,但是一般情況搜尋引擎的排名規則都是根據日、周、月階段性不同幅度的更新。
全文搜尋引擎
在搜尋引擎分類部分我們提到過全文搜尋引擎從網站提取信息建立網頁資料庫的概念。搜尋引擎的自動信息蒐集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍內的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜尋引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜尋引擎資料庫,因此目前最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵字查找信息時,搜尋引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵字的匹配程度,出現的位置/頻次,連結質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁連結返回給用戶。 這種引擎它的特點是搜全率比較高。
目錄索引
與全文搜尋引擎相比,目錄索引有許多不同之處。
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜尋引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵字搜尋,也可按分類目錄逐層查找。如以關鍵字搜尋,返回的結果跟搜尋引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜尋引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜尋引擎現在也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo!這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在默認搜尋模式下,一些目錄類搜尋引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜尋,如Yahoo。這種引擎的特點是找的準確率比較高。
影響
搜尋引擎給網咖行業帶來的影響
百度聯盟可以算是目前唯一一個能夠覆蓋所有網咖並和幾乎所有主流網咖軟體締結合作關係的媒體運營平台。而google方面也不甘示弱,谷歌已經注意到了網咖市場,網咖已經成為了谷歌的新型合作夥伴。網咖的首頁和工具條上都會出現谷歌的標誌,相應地會給谷歌帶去流量。谷歌對網咖市場的關注,表明谷歌注意到網咖作為中國網際網路市場的特色之一。由於中國PC擁有量遠落後於美國等西方國家,網咖作為網民主要上網地點的比例逐年在上升,中國網民在網咖上網的比例偏高。據CNNIC 第20次中國網際網路發展狀況統計報告顯示,超過1/3(37.2%)的網民表示經常去網咖上網,比2006年12月的32.3%高了5個百分點,第一次超過網民在工作單位上網的比例而成為第二大上網場所。
搜尋引擎對網站的影響
一個網站的命脈就是流量,而網站的流量可以分為兩類。一類是自然流量,一類就是通過搜尋引擎而來的流量。如果搜尋引擎能夠能多能有效的抓取網站內容,那么對於網站的好處是不言而喻的。所以,SEO也應運而生了。
在兩大搜尋引擎的工作中,百度的工作周期相對來說比google短一些,百度大約在10天左右重新訪問網站一次,Google大約在15天左右重新訪問一次網站。由於一天之內不能遊歷全球所有的網站,如果推廣網站時,能到更多的網站上提交相應的網站信息,也是加快蜘蛛收錄網站內容的重要環節。
作用
搜尋引擎是網站建設中針對“用戶使用網站的便利性”所提供的必要功能,同時也是“研究網站用戶行為的一個有效工具”。高效的站內檢索可以讓用戶快速準確地找到目標信息,從而更有效地促進產品/服務的銷售,而且通過對網站訪問者搜尋行為的深度分析,對於進一步制定更為有效的網路行銷策略具有重要價值。
1、從網路行銷的環境看,搜尋引擎行銷的環境發展為網路行銷的推動起到舉足輕重的作用。
2、從效果行銷看,很多公司之所以可以套用網路行銷是利用了搜尋引擎行銷。
3、就完整型電子商務概念組成部分來看,網路行銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。
特點
1、搜尋引擎行銷與企業網站密不可分。一般說來,搜尋引擎行銷作為網站推廣的常用方法,在沒有建立網站的情況下很少被採用,搜尋引擎行銷需要以企業網站為基礎,企業網站設計的專業性對網路行銷的效果又產生直接影響。
2、搜尋引擎傳遞的信息只發揮嚮導作用。搜尋引擎檢索出來的是網頁信息的索引,一般只是某個網站/網頁的簡要介紹,或者搜尋引擎自動抓取的部分內容,而不是網頁的全部內容,因此這些搜尋結果只能發揮一個“引子”的作用。
3、搜尋引擎行銷是用戶主導的網路行銷方式。沒有哪個企業或網站可以強迫或者誘導用戶的信息檢索行為,使用什麼搜尋引擎、通過搜尋引擎檢索什麼信息完全是有用戶自己決定的,在搜尋結果中點擊哪些網頁也可取決於用戶的判斷。
4、搜尋引擎行銷可以實現較高度的定位。網路行銷的主要特點之一就是可以對用戶行為進行準確分析並實現高程度定位,搜尋引擎行銷在用戶定位方面具有更好的功能,尤其是在搜尋結果頁面的關鍵字廣告,完全可以實現與用戶檢索所使用的關鍵字高度相關,從而提高行銷信息被關注的程度,最終達到增強網路行銷效果的目的。
5、搜尋引擎行銷的效果表現為網站訪問量的增加而不是直接行銷。搜尋引擎行銷的使命就是獲得訪問量,因此作為網站推廣的主要手段,至於訪問量是否可以最終轉化為收益,不是搜尋引擎行銷可以決定的。
6、搜尋引擎行銷需要適應網路服務環境的發展變化。搜尋引擎行銷是搜尋引擎是搜尋引擎服務在行銷中的作業,因此在套用方式上依賴於搜尋引擎的工作原理、提供的服務模式等,當搜尋引擎檢索方式和服務模式發生變化時,搜尋引擎行銷方法也應隨之變化。
市場
2012年,我國搜尋引擎行業市場規模達到280.7億元,同比增長48.6%。其中,2012第四季度中國搜尋引擎市場規模79.5億元,環比增長2.5%,同比增長37.4%。自2012一季度以來,搜尋引擎各季度增長率呈現持續緩慢下滑趨勢,但四季度增幅仍高於中國網路廣告市場整體33.9%的增速。
從全年來看,客戶數量的拓展、流量變現能力的提升以及搜尋引擎廣告良好的投資回報率共同促進了搜尋引擎市場的快速增長,推動了市場的健康發展。從季度層面而言,當前搜尋市場仍面臨與上一季度相同的問題。除巨觀經濟疲軟影響外,360搜尋流量尚未大量變現,還沒有對搜尋市場規模增長起到顯著推動作用,同時移動流量的變現困局對搜尋市場的成長性造成持續困擾,導致四季度中國搜尋引擎企業收入規模增長相對減緩。
2012年,百度營收占搜尋市場年度總營收的79.5%,繼續占據行業領先地位,優勢明顯。谷歌中國以15.8%的收入份額位居第二。搜狗占比3.0%,搜搜占比1.5%,分別位居第三、四位。
2012年,中國搜尋引擎市場流量結構發生了較為顯著的變化,但在市場營收份額結構層面上,變化尚未顯現。從流量層面來看,奇虎360進入搜尋市場之後,短時間內迅速獲取近10%的流量份額。受其影響,百度、谷歌中國及搜搜的流量份額有所下滑。從營收結構來看,由於2012年360搜尋商業化進程啟動時間較短,當前尚未將奇虎360營收計入中國搜尋引擎企業總營收。進入2013年後,隨著商業化進程的推進,360搜尋的收入將逐步增長。將奇虎360營收計入搜尋市場總營收後,市場格局將發生變化。
搜尋建議
細化搜尋條件
你給出的搜尋條件越具體,搜尋引擎返回的結果也會越精確。
比方說你想查找有關電腦冒險遊戲方面的資料,輸入game是無濟於事的。computergame範圍就小一些,當然最好是敲入computeradventuregame,返回的結果會精確得多。
此外一些功能辭彙和太常用的名詞,如對英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜尋引擎是不支持的。這些詞被稱為停用詞(StopWords)或過濾詞(FilterWords),在搜尋時這些詞都將被搜尋引擎忽略。
搜尋邏輯命令
搜尋引擎基本上都支持附加邏輯命令查詢,常用的是“+”號和“-”號,或與之相對應的布爾(Boolean)邏輯命令AND、OR和NOT。用好這些命令符號可以大幅提高我們的搜尋精度。
精確匹配搜尋
除利用前面提到的邏輯命令來縮小查詢範圍外,還可使用“”引號(注意為英文字元。雖然一些搜尋引擎已支持中文標點符號,但顧及到其他引擎,最好養成使用英文字元的習慣)來進行精確匹配查詢(也稱短語搜尋)。
特殊搜尋命令
標題搜尋
多數搜尋引擎都支持針對網頁標題的搜尋,命令是“title:”,在進行標題搜尋時,前面提到的邏輯符號和精確匹配原則同樣適用。
網站搜尋
此外我們還可以針對網站進行搜尋,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot),(soubaike).org
連結搜尋
在Google和AltaVista中,用戶均可通過“link:”命令來查找某網站的外部導入連結(inboundlinks)。其他一些引擎也有同樣的功能,只不過命令格式稍有區別。你可以用這個命令來查看是誰以及有多少網站與你做了連結。
關鍵字競爭程度判斷
搜尋結果數越大,競爭越大
Intitle搜尋,結果數越多,競爭越大
競價結果數越多,競爭越大
競爭對手情況
內頁排名數量
關鍵字的挖掘
咨問客戶
百度指數
百度關鍵字工具
金花
追問
飛達魯
八爪魚交叉組合
使用方法
簡單查詢
在搜尋引擎中輸入關鍵字,然後點擊“搜尋”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。高級查詢
雙引號(“”)給要查詢的關鍵字加上雙引號(半角,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜尋引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。
使用加號(+)
在關鍵字的前面使用加號,也就等於告訴搜尋引擎該單詞必須出現在搜尋結果中的網頁上,例如,在搜尋引擎中輸入“+電腦+電話+傳真”就表示要查找的內容必須要同時包含“電腦、電話、傳真”這三個關鍵字。
使用減號(-)
在關鍵字的前面使用減號,也就意味著在查詢結果中不能出現該關鍵字,例如,在搜尋引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。
通配符(*和?)
通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜尋引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。
使用布爾檢索
所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵字與關鍵字之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵字,各個關鍵字之間的關係可以用邏輯關係詞來表示。
and,稱為邏輯“與”,用and進行連線,表示它所連線的兩個詞必須同時出現在查詢結果中,例如,輸入“computerandbook”,它要求查詢結果中必須同時包含computer和book。
or,稱為邏輯“或”,它表示所連線的兩個關鍵字中任意一個出現在查詢結果中就可以,例如,輸入“computerorbook”,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。
not,稱為邏輯“非”,它表示所連線的兩個關鍵字中應從第一個關鍵字概念中排除第二個關鍵字,例如輸入“automobilenotcar”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。
near,它表示兩個關鍵字之間的詞距不能超過n個單詞。
在實際的使用過程中,你可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。
使用元詞檢索
大多數搜尋引擎都支持“元詞”(metawords)功能,依據這類功能用戶把元詞放在關鍵字的前面,這樣就可以告訴搜尋引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜尋引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵字後加上“domainrg”,就可以查到所有以org為後綴的網站。
其他元詞還包括:image:用於檢索圖片,link:用於檢索連結到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵字的網頁。
區分大小寫
這是檢索英文信息時要注意的一個問題,許多英文搜尋引擎可以讓用戶選擇是否要求區分關鍵字的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指全球資訊網或環球網,而web則表示蜘蛛網。
特殊搜尋命令
intitle:是多數搜尋引擎都支持的針對網頁標題的搜尋命令。例如,輸入“intitle:家用電器”,表示要搜尋標題含有“家用電器”的網頁。
商務模式
在搜尋引擎發展早期,多是作為技術提供商為其他網站提供搜尋服務,網站付錢給搜尋引擎。後來,隨著2001年網際網路泡沫的破滅,大多轉向為競價排名方式。
現在搜尋引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜尋結果頁面放置廣告,通過用戶的點擊向廣告主收費。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他於1998年6月創立GoTo公司(後於2001年9月更名為Overture),實施這種模式,取得了很大的成功,並且申請了專利。這種模式有兩個特點,一是點擊付費(Pay Per Click),用戶不點擊則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。 2001年10月,Google推出AdWords,也採用點擊付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!於2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。
AdSense是Google於2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁發布者進入Google龐大的廣告商網路。Google在這些第三方網頁放置跟網頁內容相關的廣告,當瀏覽者點擊這些廣告時,網頁發布者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地刪除一些帳號,引起部分人的不滿。類似的廣告方式,其他搜尋引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN 除了可以在網頁上顯示與內容相關的廣告以外,還可以通過在 RSS 訂閱中來顯示廣告。微軟的廣告計畫叫AdCenter。百度也推出主題推廣。
競價排名:競價排名是一種按效果付費的網路推廣方式,由百度在國內率先推出。企業在購買該項服務後,通過註冊一定數量的關鍵字,其推廣信息就會率先出現在網民相應的搜尋結果中。如企業在百度註冊“電氣設備”這個關鍵字,當消費者尋找“電氣設備”的信息時,企業就會優先被找到,並且百度按照給企業帶去的潛在客戶訪問數收費。
垂直搜尋
垂直搜尋引擎為2006年後逐步興起的一類搜尋引擎。不同於通用的網頁搜尋引擎,垂直搜尋專注於特定的搜尋領域和搜尋需求(例如:機票搜尋、旅遊搜尋、生活搜尋、小說搜尋、視頻搜尋、購物搜尋等等),在其特定的搜尋領域有更好的用戶體驗。相比通用搜尋動輒數千台檢索伺服器,垂直搜尋需要的硬體成本低、用戶需求特定、查詢的方式多樣。
集合式搜尋
集合式搜尋引擎:該搜尋引擎類似元搜尋引擎,區別在於它並非同時調用多個搜尋引擎進行搜尋,而是由用戶從提供的若干搜尋引擎中選擇,如HotBot在2002年底推出的搜尋引擎。
門戶搜尋
門戶搜尋引擎:AOLSearch、MSNSearch等雖然提供搜尋服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他搜尋引擎。
免費連結
免費連結列表(FreeForAllLinks簡稱FFA):一般只簡單地滾動連結條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。
可見度
一個網站在搜尋引擎自然檢索結果的可見度狀況對於網站是否可以通過搜尋引擎獲得用戶至關重要,同樣網站自然檢索的可見度與該網站需要多大程度投放搜尋引擎廣告具有密切關係,本研究報告從網站搜尋引擎自然檢索狀況的調查揭示搜尋引擎關鍵字推廣的意義。
著名的引擎
目前網際網路時代搜尋引擎層出不絕,目前比較有名的搜尋引擎有這么幾個:
百度
百度(Nasdaq簡稱:BIDU)是全球最大的中文搜尋引擎,2000年1月由李彥宏、徐勇兩人創立於北京中關村,致力於向人們提供“簡單,可依賴”的信息獲取方式。“百度”二字源於中國宋朝詞人辛棄疾的《青玉案·元夕》詞句“眾里尋他千百度”,象徵著百度對中文信息檢索技術的執著追求。
360綜合搜尋
360綜合搜尋屬於元搜尋引擎,是搜尋引擎的一種,是通過一個統一的用戶界面幫助用戶在多個搜尋引擎中選擇和利用合適的(甚至是同時利用若干個)搜尋引擎來實現檢索操作,是對分布於網路的多種檢索工具的全局控制機制。而360搜尋+,屬於全文搜尋引擎,是奇虎360公司開發的基於機器學習技術的第三代搜尋引擎,具備“自學習、自進化”能力和發現用戶最需要的搜尋結果。
258商業搜尋
258商業搜尋是全球第一商業搜尋引擎,為全球商務人士全面提供多語言商業信息搜尋服務,實時搜尋全球超過6000家B2B平台,包括供求信息、產品信息、公司信息、行業新聞等。
必應
微軟必應(英文名:Bing)是微軟公司於2009年5月28日推出,用以取代LiveSearch的全新搜尋引擎服務。為符合中國用戶使用習慣,Bing中文品牌名為“必應”。作為全球領先的搜尋引擎之一,截至2013年5月,必應已成為北美地區第二大搜尋引擎,如加上為雅虎提供的搜尋技術支持,必應已占據29.3%的市場份額。2013年10月,微軟在中國啟用全新明黃色必應搜尋標誌並去除Beta標識,這使必應成為繼Windows、Office和Xbox後的微軟品牌第四個重要產品線,也標誌著必應已不僅僅是一個搜尋引擎,更將深度融入微軟幾乎所有的服務與產品中。
未來展望
隨著網際網路的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質量亦變得良莠不齊,沒有保證。所以,未來的搜尋引擎將會朝著知識型搜尋引擎的方向發展,期以為搜尋者提供更準確及適用的數據。網上的百科全書如雨後春筍般發展起來;另一方面,亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如CopernicAgent之類的搜尋代理就是其中之一。
網路行銷模式
簡介:現在很多企業多已經從傳統的行銷方式轉向網路行銷,網路行銷(On-line Marketing或E-Marketing)就是以國際網際網路為基礎,利用數位化的信息和網路媒體的互動性來輔助行銷目標實現的一種新型的市場行銷方式。 |
口水經濟| 網站建設| 網路廣告| 搜尋引擎| 網路論壇| 網路雜誌| 部落格行銷| 病毒行銷| 網路活動| 視頻行銷| 網路郵件| 網路調研| 網路打手| 微博行銷| 網路事件行銷| 網路口碑行銷| 網站推廣| 搜尋引擎行銷| 搜尋引擎最佳化| 電話行銷| 電子商務| 行銷策劃| 網路保險| 網站運營| 搜尋行銷| 電子商務概論| 資料庫行銷| 病毒性行銷| EDM行銷| 網站聯盟| 內容行銷 |