簡介
無論是第一代搜尋引擎還是第二代、第三代搜尋引擎隨著高速的網際網路發展,海量的信息堆疊,信息的搜尋精度成為所有用戶關注的第一要點,現在想通過搜尋引擎找到我想要的東西變得越來越困難了,我想著大概不會是我搜尋技巧不高的原因,而是各種信息的過度泛濫,使得我不得不花費更多的時間來甄別哪些信息對於我來說是有價值的。雖然我經常說,有價值的信息都在專業的論壇裡面,但是限於每個人潛水的深度,不可能深入到太多的領域之中,所以網際網路成為了我們尋找答案的最快捷的途徑。但是很不幸的,這個平台被太多的垃圾廣告商看中了,然後又有一堆人來研究SEO(針對搜尋引擎的最佳化),使得我們對於信息的甄別成本不斷的加大。於是,我發現,我需要一個高精度的搜尋。無論怎么說,面對現在這樣的海量的資源,我還是的的確確需要一個相當有效的搜尋利器,而不是每次都遵循——百度/Google,萬方等論文期刊資料庫,圖書館的順序這樣費力的查找。可是很不幸的發現,現在的搜尋引擎在這個方面只是越做越糟糕,真是一件令人傷心的事情啊。而在一朋友多次的感慨與創新性的發現之後,我覺得我們所要做的不單單是回歸傳統的分類搜尋和排行榜似的推薦搜尋,而是解決更大層次上的一個人機互動的問題。當然最最完美的狀況就跟人和人對話那樣,比如我對搜尋引擎說“我想要訂蛋糕”,然後一家離我最近的蛋糕店的網址就冒出來的,而且直接是蛋糕選擇頁而不是它的廣告頁甚至是蛋糕原料廠商的網站,那該有多么的美好啊!智慧型AI是個由來已久的問題,但是至今機器和程式的AI還是那么的有限,以至於像百度這么大一企業搜尋結果下面的相近搜尋詞居然還要人工來做。可見這是一種多么的可悲的事情啊!由此推論,就算是想做高精度的搜尋,所需要的可能就不單單是對於算法上有所突破的要求了,更多的則是對於統計學和人工AI的跨越式發展。可是看來這並不是一件短時間就可以完美解決的事情。所以,高精度搜尋更多的只是一種美好的構想,但在現在看來是一個實現成本極高的事情。雖然百度在做相關的信息篩選工作,可現在看來效果並不那么盡如人意。有道貌似有什麼高招,至於效果還有待實踐檢驗。但是現在實現成本高的事情不代表在未來沒有實現的可能。甚至於我們可以略為樂觀一點,在最近的幾年之內隨著市場白熱化競爭的加劇和相關需求的暴漲,各大公司還會回歸到這么一個搜尋引擎本質的質量領域。
定義
精度搜尋的定義:第三代搜尋引擎帶給用戶的體驗應該是:精準化、開放化、智慧型化、個性化、社區化。精準化
精準是搜尋的靈魂,精度搜尋以上萬編輯人員全稱參與編輯需求信息數據,歷時四年,編輯的數據以覆蓋生活、商務需求的各個角落
,擁有多項著作權和專利權的精度搜尋摒棄搜尋推廣和垃圾信息,遠離SEO(搜尋引擎最佳化)獨立實現了數億級信息彙編的整理工作並開放提供檢
索服務,輔之以電子商務化信息查詢,滿足所有網際網路用戶的信息檢索需求和商務生活、學習需求。
開放化
精度搜尋從用戶角度出發,編輯收錄上億條實用準確信息,並開放數據接口,提供所有搜尋用戶參與編輯檢索結果有精度審核人員審
核編輯,全民參與提供自身需求的數據,全民互動編輯審核提出垃圾檢索信息,以開放的姿態迎接信息搜尋精度的提升。
智慧型化
目前的搜尋引擎能夠給人們提供海量的信息搜尋結果,一次搜尋往往會有成百上千頁的結果,實踐表明,很少有人會看10頁以後的
搜尋結果。未來的搜尋引擎必須要引入人工智慧技術,嘗試去理解用戶的查詢意圖,並優先顯示用戶需要的結果。精度搜尋以人工智慧精選用
戶需求的信息有限展示,並切身智慧型分析用戶需求,是無關信息的出險率近乎為零。
個性化
每個人的搜尋習慣和需求都不一樣,但目前的搜尋引擎卻無法考慮到這點。對於同一個關鍵字,一個搜尋引擎給予所有用戶的搜尋結
果都是一模一樣的。未來的搜尋引擎必須要考慮到用戶的個性化需求,不僅要給出符合不同用戶需求的不同結果,連搜尋結果的界面都應該有
所區別。精度搜尋)以用戶需求信息的不同甄別信息分類,以多個獨立導航欄目形式無縫關聯其他套用信息的檢索結果,並輔助以多種檢索條件
保證檢索精度和個性化。完全是針對用戶的檢索結果。
社區化:未來的搜尋引擎本身就是一個社交網路,通過用戶的互動交流,我們可以更快、更方便地獲取信息。另外,每個人的搜尋結果都可以存儲並可以和其他人分享。精度搜尋(w針對用戶需求,建立龐大的用戶俱樂部平台,以精度搜尋建立其統一關鍵字的用戶社區並利用電子商務應
用的便捷發展商務套用,使搜尋成為社區化連結電子商務的橋樑。精度搜尋的未來
發展
精度搜尋的發展經歷了三代搜尋的更替交疊:第一代搜尋引擎
無論是純技術型的搜尋引擎還是分類目錄,都可以認為是網際網路上的第一代搜尋引擎,出現於1994年前後,以Altavista、YAHOO和Infoseek為代表,搜尋結果的好壞往往用反饋結果的數量來衡量,也就是說,第一代搜尋引擎“求全”。然而,研究表明,現在的搜尋引擎性能並不是想像中的那么優秀,在全球11個主要的搜尋引擎中,搜尋引擎僅能搜尋到國際網際網路上全部頁面的16%,甚至更低,造成這種情況的原因,主要是因為這些搜尋引擎沒有及時更新他們的資料。
第二代搜尋引擎
1998年,以Google和DirectHit為代表的第二代搜尋引擎出現在網際網路上,這些引擎的主要特點是提高了查準率,可以用“求精”來描述。正在發展中的第三代和第四代搜尋引擎則分別為“求專”和“求易”。下面簡單介紹一下為雅虎網站提供網頁搜尋的Google搜尋引擎的工作原理。Google搜尋引擎採用新的搜尋方式,通過一種複雜的數學分析,通過估算反饋網頁質量及相關程度來決定排名次序。要知道一個網頁的質量,Google可以通過有多少網頁與它連結來判斷,這是因為人們一般不會與低質量的網頁做連結。傳統的搜尋引擎如hotbot和LYCOS等當前使用的是元素搜尋技術,即使用網頁中的關鍵字進行搜尋,而Google則使用一種包含對整個網路的連結結構進行分析和大規模資料挖掘的技術。
Google不僅掃描搜尋關鍵字,還閱讀頁面全文,考慮到圖像和所有連結,然後把該頁面與類似頁面區分開來。要想在Google獲得好的排名,對網站推廣推廣提出了更高的要求,僅僅依靠對網頁的最佳化也是不夠的,而是依據網站的綜合推廣水平來決定在搜尋結果中的排名次序。所以,被其它網站連結的數量也是考核網路行銷效果的一項參考指標。
搜尋引擎的技術仍在快速發展中,現在,很多用戶甚至還不明白第三代搜尋引擎意味著什麼,第四代搜尋引擎的概念也開始廣為流傳,一般的用戶要分清這些搜尋引擎技術的差別,看來並不是一件容易的事情,不過好在用戶關心的只是搜尋引擎能帶來的基本價值——以更方便、更快捷的方式獲取符合自己期望的有價值的信息,搜尋引擎的發展方向也不會超出用戶需求的基本方向。
第三代搜尋引擎
2004年8月3日,國內知名入口網站搜狐正式推出全新獨立域名專業搜尋網站“搜狗”,並聲稱該搜尋引擎是全球首家第三代中文互動式搜尋引擎服務提供商。根據搜狐網站上的說明,“第一代搜尋是主要依靠人工分揀的分類目錄搜尋,以搜狐和雅虎為標誌;第二代搜尋是依靠機器抓取,建立在超鏈分析基礎上的網頁搜尋”,那么什麼是第三代搜尋引擎呢?搜狐網站上的專題文章“第三代搜尋引擎揭密”中是這么介紹第三代搜尋引擎的:
“網際網路提供了即時豐富的信息(以及人與人溝通參與/娛樂的平台),深層影響著現代人的生活。但隨著網站數量和內容的急增,網際網路就像是沒有目錄的巨大百科全書,讓人們無法找尋自己想要的信息。搜尋引擎的出現,為這本百科全書加上了目錄和索引。不論我們想從網際網路中尋找清華北大的網址、李小龍的圖片,或者養貓的方法,只需要在搜尋框中敲入關鍵字匯,就能夠獲得相關的信息或網址。
搜尋引擎是對計算機科學與技術的極大發揮,將理論研究和工程開發完美結合,創造了非凡的用戶體驗和文化。以Google為代表的傳統搜尋引擎,在用戶輸入一個查詢詞時,返回和此查詢詞相關的網頁摘要,並儘可能將用戶需要的結果排在了前面。但搜尋引擎畢竟不會“猜心術”,對於一個詞,通常用戶會有不同的需求,比如對於“綠茶”,人們要的可能分別是茶文化、健康知識、電影介紹、化妝品或者其他。(大多數)用戶並不能夠通過一兩個詞,精確表達自己所想要的內容,搜尋引擎也無能為力只有返回大量的結果供用戶選擇。
搜狐首推的第三代搜尋——互動式搜尋,在用戶輸入一個查詢詞時,嘗試理解用戶可能的查詢意圖,給與多個主題的搜尋提示,引導用戶更快速準確定位自己所關注的內容。(另一個好處:在用戶搜尋衝浪時,給與用戶未曾意識到的主題提示)”
該文中同時介紹了第三代搜尋引擎的產品特點:
互動式搜尋:互動式搜尋是在用戶查詢和搜尋引擎返回結果的人機互動過程中,引擎根據用戶的查詢內容,智慧型展開多組相關的主題,幫助用戶快速找到相關搜尋結果
分類導航:針對部分查詢結果項,擴展到類似或相關網站
查詢精確相關:先進的分詞引擎,並利用搜狐4000萬用戶名最佳化分詞引擎的人名識別。在查詢結果中,剔出了頁面中僅在連結文字上包含
查詢詞的網頁數據量,收錄2億中文網頁,超過Google收錄量。
更新速度:每天更新最重要的網站和新聞
不過,關於“搜狗”是全球第一個“第三代中文互動式搜尋引擎”的觀點,一些研究文章並不如此認為,早在2003年11月份就有新聞報導稱慧聰宣布發布第三代搜尋引擎:
“最近,國內企業慧聰宣布發布第三代搜尋引擎。據慧聰CTO陳沛介紹,相對於前兩代,第三代中文搜尋引擎更注重智慧型化和用戶使用的個性化,其採用了中文自動分類、自動聚類等人工智慧技術,而且使用了中文內容分析技術,以及區域智慧型識別技術,增強了搜尋引擎的查詢能力。”
因此,對於搜狗和慧聰(後來將搜尋引擎獨立出來改稱“中搜”)誰是第一個第三代搜尋引擎的問題,至今並沒有定論。而據一些研究資料中的信息,如果從技術上來劃分,從1998年開始就進入了第三代搜尋引擎。下面有關搜尋引擎發展歷程的歸納資料選自2001年6月完成的學士
畢業論文《第四代搜尋引擎——主題搜尋引擎的設計與實現》(北京大學計算機科學技術系計算機軟體專業作者:羅昶),其中也介紹了第三代搜尋引擎的特點。
“搜尋引擎技術伴隨著WWW的發展是引人注目的。搜尋引擎大約經歷了三代的更新發展:第一代搜尋引擎出現於1994年。這類搜尋引擎一般都索引少於1,000,000個網頁,極少重新蒐集網頁並去刷新索引。而且其檢索速度非常慢,一般都要等待10秒甚至更長的時間。在實現技術上也基本沿用較為成熟的IR(InformationRetrieval)、網路、資料庫等技術,相當於利用一些已有技術實現的一個WWW上的套用。在1994年3月到
4月,網路爬蟲WorldWebWorm(WWWW)平均每天承受大約1500次查詢。
大約在1996年出現的第二代搜尋引擎系統大多採用分散式方案(多個微型計算機協同工作)來提高數據規模、回響速度和用戶數量,它們一般都保持一個大約50,000,000網頁的索引資料庫,每天能夠回響10,000,000次用戶檢索請求。1997年11月,當時最先進的幾個搜尋引擎號稱能建立從2,000,000到100,000,000的網頁索引。Altavista搜尋引擎聲稱他們每天大概要承受20,000,000次查詢。
自1998年到現在,出現了一個搜尋引擎空前繁榮的時期,我們統稱這一時期的搜尋引擎為第三代搜尋引擎。第三代搜尋引擎的發展有如下幾個特點:
1.索引資料庫的規模繼續增大,一般的商業搜尋引擎都保持在幾千萬甚至上億個網頁。
2.除了一般意義上的搜尋以外,開始出現主題搜尋和地域搜尋。很多小型的垂直門戶站點開始使用該技術。
3.由於搜尋返回數據量過大,檢索結果相關度評價成為研究的焦點。相關的研究又可以分為兩類:一類是對超文本鏈的分析,在這方面Stanford大學的Google系統和IBM的Clever系統作出了很大的貢獻;另一類是用戶信息的反饋,DirectHit系統採用的就是這種方法。
4.開始使用自動分類技術。NorthernLight和Inktomi的DirectoryEngine都在一定程度上使用了該技術。
2000年搜尋引擎2000年大會上,按照Google公司總裁LarryPage的演講,Google正在用3,000台運行Linux系統的個人電腦在蒐集Web上的網頁,而且以每天30台的速度向這個微機集群里添加電腦,以保持與網路的發展相同步。每台微機運行多個爬蟲程式蒐集網頁的峰值速度是每秒100個網頁,平均速度是每秒48.5個網頁,一天可以蒐集超過4,000,000網頁。
儘管對於第三代搜尋引擎年代的劃分和主要特性至今沒有統一的認識,不過至少可以肯定的是:第三代搜尋引擎是對第二代搜尋引擎在搜尋技術上的改進,主要增加了互動性和個性化等高級的技術,為用戶使用搜尋引擎獲取信息獲得更好的體驗。至於互動性的評價標準是什麼,以及第三代搜尋引擎到底比第二代搜尋引擎增加了多少價值——尤其是為企業利用搜尋引擎開展網路行銷增加了哪些價值,目前並沒有非常令人信服的研究結論。這也就是目前所謂的第三代搜尋引擎並沒有表現出太多優勢的原因之一。
當前搜尋引擎的缺點
1:搜尋引擎在處理垃圾信息方面還是力不從心
大量的重複的以及偽原創的信息鋪天蓋地,這些都直接導致了用戶的搜尋結果受到了嚴重的污染
2:搜尋精度過低
在一些通用的關鍵字搜尋方面搜尋引擎已經做得很好了,比如你搜尋《刺陵》返回的肯定全部都是建國大業的信息。但是當你搜尋一些要求比較高的關鍵字的時候卻找不到你想要的信息了。
3:搜尋引擎無法判斷搜尋結果中的目標網站的質量
例如你在找一篇論文,但是搜尋引擎只會按照PR,按照排名算法去根據文章的結構判斷哪些網頁的質量比較高哪些比較低。而不會分析論文究竟是亂說一通還是非常詳細精確的描述了問題。
4:百度知道等問答模組得到的答案一般都是從其他網站copy過來的,或者直接搜尋得到的並不能完全滿足提問者的需求。尤其是一些高要求的專業性較強的問題基本上得不到想要的答案。很多人在上面回答問題的動機就是為了得到積分,而這些積分的實用性也不太大,所以沒有人會花幾十分鐘去回答你這個問題。
搜尋引擎的種類
1:整合搜尋谷歌在逐步完善它的通用搜尋,先後將新聞、圖片、音頻、視頻等信息整合呈現在搜尋結果中整合搜尋也體現了搜尋引擎的智慧型化發展方向,因為搜尋結果整合的前提是基於對關鍵字的職能分析判斷的。所以,如果用戶在Google中輸入的關鍵字是“風景”,Google的理解是用戶想查找“風景”方面的圖片,而不是關於“風景”的介紹,所以在結果中添加圖片搜尋的結果,從而實現搜尋的智慧型化。
如今Google的整合搜尋功能已經很完善了,一般情況下,在Google中搜尋任何關鍵字,返回的結果都不會僅僅是網頁搜尋的結果,可能還有新聞搜尋、部落格搜尋、圖片搜尋、視頻搜尋、股票財經搜尋、學術搜尋、檔案搜尋、天氣搜尋以及最近推出的電影搜尋等。
總之,Google的整合搜尋與雅虎的全能搜尋不同,雅虎全能搜是無論用戶需不需要,都一股腦兒將資訊、部落格、圖片的搜尋結果同時放在一個頁面,所以,很凌亂很複雜。而Google是通過關鍵字的分析來判別用戶的搜尋意圖,從而嵌入相關產品的搜尋結果,這點正是我所看重的。
2:高級搜尋
高級搜尋允許用戶從多個角度(包括關鍵字位置、檔案格式、指定網站、時間和語言等等)來設定篩選條件以提高查準率。
3:偏好搜尋
比如對搜尋語言、界面、結果顯示條數、結果是否在新視窗打開、搜尋建議等等方面的設定。使用偏好是提高搜尋引擎黏性、留住部分高端用戶的舉措之一。
4:相關搜尋
有時候是因為選擇的查詢詞不恰當。您可以通過參考別人是怎么搜的,來獲得一些啟發。而“相關搜尋”,提供了這樣的功能。相關搜尋是其他和您有相似搜尋需求的用戶所選擇的查詢詞,根據這些查詢詞被搜尋的熱門程度以及與您所選擇的查詢詞之間的相關性,由系統自動判斷後產生的。它排布在搜尋結果頁的左側和下方,點擊相關搜尋詞可以直接獲得這些詞的搜尋結果。
5:問答模組
很多網際網路公司認識到單純得靠關鍵字來提供用戶想要的信息的搜尋已經遠遠不能滿足用戶日益增長的對高質量信息的需求了,如果你想要找關於《刺陵》的一些信息那么你只要在google或者百度里輸入“刺陵”就可以找到你要的信息了,但是如果你想知道建國大業在北京朝陽影院的票價是多少的時候搜尋引擎就愛莫能助了,這時候就需要用到人了。於是聰明的百度推出了百度知道,彌補了搜尋引擎在用戶深度信息需求方面的空缺。
編輯本段
發展趨勢
精度搜尋的發展趨勢,隨著網頁的海量增加,現有的“關鍵字”搜尋技術的精度每況逾下,用戶查詢所需時間越來越長,顯然,技術已經遠遠落後於需求。
用戶對信息的檢索,造就了google帝國,但是隨著信息的指數式增長,量變終於造成了質變,關鍵字搜尋模式開始遇到了一個致命的問題——搜尋的精度問題無法解決。
Google的用戶平均要花費11分鐘才能找到自己需要的信息,與此同時他們還必須過濾掉其中夾雜的大量無關的內容,70%被調查的網民都或多或少的有過搜尋疲勞——即認為搜尋結果不能滿足他們的需要或者很難適合找到自己需要的結果。
搜尋引擎雖然能很輕鬆的幫我們找到海量的信息,但是我們卻很難從中找到自己想要的。我們需要有技巧和能力才能從海量數據中找出自己想要的。這種技巧和能力表現在:是否熟練使用搜尋技巧、是否能通過搜尋結果中展示的內容判斷目標網站是否有效等等。但是對於普通的搜尋用戶來說,他們只會在搜尋框裡輸入他們想要的東西然後點擊搜尋,於是展示在他們面前的就是“海量數據”,如果正確使用搜尋命令來過濾和準確表述目標需求正是這些普通用戶所欠缺的,而問題是搜尋引擎的使用者絕大部分是這樣的“普通用戶”。