超鏈分析

超鏈分析

超鏈分析就是通過分析連結網站的多少來評價被連結的網站質量,這保證了用戶在百度搜尋時,越受用戶歡迎的內容排名越靠前。百度CEO李彥宏就是超鏈分析專利的唯一持有人,目前該技術已為世界各大搜尋引擎普遍採用。

由來

1996年(丙子年)4月,Excite首期200萬股股票上市,李彥宏也在此時想到了如何解決搜尋引擎作弊問題。“我想到了我在北大所學的科技論文索引,科學論文通過索引被引用次數的多寡來確定一篇論文的好壞,超鏈就是對頁面的引用,作弊網頁沒價值,不可能被很多網站主動超鏈。”“超鏈上的文字就是對所連結網頁的描述,通過這個描述可以計算出超鏈和頁面之間的相關度”總之,“超鏈是別人評價你,超鏈上的描述是別人怎樣評價你。”

發展

想到這,李彥宏很興奮,他找到老闆,對他說:“我們應該做搜尋引擎。”老闆聽了很高興說:“很好。”但老闆並沒真正認識到李彥宏這個發明的重要性,“或者在他的位置上,覺得沒有必要做這個”。其時,李彥宏所在的公司已被道·瓊斯收購,大家都在忙著做華爾街日報網站,李彥宏是《華爾街日報》網路版實時金融信息系統設計者。在道·瓊斯看來,“這個公司最值錢是編輯和記者,公司雖然給軟體和技術工程師比較高的工資,但軟體和技術人員並不重要。”

老闆那邊沒動靜,李彥宏這邊很著急。“拖下去,別人也可能想到。”李彥宏買了本怎樣申請專利的書,寫了兩個月,將想法寫成了專利,並遞交了專利申請。

申請遞上去之後,李彥宏覺得還是應該和老闆說一聲。老闆一聽急了。“這是你的職務發明,應該由公司來申請這個專利。”1997年2月,道·瓊斯申請了“一種超文本的相關性排序方法和系統”專利。“它的本質就是超鏈分析。”

道·瓊斯不可能提供足夠多的資源讓李彥宏做搜尋引擎,李彥宏用一台伺服器做索引網際網路上的超鏈,然後用ranklink. com跑一個DEMO演示。“當時有雜誌記者採訪我,發表了第一篇講超鏈分析文章。”Rankdex在公司立了項,還給李彥宏配一個銷售,賣超鏈分析技術。

用例

1997年夏,李彥宏工資已經漲到了年薪8萬美元,但他總是覺得沒意思。一次學術會議上,李彥宏遇到了Infoseek CTO(首席技術官) 威廉·張。李彥宏拉威廉·張看ranklink. com。微軟、雅虎的人也在場。李彥宏輸入chinatimes,排在第一位的就是中國時報的網站,再搜IBM,IBM官方網站排在第一。“當時任何一個流行的搜尋引擎都做不到。”

威廉·張立即給李彥宏開了更高的工資,邀請他加入Infoseek,李彥宏欣然接受,離開華爾街來到矽谷,出任Infoseek主任工程師。

歷史

這其實就是現實生活中類似於連結關係的套用。要判斷哪個頁面最具權威性,不能光看頁面自己怎么說,還要看其他頁面怎么評價。

李彥宏1997年就提交了一份名為“超鏈檔案檢索系統和方法”的專利申請,這比GOOGLE創始人發明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統信息檢索系統不同的基於連結的排名方法。

這個系統除了索引頁面之外,還建立一個連結詞庫,記錄連結錨文字的一些相關信息,如錨文字中包含哪些關鍵字,發出連結的頁面索引,包含特定錨文字的連結總數,包含特定關鍵字的連結都指向哪些頁面。詞庫不僅包含關鍵字原型,也包含同一個詞幹的其他衍生關鍵字。

根據這些連結數據,尤其是錨文字,計算出基於連結的檔案相關性。在用戶搜尋時,將得到的基於連結的相關性與基於關鍵字匹配的傳統相關性綜合使用,得到更準確的排名。

在今天看來,這種基於連結的相關性計算是搜尋引擎的常態,每個SEO人員都知道。但是在十三四年前,這無疑是非常創新的概念。當然現在的搜尋引擎算法對連結的考慮,已經不僅僅是錨文字,實際上要複雜的多。

這份專利所有人是李彥宏當時所在的公司,發明人是李彥宏本人。

摘要

一個與根據超鏈指向的查詢索引文檔相關,用於檢索文檔的搜尋引擎。它的索引器遍歷超文本資料庫並尋找包括超鏈指向的文檔地址與每個超鏈的錨文本在內的超文本信息。超文本信息是貯存在一個倒排索引檔案里,這個倒排索引檔案亦可用於計算對於各超鏈指向的特定文檔連結向量。輸入查詢時候,搜尋引擎找到錨文本里含有查詢詞的全部文檔的向量。此外計算了查詢向量,然後算出查詢向量跟每個文檔連結向量的點積。特定文檔相關點積的加總確定每一個文檔的相關性排名。

相關搜尋

熱門詞條

聯絡我們