檢索速度

網際網路時代的到來開啟了信息革命,掌握了大量信息就能在日常、商務生活中處於不敗之地,但是信息量是如此巨大,如何甄選出有用的關鍵信息就成為了人們一直以來討論的焦點。目前,在用戶的信息處理中,普遍會用到檢索技術來獲取關鍵信息。檢索速度是衡量一個檢索技術好壞最重要的指標之一。

簡介

檢索速度簡單地來說就是人們檢索相關信息的的快慢(時間消耗)。網際網路時代的到來開啟了信息革命,最近幾年隨著大數據時代到來,我們要面對的信息量達到一個我們無法想像的量級。但是在這些信息中快速找出個人或者公司所需要的一直都是我們所期望的。檢索在計算機的套用中無所不在。檢索速度是衡量一個檢索技術最重要的指標之一。檢索速度主要受檢索算法和硬體影響。

檢索技術的主要內容

將索引和檢索放到一個進程中。由於二者在一個進程中同時存在,未剝離各·自的處理,因此,會互相影響彼此的性能。也就是說,在索引時由於占用較多的CPU,會導致檢索性能存在瓶頸。

一個檢索只唯一對應一個索引庫。由於索引和檢索不分離,並且沒有同步切換機制,因此,在同步索引時,當前的檢索不能進行服務,即:索引時會導致檢索服務中斷;並且每次哪怕只更新一篇數據,也需要對整個索引進行重建、更新,會對數據更新的速度有所限制。

單執行緒檢索一個數據量較大的索引庫或多個索引庫。由於倒排表過大會導致運算量的增加,因此,導致單次檢索的回響時間相應增加,從而導致整體檢索性能不高。

檢索算法

檢索算法一般分為傳統的搜尋算法和搜尋引擎算法。

搜尋算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法。現階段一般有枚舉算法、深度優先搜尋、廣度優先搜尋、A*算法、回溯算法、蒙特卡洛樹搜尋、散列函式等算法。在大規模實驗環境中,通常通過在搜尋前,根據條件降低搜尋規模;根據問題的約束條件進行剪枝;利用搜尋過程中的中間解,避免重複計算這幾種方法進行最佳化。例如散列函式(或散列算法,又稱哈希函式,英語:Hash Function)是一種從任何一種數據中創建小的數字“指紋”的方法。散列函式把訊息或數據壓縮成摘要,使得數據量變小,將數據的格式固定下來。該函式將數據打亂混合,重新創建一個叫做散列值(hash values,hash codes,hash sums,或hashes)的指紋。散列值通常用一個短的隨機字母和數字組成的字元串來代表。好的散列函式在輸入域中很少出現散列衝突。在散列表和數據處理中,不抑制衝突來區別數據,會使得資料庫記錄更難找到。

搜尋引擎算法: 獲得網站網頁資料,建立資料庫並提供查詢的系統,我們都可以把它叫做搜尋引擎。搜尋引擎的資料庫是依靠一個叫“網路機器人(crawlers)”或叫“網路蜘蛛(Spider)”的軟體,通過網路上的各種連結自動獲取大量網頁信息內容,並按一定的規則分析整理形成的。Google、百度都是比較典型的搜尋引擎系統。 為了更好的服務網路搜尋,搜尋引擎的分析整理規則---即搜尋引擎算法是變化的。

套用

現代網際網路的使用已經離不開搜尋引擎,而搜尋引擎的使用會消耗大量能源,造成巨大的碳排放量。運行用戶計算機需要電力,運行遍布世界各地的伺服器和控制龐大的數據中心的溫度更要消耗大量的電力。谷歌稱,通過谷歌搜尋引擎的每一次搜尋會產生0.2克的二氧化碳排放量,而美國哈佛大學的物理學家阿歷克斯·維茲納爾-格羅斯則稱,每一次搜尋所產生的二氧化碳排放量高達7克。目前,信息和通信技術領域造成的二氧化碳排放量已占全球二氧化碳排放總量的大約2%。因此,世界各信息技術公司都在研究如何減少信息處理技術對環境的影響。

格拉斯哥大學科學家將研究目標放在了提高搜尋速度上,希望通過提升速度來減少耗能。研究小組的維姆·范德鮑維德博士指出,人們會思考運行信息技術的碳成本,他們可能對使用計算機的耗電量很清楚,但未必會留意使用網路搜尋時所消耗的能源。雖然有很多方式可以降低數據中心的能耗,減少搜尋所需時間則是他們的關注重點。通過提高搜尋速度,伺服器在等量工作中消耗的能源就會減少。

研究小組使用雙賽靈思現場可程式邏輯門陣列(Xilinx FPGAs),執行信息檢索和資料庫文檔過濾算法。結果發現,FPGA系統的搜尋速度比英特爾安騰-2雙核處理器要快20倍。不僅如此,FPGA晶片所耗電能也很小,每個晶片只需要消耗1.25瓦特的電能,而安騰處理器則需消耗130瓦特。

研究小組的另一位成員阿茲沃帕迪博士表示,FPGAs能夠降低能耗,提升運行速度,極具潛力,有望帶來巨大的經濟效益。如果將幾個FPGAs連線到一個處理器上,將會極大提升運算速度,而只留下很少的碳足跡。

科學家希望能進一步發展該系統,並將其最終套用到網路伺服器上,以加快網路搜尋速度,從而降低搜尋引擎工作所需的能源和碳成本。目前,他們正致力於進一步提高原型機的表現,進行數據中心環境測試。

相關詞條

熱門詞條

聯絡我們