文檔查詢

文檔查詢

文檔查詢是指用戶提供查找檔案的主題字,在Internet上千個FTP伺服器涉及的上億個題目中找到所需要的檔案。Internet上有上千個FTP伺服器,涉及上億個題目,要在這么多的資源中找到所需要的檔案,並非是一件容易的事。為了幫助用戶在遍及全球的FTP伺服器上找到所需要的檔案,Internet提供了文檔查詢服務,只要提供要查找檔案的主題字,Archie便會在Internet上查找包含有該主題字的檔案或目錄,並一一列出FTP主機名。

基本信息

Internet上有上千個FTP伺服器,涉及上億個題目,要在這么多的資源中找到所需要的檔案,並非是一件容易的事。為了幫助用戶在遍及全球的FTP伺服器上找到所需要的檔案,Internet提供了文檔查詢服務,只要提供要查找檔案的主題字,Archie便會在Internet上查找包含有該主題字的檔案或目錄,並一一列出FTP主機名。

Archie這個名字來源於“Archieve Server”,即文檔查詢伺服器,這個系統現在已經發展成為Internet資源檢索的一種檢索工具,提供以信息查詢為目的的電子目錄服務資源。這個資料庫存有許多匿名FTP主機的公眾檔案目錄的完整清單,並定期查閱Internet各個檔案庫。大概每個星期都對匿名FTP主機進行一次搜尋,更新資料庫的內容,從而確定最新的檔案清單提供給Internet用戶。這樣,任何一個用戶只需要訪問Archie,給出需要查找的檔案,就能知道該檔案的出處。

文檔查詢服務

Archie:文檔查詢服務,檢索匿名FTP資源的工具。Archie是Internet上用來查找其標題滿足特定條件的所有文檔的自動搜尋服務的工具。為了從匿名FTP伺服器上下載一個檔案,必須知道這個檔案的所在地,即必須知道這個匿名FTP伺服器的地址以及檔案所在的目錄名。Archie就是幫助用戶在遍及全世界的千餘個FTP伺服器中尋找檔案的工具。Archie Server又被稱為文檔查詢伺服器,用戶只要給出所要查找檔案的全名或部分名字,文檔查詢伺服器就會指出哪些FTP伺服器上存在放著這樣的檔案。

查詢前提

(1)知道要查找的檔案名稱或者部分檔案名稱;

(2)知道某個或某幾個Archie伺服器的地址。

查詢方式

Archie伺服器支持三種查詢方式:

(1)通過Telnet遠程登錄到公用的Archie伺服器上進行查詢;

(2)在本地網路伺服器上使用Archie客戶機程式進行查詢;

(3)使用電子郵件進行查詢。

其中最常用的方式是用Telnet登錄到一台公用的Archie伺服器上進行查詢。Internet上的Archie伺服器較為繁忙,用戶要選擇位置近的Archie伺服器進行訪問。

廣域信息服務

WAIS(Wide Area Information Service):稱為廣域服務信息服務,是一種資料庫索引查詢服務。Archie所處理的是檔案名稱,不涉及檔案的內容;而WAIS則是通過檔案內容(而不是檔案名稱)進行查詢。因此,如果打算尋找包含在某個或某些檔案中的信息,WAIS便是一個較好的選擇。WAIS是一種分散式文本搜尋服務,它基於Z39.50標準。用戶通過給定索引關鍵字查詢到所需要的文本信息,如文章或圖書等。

工作原理

科學家們研究發現,全文檢索是成功率最高的一種檢索方法,但在檢索過程中,僅靠簡單地匹配關鍵字和文檔全文並不能很準確的找出結果,於是科學家們提出一種計算機和人相結合的兩步檢索方法,這既可以發揮計算機快速、準確的全文檢索和統計能力,又可以發揮人的抽象思維和主觀能動的判斷力。這兩步簡單描述如下:

第一步,用戶輸入要檢索的關鍵字,計算機採用全文檢索方法檢索所有的文檔,將包含關鍵字的文檔列成一個清單。

第二步,用戶選定清單中感興趣的若干文檔(這些文檔被稱為種子文檔),然後計算機以用戶選定的文檔為依據,再次檢索所有的文檔,找出內容上和用戶選定的文檔相似的文檔。計算機不具備抽象思維和自然語言理解能力,所以在判斷一文檔是否和種子文檔相似的過程中,它採用判斷兩文檔出現相同辭彙的機率是否相近的方法。計算機首先提取種子文檔中最常出現的辭彙,計算它們出現的幾率,並認為高頻相似的文檔內容也越相近。

例如,用戶要檢索與計算機硬體有關的文檔,那么用戶可以輸入“computer hardware”作為關鍵字,計算機通過全文檢索將包含關鍵字的文檔形成一列表,用戶可以瀏覽這些結果後選定其中的若干文檔作為種子,計算機分析用戶選定的這些種子文檔,確定出其中的高頻詞如“IRQ”,“DMA”和“card”等,並以此為依據,列出那些含有同樣多的“IRQ”,“DMA”和“card”的文檔作為結果。

上述方法聽起來有點玄妙,但在實際套用中確實發揮了很大的作用。WAIS成功借鑑了這種方法,並將檢索擴展到整個Internet空間。

檢索和比較

WAIS的最大計算量是在全文檢索上,如果通過現場匹配用戶關鍵字和每一個文檔全文,WAIS的檢索速度會降得很低,所以為了提高檢索速度,WAIS將許多文檔劃分成一個個稱為資源的集合,它是WAIS進行檢索和比較的基礎。

檢索過程

WAIS是基於客戶/伺服器模式的,伺服器除了負責資源資料庫維護工作外,還提供有檢索引擎,負責接受客戶端的請求,通過檢索本地資料庫實現全文檢索。客戶端則完成用戶的接口工作。WAIS客戶程式往往在本地保存著許多資源的信息,以便用戶檢索時使用。這些信息一般記錄於一個文本檔案之中,包括資源所在WAIS伺服器的主機名、IP位址、連線埠號、資料庫名和一段簡單的描述。

用戶使用WAIS客戶程式進行檢索的過程一般分為三步完成:

(1)用戶首先選擇進行檢索的資源;

(2)用戶輸入檢索的關鍵字,WAIS通過檢索列出資源中包含關鍵字的文檔;

(3)用戶在這些文檔中選定某些文檔作為種子,並再次要求WAIS檢索相似的文檔,這一步在WAIS中被稱為“relevance feedback”——相關回溯,也是WAIS最關鍵的一步。

用戶最終得到結果列表中處於最前面的文檔最接近用戶的檢索要求。

訪問途徑

訪問WAIS的途徑相當多,比如可以利用遠程登錄Telnet使用公眾WAIS客戶程式。但最常見的還是在客戶機上安裝WAIS客戶程式,用它訪問WAIS系統。這種方法完全按客戶機/伺服器模式進行工作,速度快,用戶界面可以充分利用用戶作業系統的特點。WAIS客戶程式可以從一些匿名FTP上免費下載,主要有:

ftp.cndir.org:/pub/nidr.tools/freewais-0.1.tar

think.com:/wais/wais-8-b5.1.tar.z

oac.hsc.uth.tmc.edu:/public/dos/misc/oacwais.exe

sunsite.unc.edu:/pub/wais/windows/wwais103.zip

所有客戶程式,無論採用何種用戶界面或運行於何種環境中,一般都提供三個用戶輸入接口:檢索關鍵字輸入接口,資源選擇接口,種子文檔選擇接口,這其中資源選擇接口最複雜,因為在許許多多的資源中,用戶很難判斷哪些資源是和用戶檢索有關的,所以,作為WAIS的主要開發商之一的Thinking Machines公司,專門為這些資源製作了一個資源列表,用戶只需連線他們的WAIS伺服器,輸入要檢索的關鍵字,便可以得到符合關鍵字的資源列表,用戶可以將這些資源存儲於本地,進而選擇其中若干資源進行下一步檢索。資源列表也可以通過匿名FTP從Think.com的/wais目錄下的wais-sources.tar.z檔案中得到。

訪問WAIS的另一個捷徑是使用Gopher客戶程式,用戶通過點取Gopher選單也能訪問到豐富的WAIS資源。利用Gopher訪問WAIS的過程實際上是選擇資源並輸入關鍵字的過程,類似於使用Telnet調用公共客戶程式,但與WAIS客戶程式相比,它僅完成了WAIS用戶接口的前兩步,不能同時選擇多個資源進行檢索,更不能進行相關回溯操作。不過這種方法對於大多數情況仍不失為一種快速方便的方法。

相關詞條

熱門詞條

聯絡我們