文檔查詢:文檔查詢是指用戶提供查找檔案的主題字，在Internet上千個 -百科知識中文網

基本信息

Internet上有上千個FTP伺服器，涉及上億個題目，要在這么多的資源中找到所需要的檔案，並非是一件容易的事。為了幫助用戶在遍及全球的FTP伺服器上找到所需要的檔案，Internet提供了文檔查詢服務，只要提供要查找檔案的主題字，Archie便會在Internet上查找包含有該主題字的檔案或目錄，並一一列出FTP主機名。

Archie這個名字來源於“Archieve Server”，即文檔查詢伺服器，這個系統現在已經發展成為Internet資源檢索的一種檢索工具，提供以信息查詢為目的的電子目錄服務資源。這個資料庫存有許多匿名FTP主機的公眾檔案目錄的完整清單，並定期查閱Internet各個檔案庫。大概每個星期都對匿名FTP主機進行一次搜尋，更新資料庫的內容，從而確定最新的檔案清單提供給Internet用戶。這樣，任何一個用戶只需要訪問Archie，給出需要查找的檔案，就能知道該檔案的出處。

文檔查詢服務

Archie：文檔查詢服務，檢索匿名FTP資源的工具。Archie是Internet上用來查找其標題滿足特定條件的所有文檔的自動搜尋服務的工具。為了從匿名FTP伺服器上下載一個檔案，必須知道這個檔案的所在地，即必須知道這個匿名FTP伺服器的地址以及檔案所在的目錄名。Archie就是幫助用戶在遍及全世界的千餘個FTP伺服器中尋找檔案的工具。Archie Server又被稱為文檔查詢伺服器，用戶只要給出所要查找檔案的全名或部分名字，文檔查詢伺服器就會指出哪些FTP伺服器上存在放著這樣的檔案。

查詢前提

（1）知道要查找的檔案名稱或者部分檔案名稱；

（2）知道某個或某幾個Archie伺服器的地址。

查詢方式

Archie伺服器支持三種查詢方式：

（1）通過Telnet遠程登錄到公用的Archie伺服器上進行查詢；

（2）在本地網路伺服器上使用Archie客戶機程式進行查詢；

（3）使用電子郵件進行查詢。

其中最常用的方式是用Telnet登錄到一台公用的Archie伺服器上進行查詢。Internet上的Archie伺服器較為繁忙，用戶要選擇位置近的Archie伺服器進行訪問。

廣域信息服務

WAIS（Wide Area Information Service）：稱為廣域服務信息服務，是一種資料庫索引查詢服務。Archie所處理的是檔案名稱，不涉及檔案的內容；而WAIS則是通過檔案內容（而不是檔案名稱）進行查詢。因此，如果打算尋找包含在某個或某些檔案中的信息，WAIS便是一個較好的選擇。WAIS是一種分散式文本搜尋服務，它基於Z39.50標準。用戶通過給定索引關鍵字查詢到所需要的文本信息，如文章或圖書等。

工作原理

科學家們研究發現，全文檢索是成功率最高的一種檢索方法，但在檢索過程中，僅靠簡單地匹配關鍵字和文檔全文並不能很準確的找出結果，於是科學家們提出一種計算機和人相結合的兩步檢索方法，這既可以發揮計算機快速、準確的全文檢索和統計能力，又可以發揮人的抽象思維和主觀能動的判斷力。這兩步簡單描述如下：

第一步，用戶輸入要檢索的關鍵字，計算機採用全文檢索方法檢索所有的文檔，將包含關鍵字的文檔列成一個清單。

第二步，用戶選定清單中感興趣的若干文檔（這些文檔被稱為種子文檔），然後計算機以用戶選定的文檔為依據，再次檢索所有的文檔，找出內容上和用戶選定的文檔相似的文檔。計算機不具備抽象思維和自然語言理解能力，所以在判斷一文檔是否和種子文檔相似的過程中，它採用判斷兩文檔出現相同辭彙的機率是否相近的方法。計算機首先提取種子文檔中最常出現的辭彙，計算它們出現的幾率，並認為高頻相似的文檔內容也越相近。

例如，用戶要檢索與計算機硬體有關的文檔，那么用戶可以輸入“computer hardware”作為關鍵字，計算機通過全文檢索將包含關鍵字的文檔形成一列表，用戶可以瀏覽這些結果後選定其中的若干文檔作為種子，計算機分析用戶選定的這些種子文檔，確定出其中的高頻詞如“IRQ”，“DMA”和“card”等，並以此為依據，列出那些含有同樣多的“IRQ”，“DMA”和“card”的文檔作為結果。

上述方法聽起來有點玄妙，但在實際套用中確實發揮了很大的作用。WAIS成功借鑑了這種方法，並將檢索擴展到整個Internet空間。

檢索和比較

WAIS的最大計算量是在全文檢索上，如果通過現場匹配用戶關鍵字和每一個文檔全文，WAIS的檢索速度會降得很低，所以為了提高檢索速度，WAIS將許多文檔劃分成一個個稱為資源的集合，它是WAIS進行檢索和比較的基礎。

檢索過程

WAIS是基於客戶/伺服器模式的，伺服器除了負責資源資料庫維護工作外，還提供有檢索引擎，負責接受客戶端的請求，通過檢索本地資料庫實現全文檢索。客戶端則完成用戶的接口工作。WAIS客戶程式往往在本地保存著許多資源的信息，以便用戶檢索時使用。這些信息一般記錄於一個文本檔案之中，包括資源所在WAIS伺服器的主機名、IP位址、連線埠號、資料庫名和一段簡單的描述。

用戶使用WAIS客戶程式進行檢索的過程一般分為三步完成：

（1）用戶首先選擇進行檢索的資源；

（2）用戶輸入檢索的關鍵字，WAIS通過檢索列出資源中包含關鍵字的文檔；

（3）用戶在這些文檔中選定某些文檔作為種子，並再次要求WAIS檢索相似的文檔，這一步在WAIS中被稱為“relevance feedback”——相關回溯，也是WAIS最關鍵的一步。

用戶最終得到結果列表中處於最前面的文檔最接近用戶的檢索要求。

訪問途徑

訪問WAIS的途徑相當多，比如可以利用遠程登錄Telnet使用公眾WAIS客戶程式。但最常見的還是在客戶機上安裝WAIS客戶程式，用它訪問WAIS系統。這種方法完全按客戶機/伺服器模式進行工作，速度快，用戶界面可以充分利用用戶作業系統的特點。WAIS客戶程式可以從一些匿名FTP上免費下載，主要有：

ftp.cndir.org:/pub/nidr.tools/freewais-0.1.tar

think.com:/wais/wais-8-b5.1.tar.z

oac.hsc.uth.tmc.edu:/public/dos/misc/oacwais.exe

sunsite.unc.edu:/pub/wais/windows/wwais103.zip

所有客戶程式，無論採用何種用戶界面或運行於何種環境中，一般都提供三個用戶輸入接口：檢索關鍵字輸入接口，資源選擇接口，種子文檔選擇接口，這其中資源選擇接口最複雜，因為在許許多多的資源中，用戶很難判斷哪些資源是和用戶檢索有關的，所以，作為WAIS的主要開發商之一的Thinking Machines公司，專門為這些資源製作了一個資源列表，用戶只需連線他們的WAIS伺服器，輸入要檢索的關鍵字，便可以得到符合關鍵字的資源列表，用戶可以將這些資源存儲於本地，進而選擇其中若干資源進行下一步檢索。資源列表也可以通過匿名FTP從Think.com的/wais目錄下的wais-sources.tar.z檔案中得到。

訪問WAIS的另一個捷徑是使用Gopher客戶程式，用戶通過點取Gopher選單也能訪問到豐富的WAIS資源。利用Gopher訪問WAIS的過程實際上是選擇資源並輸入關鍵字的過程，類似於使用Telnet調用公共客戶程式，但與WAIS客戶程式相比，它僅完成了WAIS用戶接口的前兩步，不能同時選擇多個資源進行檢索，更不能進行相關回溯操作。不過這種方法對於大多數情況仍不失為一種快速方便的方法。

文檔查詢

基本信息

文檔查詢服務

查詢前提

查詢方式

廣域信息服務

工作原理

檢索和比較

檢索過程

訪問途徑

相關詞條

標準文檔查詢語言

積體電路查詢網

OCI文檔

電子文檔

百靈鳥文檔管理系統

文檔訪問

文檔管理軟體

項目文檔管理

文檔安全

熱門詞條