超文本定義
超文本(Hypertext)是用超連結的方法,將各種不同空間的文字信息組織在一起的網狀文本。超文本更是一種用戶介面範式,用以顯示文本及與文本之間相關的內容。現時超文本普遍以電子文檔方式存在,其中的文字包含有可以鏈結到其他位置或者文檔的連結,允許從當前閱讀位置直接切換到超文本連結所指向的位置。超文本的格式有很多,目前最常使用的是超文本標記語言(Hyper Text Markup Language,HTML)及富文本格式 (Rich Text Format,RTF)。我們日常瀏覽的網頁上的鏈結都屬於超文本。
一種按信息之間關係非線性地存儲、組織、管理和瀏覽信息的計算機技術。超文本技術將自然語言文本和計算機互動式地轉移或動態顯示線性文本的能力結合在一起,它的本質和基本特徵就是在文檔內部和文檔之間建立關係,正是這種關係給了文本以非線性的組織。 概括的說,超文本就是收集,存儲磨合瀏覽離散信息以及建立和表現信息之間關聯的技術。
超文本是由若干信息結點和表示信息節點之間相關性的鏈構成的一個具有一定邏輯結構和語義關係的非線性網路。HTML只是超文本語言的一種,JSS與CSS,VB等也屬於超文本的範疇。
超文本數據是怎樣的一種結構
超文本技術是一種按信息之間關係非線性地存儲、組織、管理和瀏覽信息的計算機技術。
超文本與超文本協定的區別:
超文本
是與其它數據有關聯(links)的數據。包含與其他文檔連結的文檔;選擇連結時自動顯示第二個文檔。
超文本傳輸協定(http):
支持www上信息交換的internet標準,是定義web伺服器如何回響檔案請求的internet協定。
Web數據挖掘-超文本數據的知識發現
《Web數據挖掘-超文本數據的知識發現(英文版)》
本書是信息檢索領域的名著,深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的套用。本書為讀者提供了堅實的技術背景和最新的知識。
本書是從事數據挖掘學術研究和開發的專業人員理想的參考書,同時也適合作為高等院校計算機及相關專業研究生的教材。
1 INTRODUCTION
1.1 Crawling and Indexing
1.2 Topic Directories
1.3 Clustering and Classification
1.4 Hyperlink Analysis
1.5 Resource Discovery and Vertical Portals
1.6 Structured vs. Unstructured Data Mining
1.7 Bibliographic Notes
PART Ⅰ INFRASTRUCTURE
2 CRAWLING THE WEB
2.1 HTML and HTTP Basics
2.2 Crawling Basics
2.3 Engineering Large-Scale Crawlers
2.3.1 DNS Caching, Prefetching, and Resolution
2.3.2 Multiple Concurrent Fetches
2.3.3 Link Extraction and Normalization
2.3.4 Robot Exclusion
2.3.5 Eliminating Already-Visited URLs
2.3.6 Spider Traps
2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages
2.3.8 Load Monitor and Manager
2.3.9 Per-Server Work-Queues
2.3.10 Text Repository
2.3.11 Refreshing Crawled Pages
2.4 Putting Together a Crawler
2.4.1 Design of the Core Components
2.4.2 Case Study: Using w3c-libwww
2.5 Bibliographic Notes
3 WEB SEARCH AND INFORMATION RETRIEVAL
3.1 Boolean Queries and the Inverted Index
3.1.1 Stopwords and Stemming
3.1.2 Batch Indexing and Updates
3.1.3 Index Compression Techniques
3.2 Relevance Ranking
3.2.1 Recall and Precision
3.2.2 The Vector-Space Model
3.2.3 Relevance Feedback and Rocchio?s Method
3.2.4 Probabilistic Relevance Feedback Models
3.2.5 Advanced Issues
3.3 Similarity Search
3.3.1 Handling òFind-Similaró Queries
3.3.2 Eliminating Near Duplicates via Shingling
3.3.3 Detecting Locally Similar Subgraphs of the Web
3.4 Bibliographic Notes
PART Ⅱ LEARNING
PART Ⅲ APPLICATIONS
References
Index
超文本數據傳輸協定
超文本數據傳輸協定(http, hypertext transfer protocol)是網際網路上套用最為廣泛的一種網路傳輸協定。所有的www檔案都必須遵守這個標準。設計http最初的目的是為了提供一種發布和接收html頁面的方法。
http的發展是全球資訊網協會和internet工作小組合作的結果,在一系列的rfc發布中確定了最終版本,其中最著名的是rfc 2616。在rfc 2616中定義了http/1.1這個今天普遍使用的版本。
http是一個用於在客戶端和伺服器間請求和應答的協定。一個http的客戶端,諸如一個web瀏覽器,通過建立一個到遠程主機特殊連線埠(默認連線埠為80)的連線,初始化一個請求。一個http伺服器通過監聽特殊連線埠等待客戶端傳送一個請求序列, 就像“get / http/1.1”(用來請求網頁伺服器的默認頁面),有選擇的接收像email一樣的mime訊息,此訊息中包含了大量用來描述請求各個方面的信息頭序列,回響一個選擇的保留數據主體。接收到一個請求序列後(如果要的話,還有訊息),伺服器會發回一個應答訊息,諸如“200 ok”,同時發回一個它自己的訊息,此訊息的主體可能是被請求的檔案、錯誤訊息或者其他的一些信息。 HTTP(Hypertext Transfer Protocol),即超文本傳輸協定。是WWW瀏覽器和WWW伺服器之間的套用層通訊協定。HTTP協定是基於TCP/IP之上的協定,它不僅保證正確傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪一部分內容首先顯示(如文本先與圖形)等等。
它網際網路上套用最為廣泛的一種網路傳輸協定。所有的WWW檔案都必須遵守這個標準。設計HTTP最初的目的是為了提供一種發布和接收HTML頁面的方法。網際網路上的套用主要除了HTML網頁外還被用來傳輸超文本數據 例如:圖片、音頻檔案(MP3等)、視頻檔案(rm、avi等)、壓縮檔(zip、rar等)……基本上只要是檔案數據均可以利用HTTP進行傳輸。
HTTP1.0和HTTP1.1都把TCP作為底層的傳輸協定。HTTP客戶首先發起建立與伺服器TCP連線。一旦建立連線,瀏覽器進程和伺服器進程就可以通過各自的套接字來訪問TCP。如前所述,客戶端套接字是客戶進程和TCP連線之間的“門”,伺服器端套接字是伺服器進程和同一TCP連線之間的“門”。客戶往自己的套接字傳送HTTP請求訊息,也從自己的套接字接收HTTP回響訊息。類似地,伺服器從自己的套接字接收HTTP請求訊息,也往自己的套接字傳送HTTP回響訊息。客戶或伺服器一旦把某個訊息送入各自的套接字,這個訊息就完全落入TCP的控制之中。TCP給HTTP提供一個可靠的數據傳輸服務;這意味著由客戶發出的每個HTTP請求訊息最終將無損地到達伺服器,由伺服器發出的每個HTTP回響訊息最終也將無損地到達客戶。我們可從中看到分層網路體系結構的一個明顯優勢——HTTP不必擔心數據會丟失,也無需關心TCP如何從數據的丟失和錯序中恢復出來的細節。這些是TCP和協定棧中更低協定層的任務。
TCP還使用一個擁塞控制機制。該機制迫使每個新的TCP連線一開始以相對緩慢的速率傳輸數據,然而只要網路不擁塞,每個連線可以迅速上升到相對較高的速率。這個慢速傳輸的初始階段稱為緩啟動(slow start)。