簡介
“語義網”是計算機和網際網路界在描述下一階段網路發展時所使用的術語。所謂“語義”就是文本的含義。語義網就是能夠根據語義進行判斷的網路,也就是一種能理解人類語言,可以使人與電腦之間的交流變得像人與人之間交流一樣輕鬆的智慧型網路。通過“語義網”,可以構建一個基於網頁內數據語義來進行連線的網路,從而使網路能按照用戶的要求自動搜尋和檢索網頁,直至找到所需要的內容。
在語義網中,網路變得聰明了,似乎被置入了某些推理能力。或許將來某個時候,具備人工智慧的軟體代理人會替你線上處理所有繁雜的商業和個人事務。
語義網是全球資訊網的延伸,不僅可用自然語言表現網路內容,而且這些內容還可以被軟體代理人(softwareagent)所閱讀和使用。全球資訊網的創始人蒂姆·伯納斯·李將網路看做一種數據、信息和知識交換的萬有媒介,可以說,語義網完全符合他的這一夢想。
語義網的第二個重要元素是促進生產力。一旦計算機知道您的參數並且它在網上有一個語義描述,它就能根據規則給你一個精確,私人化的結果。更加困難的是,您個人的愛好是一個從電腦返回的數據的過濾器:找一個預算在3000元以下的旅行計畫,如果這些都實現了,那我們可以宣布語義網時代已經到來了。
基本特徵
1、語義網不同於現在WWW,它是現有WWW的擴展與延伸。
2、現有的WWW是面向文檔而語義網則面向文檔所表示的數據。
3、語義網將更利於計算機“理解與處理”,並將具有一定的判斷、推理能力。
4、內容的可獲取性,即基於Ontology而構建的語義網網頁目前還很少。
5、本體的開發和演化,包括用於所有領域的核心本體的開發、開發過程中的方法及技術支持、本體的演化及標註和版本控制問題。
6、內容的可擴展性,即有了語義網的內容以後,如何以可擴展的方式來管理它,包括如何組織、存儲和查找等。
7、多語種支持。
8、本體語言的標準化。
體系結構
第一層
第一層:Unicode和URI。Unicode是一個字元集,這個字元集中所有字元都用兩個位元組表示,可以表示65536個字元,基本上包括了世界上所有語言的字元。數據格式採用Unicode的好處就是它支持世界上所有主要語言的混合,並且可以同時進行檢索。URI(UniformResourceIdentifier),即統一資源定位符,用於唯一標識網路上的一個概念或資源。在語義網體系結構中,該層是整個語義網的基礎,其中Unicode負責處理資源的編碼,URI負責資源的標識。
第二層
第二層:XML+NS+xmlschema。XML是一個精簡的SGML,它綜合了SGML的豐富功能與HTML的易用性,它允許用戶在文檔中加入任意的結構,而無需說明這些結構的含意。NS(NameSpace)即命名空間,由URI索引確定,目的是為了避免不同的套用使用同樣的字元描述不同的事物。XMLSchema是DTD(DocumentDataType)的替代品,它本身採用XML語法,但比DTD更加靈活,提供更多的數據類型,能更好地為有效的XML文檔服務並提供數據校驗機制。正是由於XML靈活的結構性、由URI索引的NS而帶來的數據可確定性以及XMLSchema所提供的多種數據類型及檢驗機制,使其成為語義網體系結構的重要組成部分。該層負責從語法上表示數據的內容和結構,通過使用標準的語言將網路信息的表現形式、數據結構和內容分離。
第三層
第三層:RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目標是建立一種供多種元數據標準共存的框架。該框架能充分利用各種元數據的優勢,進行基於Web的數據交換和再利用。RDF解決的是如何採用XML標準語法無二義性地描述資源對象的問題,使得所描述的資源的元數據信息成為機器可理解的信息。如果把XML看作為一種標準化的元數據語法規範的話,那么RDF就可以看作為一種標準化的元數據語義描述規範。Rdfschema使用一種機器可以理解的體系來定義描述資源的辭彙,其目的是提供辭彙嵌入的機制或框架,在該框架下多種辭彙可以集成在一起實現對Web資源的描述。
第四層
第四層:Ontologyvocabulary。該層是在RDF(S)基礎上定義的概念及其關係的抽象描述,用於描述套用領域的知識,描述各類資源及資源之間的關係,實現對辭彙表的擴展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關係。
第五至七層
第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規則,而Logic一旦建立,便可以通過邏輯推理對資源、資源之間的關係以及推理結果進行驗證,證明其有效性。通過Proof交換以及數字簽名,建立一定的信任關係,從而證明語義網輸出的可靠性以及其是否符合用戶的要求。
研究現狀
我們知道,大部分科技創新和突破是對已有知識的重新組合和更新,具有對網路空間所儲存的數據進行智慧型評估能力的語義網,必然會為新的科技創新提供無盡的資源。一旦這種技術被廣泛運用,其產生的效益無可估量。因此,語義網從誕生之日起,便成為計算機研究的熱點領域。
W3C組織(WorldWideWebConsortium)是語義網主要的推動者和標準制定者,在它的呵護之下,語義網技術羽翼漸豐。2001年7月30日,美國史丹福大學召開了題為“語義網基礎設施和套用”的學術會議,這是有關語義網的第一個國際會議。2002年7月9日,在義大利召開了第一屆國際語義網大會。此後語義網大會每年舉行一次,形成慣例。同時,HP、IBM、微軟、富士通等大公司,史丹福大學、馬里蘭大學、德國卡爾斯魯厄大學、英國曼徹斯特維多利亞大學等教育機構都對語義網技術展開了廣泛深入的研究,開發出了Jena、KAON、Racer、Pellet、Protégé等一系列語義網技術開發套用平台、基於語義網技術的信息集成以及查詢、推理和本體編輯系統。
中國也非常重視語義網的研究,早在2002年,語義網技術就被國家863計畫列為重點支持項目,清華大學、東南大學、上海交通大學和中國人民大學都是國內語義網及其相關技術的研究中心。東南大學的語義網本體映射研究有一定的國際影響,清華大學的語義網輔助本體挖掘系統SWARMS、上海交通大學的本體工程開發平台ORIENT都代表了國內語義網研發水平。
技術套用
語義網一開始就肩負著改造現有全球資訊網的重任,它正在逐漸改變和影響我們現有的全球資訊網。RSS、CC以及Powerset這些語義網支撐技術都讓我們切實感受到了迎面撲來的語義Web之風,使我們普通用戶享受到了語義網技術所帶來的便捷,聽到了它越來越近的腳步聲。
RSS是目前最成功的以語義網支撐技術為基礎的套用,是站點用來和其他站點共享內容的一種簡易方式。用戶只要安裝RSS閱讀器,它就會自動收集和組織用戶定製的新聞,按照用戶希望的格式、地點和時間直接傳送到用戶的計算機上。目前國內外大型入口網站如新浪、搜狐、網易等都支持RSS套用,標記為“XML”或“RSS”的橙色圖示就是該網站支持RSS套用的記號。
知識共享(CC)著作權識別是語義網技術的另一個現實套用。非營利性組織“知識共享組織”旨在為創造性作品提供靈活的著作權許可協定。2006年3月,中國大陸版CC發布。基於語義網支撐技術RDF的CC搜尋引擎,能自動識別和理解作品版權資訊,為用戶合法使用具有不同級別的智慧財產權網路作品提供了極大方便,例如線上圖片存儲網站巴巴變(bababian.com)就已經集成了CC中國大陸版許可協定,“巴巴變”的用戶可以選擇知識共享中國大陸項目提供的許可協定,授權他人使用自己擁有著作權的圖片作品。
剛問世就被稱為“Google殺手”的Powerset,則是巴尼·佩爾(BarneyPell)追逐的一個關於自然語言搜尋引擎的夢想。38歲的佩爾認為,Google只能通過關鍵字來搜尋,不能分辨“兒童看的書”、“兒童寫的書”和“關於兒童的書”之間的區別,而自然語言引擎卻能夠分析“功能詞”,理解哪怕是最小的關鍵字的意思。他相信Powerset搜尋引擎很快就可以推向市場,成為語義網的催化劑。
除了上述語義網技術的成功套用外,目前有希望的語義網套用研究還集中在Web服務、基於代理的分散式計算以及基於語義的數字圖書館等方面。
語義網雖然是一種更加美好的網路,但實現起來卻是一項複雜浩大的工程。面對紛繁複雜的問題,人尚且難以決斷,更何況計算機呢。況且,決定技術發展方向的是用戶體驗,而不是理論。要真正實現實用的語義網,還有很多難題亟待解決,有些暫時還看不到解決的希望。語義網的研究開發基本上還停留在實驗室階段,成熟的語義網技術商業套用產品並不多見,各大軟體生產商對其套用還處於觀望期。但是,隨著對語義網體系結構、支撐技術和實現方法的不斷突破,基於語義網支撐技術的相關套用會日趨成熟,在不久的將來,計算機一定能看懂並處理網頁中的內容,伯納斯·李所期盼的人們將更方便快捷地使用全球資訊網發布和獲取信息的理想,也一定會成為現實。
未來面臨的挑戰
1第一代Web
WWW(WorldWideWeb),又稱全球資訊網,簡記為Web,是構建在Internet上採用瀏覽器/伺服器網路計算模式,訪問遍布在Internet計算機上所有連結檔案。1989年,在日內瓦歐洲粒子物理實驗室工作的Berners-Lee發明了最初的Web。第一代Web發明了超文本格式,把分布在網上的檔案連結在一起。這樣用戶只要在圖形界面上點擊滑鼠,就能從一個網頁跳到另一個網頁,使得通過網際網路瀏覽文檔成為可能,這時的Web以HTML語言、URL和HTTP等技術為標誌,以靜態頁面的平台形式來展現信息。
2第二代Web
第二代Web以動態HTML語言、Javascript、VBscript、ActiveX、API、CGI等技術為標誌。它允許用戶通過互動查詢資料庫並將資料庫中符合要求的結果動態地生成頁面,展示給用戶。這極大增強了Web處理大規模數據的能力。Web由一個展示信息的平台真正變成了信息處理的平台,極大促進人們的信息交流與共享。
3第三代Web
Web是一個龐大的知識庫,Web已經成為人類獲取信息和得到服務的主要渠道之一。但是Web並非已經盡善盡美,仍然存在很多尚待解決的問題。
3.1Web信息無法被自動處理。當前的Web無論是靜態的HTML網頁,還是動態生成的網頁,其目的都是供人閱讀。以往的Web技術都忽略了計算機的處理作用,計算機在其中主要扮演了展現信息的作用,而沒有理解和處理Web信息的能力。
3.2Web信息無法被有效利用。面對Web龐大的知識庫,對信息的有效利用提出了巨大挑戰。基於傳統技術的搜尋引擎已經無法應對Web這個日益龐大的知識庫。以最強大的搜尋引擎Google來說,它目前能搜尋80億之多的Web頁面,但這僅僅占整個Web規模的25%~30%,也就是說還有大量的信息無法被搜尋到。同時,由於計算機無法精確識別Web上的內容,當前搜尋引擎返回的結果中,存在許多垃圾信息,搜尋結果和質量並不令人滿意。
由此可見,現在的Web只是定位和展示信息的作用,對信息的內容並不關心。而事實上,人們真正關心的是信息的內容。只有對信息內容的含義進行描述,才能實現智慧型化的Web服務。為此,Berners-Lee在2000年又提出了語義網。所謂“語義”,就是文本的含義。“語義Web”,就是能夠根據語義進行判斷的網路。簡單地說,語義Web是一種能理解人類語言的智慧型網路,被人們稱為第三代Web。在語義網環境下,Web上定義和連結的數據不僅能顯示,而且可以被機器自動處理、集成和重用。只有當數據不僅可以被人而且可以被機器自動地共享和處理的時候,Web的潛力才發揮到極致。
根據Berners-Lee的構想,語義網是由一種分層的體系結構構成,如圖1所示。這是一個功能逐層增強的層次化結構,由七個層次構成。
(1)URI和Unicode。URI是Web的核心概念之一,它能夠唯一地標識Web上的任意一個資源,其思想是在需要的時候通過連結引用資源,因此不需要對資源進行拷貝或集中管理。Unicode是一種新的字元編碼標準,它支持世界上所有的語言。無論在什麼平台上,無論在什麼程式中,無論使用什麼語言,每個字元都對應於一個唯一的Unicode編碼值。因此,它是語義網多語種支持的基礎。
(2)XML、名稱空間(NS)和XMLSchema。XML提供文檔結構化的語法,實現了文檔結構與文檔表現形式的分離,根據不同的目的同一個文檔可以有不同的表現形式。XML名稱空間是名稱的一個集合,用於文檔元素和屬性名有效性的驗證,由URI引用來標識。XMLSchema是約束XML文檔結構的語言。
(3)RDF(S)。XML實現了文檔結構化,但文檔信息並不包含任何語義。RDF數據模型提供簡單的語義,RDF屬性可以看作是資源的屬性,同時又表達了資源之間的關係,因此RDF數據模型對應於傳統的屬性二值對,又類似於ER圖。RDFSchema為RDF模型提供了一個基本的類型系統,其目的就是定義資源的屬性,定義被描述資源的類,並對類和關係的可能組合進行約束,同時提供約束違例的檢測機制。
(4)本體層。雖然RDF(S)能夠定義對象的屬性和類,並且還提供了類的泛化等簡單語義,但它不能明確表達描述屬性或類的術語的含義及術語間的關係。本體層就是要提供一個能明確的形式化語言,以準確定義術語語義及術語間關係。
(5)邏輯、證明和信任。除了本體層定義的術語關係和推理規則外,還需要有一個功能強大的邏輯語言來實現推理。證明語言允許服務代理在向客戶代理髮送斷言的同時將推理路徑也傳送給客戶代理。這樣應用程式只需要包含一個普通的驗證引擎就可以確定斷言的真假。但是,證明語言只能根據Web上已有的信息對斷言給出邏輯證明,它並不能保證Web上所有的信息都為“真”。因此,軟體代理還需要使用數字簽名和加密技術用來確保Web信息的可信任性。
(6)數字簽名和加密。數字簽名簡單地說就是一段數據加密塊,機器和軟體代理可以用它來唯一地驗證某個信息是否由特定的可信任的來源提供。它是實現Web信任的關鍵技術。公共密鑰加密算法是數字簽名的基礎。
語義Web最大優點是可讓計算機具有對網路空間所儲存的數據,進行智慧型評估的能力。這樣,計算機就可以像人腦一樣“理解”信息的含義,完成“智慧型代理”的功能。使用語義Web搜尋引擎搜尋的結果比Web更為精確。
語義Web提供了一種嶄新的信息描述和知識表達的手段,而要在語義層次上實現信息的互操作,就需要對信息涵義的理解達成一致。語義Web採用了本體(ontology)的思想,本體描述的是具有共識的、概念化的事物,它對實現語義層次上的知識共享、知識重用發揮著核心作用。
語義Web具有一些基本特徵:a.語義Web不同於現有Web,它是現有Web的擴展與延伸;b.現有的Web面向文檔,而語義Web則面向文檔所表示的內容和語義(獨立於表示的語法);c.語義Web將更利於計算機“理解與處理”,並將具有一定的判斷推理能力。
語義Web的目標是讓Web上的信息能夠被機器理解,從而實現Web信息的自動處理,以適應Web信息資源的快速增長,更好地實現人和計算機的互動與合作。近年來,無論在國際上,還是在國內,人們對語義Web及其關鍵技術和套用的研究正在如火如荼,語義Web的支撐軟體與套用開發日益受到重視,語義Web被看作是新一代的信息基礎設施,被人們稱為第三代Web。
語義Web汲取人工智慧、哲學和邏輯學等學科的研究成果,試圖對Web上的信息和獲取方式進行重大改進,解決目前Web存在的問題。雖然語義Web未來的發展難以預測,但人類應該對所有的可能做出努力。也許正如語義網領域內的一種說法,就算人類只能解決1%的問題,隨著Web的普遍使用,也將會給社會帶來巨大的效益。我們期待著語義網的美好明天將會早日到來。
相關產品
1、Freebase
2010年七月,Google收購了一家語義技術領先公司Metaweb。Metaweb運營著一個開放的語義信息資料庫Freebase。Freebase和維基百科類似,不同的是,它完全專注於結構化數據及個人用戶可行性操作。Google此前已和Freebase建立合作關係,引入Freebase的信息,在谷歌新聞里提供智慧型搜尋結果。在完成對Metaweb的收購後,谷歌現在可以更充分地利用Freebase的工具和數據,尤其是在基本的Web搜尋結果範疇。Freebase也是去年語義網十大產品之一,能被Google收購,正是其發展潛能的證明。
2、GetGlue
對GetGlue來說,2010年是個轉折點。在GetGlue網上,用戶在觀看電視節目、閱讀書籍、聽音樂時候都可以“簽到”。去年十一月,GetGlue改換品牌名稱,並啟用新網站。一夜之間,它從一個名為BlueOrganizer的瀏覽器外掛程式搖身變為名為“GetGlue”的目標網站。隨後不久,它又推出了移動應用程式,用戶在觀看電視時或者在娛樂場所都能登錄套用GetGlue。品牌變更給GetGlue帶來良好的效應。今年,GetGlue的用戶量呈現出強勁的增長勢頭,截至九月末用戶人數已超過60萬。
3、Flipboard
2010年iPad的問市激起了套用軟體界新一波的革新浪潮。Flipboard是一款專為iPad開發的雜誌閱讀應用程式。很少有創業公司能像Flipboard如此充分地利用觸控螢幕用戶界面,為客戶創造無與倫比的體驗。原來Flipboard不僅外觀精美,而且採用了語義技術。Flipboard收購了語義技術新創公司Ellerdale,其智慧型資料剖析算法在此之前已被套用於實時搜尋引擎的創建及趨勢追蹤。Ellerdale公司的技術被Flipboard用於設計更具個性化的實時體驗,能夠為您選擇重要的最新社會新聞,然後以您熟悉的酷似雜誌的布局呈現出來。
4、Hunch
Hunch最初提供問答(Q&A)服務,今年八月它進行了重新定位,將自己定義為一個提供個性化服務的產品:是能向你展示你喜歡的電影、書籍、度假地點及其他類似項目的推薦引擎。該公司的目標是“將網際網路上的每個人和每個目標進行比配,即使是一個產品、一項服務、一個人。”共同創始人CaterinaFake十月份透露,Hunch通過另一種搜尋方式即決策樹模型,為用戶提供更多個性化信息。
5、Apture
Apture是一家提供語義語境搜尋引擎服務的公司,它一直保持著強勁發展的勢頭(去年它也位列十大語義網產品之一)。今年八月,Apture推出了一款新外掛程式AptureHighlights,能讓用戶深入了解在網路上任一網頁上發現的主題。早幾年前,當我們第一次關注Apture時,它還只是一家網路服務公司,要求發布者上傳彈出式視窗連結時自我選擇是否載入多媒體。隨著八月份AptureHighlight的問世,Apture現已消除此項限制。一切均自動化,此外掛程式幾乎處處可用。
6、Facebook
四月份Facebook公布了一個大規模的新平台OpenGraph(開放圖譜),這成為語義網本年度最重大的新聞。OpenGraph通訊協定的預期目標是讓發布者能夠將個人網頁整合到社交圖中去。實質上,現在每個網頁都可以成為一個Facebook的社交圖“對象”(社交圖是Facebook對於人們在其網路系統中如何聯繫彼此所用的專業術語。)這意味著在所有社交網用戶個人資料頁、部落格文章、搜尋結果、Facebook個人主頁信息流等等中的網頁都可以被引用和相關聯。OpenGraph是一個涉獵廣泛的平台,包括諸如“贊”按鈕和為發布商提供的外掛程式等。它還包括一個簡單的、基於RDF的標記。這就要求發布者的每個發布項至少包含4個元數據屬性:名稱、類型、圖像、網址,還有一些額外的屬性,如:域名和描述,可能有選擇地進行補充和說明。
7、GoogleSquared
在網路搜尋技術中人們夢寐以求的目標是能夠以自然的語言提出一個簡單的問題,並得到一個簡單的答案。五月份,Google宣布將GoogleSquared添加到其搜尋結果中。2009年推出的GoogleSquared為Google的搜尋結果添加了額外的信息。Google通過兩個層面將該功能添加到其傳統搜尋結果中:首先,簡單的查詢,如:凱薩琳·澤塔瓊斯的出生日期,這將在搜尋結果中引出有用的數據:通過點擊基於Squared提供的結果的“顯示來源”,來源列表會向您顯示Google是如何找到這個答案的。
其次,GoogleSquared還被用於為Google工具條(2010年搜尋巨頭的另一創新)增加“不一樣”的新功能:此功能提供了相關搜尋,列出您可能感興趣的清單,由您確定當前的搜尋關鍵字。Google也通報了RichSnippets功能上的增強,RichSnippets功能同樣也為谷歌的搜尋結果增添了新信息——點評類數據。
8、BestBuy
2010年的熱議主題之一是語義網技術越來越多的被Facebook和Google這類大型商業公司所用。美國領先的零售商百思買(BestBuy)是另一個在2010年憑藉運用語義技術給人們留下深刻印象的大公司。具體來說,BestBuy採用了RDFa的語義網標記語言,從而向網頁中加入語義。
BestBuy.com首席網站開發工程師JayMyers今年早些時候接受讀寫網採訪時說,使用語義技術的主要目標是提高BestBuy產品和服務的知名度。通過使用RDFa標記如商店名稱、地址、商店營業時間和地理數據的數據,搜尋引擎能夠更容易的確定每個組件數據,從而將它們投入語境。Myers告訴我們,語義技術的使用,使得交易量增加,而他們也能更好的服務於客戶。
9、Data.gov.uk
2010年一月,由英國政府支持的Data.gov.uk發布非個人數據採集套用,可供軟體開發商使用。半年後,美國政府推出了Data.gov,但是從一開始這個網站就擁有三倍以上的數據。發布時,Data.gov.uk已有近3000套數據集可供開發商用於混搭。到今年年底,數據集已超過4600。Data.gov.uk是連結資料庫的亮點之一。組織或政府向網路上傳數據時,以能夠被再次使用和建立的形式進行上傳。連結資料庫僅是廣泛語義網發展的一小子集。
10、BBC世界盃網
2010年體育界的盛事就是被媒體廣泛報導的世界盃。BBC2010世界盃網站採用“動態語義發布”技術來提升加強其每日世界盃報導。該網站有700多個專題網頁,都由一個語義發布框架所支持。它包含一個綜合本體(即一個概念圖),動態輸出自動化元數據驅動網頁。這是一個讓人印象深刻的實證:一個大型的主流的網站是怎樣增加意義及結構的?