龍語瀚堂典籍資料庫

龍語瀚堂典籍資料庫採用四位元組編碼技術,以國小工具類數據和出土文獻類數據為核心,逐步納入大量傳世文獻,並以此為基礎,建設各種專題文獻。 出土文獻類數據涵蓋大量甲骨文、金文、簡帛文、印章、石刻等出土文獻資料。 專題文獻類數據以提供更具學科針對性的研究性數據為特點。

龍語瀚堂典籍資料庫
——構建漢學研究及傳播的數位化新平台
概述
“龍語瀚堂典籍資料庫”採用基於Unicode四位元組編碼和自然語言全文檢索的典籍文獻數位化構建技術,以國小工具、出土文獻、傳世文獻以及專題文獻類數據所構架的獨特內容,為歷史、中文、哲學等學科的研究提供一個一體化數字平台。
傳統的計算機二位元組編碼技術只能處理2萬多個漢字,對大量的生僻字、俗體字、異體字、通假字、避諱字和多語種文字無能為力,並沒有從根本上解決漢字數位化、網路化的問題。採用Unicode四位元組編碼技術的“龍語瀚堂典籍資料庫”,從根本上徹底突破了古籍整理和研究中生僻漢字數位化的瓶頸,完善了漢字信息網路化的平台,開創性地實現了所有漢字及多語種文獻的數位化,從而結束了歷史文獻和出土文獻研究手工抄寫、圖片替代、生硬造字的歷史,也標誌著計算機漢字處理開始進入到了四位元組字元的領域。
龍語瀚堂典籍資料庫以精準校對的國小工具類數據、出土文獻類數據為基礎,陸續納入包括儒、釋、道的各類傳世文獻,涵蓋文史哲等專業的教學和研究工作中所套用到的專業古籍文獻數據。未來將在龐大的數據支持下,根據不同專業領域對特定數據的學術需求,從而提供更具針對性的專題文獻類數據。同時在此基礎上,嘗試蒙、藏等少數民族及基於UNICODE多語種文獻的信息處理和檢索技術,從而納入更廣泛資源。
龍語瀚堂典籍資料庫所搭建的國學研究數位化平台,所有生僻漢字可在微軟平台上自由編輯,不但徹底的解決了造字的繁瑣,極大提高工作效率,更便於學術成果在全球範圍內的廣泛傳播。資料庫所獨有的“知識鏈”特點使未來研究會延伸出更加獨特的角度和發掘出更多的研究領域。
特點
1:獨特的內容規劃
龍語瀚堂典籍資料庫採用四位元組編碼技術,以國小工具類數據和出土文獻類數據為核心,逐步納入大量傳世文獻,並以此為基礎,建設各種專題文獻。
國小工具類數據由於高達5%的生僻字頻率,歷來是各種古籍數位化工作不得不有意繞開的“雷區”。龍語瀚堂典籍資料庫的國小工具類數據涵蓋大部分重要國小類典籍和類書類書籍,並以囊括所有國小書籍和大型類書為己任。該部分數據是國學研究的基礎性工具數據。
出土文獻類數據涵蓋大量甲骨文、金文、簡帛文、印章、石刻等出土文獻資料。提供器物照片、線圖、拓片、釋文等內容。該部分數據將是史學各領域研究的基礎性數據。
逐步納入的傳世文獻包括儒、釋、道的典籍文獻,力圖呈現中國文化的輪廓性數據。
2:具有在通用瀏覽器上自由編輯和瀏覽的功能
採用B/S模式的“龍語瀚堂典籍資料庫”,無需下載任何客戶端,即可在通用瀏覽器上
進行閱讀和編輯。由於該資料庫採用四位元組編碼技術,徹底解決這些四位元組漢字在計算機平台上的錄入、顯示、編輯、檢索、查詢和管理。全庫無造字,所有文字可以自如的在MS-office上進行複製、貼上和通過網際網路進行廣泛發布。
3:獨有的四位元組自然語言全文檢索技術
相對於目前基於二位元組字元系統的(即UCS-2)的網際網路全文檢索,“龍語瀚堂典籍資料庫”(www.dragoninfo.cn)是全球第一個支持四位元組字元(即UCS-4)、基於網際網路的自然語言海量文本全文超高速檢索系統。該引擎可以從海量的含有UCS-4字元的文本中在毫秒量級內進行信息抽取。
4:眾多專利技術形成對核心技術的專利池保護
由於在四個位元組字元方面擁有的核心技術和專利池,和對含有四位元組漢字內容的著作權
群,形成了對以UCS-2為技術核心的目前大量古籍資料庫及其它檢索網站的戰略優勢,為其主導甚至全球範圍的網路檢索領域的發展、建構領先的超級知識庫提供堅實的技術保證。
國小工具類數據
國小工具類數據分為字書、音韻、訓詁、異體字字典、UNICODE字典、中國文字、類書等七大部分。
該部分數據涵蓋大部分重要國小類典籍和類書類書籍。並以囊括所有國小書籍和大型類書為己任。提供多種檢索方式。繁簡體自動轉換。提供原書影像檢索對照。所有國小類書籍均經過精細校對,達到萬分之一的出錯率。
出土文獻類數據
出土文獻類數據分為甲骨文、金文·青銅器、簡帛、印章、錢幣、石刻等六大部分。
該部分數據涵蓋大量甲骨文、金文、簡帛文、印章、石刻等文獻資料。未來陸續供器物的照片、線圖、物理數據、拓片、釋文等內容。為文史領域研究人員提供儘可能全的考古文獻資料。
傳世文獻類數據
傳世文獻類數據分為“儒”、“釋”、“道”三大部分;按照傳統分類的“經部”、“史部”、“子部”、“集部”,儘量收錄並呈現中國歷代傳世文獻的輪廓化數位化資源。
該部分數據除了經過精細校對之外,更對一般性典籍中出現的高達1/1000的生冷僻字進行了四位元組改造,實現了古籍整理真正數位化的同時,再現古籍文字的原貌。
專題文獻類數據
專題文獻類數據以提供更具學科針對性的研究性數據為特點。目前包括“中醫藥典籍”、“大家書房”、“小說·筆記”。隨著國小工具類數據、出土文獻類數據、傳世文獻類數據的不斷擴大,未來專題類數據會引伸出更多、更具針對性的數據使用方向。
地址:http://www.dragoninfo.cn/

相關詞條

熱門詞條

聯絡我們