百科名片
1.1 CEBX的歷史
CEBX的前身是北大方正電子有限公司於2000年推出的CEB文檔格式,目標是建立一種可靠且便易的電子文檔規範。CEB是一種版式文檔格式,它可以提供原版原式的文檔呈現方式,同時支持阿帕比數字著作權保護系統(Apabi DRM)。
方正技術研究院數字出版分院(以下簡稱“數字出版分院”)成立於2009年1月,是北大方正集團旗下專注於數字出版領域前沿技術研發的機構,負責為方正集團旗下的專業公司及合作夥伴提供數字出版新技術。
1.2 版本說明
CEBX的各版本及包含的子集情況:
CEBX版本 | 發布時間 | CEBX Full全集 | CEBX/A子集 | CEBX/M子集 |
1.0 | 2009.9 | √ | √ | |
1.1 | 2010.4 | √ | √ | √ |
1.2 | 2011.8 | √ | √ | √ |
“√”表示包含。
CEBX的子集規範是根據套用領域的不同進行相應的裁剪而形成的,具體說明如下:
CEBX/A:CEBX for Archiving,主要面向於文檔存儲領域。
CEBX/M:CEBX for Mobile,主要面向於移動閱讀領域。
基本結構
2.1 技術架構
CEBX採用“容器 + 檔案”的方式來描述和存儲數據,容器就好像一個虛擬存儲系統(Virtual Storage System),將各類數據描述檔案組織起來,並提供特定的訪問控制接口。
在CEBX中,數據描述採用XML技術,以版式(Fixed-layout)描述信息為基礎,輔以版面對象的結構化信息,然後通過壓縮和加密方法放入容器中。基於結構化信息可以實現版面內容的重排(Reflow),從而獲取更好的螢幕自適應特性。版面數據主要包括有基礎圖元、表格、表單、多媒體等對象描述,再加上腳本、安全性描述等信息。腳本數據用於增強CEBX的動態互動特性,而安全性描述中則包括了對於本地安全以及DRM安全的支持。
CEBX文檔結構的基本技術架構示意圖如下所示:
2.2 文檔模型
CEBX文檔由一系列的檔案組成,形成一種層次組織結構的展示,如下圖所示:
在CEBX中,可以允許第三方加入自己的數據檔案,比如外掛程式數據,第三方可以自行定義外掛程式數據所遵循的命名規範和原則。
2.3 關鍵技術
1、XDA
XDA全稱為XML-based Document Archive,是方正技術研究院於2007年開始研發的一種多檔案打包技術規範。XDA可以很好地支持檔案隨機訪問、增量修改、線性化、壓縮加密等。
目前,XDA已經通過了廣泛的測試和驗證,並已成功套用於方正技術研究院在2009年推出的版式文檔格式規範CEBX中。同時,可通過XDAKit開源項目獲取最新的代碼以及工具。
2、SAC
SAC(Structure Analysis Core)是方正技術研究院為了解決傳統版式文檔到流式文檔的轉換問題而建立的一項重要工程,主要進行基於版面的文檔結構識別研究。
SAC是實現版式和流式文檔互轉的核心技術,目前已包括主體字分析、版心分析、段落分析、目錄分析等重要功能。
3、SXC
SXC(Schema-Based XML Compressor)是一種基於Schema的XML壓縮格式,可以對XML數據進行更好的壓縮,從而減小數據體積、縮短傳輸時間。
CEBX的特性
CEBX保留並改進了CEB的基本特性優點,並針對數據存儲、辦公自動化以及網路套用、移動閱讀等套用領域添加了許多新特性。
3.1 數據打包
套用的發展對未來版式文檔的信息容納能力提出了新的要求。比如版式文檔需要支持在一個檔案中容納大量對象和數據:由於在實際套用中,版式文檔需容納的對象和數據量也大小不一,要求版式文檔需充分考慮到各種可能出現的情形,使一個文檔中能容納的對象和數據的數量儘量達到最大。除此之外,還要求版式文檔具有聚合能力,即可以把幾個相關的存檔格式檔案聚合到一個檔案中。聚合功能將可以使得文檔的數量成倍的降低,對於文檔的發布、傳播和存儲也是極為有利。
3.2 數據結構化
隨著計算機技術的進步,XML技術在各個領域被廣泛接受。各機構、公司紛紛推出了採用XML技術的文檔格式,例如ePub、OOXML、ODF、UOF等。XML標記描述的是文檔的結構和意義,而不是頁面元素的格式化信息,由於這種非專有的且易於閱讀和編寫的優點,使得它成為在不同的套用間交換數據的理想格式,並且,XML使用的是非專有的格式,具有良好的易擴展性和易移植性,因此,CEBX在版式文檔描述的基礎之上,採用XML技術來描述文檔數據,使得數據的描述和顯示分離,實現了文檔數據的結構化,能夠更方便的與其他系統進行數據交換、解析、編輯、閱讀,提高了文檔操作和套用的靈活性。
3.3 原版原式
CEBX具有原版原式的呈現特點,即閱讀顯示與印刷一致,真實地保持了原有檔案中文字、圖表、公式、色彩等版式和信息,實現了高保真的顯示效果。這種特性不會隨著平台變化而發生改變,因為CEBX規範建立在一個概念性的成像模型基礎之上,該成像模型禁止了平台間的差異,使得上層的數據描述能夠獨立於平台。原版原式的呈現特點可以保證電子檔案等在交換、辦理、發布、存儲管理等過程中版式固定,保持顯現的一致性,符合文檔長期保管要求。因此,在很多領域裡都有著重要的套用價值。比如在不同的機器上閱讀時,政府公文中的紅頭標題、公章、行距格式等不允許有絲毫的誤差,協定檔案中籤章的位置變化會引起協定無效,檔案檔案則要求能在各種查閱條件下始終保持資料呈現的原始性,圖書、報刊等的版式對廣大讀者也不容忽視。
3.4 設備自適應性
原版原式解決了顯示效果還原的問題,但是在某些場景下,用戶為了能夠獲得更好的閱讀體驗,要求文檔內容能夠根據顯示設備的特性進行自適應調整。CEBX通過加入文檔邏輯結構信息,可以同時融合版式閱讀和流式閱讀的特性,既可以在普通的計算機螢幕上對數字內容進行原版原式的呈現,更可以通過頁面對象的邏輯結構信息,在手機、專業閱讀器、GPS、PDA等螢幕狹小的移動設備上進行流式重排以提供給用戶更好的閱讀體驗。此外,通過加入對顏色管理系統的支持,CEBX能夠更好地還原色彩,以適應不同設備來獲得更好的展示效果。
3.5 動態互動特性
CEBX支持更加豐富的互動元素描述,加入了動作、腳本、注釋、動畫乃至電子表單,以使文檔帶有更強的動態互動特性。動作提供了基本的互動支持。在文檔、頁以及頁面對象等結構中,均可包含動作對象的引用,比如執行到指定區域的跳轉、播放多媒體數據、甚至執行某個JavaScript腳本等等。腳本可為應用程式提供靈活的擴展和定製功能。注釋使用戶可以通過滑鼠或鍵盤等方式與文檔進行互動,在閱讀過程中隨心所欲地添加自己的體會和感受。CEBX的頁面圖元對象除了靜態的呈現方式之外,也支持基於時間軸的動態描述。電子表單則提供了系統化的數據收集與回饋功能,例如公文填報、多級審批、報表統計、電子教材/試卷實時批改、閱讀時互動交流等基於電子文檔之上的智慧型化互動套用。
3.6 全面的安全性支持
CEBX支持數字簽名和分段授權,並可以實現本地安全、DRM系統等多重安全特性。本地安全保護個人文檔內容不被偷取、篡改。數字簽名進行驗證,配合文檔修改的歷史記錄,為文檔流轉、歷史回溯、身份認證提供支持。而對第三方DRM系統的支持則為商業化套用掃除了後顧之憂。CEBX的安全策略不僅能針對整個文檔進行保護,還能夠支持豐富的許可權表描述,如分段加密等,可以為文檔提供最小粒度的安全保護,能有效支持電子商務時代更多樣化的商業模式,如圖書/文檔的試讀、借閱、分章節購買、分資源類型購買(例如僅購買多媒體圖書中的文字內容或圖像內容)、按需印刷等。
3.7 多樣化的網際網路套用
CEBX版式處理技術既能對版面對象的位置、大小、顏色等信息進行準確描述,又能處理複雜的版面信息,如裁減、透明、水印、漸變等。在提供如此豐富的顯示效果的同時,CEBX還可實現圖文及多媒體信息的動態和實時混排。對於桌面辦公、移動閱讀、印刷出版等套用領域的不同套用平台,CEBX可進行相應的裁剪以實現“一次出版,多種平台引用,多途徑傳播”的目的,能夠很好的適用於網際網路飛速發展、不斷變化的環境。此外,CEBX支持網際網路套用中推薦的流式數據邊下載邊閱讀的模式,從而達到了更強的面向網際網路套用的特性。
套用與合作
4.1 相關軟體
基於CEBX技術的產品為Apabi Inspire Suite(簡稱AIS),它包括了:
1、 Apabi Reader(閱讀器)
Apabi Reader按照平台針對性目前劃分為以下3個版本:
軟體名稱 | 適用平台 | 適用系統 |
Apabi Reader | PC | Windows 7/ XP / Vista / 2003 /2000/ |
Apabi Reader for iOS | iPad/iPhone/iPod touch | iOS 3.1.3 及以上 |
Apabi Reader for Android | Android移動設備 | Android 1.6 及以上 |
Apabi Reader是面向電子書、電子公文、電子報紙、電子期刊等多種文檔類型的閱讀器。現在由方正集團下屬方正技術研究院數字出版分院研發,我們的目標是將其打造成一款輕量級、支持更多格式、支持更多平台的全功能數字閱讀客戶端。
2、 Apabi Maker(轉換工具)
Apabi Maker全稱“方正Apabi Maker”,是方正研究院數字出版分院開發的CEBX/CEB檔案轉換 器。它提供了許多領域的電子出版服務,將包括傳統的印刷圖書在內的多種格式轉成CEBX/CEB格式的電子圖書(eBook)供人們在PC機上閱讀或者下載到手持機上。3、 Apabi Carbon(編輯平台)
Apabi Carbor全稱“方正Apabi Carbon”,是方正技術研究院數字出版分院最新推出的可擴展CEBX編輯平台。它不僅可以對CEBX的文檔信息、本地安全性、頁面、目錄等進行編輯,還可以加入和 編輯多媒體對象、表單等,並可識別和編輯版心區域。
4.2 其他套用
CEBX技術具有很好的套用前景,下面列舉一些有特色的套用:
(1)CEBX的電子書、電子期刊和數字報紙套用;
(2)CEBX的線上閱讀技術,為內容服務提供基於雲計算的閱讀,可以支持數字出版內容的跨終端線上閱讀,也可以支持線上書庫等新興網際網路套用;
(3)CEBX的電子公文、數字檔案的套用;
(4)CEBX的電子病歷套用;
(5)基於CEBX及電子表單技術的電子書包、電子學習套用。
4.3 開源項目
我們已經在開源社區SourceForge創建了我們的第一個開源項目——XDAKit,主要負責XDA包結構代碼的發布。XDAKit採用BSD License協定,目前可支持Windows和Linux平台,開發語言支持C++和Java,另外還包括Windows平台和Linux平台下的命令行工具。