標註內容方面,基於句義結構模型的定義標註了句義結構句型層、描述層、對象層和細節層中所包含的各個要素及其組合關係,包括句義類型、謂詞及其時態、語義格類型等信息,並且提供了詞法和短語結構句法信息,便於詞法、句法、句義的對照分析研究。
語料庫組織結構方面,該語料庫包括四個部分,即原始句子庫、詞法標註庫、句法標註庫和句義結構標註庫,可根據研究的需要,在詞法、句法、句義結構標註的基礎上進行深加工,在核心標註庫的基礎上添加更多具有針對性的擴展標註庫,利用句子的唯一ID號進行識別和使用。
語料來源和規模方面,原始數據全部來自新聞語料,經過人工收集、整理,合理覆蓋了主謂句、非主謂句、把字句等六種主要句式類型,規模已達到50000句。
BFS-CTC基於現代漢語語義學,提供了多層次的句義結構標註信息,在兼容現有標註規範的情況下進行了詞法和語法標註。BFS標註的詞法、句法及句義既可以單獨使用也可綜合使用,可用於自然語言處理多方面的研究。
為共同推動漢語語義分析的研究和發展,北京森林工作室(BFS)從2013年4月15日起對外開放下載3,000句句義結構標註示例,更多句義結構標註語料可向BFS申請後免費使用。句義結構的基本形式如下圖所示: