中华电子佛典的数据库建设与文字学应用——以《广弘明集》为例

发布时间:2024-11-25 08:27:46被阅览数:41 次信息来源:《山西档案》

  作者:王茜 辛睿龙

  摘要:由中华电子佛典协会主持的CBETA中华电子佛典数据库是目前流通最广、使用最多、贡献最大的佛教典籍全文数据库。以《大正新修大藏经》的数字化为中心,介绍中华电子佛典的数据库建设情况,进一步讨论中华电子佛典的文本分类依据,并阐述中华电子佛典的文本信息标注方式。以《广弘明集》为例,通过梳理和分析XML标记语言在中华电子佛典的一般呈现方式,揭示中华电子佛典提供的佛教文献文本信息,以验证中华电子佛典在文字学研究方面的重要参考利用价值。

  关键词:中华电子佛典;CBETA;《大正藏》;数据库;《广弘明集》

  2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,提出要推进古籍数字化,统筹古籍数字化版本资源建设与服务,推进古籍专业数据库开发与利用。随着科技进步,数字化技术给佛教古籍材料的储存、整理、流通和研究带来前所未有的机遇和挑战,主要表现在规模性、准确性和方便性3个方面[1]。

  目前,汉文佛典数据库建设已取得了一定成果。写本佛经数据库偏重以图像数据库的方式建设专题库、知识库和历史库;刻本佛经数据库偏重以全文数据库的方式汇总历代汉文大藏经;现代佛经数据库偏重以全文数据库、图文数据库的方式整合高质量的整理本佛教古籍[2]。其中,较为成熟的汉文佛典全文数据库包括CBETA中华电子佛典数据库、瀚堂典藏数据库、中华经典古籍库、敦煌文献库和雕龙古籍数据库等。CBETA中华电子佛典数据库是目前流通最广、使用最多、贡献最大的汉文佛典全文数据库。

  1  CBETA中华电子佛典数据库建设概述

  1.1 中华电子佛典的数字化核心内容

  CBETA中华电子佛典数据库的古籍数字化核心工作是围绕日本《大正新修大藏经》开展的。《大正新修大藏经》略称《大正藏》,是日本大正十一年至昭和九年(1922—1934)由高楠顺次郎、渡边海旭主持编辑的一部铅印本大藏经。《大正藏》主体部分以高丽新藏本为底本,基本校本为宋思溪藏本、元普宁藏本、明嘉兴藏本、宫内省图书寮藏毗卢藏本,还将日本多种极具校勘价值的刊本、写本作为参校本。《大正藏》的校勘模式是只勘异同而不作判断,校勘记以脚注形式附于每页经文的底部。

  CBETA中华电子佛典数据库在先后完成对《大正藏》《卍新纂大日本续藏经》《嘉兴大藏经》等几部藏经的数字化之后,开始着手对民国时期国立中央图书馆所藏的佛教文献材料进行数字文本制作。目前CBETA中华电子佛典的新增元数据内容主要集中在近代新编佛教文献上。以民国时期国立中央图书馆所藏的佛教文献为基本数字源,CBETA中华电子佛典从佛经内容属性角度对佛经材料进行归类,从计算机文字处理角度对佛经材料确立规范和标准,从学术语言文字角度对佛经材料进行文本标记。

  1.2 中华电子佛典的文本分类思路与依据

  CBETA中华电子佛典主要参考《大正藏》本身的分类方法,将所收录的佛教文献划分为23部类。其中,第1至第19部类对应《大正藏》正藏部分第1至第55册的内容;第20部类收录《大正藏》第85册的敦煌出土典籍;第21部类为善本佛经;第22部类为元亨寺版《汉译南传大藏经》;第23部类则是近代新编佛教文献。

  CBETA中华电子佛典在严格遵循《大正藏》分类体系的基础上,将《大正藏》以外的文献尽量纳入已有部类。对于难以归入现有体系的部分文献,则重新设立部类。这种做法既保证了分类思路的一致性,便于检索和利用,又突出了新收文献的特点,兼顾了电子佛典的可拓展性。

  与传统藏经多采用“重大轻小”的编纂原则不同,《大正藏》力图依据佛教思想发展脉络和典籍演变线索来构建藏经结构[3]。《大正藏》的编纂思路不单是为了弘扬佛法、敷陈佛理、阐发佛学,更多的是以近现代既有的学术标准和规范来整理佛教文献。方广锠[4]认为,从总体来看,智升在设计汉文大藏经结构时,遵循的是中国佛教“重大轻小”的传统分类原则,未考虑佛教自身发展的历史线索。中华电子佛典在《大正藏》的基础上汇集诸多版本藏经,打破了文字和思想的壁垒,为宗教学和语言学研究提供了丰富而系统的文本资料,具有重要的学术价值。

  1.3 中华电子佛典的文本信息标注

  CBETA中华电子佛典采用TEI国际标准规范和XML内容标记对数字文本进行处理[5]。TEI是用于电子形式交换的文本编码标准,具有可编辑性、可扩展性、灵活性和便捷性,适用于各种类型文档的格式转换和编码。XML是可扩展标记语言,用于数据交换和管理,将文档分成多个部件并加以标识。

  CBETA中华电子佛典以TEI标准为基本前提,利用XML对佛经电子文本进行标注,具有内容与显示分离、易于共享传播、扩展性强、支持大字库、检索迅速、转换方便等优点[6]。与现代汉语语料库不同,古籍信息标注更为复杂,需标注异写字、异构字、形误字、文字认同、异文、校勘条目、版本、作者、年代等基本信息。

  CBETA中华电子佛典严格遵从《大正藏》的编纂思路,基于XML为佛教古籍标注版本、经名、作者、译者、年代、异文、校勘等信息,满足了文字学、文献学等研究对文本信息的基本需求,奠定了佛教典籍全文数字化的基础。这既是新学术标准在佛典中的运用和延续,也是国际佛学乃至人文学科进行数据流通和交换的成功案例。

  2  中华电子佛典的文字学应用案例分析

  2.1 《广弘明集》等资料的古籍数字化情况

  《广弘明集》是律宗开山祖师释道宣编撰辑录的一部佛教思想文献总集,成书于唐高宗麟德元年(公元664年 ),承自南朝梁僧祐《弘明集》,全书共30卷,分类辑录了南北朝至唐初三教论争中的佛教文献560余篇,是研究中国宗教史、思想史、文化史、汉语史的文献宝库。《广弘明集》现存版本根据其保存形态、经文内容和流传地区,主要可以分为中国、朝鲜刊本大藏经系统和日本古写经系统两大类。历代佛学研究者也对《广弘明集》非常重视,为其注音释义者甚众,主要有唐慧琳《一切经音义》(以下简称《慧琳音义》)、五代可洪《新集藏经音义随函录》(以下简称《可洪音义》)等。《慧琳音义》约成书于808年以前,为《广弘明集》注音1  010条;《可洪音义》成书于940年,为《广弘明集》注音5 480条。

  就《广弘明集》佛经原典及其佛经音义而言,CBETA中华电子佛典已完成的数字化工作主要有:制作完成《大正藏》30卷本《广弘明集》全文数据;制作完成《广弘明集》大正藏本、宋毗卢藏本、宋思溪藏本、元普宁藏本、明径山藏本校勘记全部文本数据;完整收录《大正藏》100卷本《慧琳音义》(以高丽新藏本为底本,含《广弘明集》部分)和高丽新藏本30卷本《可洪音义》(含《广弘明集》部分)的文本数据。

  2.2 《广弘明集》等资料的文本转录与XML标记释例

  以《广弘明集》卷16引用《光宅寺刹下铭》中的一段存在问题的铭文为例,结合文字训诂学、语料库语言学、佛教文献学等方法,分析CBETA中华电子佛典的XML标记,以揭示其提供的文本信息,验证其在文字学研究中的价值。该段铭文在CBETA的引用复制信息如下:

  《廣弘明集》卷16:「八維悠闊。九服荒茫。靈聖底止。咸表厥祥。壽丘 [ 言愛 ][ 言愛 ]。電繞樞光。周原 [36]膴膴。五緯入房。自茲遐敻。[37] 名在處亡。安知若水。寧 [ * ] 辯窮桑。」(CBETA,T52,no.2103,p.212,c21-23)

  [36] 膴膴=撫撫【宋】。

  [37] 名在處=在處弗【宋】【元】【明】【宮】。

  [*5-3] 辯=辨【宋】【元】【明】【宮】*。

  CBETA中华电子佛典使用P5版本的XML标记语言,内码采用Unicode码。Unicode码发展到15.0版,可以处理98  060个汉字形体。但对异体庞杂的汉文大藏经而言,Unicode仍无法完全覆盖。CBETA中华电子佛典针对Unicode缺字情况,使用TEI“缺字”模块,主要采用组字式等方法处理。例如上述铭文中的“[ 言愛 ]”属左右结构,以“”表示“言”与“愛”的横向连接,以“[]”作为分隔符。

  XML电子档对该段文字的校勘标记如下:

  <app from=〝#beg0212036〞to=〝#end0212036〞><lem wit=〝#wit1〞> 膴膴 </lem><rdg resp=〝#resp1〞wit=〝#wit3〞> 撫撫 </rdg></app>

  <app  from=〝#beg0212037〞to=〝#end0212037〞><lem  wit=〝#wit1〞> 名在處 </lem><rdg  resp=〝#resp1〞wit=〝#wit3 #wit5 #wit2 #wit4〞> 在處弗 </rdg></app>

  <app  from=〝#beg_139〞to=〝#end_139〞corresp=〝#0210005〞><lem  wit=〝#wit1〞> 辯 </lem><rdg  resp=〝#resp1〞wit=〝#wit3 #wit5 #wit2 #wit4〞> 辨 </rdg></app>

  其中,<app> 表示底本与异文的容器,<lem> 表示底本文字,<rdg> 表示异本文字。由此可知,“膴膴”宋本作“撫撫”,“名在處”宋元明本作“在處弗”,“辯”宋元明本作“辨”。“辯”作“辨”在该卷中出现3次,略符“*”表“下同”。

  CBETA中华电子佛典的文本转录和XML标记,忠实呈现了原文面貌,揭示了版本间的异同,为文字学研究提供了重要的参考价值。

  2.3 基于中华电子佛典的《广弘明集》疑难字考释举例

  CBETA中华电子佛典在制作电子佛典的过程中,将缺字信息、校勘信息等以XML格式记录,并以HTML方式呈现,通过缺字信息对佛经底本疑难俗字进行组字制作,通过校勘信息对佛经异本用字进行部分还原。CBETA中华电子佛典基于XML对佛教古籍进行信息标注,主要是为了佛教教界和学界进行阅读、检索和研究,为佛教教界和语言文字研究者提供了有价值的参考。以《广弘明集》卷16引用《光宅寺刹下铭》中一段存在问题的文字为例,利用CBETA中华电子佛典提供的XML标注信息,可以很好地解决问题。

  首先看缺字“[ 言 * 愛 ]”。通过在CBETA中华电子佛典全文检索“[ 言 * 愛 ]”的组字式和XML标记,发现其还见于《可洪音义》卷29和《金刚梵刹志》卷43,皆作“[ 言 * 愛 ][ 言 * 愛 ]”,与大正藏本《广弘明集》相同。为考释“[ 言 * 愛 ]”的原字,进一步检索铭文中“[ 言 * 愛 ][ 言 * 愛 ]”前后的关键词,发现:《古今图书集成》卷112将其引作“曖曖”;《释文纪》卷25引作“靉靉”;《慧琳音义》卷98音“藹藹”,注云“從言從愛作[言*愛]”。

  经笔者考证,“[ 言 * 愛 ][ 言 * 愛 ]”“曖曖”“靉靉”“藹藹”当为同一叠音词之异形,在铭文中描写寿丘盛大,“[ 言 * 愛 ]”字当是“靉”“曖”与俗写的“藹”杂糅而成[7]。

  再看XML文档的校勘信息。《大正藏》中的“膴膴”,宋本作“撫撫”,遍检CBETA中华电子佛典的XML电子档,“膴膴”与“撫撫”互作异文者只此一处,“撫”当为“膴”之形讹。《大正藏》中的“名在處亡”,宋元明本作“在處弗亡”,与《金陵梵刹志》等引文一致。据文义,“在处”意为到处,非“所在之处”之省,且“弗亡”亦与文意不合,当以“名在處亡”为是。《大正藏》中的“辯”,宋元明本作“辨”,“辯”“辨”古籍中常通用,文中论理,用“辨”为善。

  由此可见,CBETA中华电子佛典的XML标注提供了丰富的版本信息,揭示了文本的形成与流传,是文字训诂和文献校勘研究的重要资料。

  3  结语

  总体来看,在佛教文献阅读和检索方面,CBETA中华电子佛典主要满足了佛教教界和佛教学界的基本要求;在缺字处理、文件标记、界面转换、《大正藏》经文格式化、档案比对程式校对等计算机技术的研究和运用方面,CBETA中华电子佛典做得也比较成熟;在汉文佛典疑难俗字的考释、汉文佛典佛教词语的探析、敦煌文献佛书残卷的缀合等佛教文献语言文字研究方面,CBETA中华电子佛典发挥着其他佛教典籍全文数据库无法比拟的重要作用;在佛经字书、佛经音义、佛经原典的专业数据库建设与服务方面,CBETA中华电子佛典对佛教文献的文本转录、缺字处理、XML标记等字料语料的科学处理为推动构建佛教古籍专业数据库提供了有益参考和借鉴。目前来看,在佛经版本的选择、佛经异文的整理、佛经经文的句读、佛教文献的汇总等电子文本的精深加工和准确处理方面,CBETA中华电子佛典做得还不太够;在基于XML的文件标记、基于Unicode码的缺字处理、基于CBreader的检索程序等计算机技术研究和规范运用方面,CBETA中华电子佛典还需要进一步提升。

  参考文献

  [1] 方广锠 . 古籍数字化视野中的《大正藏》与佛典整理 [J]. 上海师范大学学报 ( 哲学社会科学版 ),2015(4):17-25.

  [2] 辛睿龙 . 汉文佛典数据库建设刍议 [J]. 编辑之友 ,2017(8):61-66.

  [3] 方广锠 .《大正新修大藏经》评述 [M]// 李家振 . 闻思 : 金陵刻经处130周年纪念专辑 . 北京 : 华文出版社 ,1997.

  [4] 方广锠 . 佛教大藏经史 ( 八—十世纪 )[M]. 北京 : 中国社会科学出版社 ,1991.

  [5] 释法幢 . 善本古籍佛典数位化管窥 : 以CBETA中华电子佛典 ( 集成 ) 为例 [J]. 北京大学研究生学志 ,2013(1):104-115.

  [6] 魏慧斌 . 基于XML的古籍信息标注 [J]. 汕头大学学报 ( 人文社会科学版 ),2006(5):49-52,91.

  [7] 辛睿龙 .《广弘明集》历代佛经音义校读举例 [J]. 语言研究 ,2021(3):93-100.

  【基金项目】山西省哲学社会科学规划课题“基于古籍资料库汉文佛典文字研究”(课题编号:2023YJ109)。

  【作者简介】王茜(1988—),女,汉族,山西运城人,太原师范学院讲师,博士,研究方向:文字学、文献学;辛睿龙(1988—),男,汉族,山西洪洞人,山西大学语言科学研究所教授,博士,研究方向:文字训诂学。