讲座回顾 | 林玟君:数字时代的古小说钩沉

作者:刘航宇发布时间:2022-12-05浏览次数:15

2022年11月23日晚,日本庆应义塾大学文学部外国人研究员、台湾中研院数位文化中心博士后研究员林玟君老师,应邀为我校师生带来了题为“数字时代的古小说钩沉”的线上学术讲座。本次讲座系上海师范大学数字人文系列讲座第十四讲,讲座由我校数字人文研究中心副主任王贺老师主持,台湾东吴大学中国文学系助理教授赖信宏老师担任与谈人。来自国内外各大高校、机构的近百位听众参加了这一活动。


 林玟君老师


 王贺老师


赖信宏老师


林玟君老师首先提出了一个问题,即到底什么是数位人文,是数字和人文的简单加减关系吗?由此引出本次讲座主要展示的数字资源平台中每一笔资料的获取方式,正是对此问题的印证。林老师强调了做数位人文研究的核心,是以人文为本,以文献资料为本,数位方法是一种变通和顺应,也可以看作是另一种诠释方式,从根本上来说,运用数位方法是为了能够更好地整理和保存文献,从而能让更多人能够使用它,而非简单地让文献换种形式存在。


在数位人文平台、数位人文数据库的建设方面,她重点介绍台湾、日本等地的已有成果。如日本庆应义塾大学的斯道文库和中研院数位文化中心(ASCDC)在长达三十年的合作过程中,已实现数据资源共享,极其珍贵的古籍刻本、手抄本可以通过在线的方式进行查阅,并且推荐了一些数位人文学习资源的网站。在中研院数位平台的建设过程中,ASCDC的每一个文献资料录入的环节都是精细而全面的,一个能运用于数字人文研究的资料,它必须细到每一个文献的外观详细特征、年代、参与编撰的人员都要分别记录,并且在MetaData(元数据)中人工建档。



以《南海先生文集》的行草书跋文为例,由于录入的图像难以被OCR技术辨识,于是只能够以人工方式进行试读,再做点段,每一句做好注解和校对,再打入MetaData中存到后台数据库。通过以上手段对文献完成数字化后,便可以在数位资源平台上非常便捷地获取到需要的内容,大大提升了查询和检索的效率。林老师还展示了中研院数位人文平台开发的数据可视化工具,借此可以清晰地展示历朝历代各文献作者之间的联系,并强调开发这个平台是需要有传统的文献学基础才能完成的工作,所有问题的答案都要回到原本的学问中去寻找,这个过程是漫长而艰辛的。


中央研究院典藏数位化经过近五十年的发展,得以发展成为如今的中央研究院的数位人文平台。为了能让更多学者都能够使用这个平台,中研院把原本只有文献查询功能的平台,升级变为文本和图像结合的数位人文研究平台,可以直接在平台上运行数据和文本分析。平台旨在让每一个学者都能建立自己的资料库,同时满足“收、存、取、用”的需求,实现各地学者之间的在线交流和资源共享,给予学术研究无限的空间。展示了平台的功能后,林老师具体介绍了该平台的使用方法,并强调该平台用于学术研究,且将永远免费、开源,提供给学者使用。




展示了ASCDC平台的强大功能后,林老师讲述了本次讲座的另一主题,即利用数位人文平台来做“古小说钩沉”的研究。当时鲁迅运用传统的文献方法整理《古小说钩沉》,非常耗时耗力,如今可以运用数位化的方式,把其中的文献和古小说文本再向前推进。林老师从笔记小说入手,首先做权威词自动标记与《世说旧注》点段校准,运用Ctext获取电子文本并做好人工调查和校对,还必须补上古籍善本,以确保文本的正确性,才能放到平台上使用。


这个过程需要取得资料来源的授权,然后剖析资料结构与知识内涵,做权威词分析,再对进行建模做知识本体设计及对应分析,然后进行结构化资料处理,修正错误确保资料品质,再从字串到事物连接外部资源,转换资料为RDF档,最后建立语意搜索平台,将资料集同步发布于全球资料平台上,接入自建的LOD资料集入口界面,呈现以LOD为基础的服务系统,提供语意检索功能和后续数位分析的接口,从而得以开发更多应用。平台有中文的自动断词标记系统,可以帮助学者做文本分析,也可以帮助外国人学习中文。所谓权威词即每个领域的专业术语,平台收录了历代的人名,建立了人名权威——人物传记资料库,由此可以用自动标记的方式获得每个资料的传主,对文本脉络的精读有很大的帮助,得到的分析结果不但可以给用户,还可以放到ASCDC平台展示。平台还可以利用古籍中的眉批、旁点、多色圈点,对文本内容进行进一步的纠错,确保多个数据库相互交叉导入后文献的正确性。


林老师进一步提出,《世说新书》到底经过了多少修订和脉络传承,才有了《世说新语》?由此就需要运用“古小说钩沉”的方法,构拟出《世说新书》本来的面貌。首先进行文本相似度比对,正常浏览文献很难察觉到文本的细枝末节,容易忽略一些错字,但是通过数位平台比对可以很快发现。通过字词的比对和断句,会发现同一段文本在不同的文献中会有不同的面貌。对于此现象,进一步挖掘文本变化的过程和原因,从而把不同时期的文献联系起来,厘清编写人之间的关系,逐条“钩”出现存《世说新语》正文与《世说旧注》注文,逐一相互参照,并依据文义脉络,将注文恢复出随书附注、逐条附注和注疏互见之样貌,尝试运用现存文本材料勾勒出《世说新书》最大可能的原本面目。


这些注文应该位于原始文本的何处,可以透过数位人文研究平台逐条钩沉、还原。她介绍道,其利用平台做出的结果,还原到目前的“世说”文本,再去比对藏于日本斯道文库的写卷,找出它们之间的差异,从而可以进行后续的研究。最后,林老师介绍了ASCDC平台的加值应用方案,称其可以为学者量身定做成果展示服务,也可以协助出版刊物,还可以接受主办国际线上直播与国际书展,并预告了平台即将推出的功能,其中包括图像分析研究平台,实现“以图找图”;另一重要功能是中文古籍OCR在线识别服务,并且识别结果会在平台上共享,欢迎更多学者踊跃参与,分享所学所思。


讲座结束后,赖信宏老师讨论道,当时其对鲁迅《古小说钩沉》的研究,运用的还是比较传统的方式,属于“前数字时代”的研究方式。需要对四库全书做两次检索,把资料打印出来,分开整理逐一比对最后再整合,经此方法出来的结果仍不一定准确,还需通过善本来校对。近些年随着善本的公开和数位分析工具的日趋成熟,学术壁垒渐渐打破,实现资源共享,让世界各地的学者来共同构建资料库,使得资料库、数据库具备了更强的可用性。对于文本标记、全文标记而言,平台还需要加入、关联更多的词典,整合更多的数字资源,使数据库更加充实。同时也必须做好基础的文献工作,需要更多人来参与进一步完善平台的数据库,开发出更丰富的数字资源。对于OCR技术,赖老师表示之前他都是通过传统的方式逐字手工打字录入电脑,目前市面上也难以找到免费又准确的古籍OCR软件,对中研院正在开发的OCR平台表示期待。未来要做好数位人文的研究,除了牢牢掌握传统文献研究的方法,更要擅长与运用各类现代的机器和工具。数位技术能够提高文献检索和分析比对的效率,还能更好地保存资料和文献,从而能够整合、支撑目前所拥有的学界资源,对于传统文献的研究意义非凡。



最后,王贺老师对整场讲座进行了总结。在线的听众也向林玟君老师提出了一些问题,林老师及其他两位老师不仅耐心做出了解答,彼此之间也进行了讨论、交流。讲座至此圆满结束。



撰稿:刘航宇

编辑:赵懿宁



联系我们

  • 上海市徐汇区桂林路100号人文实验楼2F
  • 邮政编码:200234
  • 联系电话:021-64323559
  • E-mail:shnudh@126.com

关注我们

友情链接