人文数据库建设中人文学者何为——以《全宋文》墓志铭亲属信息提取为例
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:What Humanities Scholars Can Do in the Construction of Humanities Databases——Taking the Extraction of Kinship Data from Epitaphs in Quansongwen for Example
  • 作者:陈佩辉
  • 英文作者:CHEN Peihui;
  • 关键词:人文数据库 ; 人文学者 ; 文献辨析 ; 技术责任
  • 英文关键词:humanities database;;humanities scholars;;literature identification;;technical responsibility
  • 中文刊名:TSGL
  • 英文刊名:Library Tribune
  • 机构:北京大学;
  • 出版日期:2018-12-05 09:15
  • 出版单位:图书馆论坛
  • 年:2019
  • 期:v.39;No.241
  • 语种:中文;
  • 页:TSGL201905003
  • 页数:7
  • CN:05
  • ISSN:44-1306/G2
  • 分类号:21-27
摘要
数据库在人文研究中发挥着越来越重要的作用,但也面临数据准确性和全面性的质疑。为了回应这一点,数据库建设中需要人文学者扮演更重要的角色。文章通过对CBDB中《全宋文》墓志铭亲属信息提取流程再造的考察,发现人文学者不仅在辨别文本信息上具有关键作用,由此保证数据准确性和全面性,而且对于促进新技术、新方法的应用也具有十分重要的作用,提高数据库建设的效率。在数据库建设中,人文学者既要承担文献辨析责任,也要承担起技术责任。
        Though humanities databases have been playing a more and more important role in humanities,the accuracy and completeness of such databases is still questionable. As a result, humanities scholars should participate more actively in the construction of humanities databases. Based on an analysis of the extraction of kinship data from Epitaphs in Quansongwen in China Biographical Database, it is found out that humanities scholars could not only help to guarantee the accuracy and completeness of humanities databases by playing a vital part in the identification of original texts, but also help to improve the efficiency of humanities databases by introducing new technology and new methods. In short,humanities scholars should assume responsibilities of both literature identification and technical innovation in the construction of humanities databases.
引文
[1]王瑞来.警惕数据库[J].史学月刊,2018(9):21-26.
    [2]包伟民.数字人文及其对历史学的挑战[J].史学月刊,2018(9):5-12.
    [3]卷一一六0[M]//全宋文:第0五三册.上海:上海辞书出版社,2006:297.
    [4]Goyvaerts J,Levithan S.Regular Expressions Cookbook[M].2nd Edition.Sebastopol,CA:O’Reilly Media,2012.
    [5]卷七四四三[M]//全宋文:第三二四册.上海:上海辞书出版社,2006:122.
    [6]卷五七八[M]//全宋文:第0二七册.上海:上海辞书出版社,2006:204.
    [7]卷七五七[M]//全宋文:第0三五册.上海:上海辞书出版社,2006:390.
    [8]王国维.殷卜辞中所见先公先王考、续考[M]//观堂集林:卷9.
    [9]陈寅恪.崔浩与寇谦之[M]//金明馆丛稿初编.北京:三联书店,2001:121-122.
    [10]白惇仁.东亚诸邦族谱行辈命名考[C]//第二届亚洲族谱学术研讨会会议记录.台北:联经出版事业公司,1985:181-233.
    [11]朱孟臻.宋代姓名文化研究[D].宁波:宁波大学,2016.
    [12]Chao-Lin Liu,Chih-Kai Huang,Hongsu Wang,et al.Toward Algorithmic Discovery of Biographical Information in Local Gazetteers of Ancient China[C/OL]//第29届亚太地区语言讯息与计算国际研讨会会议论文[2018-05-05].http://www.aclweb.org/anthology/Y/Y15/Y15-1011.pdf.
    [13]张海鸥.宋代的名字说与名字文化[J].中山大学学报(社会科学版),2013(5):16-30.
    (1)已有学者对此问题进行更加全面和理论化的论述,本文侧重于人文学者在参与数据库建设中的具体思考与反思。参见:王宏甦.跨学科合作中的人文学者.第九届上海国际图书馆论坛论文,2018.
    (2)由于宋代地名表中没有两浙,在这里就没有被替换。又因这样的例子很少,没有必要添入地名表进行替换。
    (3)本文提及的所有文本、表格和详细的Python代码以及各种输出结果已在网上发布,参见:https://github.com/cbdbproject/CBDB_Laxmi/tree/master/quan_song_wen.
    (4)考、子、男等除表达亲属关系之外,还有其他意思,尤其是子,在古代还有个常用含义是先生、老师的尊称,由此引申,一些伟大的思想家在后世就以姓氏加上“子”的形式被尊称,如孔子、孟子、老子、庄子。因此,要做一个仔细的审查与排除,将这些专有名词删除。还有一类常见的亲属关系表述是两个不同亲属连称,如父母、父子、男女、兄弟。它们所在的句子往往并没有亲属的人名信息,因此也要对其进行排查与删除,以减少后期审查工作的强度。最后一种常见的是亲属关系言说某些话,比如“母曰:”而非“母曰+名字”,这类表述也不包含需要提取的信息,也需要将其排除在外。为此,需要建立排除与删除表以供后期编程参考。
    (5)这些词汇首先根据正则表达式提取的文本进行总结,然后运行编程得出结果,再进行进一步的修正。
    (6)伯仲叔季四个字的每个字都不能单独删除,因为古代中国的名字中不少会出现伯仲叔季,比如第三和第四则信息就出现了“仲”,且出现了23次之多。但是,“伯曰”“仲曰”表示长幼次序的可以删除而不影响结果。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700