年5月22日,由南京农业大学数字人文中心主办的“破壁与赋能:多学科驱动下的数字人文国际学术研讨会”在南京农业大学召开。多位海内外重量级学者受邀参加了会议,包括哈佛大学包弼徳(PeterK.Bol)教授、上海图书馆刘炜副馆长、北京科技大学潜伟教授、武汉大学王晓光教授、南开大学王利华教授、北京大学王军教授、上海图书馆陈涛工程师、西北大学曲安京教授、复旦大学路伟东教授、南京大学陈静副教授、莱顿大学魏希徳(HildeDeWeerdt)教授、杜伦大学德龙(DonaldSturgeon)助理教授以及南京农业大学包平教授等。南京农业大学党委常委、副校长胡锋教授和江苏省哲学社会科学规划办公室主任许益军致开幕辞。此次会议采用线上线下相结合的方式,共开展十三场专题报告及一场圆桌讨论,并在腾讯会议和哔哩哔哩弹幕视频网进行同步直播。
与会学者合影刘炜:“数字人文平台架构及语义互操作设计”上海图书馆副馆长、中国科技情报协会副理事长刘炜教授率先以“数字人文平台架构及语义互操作设计”为题进行了报告。
刘炜教授从数字人文发展的态势、技术发展的形势、上海图书馆的数字人文建设、数字人文平台的互联及互操作等方分别进行了汇报。他认为当前处在发展初期的数字人文研究被“图博档”,即图书馆、档案馆、博物馆所占领,基础设施建设者占据了研究中的主导地位。然而同时,当下基础设施建设仍然不够到位。他指出,在当前的数字人文研究中,图情领域研究者的核心竞争力在于解决“如何组织知识”这一问题。近二十年来,技术发展极其迅速,一批数字人文项目、工具和平台被建设起来,但目前使用的技术基本集中于网络互联(Internet-connected)阶段,纵然互联网已经将所有的研究者们串联在一起,每个研究者所使用的系统仍然是相互独立的。
刘炜认为,数字人文的应用系统发展存在数字化、文本化和数据化几个阶段。他还特别强调,汉学材料在数字化阶段需要保存原始图像,这是中国数字人文发展中所面对的特殊问题之一。他通过一个“堆栈”图向大家介绍了他心目中的数字人文的全景。理想中的数字人文的“堆栈”包括物质和精神两大板块以及制度、构成、方法、系统、界面五个层面,它们共同构成了数字人文的发展全景。他认为,未来云原生时代的数字人文平台系统,也应包括系统和内容两个方面的架构,同时,互联网上的各个数字人文系统应该通过应用程序接口(ApplicationProgrammingInterface,API)来进行互操作,例如工具书,应当通过建立接口的方式服务于任何数字人文平台和系统。
同时,刘炜也提出,目前数字人文提出的技术、框架和设想一定要和商务模式结合起来。他认为,目前的数字人文平台建设应该凸显“内容架构”,从平台建设之初,就应该在知识关联的层面上打造宏观架构,实现真正的知识管理。建立数字人文平台,不外乎数据和方法两个层面,其中,在数据层面应当实现“数据占有”和“书目控制”,在方法层面则应强调“获得事实”和“循证研究”。此外,刘炜还指出数据服务应遵守FAIR(Findable,Accessible,Interoperable,Resuable)原则,并实现语义互操作,在系统底层解决信息的关联问题。目前,上海图书馆正在建设“历史人文大数据平台”,以期实现“让查全不是梦想,让资料唾手可得,让模型随心所欲,让计算随遇而安,让结果美轮美奂,让人文研究不再困难”的愿景。
包弼徳(PeterK.Bol):“数字环境下的研究周期:面临何种挑战”
接下来,哈佛大学东亚语言与文明系包弼徳(PeterK.Bol)教授以“数字环境下的研究周期:面临何种挑战”为题进行演讲,从研究周期问题出发,阐述了数字人文发展过程中的问题。包弼徳教授认为,一个完整的研究周期分为提出研究问题、查找资料、整理、分析、出版五个环节。其中,提出研究问题环节是所有研究者共同面对的,而数字人文则能够在查找资料、整理、分析、出版这几个环节提供重要帮助。
从查找资料、数据、信息的环节上看,在年,世界上的数字资料总量为2泽字节(zettabytes),到年,这一数据则已经达到了40泽字节,这个数据量,相当于美国所有高校图书馆资料综合的50万倍。这些数据形式多种多样,并不全都与学术直接相关,如视频、音乐、通俗文学、漫画、游戏、照片等。对于学者来说,则可以在网上找到各类资源,如书籍、地理空间信息、数字化字画资源、古籍原文等。包弼德教授认为,在资源的获取上,有两个重要问题,其一是跨资源平台搜索,其二是大小机构间资源获取能力不平等。
从数据整理环节来看,过去我们将信息记录在纸上并保存在文件柜中,但今天我们将许多数据保存为电子文档和图片,并将其存储于文件系统中。研究者使用不同的数据存储形式,如电子表格、关系型数据库、图数据库中,同时,也有人将资料存储在“云端”,以便从不同设备进行访问,这一切都使得当今分享数据与合作变得容易。然而,共享数据与合作也面临挑战。首先是数据存储的空间问题,这涉及将数据存储在何处以供分享。其次是许多学者害怕分享数据,不希望数据被自己项目以外的人使用,针对这个问题,包弼徳提出,数据只是数据,数据本身无价值,被广泛的分析和使用才能让数据真正具有价值。最后则是一些与学术无关的原因,如校园网内服务器的“断网”等,这类问题在中国比较严重。在数据整理工作中,包弼德教授所在的CBDB开发团队还在数据组织和分享中尝试使用众包模式,目前已经通过众包平台开展了对25,余封明代书信的人工地址识别。
在数据分析的环节,数字人文方法及计算机科学技术,为人文科学的发展做出了极大贡献。包弼徳认为,知识推进包括三个部分,分别是知识的专门化,理论和典范的转移,以及工具的变迁。正如同显微镜和望远镜的发明使得自然科学家得以观察到从前无法观察的事物那样,数字人文发展中引入的新工具也使得人文科学家能够观察到从前无法观察之物。针对这个观点,包弼徳进一步讨论了数字人文带来的“概念飞跃”——文本挖掘和文本挖掘改变了阅读方式,基于关系型资料的建模推动了人物传记资料构建,群体传记学的发展解决了更多研究问题,空间分析使得数字化方志得以转化成为空间对象,社会网络分析促进了对人物关系的深入研究。
如何维持可以继续进行的数据库项目,工具和平台?在这个问题上,包弼徳教授认为“商业化就是大众化”。目前CBDB也在进行一些商业化工作,例如目前国内的高校可以从中文在线“引得”数字人文资源平台购买CBDB数据库使用许可,以使用完整版本的CBDB数据。
潜伟:“科学史研究的数字化问题”
随后,北京科技大学科技史与文化研究院院长潜伟教授以“科学史研究的数字化问题”为题进行了发言。潜伟教授指出,在“大数据”时代下,需要积极利用信息技术开展“新文科”建设。在科技史这个相对小众的学科中,数字化的发展存在严重缺位。近年来,无论是“数字人文”还是“数字史学”的研究都呈现上升趋势,虽然目前科学史领域的相关研究较少,但计量史学、数字人文、数字史学、e考据等趋势,都对科技史研究产生了一定影响。
定量研究的方法,在科学史研究中由来已久。自十九世纪下半叶以来,德堪多、高尔顿、雷诺夫、洛特卡、默顿、贝尔纳、普莱斯、竺可桢、赵红州等学者都曾使用量化方法研究科技史中的问题。潜伟教授自己及其研究团队,也曾就“科学图形面积比例与学科硬度测量”、“《宋史》记载的高频次学科”、“宋代科技成果曲线与科技政策曲线”等问题开展过科技史方面的定量分析。
潜伟认为,数字史学的发展有两种模式。一种是问题导向,这是传统史学擅长的方法,致力于学术问题的分析与解决,更