历史研究长期依赖官方档案与精英著述,易导致个体记忆被边缘化。口述史则为重现被忽略的社会生活与个体记忆提供了独特窗口,但其非规范性、高语境依赖性及多维交织的文本特性,使结构化信息抽取和系统分析面临挑战。研究以票证口述史文本为案例,旨在探索并验证一套将大语言模型(LLM)“规训”为能够严格遵循研究指令的学术助手的“人机协同”方法论。研究设计了系统的四阶段渐进式实验,通过“基础指令—规则化指令—程序化约束—小样本学习”的迭代优化,探索如何科学、有效地利用LLM强大的语义理解与指令遵循能力,以实现高效、精准的结构化信息抽取。研究发现,提示词工程化水平显著影响LLM输出质量,精巧的程序化约束可将大模型分析准确度大幅提升。研究还系统比较了同一技术框架下为不同任务优化的LLM在逻辑遵循能力上的表现差异,验证了小样本学习的价值与效益饱和点,并揭示了LLM在精确计算等任务上的固有缺陷。研究最终提炼出一套面向口述史文本分析的包含“规则化转译”与“任务合理分工”等核心策略的LLM“规训”框架,实现了高效、精准的口述史文本结构化分析,为数字人文研究提供了一种可复现、兼具效率与深度的智能研究范式参考。
楚系简帛文字的释读一直是古文字学的重点研究方向,然而目前多依赖人工手段对单字形体开展分析,缺少用计算机视觉技术对海量文字图版进行字形识别的尝试。研究针对大量楚系简帛文字图像识别困难的问题,结合楚系简帛文字的内在特征,不局限于单一深度神经网络模型和单一文字图片分析的微观视角,提出了一种基于集成学习策略的楚系简帛文字图像分类方法,即使用四种深度学习网络提取楚系简帛文字图像的共同形态学特征,并以投票形式得到最终的分类结果,从而构建了计算机自动高效识别海量楚系简帛文字图像的技术框架。应用该框架对目前出土的部分简帛材料中的文字图像进行识别,准确率高达96.72%,充分证明了该框架的可行性和有效性,为古文字研究提供了新的路径。
表演艺术与数字人文:将计算分析与人类体验相匹配
文章提出了一个将计算方法的要求与定性的、现象学的视听媒体分析方法相协调的框架。因其时间性和多模态特征,研究认为视听媒体可作为更广泛的表演艺术领域及其数字人文分析方法的范例。首先,研究主张将数字方法论明确建立在人类表演艺术体验的学术理论基础之上,并概述了一种定性方法,用于研究视听媒体中的创作模式和情感动态。为了展示这种方法,研究通过一个示例性场景分析,强调了基于对创作结构的微观层面描述来分析体验特质的具体方法。文章的主体部分阐述了使用计算工具所面临的三个核心挑战。其一,将常用的电影分析词汇重塑为机器可读的语义本体;其二,建立一个基于所开发语义本体的系统性、适用的标注程序,从而可对更大规模语料库进行人际的、一致的描述;其三,开发可视化和查询工具,以便在复杂的标注数据集中识别和追踪创作模式。文章最后通过前面的示例分析展示了可视化标注数据的好处,并思考了所概述的AdA电影本体作为更广泛数字人文研究中处理主体间经验基础的程序化起点的作用。
保存原生性数字文化遗产:电子游戏研究中计算方法的应用及挑战
文章介绍了瑞士Confoederatio Ludens(CHLudens)项目的研究成果,该项目通过跨学科方法探索了1968年至2000年瑞士的电子游戏文化。项目通过应用计算方法,如视觉语料库的远读、关键源代码分析以及元数据建模等,揭示了瑞士电子游戏历史中一些曾被忽视的方面,例如全球游戏趋势的地方化适应以及瑞士开发者独特的技术实践。此外,该项目展示了地方性和区域历史的概念如何对数字人文学术研究做出重要贡献,挑战了以美国和日本为中心的主导叙事。基于初步研究结果,文章讨论了这两个领域交叉点所产生的方法论挑战与机遇,并强调了保存、计算分析和地方历史研究的重要性。该项目凸显了跨学科方法的价值,即将原生性数字文化遗产不仅视为技术对象,更视为嵌入文化的历史资料来源。
活用数字数据构建研究平台:研究人员与图书馆员协作下的“数字源氏物语”尝试
东京大学附属图书馆在对馆藏《源氏物语》抄本进行数字化之时,组织了由不同领域研究者和图书馆员组成的学习会,围绕《源氏物语》的数字数据应用展开研讨。作为成果之一,学习会构建并发布了一个旨在为《源氏物语》文本研究提供支持的平台——“数字源氏物语”。文章将阐述学习会成立之缘起、平台构建及功能拓展之历程,并分别探讨学习会本身及图书馆员与研究人员协作之意义。
面向数字人文的双阶段刺绣图案自动识别与分割模型建构及应用
图像分割方法在传统刺绣图案的识别与分割领域已有一定应用,但因刺绣图案具有边缘复杂、细节繁琐以及类型多样等特点,传统的图像分割方法难以满足实际应用中高精度和高效率的需求。就此,该研究建构了一种基于YOLO与U-Net级联的双阶段刺绣图案识别与分割方法:在第一阶段采用YOLO算法进行目标检测,快速定位刺绣图案的具体位置;在第二阶段使用改进后的U-Net算法进行语义分割。改进的U-Net编码器结构采用了ResBlock-CBAM模块作为骨干网络,以增强特征提取的有效性,并引入ASPP模块进行特征增强,确保不同特征的有效提取和融合。通过双阶段级联网络,该方法能够捕捉刺绣图像的细节和上下文信息,实现对刺绣图案的精细分割,保留复杂的边缘和细节。实验结果显示,该研究算法在Dice和MioU等评估指标上分别达到0.8584和0.8376,精确率达到84.53%,显著优于其他先进分割算法。在此基础上建立的“刺绣智能识别与分割”系统,可实现刺绣图案的高效自动化提取与处理,不仅为刺绣图案的数字化保存和传承提供了技术支持,还为刺绣设计的现代化和个性化发展开辟了新的途径。
近代水利图清晰记录了民国时期的区域水体面貌,对历史水系变迁研究有重要的价值和作用。文章在“数字历史黄河”的基础上,以民国《宁夏省境黄河沿岸沟渠水道地形图》为例,在TCIS时态地理信息系统)技术和理论的支持下,实现了近代水利地图中水体信息的自动提取与空间匹配,开发了基于TGIS的近代水利地图信息化数据库系统。在数据库的基础上,利用空间自相关、分形和灌溉效率分析了该套数据。分析结果表明,宁夏灌渠在1949前具有显著的自然河流形态特征显示出传统时代当地水利设施和“岁修”行为难以克服黄河流路变更频繁、河道侧向摆动、水量不稳等环境因素对灌溉的持续性影响,这是人工判读和统计分析很难说清楚的问题。
《日本军细菌战原队员证言集》作为口述档案,是较为全面客观反映侵华日军细菌战情况的历史文献资料,适合采用基于知识重组理论的方法进行挖掘,以个体视角下的细节补充宏观史实。文章运用社会网络分析法和内容分析法,使用Neo4j图形数据库、ArcGIS地理信息系统,对该档案文本中的关联部队、实验地点、部门组成、支部情况、证人关系、战败撤离路线等内容进行可视化展示与知识发现。由此,《证言集》中人物之间的复杂关系得以具象化表达;并以宁波鼠疫细菌战中物资供给路线等为例,展示本研究成果在提示历史细节、发掘证据链网方面的作:还发现了部分证言之间的相互矛盾之处。这些工作为后续针对重点人物、据点开展更为精准、定向的史料梳理提供了有益参考,为与其他相关研究数据进行关联提供了基础,也为切实可行的口述历史档案内容挖掘提供了示范。此外,研究所制作的人物关系网络、知识图谱不仅充分证实了侵华日军细菌战的体系化、规模化,而且其作为直观、立体、可视化的知识图景,可广泛运用于公众历史教育。
沉浸式数字叙事中的视听联觉研究与构建——以宋庆龄与中国福利会相关档案开发实践为例
在档案资源开发过程中应用沉浸式数字叙事,可使档案记忆立体化、具象化,实现从物理空间向记忆空间的演变。研究对数字人文视域下的档案资源开发利用实践现状进行回顾,分析目前针对档案资源所进行的沉浸式数字叙事构建的局限,论证基于精细声音设计的沉浸式叙事路径在档案资源开发利用中的可行性。并以宋庆龄与中国福利会的相关档案为对象,探索了基于VR、模拟人声、数字人等多种数字技术、强调声音设计的沉浸式叙事方法。当中虚拟展厅与全景色、无损音效的结合,使档案资源从平面延伸到丰满的立体空间,从而验证了音乐和图像多模态交叉交融的可能性,针对文本所进行的视听联觉研究与构建的尝试,拓展了数字人文研究新领域。
数字人文路径下的现代主义期刊研究与教学——以《小评论》为例
民国报纸文本基准真值制作的挑战与思考——以《晶报》为例
通过人工智能研究早期电影:对电影馆藏图像检索的思考
“中国古代可移动文物概念参考模型”构建实践
研究旨在实现文化遗产机构之间的信息交换与集成,并提供机器可读的信息资源以满足生成式人工智能在基于事实的判断推理与辅助决策等智能应用方面的需求。故宫博物院围绕中国古代可移动文物展开研究,以CIDOC-CRM框架为基础,结合自上而下和自下而上的方法构建了“中国古代可移动文物概念参考模型”(CRM-ACA)。该模型也是第一款中国博物馆落地应用的本体模型。在该本体模型的基础上构建知识图谱,为故宫博物院“数字文物库”线上藏品平台提供数据服务,验证了CRM-ACA具有可操作性。这一研发填补了博物馆行业的空白,有助于实现博物馆藏品信息的交换集成与智能化处理。
自下而上的冲突地区数字文化遗产保护模式探讨——以“在线拯救乌克兰文化遗产”(SUCHO)行动为例
“在线拯救乌克兰文化遗产”(SUCHO)是一项在2022年俄乌冲突背景下由欧美数字人文主义者发起的乌克兰数字文化遗产紧急保护行动。该项目在冲突爆发后的短短几个月时间内汇聚了1500多名国际志愿者,主要利用开源社区的网络存档工具和定制化的元数据方案,以在线合作的形式备份了乌克兰文化机构5000余个网站的内容和50TB的数据资源。2022年下半年项目已进入后续的内容管护、宣传教育和线下支援等环节,并产出了多种类型的数字人文成果。通过案例分析,文章认为该项目的成功建立和持续运作离不开网络志愿者社群、分布式网络存档方案和数字人文团队协调的关键贡献。尽管项目自身也存在一些局限,例如志愿者模式本身的缺陷,但其为面临类似危机的数字文化遗产抢救提供了自下而上的创新解决方案。
数字人文时代的古典文学文献辑佚对学者提出了两方面的要求。一是要延续传统辑佚学、目录学和版本学的经验,主动对接数字人文领域最新技术方法。在辑佚准备阶段,应结合目录学传统经验明确文献范围;在深挖拓展阶段,应利用GIS 和社会网络分析等数字人文手段获取更多线索;在录入校勘阶段,应长期关注辑佚对象,反复利用最新数据库和资料开展续辑和校勘;在辨伪定本阶段,应灵活运用传统“知人论世”法与数字化考据方法。二是要灵活运用各种数据库与工具。针对检索型数据库,需要预先设置关键词,并结合辑佚所得随时增补调整。在现有检索型数据库中,地方志数据库的辑佚潜力最大,值得加强利用;针对尚未全文化的影像型数据库,可自行编制专题性索引或建设题录数据库,从而为辑佚工作建立新的增长点。此外,一些习见常用的其他领域数据库如知网、读秀等,有时也能为辑佚工作提供意想不到的帮助。
在文化遗产信息资源数量爆炸式增长的态势下,能否高效抽取非结构化数据构成的文化遗产信息资源中的知识,影响着是否能更有效传播和弘扬优秀传统文化。文章以文化遗产信息资源文本为研究对象,提出将其按来源分类,根据不同的知识分布特点选取针对性的关键词提取方法,获得关键词后在知识图谱中检索文化遗产实体与关系,完成知识抽取的路径。实验结果表明,研究所确立的分类关键词提取方法在多个阈值条件下较其他方法有较大提升,能够较好地抽取非结构化数据中的文化遗产知识。