历史研究长期依赖官方档案与精英著述,易导致个体记忆被边缘化。口述史则为重现被忽略的社会生活与个体记忆提供了独特窗口,但其非规范性、高语境依赖性及多维交织的文本特性,使结构化信息抽取和系统分析面临挑战。研究以票证口述史文本为案例,旨在探索并验证一套将大语言模型(LLM)“规训”为能够严格遵循研究指令的学术助手的“人机协同”方法论。研究设计了系统的四阶段渐进式实验,通过“基础指令—规则化指令—程序化约束—小样本学习”的迭代优化,探索如何科学、有效地利用LLM强大的语义理解与指令遵循能力,以实现高效、精准的结构化信息抽取。研究发现,提示词工程化水平显著影响LLM输出质量,精巧的程序化约束可将大模型分析准确度大幅提升。研究还系统比较了同一技术框架下为不同任务优化的LLM在逻辑遵循能力上的表现差异,验证了小样本学习的价值与效益饱和点,并揭示了LLM在精确计算等任务上的固有缺陷。研究最终提炼出一套面向口述史文本分析的包含“规则化转译”与“任务合理分工”等核心策略的LLM“规训”框架,实现了高效、精准的口述史文本结构化分析,为数字人文研究提供了一种可复现、兼具效率与深度的智能研究范式参考。
楚系简帛文字的释读一直是古文字学的重点研究方向,然而目前多依赖人工手段对单字形体开展分析,缺少用计算机视觉技术对海量文字图版进行字形识别的尝试。研究针对大量楚系简帛文字图像识别困难的问题,结合楚系简帛文字的内在特征,不局限于单一深度神经网络模型和单一文字图片分析的微观视角,提出了一种基于集成学习策略的楚系简帛文字图像分类方法,即使用四种深度学习网络提取楚系简帛文字图像的共同形态学特征,并以投票形式得到最终的分类结果,从而构建了计算机自动高效识别海量楚系简帛文字图像的技术框架。应用该框架对目前出土的部分简帛材料中的文字图像进行识别,准确率高达96.72%,充分证明了该框架的可行性和有效性,为古文字研究提供了新的路径。
表演艺术与数字人文:将计算分析与人类体验相匹配
文章提出了一个将计算方法的要求与定性的、现象学的视听媒体分析方法相协调的框架。因其时间性和多模态特征,研究认为视听媒体可作为更广泛的表演艺术领域及其数字人文分析方法的范例。首先,研究主张将数字方法论明确建立在人类表演艺术体验的学术理论基础之上,并概述了一种定性方法,用于研究视听媒体中的创作模式和情感动态。为了展示这种方法,研究通过一个示例性场景分析,强调了基于对创作结构的微观层面描述来分析体验特质的具体方法。文章的主体部分阐述了使用计算工具所面临的三个核心挑战。其一,将常用的电影分析词汇重塑为机器可读的语义本体;其二,建立一个基于所开发语义本体的系统性、适用的标注程序,从而可对更大规模语料库进行人际的、一致的描述;其三,开发可视化和查询工具,以便在复杂的标注数据集中识别和追踪创作模式。文章最后通过前面的示例分析展示了可视化标注数据的好处,并思考了所概述的AdA电影本体作为更广泛数字人文研究中处理主体间经验基础的程序化起点的作用。
保存原生性数字文化遗产:电子游戏研究中计算方法的应用及挑战
文章介绍了瑞士Confoederatio Ludens(CHLudens)项目的研究成果,该项目通过跨学科方法探索了1968年至2000年瑞士的电子游戏文化。项目通过应用计算方法,如视觉语料库的远读、关键源代码分析以及元数据建模等,揭示了瑞士电子游戏历史中一些曾被忽视的方面,例如全球游戏趋势的地方化适应以及瑞士开发者独特的技术实践。此外,该项目展示了地方性和区域历史的概念如何对数字人文学术研究做出重要贡献,挑战了以美国和日本为中心的主导叙事。基于初步研究结果,文章讨论了这两个领域交叉点所产生的方法论挑战与机遇,并强调了保存、计算分析和地方历史研究的重要性。该项目凸显了跨学科方法的价值,即将原生性数字文化遗产不仅视为技术对象,更视为嵌入文化的历史资料来源。
活用数字数据构建研究平台:研究人员与图书馆员协作下的“数字源氏物语”尝试
东京大学附属图书馆在对馆藏《源氏物语》抄本进行数字化之时,组织了由不同领域研究者和图书馆员组成的学习会,围绕《源氏物语》的数字数据应用展开研讨。作为成果之一,学习会构建并发布了一个旨在为《源氏物语》文本研究提供支持的平台——“数字源氏物语”。文章将阐述学习会成立之缘起、平台构建及功能拓展之历程,并分别探讨学习会本身及图书馆员与研究人员协作之意义。
面向数字人文的双阶段刺绣图案自动识别与分割模型建构及应用
图像分割方法在传统刺绣图案的识别与分割领域已有一定应用,但因刺绣图案具有边缘复杂、细节繁琐以及类型多样等特点,传统的图像分割方法难以满足实际应用中高精度和高效率的需求。就此,该研究建构了一种基于YOLO与U-Net级联的双阶段刺绣图案识别与分割方法:在第一阶段采用YOLO算法进行目标检测,快速定位刺绣图案的具体位置;在第二阶段使用改进后的U-Net算法进行语义分割。改进的U-Net编码器结构采用了ResBlock-CBAM模块作为骨干网络,以增强特征提取的有效性,并引入ASPP模块进行特征增强,确保不同特征的有效提取和融合。通过双阶段级联网络,该方法能够捕捉刺绣图像的细节和上下文信息,实现对刺绣图案的精细分割,保留复杂的边缘和细节。实验结果显示,该研究算法在Dice和MioU等评估指标上分别达到0.8584和0.8376,精确率达到84.53%,显著优于其他先进分割算法。在此基础上建立的“刺绣智能识别与分割”系统,可实现刺绣图案的高效自动化提取与处理,不仅为刺绣图案的数字化保存和传承提供了技术支持,还为刺绣设计的现代化和个性化发展开辟了新的途径。
近代水利图清晰记录了民国时期的区域水体面貌,对历史水系变迁研究有重要的价值和作用。文章在“数字历史黄河”的基础上,以民国《宁夏省境黄河沿岸沟渠水道地形图》为例,在TCIS时态地理信息系统)技术和理论的支持下,实现了近代水利地图中水体信息的自动提取与空间匹配,开发了基于TGIS的近代水利地图信息化数据库系统。在数据库的基础上,利用空间自相关、分形和灌溉效率分析了该套数据。分析结果表明,宁夏灌渠在1949前具有显著的自然河流形态特征显示出传统时代当地水利设施和“岁修”行为难以克服黄河流路变更频繁、河道侧向摆动、水量不稳等环境因素对灌溉的持续性影响,这是人工判读和统计分析很难说清楚的问题。
《日本军细菌战原队员证言集》作为口述档案,是较为全面客观反映侵华日军细菌战情况的历史文献资料,适合采用基于知识重组理论的方法进行挖掘,以个体视角下的细节补充宏观史实。文章运用社会网络分析法和内容分析法,使用Neo4j图形数据库、ArcGIS地理信息系统,对该档案文本中的关联部队、实验地点、部门组成、支部情况、证人关系、战败撤离路线等内容进行可视化展示与知识发现。由此,《证言集》中人物之间的复杂关系得以具象化表达;并以宁波鼠疫细菌战中物资供给路线等为例,展示本研究成果在提示历史细节、发掘证据链网方面的作:还发现了部分证言之间的相互矛盾之处。这些工作为后续针对重点人物、据点开展更为精准、定向的史料梳理提供了有益参考,为与其他相关研究数据进行关联提供了基础,也为切实可行的口述历史档案内容挖掘提供了示范。此外,研究所制作的人物关系网络、知识图谱不仅充分证实了侵华日军细菌战的体系化、规模化,而且其作为直观、立体、可视化的知识图景,可广泛运用于公众历史教育。