栏目文章

Select

1. 段玉裁《说文解字注》知识库的构建与应用

沈小妮, 彭炜明, 胡佳佳

数字人文研究 2025, 5 (4): 68-83.

摘要（55）

PDF（pc）（7217KB）（87）

段玉裁《说文解字注》是“说文学”研究的巅峰之作，集中体现了乾嘉学派的学术成就。当前有关《说文解字注》的数字化工作多停留于文本化阶段，尚未实现对其知识体系的深度挖掘与系统呈现。研究以《说文解字注》及其稿本《说文解字读》为底本构建知识库，设计了涵盖五大知识范畴、十个知识集、五十六个知识点的三层分类体系，完成了数万条知识实例的标注与结构化表示；在此基础上，开发了具备原文检索、知识导览与标注管理功能的交互式平台；并以对段玉裁的谐声归部研究为例，验证了知识库的应用潜力。这是数字人文方法在传统语言文字学领域的一次系统实践，为古籍深度数字化与人文研究范式创新提供了重要参考。

相关文章 | 多维度评价 | 评论（0）

Select

2. 融合语义理解与图谱推理的党史文献模糊指代消解方法

冉凌宇

数字人文研究 2025, 5 (4): 84-98.

摘要（53）

PDF（pc）（1903KB）（49）

党史文献因广泛使用化名、代称并蕴含复杂隐性关联，其智能化处理面临严峻挑战。研究提出一种融合多策略语义理解与动态知识图谱推理的模糊指代消解方法，以解决该领域存在的语义鸿沟、时序演变与证据稀疏性三大难题。该方法构建了覆盖万余实体的党史领域词典与化名一真名映射库以注入先验知识；采用领域词典引导的负样本采样策略对预训练语言模型进行微调，增强其对特定表达的语义感知能力；最终在自建的时序知识图谱上，运用时间约束的图神经网络推理算法进行隐性关联挖掘与一致性校验。实验表明，该方法在权威评测指标上综合F1值达到80.6%，显著优于现有基线模型，并能有效发现深层历史关联。研究成果已集成至可视化原型系统，为党史研究提供了可靠的智能化工具。

相关文章 | 多维度评价 | 评论（0）

Select

3. 从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

日比嘉高, 江晖

数字人文研究 2025, 5 (4): 99-117.

摘要（35）

PDF（pc）（2906KB）（58）

研究旨在通过对近代句中松尾芭蕉的接受情况进行定量分析，探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏，统计了明治至昭和战前期间文献中芭蕉句的引用频率，并运用Jaccard系数对明治、大正、昭和战前期的大规模句集进行了相似性分析。研究发现，随着时代变迁，芭蕉对句的影响逐渐降低，而以芭蕉批评者著称的正冈子规的句却比明治时期一般句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异，提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律，为“数字文学史”的构建提供新路径。

相关文章 | 多维度评价 | 评论（0）

Select

4.

面向口述史文本分析的大语言模型提示工程与人机协同策略

马林青, 石佳琪, 曹星宇

数字人文研究 2025, 5 (3): 41-60.

摘要（464）

PDF（pc）（4140KB）（289）

历史研究长期依赖官方档案与精英著述，易导致个体记忆被边缘化。口述史则为重现被忽略的社会生活与个体记忆提供了独特窗口，但其非规范性、高语境依赖性及多维交织的文本特性，使结构化信息抽取和系统分析面临挑战。研究以票证口述史文本为案例，旨在探索并验证一套将大语言模型(LLM)“规训”为能够严格遵循研究指令的学术助手的“人机协同”方法论。研究设计了系统的四阶段渐进式实验，通过“基础指令—规则化指令—程序化约束—小样本学习”的迭代优化，探索如何科学、有效地利用LLM强大的语义理解与指令遵循能力，以实现高效、精准的结构化信息抽取。研究发现，提示词工程化水平显著影响LLM输出质量，精巧的程序化约束可将大模型分析准确度大幅提升。研究还系统比较了同一技术框架下为不同任务优化的LLM在逻辑遵循能力上的表现差异，验证了小样本学习的价值与效益饱和点，并揭示了LLM在精确计算等任务上的固有缺陷。研究最终提炼出一套面向口述史文本分析的包含“规则化转译”与“任务合理分工”等核心策略的LLM“规训”框架，实现了高效、精准的口述史文本结构化分析，为数字人文研究提供了一种可复现、兼具效率与深度的智能研究范式参考。

相关文章 | 多维度评价 | 评论（0）

Select

5. 重庆武隆盐井峡盐业遗址数字考古研究

邹秋实, 牛英彬, 宋海超

数字人文研究 2025, 5 (2): 31-44.

摘要（282）

PDF（pc）（3448KB）（639）

重庆武隆盐井峡盐业遗址承载着悠久的盐业生产历史，对研究古代手工业生产、区域经济、社会发展具有重要意义。文章详细阐述了在该遗址开展数字考古实践的过程，综合运用三维重建、地理信息系统（GIS）等数字技术,实现了对遗址的全面数据采集、虚拟重建与空间分析。通过数字考古，研究深入挖掘了盐井峡盐业遗址的历史文化内涵，为盐业遗址的保护、研究与展示提供了创新方法，也为同类文化遗产的数字化工作提供了可借鉴的案例。

相关文章 | 多维度评价 | 评论（0）

Select

6.

基于深度集成学习的战国楚系简帛文字识别

陈超, 李赫孜, 杨泽坤

数字人文研究 2025, 5 (2): 45-58.

摘要（543）

PDF（pc）（5188KB）（381）

楚系简帛文字的释读一直是古文字学的重点研究方向，然而目前多依赖人工手段对单字形体开展分析，缺少用计算机视觉技术对海量文字图版进行字形识别的尝试。研究针对大量楚系简帛文字图像识别困难的问题，结合楚系简帛文字的内在特征，不局限于单一深度神经网络模型和单一文字图片分析的微观视角，提出了一种基于集成学习策略的楚系简帛文字图像分类方法，即使用四种深度学习网络提取楚系简帛文字图像的共同形态学特征，并以投票形式得到最终的分类结果，从而构建了计算机自动高效识别海量楚系简帛文字图像的技术框架。应用该框架对目前出土的部分简帛材料中的文字图像进行识别，准确率高达96.72%，充分证明了该框架的可行性和有效性，为古文字研究提供了新的路径。

相关文章 | 多维度评价 | 评论（0）

Select

7.

表演艺术与数字人文：将计算分析与人类体验相匹配

扬-亨德里克·巴克尔斯, 马蒂亚斯·格罗特科普, 托马斯·舍雷尔, 贾斯珀·斯特拉蒂尔, 张佳明, 陈冬睿/译

数字人文研究 2025, 5 (2): 59-87.

摘要（362）

PDF（pc）（3466KB）（2589）

文章提出了一个将计算方法的要求与定性的、现象学的视听媒体分析方法相协调的框架。因其时间性和多模态特征，研究认为视听媒体可作为更广泛的表演艺术领域及其数字人文分析方法的范例。首先，研究主张将数字方法论明确建立在人类表演艺术体验的学术理论基础之上，并概述了一种定性方法，用于研究视听媒体中的创作模式和情感动态。为了展示这种方法，研究通过一个示例性场景分析，强调了基于对创作结构的微观层面描述来分析体验特质的具体方法。文章的主体部分阐述了使用计算工具所面临的三个核心挑战。其一，将常用的电影分析词汇重塑为机器可读的语义本体;其二，建立一个基于所开发语义本体的系统性、适用的标注程序，从而可对更大规模语料库进行人际的、一致的描述;其三，开发可视化和查询工具，以便在复杂的标注数据集中识别和追踪创作模式。文章最后通过前面的示例分析展示了可视化标注数据的好处，并思考了所概述的AdA电影本体作为更广泛数字人文研究中处理主体间经验基础的程序化起点的作用。

相关文章 | 多维度评价 | 评论（0）

Select

8.

保存原生性数字文化遗产：电子游戏研究中计算方法的应用及挑战

阿德里安·德姆莱特纳, 尤金·菲斯特, 托拜厄斯·霍德尔, 范涛

数字人文研究 2025, 5 (1): 38-53.

摘要（577）

PDF（pc）（3182KB）（264）

文章介绍了瑞士Confoederatio Ludens（CHLudens）项目的研究成果，该项目通过跨学科方法探索了1968年至2000年瑞士的电子游戏文化。项目通过应用计算方法，如视觉语料库的远读、关键源代码分析以及元数据建模等，揭示了瑞士电子游戏历史中一些曾被忽视的方面，例如全球游戏趋势的地方化适应以及瑞士开发者独特的技术实践。此外，该项目展示了地方性和区域历史的概念如何对数字人文学术研究做出重要贡献，挑战了以美国和日本为中心的主导叙事。基于初步研究结果，文章讨论了这两个领域交叉点所产生的方法论挑战与机遇，并强调了保存、计算分析和地方历史研究的重要性。该项目凸显了跨学科方法的价值，即将原生性数字文化遗产不仅视为技术对象，更视为嵌入文化的历史资料来源。

相关文章 | 多维度评价 | 评论（0）

Select

9.

活用数字数据构建研究平台：研究人员与图书馆员协作下的“数字源氏物语”尝试

中村美里, 木越みち, 小川夏代子, 王子睿

数字人文研究 2025, 5 (1): 54-75.

摘要（695）

PDF（pc）（14455KB）（58）

东京大学附属图书馆在对馆藏《源氏物语》抄本进行数字化之时，组织了由不同领域研究者和图书馆员组成的学习会，围绕《源氏物语》的数字数据应用展开研讨。作为成果之一，学习会构建并发布了一个旨在为《源氏物语》文本研究提供支持的平台——“数字源氏物语”。文章将阐述学习会成立之缘起、平台构建及功能拓展之历程，并分别探讨学习会本身及图书馆员与研究人员协作之意义。

相关文章 | 多维度评价 | 评论（0）

Select

10.

面向数字人文的双阶段刺绣图案自动识别与分割模型建构及应用

鲍亚林

数字人文研究 2025, 5 (1): 76-96.

摘要（542）

PDF（pc）（66128KB）（42）

图像分割方法在传统刺绣图案的识别与分割领域已有一定应用，但因刺绣图案具有边缘复杂、细节繁琐以及类型多样等特点，传统的图像分割方法难以满足实际应用中高精度和高效率的需求。就此，该研究建构了一种基于YOLO与U-Net级联的双阶段刺绣图案识别与分割方法：在第一阶段采用YOLO算法进行目标检测，快速定位刺绣图案的具体位置；在第二阶段使用改进后的U-Net算法进行语义分割。改进的U-Net编码器结构采用了ResBlock-CBAM模块作为骨干网络，以增强特征提取的有效性，并引入ASPP模块进行特征增强，确保不同特征的有效提取和融合。通过双阶段级联网络，该方法能够捕捉刺绣图像的细节和上下文信息，实现对刺绣图案的精细分割，保留复杂的边缘和细节。实验结果显示，该研究算法在Dice和MioU等评估指标上分别达到0.8584和0.8376，精确率达到84.53%，显著优于其他先进分割算法。在此基础上建立的“刺绣智能识别与分割”系统，可实现刺绣图案的高效自动化提取与处理，不仅为刺绣图案的数字化保存和传承提供了技术支持，还为刺绣设计的现代化和个性化发展开辟了新的途径。

相关文章 | 多维度评价 | 评论（0）

Select

11. 宁夏近代水利地图数据库构建与应用——基于TGIS的古旧水利地图信息化建设实例

白江涛, 潘威

数字人文研究 2024, 4 (4): 47-66.

摘要（358）

PDF（pc）（48264KB）（44）

近代水利图清晰记录了民国时期的区域水体面貌，对历史水系变迁研究有重要的价值和作用。文章在“数字历史黄河”的基础上，以民国《宁夏省境黄河沿岸沟渠水道地形图》为例，在TCIS时态地理信息系统)技术和理论的支持下，实现了近代水利地图中水体信息的自动提取与空间匹配，开发了基于TGIS的近代水利地图信息化数据库系统。在数据库的基础上，利用空间自相关、分形和灌溉效率分析了该套数据。分析结果表明，宁夏灌渠在1949前具有显著的自然河流形态特征显示出传统时代当地水利设施和“岁修”行为难以克服黄河流路变更频繁、河道侧向摆动、水量不稳等环境因素对灌溉的持续性影响，这是人工判读和统计分析很难说清楚的问题。

相关文章 | 多维度评价 | 评论（0）

Select

12. 基于知识重组的《日本军细菌战原队员证言集》证据链网发掘

任越, 谭科铭, 李泊泳

数字人文研究 2024, 4 (4): 67-83.

摘要（396）

PDF（pc）（4304KB）（113）

《日本军细菌战原队员证言集》作为口述档案，是较为全面客观反映侵华日军细菌战情况的历史文献资料，适合采用基于知识重组理论的方法进行挖掘，以个体视角下的细节补充宏观史实。文章运用社会网络分析法和内容分析法，使用Neo4j图形数据库、ArcGIS地理信息系统，对该档案文本中的关联部队、实验地点、部门组成、支部情况、证人关系、战败撤离路线等内容进行可视化展示与知识发现。由此，《证言集》中人物之间的复杂关系得以具象化表达;并以宁波鼠疫细菌战中物资供给路线等为例，展示本研究成果在提示历史细节、发掘证据链网方面的作：还发现了部分证言之间的相互矛盾之处。这些工作为后续针对重点人物、据点开展更为精准、定向的史料梳理提供了有益参考，为与其他相关研究数据进行关联提供了基础，也为切实可行的口述历史档案内容挖掘提供了示范。此外，研究所制作的人物关系网络、知识图谱不仅充分证实了侵华日军细菌战的体系化、规模化，而且其作为直观、立体、可视化的知识图景，可广泛运用于公众历史教育。

相关文章 | 多维度评价 | 评论（0）

Select

13. 从定格画面到动态图像，反之亦然：基于技术回环分析和利用人工智能研究电影史

比阿特丽斯·塔德奥·富伊卡, 亚瑟·莱泽, 刘思成, 蒲夏青/译

数字人文研究 2024, 4 (4): 84-99.

摘要（351）

PDF（pc）（24750KB）（42）

在人文学科的数字转向中，电影学在与数字工具和语料库思维相遇后碰撞出了新的火花，这对电影史研究尤为重要。利用人工智能工具的图像检索功能，研究者可以高效地从海量的数字电影语料库中抓取并汇总所需的图像等信息，作为更深入研究的理论前提。文章介绍了利用Snoop算法在法国国家视听研究中心的早期电影语料库中开展的第二轮检索实验：基于对运动影像技术回环的回顾，及理论反思电影画格中反复出现的物如何吸收、反映和塑造历史，研究通过从历史电影语料库中检索特定的物，证明了美学关联会引发历史分析，从而将该电影语料库创建背景的特殊性推至幕前，并分析这一研究路径的潜力和局限所在。

相关文章 | 多维度评价 | 评论（0）

Select

14.

山地小区域历史人口地理数据库建设探索——以云南省峨山县文山河流域为考察对象

白玉军

数字人文研究 2024, 4 (3): 47-65.

摘要（414）

PDF（pc）（1681KB）（320）

历史人口地理数据库是整合与管理具有空间属性的人口史料的有效方法。山地小区域人口史料是历史人口地理、人口史、历史民族地理等学科研究的重要资源，具有较明显的时空特征和属性特征，适用于构建历史人口地理数据库。基于多源资料的处理方法，文章设计了近300年文山河流域具有明确时空属性的历史人口地理数据库构架，并将其建设成为一个人口史料数据库平台，以期为相关学科的学术研究和人口变化的现实问题服务。

相关文章 | 多维度评价 | 评论（0）

Select

15. 中国外销画研究模型探索：以英国V&A博物馆馆藏为例

高瑾, 张扬明, 王林敏清, 刘佳玮

数字人文研究 2024, 4 (2): 42-63.

摘要（655）

PDF（pc）（17839KB）（76）

中国外销画是18世纪至19世纪中国画家特别创作的商品画，旨在出口到欧洲和北美市场并迎合西方消费者的审美品味。这些作品融合了中国和欧洲绘画技巧，详细描绘了清朝晚期的传统习俗、职业、制造业和贸易、船舶、植物和动物等主题元素，形成了独特的艺术风格。文章介绍了英国伦敦大学学院(UCL)和英国维多利亚和艾尔伯特博物馆(V&A)合作的中国外销画研究项目，并引入了针对中国外销艺术所建立的数字人文研究模型。首先，研究通过量化方法识别相似画作主题和不同画家身份；其次，使用深度学习方法将2350幅外销画图像按主题分类；而后对其进行图像志标引和深入分析，以挖掘中国画家在18至19世纪创作外销画时的内容主题分布和演变。研究结果发现了V&A馆藏外销画在1840年前后的主题差异，为中国外销画和全球艺术史相关研究提供了数据支持，同时还为今后的外销艺术研究贡献了新的数字人文研究模型。这些成果加深了对中国外销画主题的理解，同时也为探索和解析中西文化交融的独特历程发掘了新的研究途径。

相关文章 | 多维度评价 | 评论（0）

Select

16.

沉浸式数字叙事中的视听联觉研究与构建——以宋庆龄与中国福利会相关档案开发实践为例

王美贤, 程宸, 陈涛, 王心雨, 林纪元

数字人文研究 2024, 4 (1): 74-85.

摘要（455）

PDF（pc）（31252KB）（38）

在档案资源开发过程中应用沉浸式数字叙事，可使档案记忆立体化、具象化，实现从物理空间向记忆空间的演变。研究对数字人文视域下的档案资源开发利用实践现状进行回顾，分析目前针对档案资源所进行的沉浸式数字叙事构建的局限，论证基于精细声音设计的沉浸式叙事路径在档案资源开发利用中的可行性。并以宋庆龄与中国福利会的相关档案为对象，探索了基于VR、模拟人声、数字人等多种数字技术、强调声音设计的沉浸式叙事方法。当中虚拟展厅与全景色、无损音效的结合，使档案资源从平面延伸到丰满的立体空间，从而验证了音乐和图像多模态交叉交融的可能性，针对文本所进行的视听联觉研究与构建的尝试，拓展了数字人文研究新领域。

相关文章 | 多维度评价 | 评论（0）

Select

17.

数字人文路径下的现代主义期刊研究与教学——以《小评论》为例

杰弗里·德鲁因, 王江

数字人文研究 2024, 4 (1): 86-104.

摘要（372）

PDF（pc）（29440KB）（27）

数字人文视域下的文学研究通常呈现出两种倾向：一种是对大规模数据集进行宏观层面的“远读”，另一种则是对单部作品的语言特性进行微观分析。其中，“大数据”项目利用软件对数百万卷期刊的出版数据或文学语料所构成的大规模数据集进行可视化处理，进而揭示出学者们单凭自身的穷尽式阅读难以获知的各种历史模式。然而，这类方法无法深度阅读文学文本。与此同时，基于文本挖掘的微观分析也呈现出类似的优缺点。因此，本章旨在探索一种融合之道，即综合运用这两种方法解读1918年9月刊的《小评论》。

相关文章 | 多维度评价 | 评论（0）

Select

18.

民国报纸文本基准真值制作的挑战与思考——以《晶报》为例

谢佳, 叶淑敏

数字人文研究 2023, 3 (4): 49-62.

摘要（292）

PDF（pc）（4350KB）（116）

欧洲和北美众多研究学者已对机器学习在光学字符识别中的应用进行了探索，许多项目也正在为此创建基准真值(ground truth, GT)数据。但对于非拉丁文本(non-Latin script)阅读材料来说，情况则有所不同。德国海德堡大学的“中国早期报刊在线数据库”(ECPO)项目于2021年开始研究如何基于中国报刊史料生成机器可读文本。ECPO采用多种机器学习方法(如卷积神经网络)开发了一个半自动流程来生成机器可读的全文文本，并选取民国时期娱乐小报《晶报》(1919—1940年)作为实验基础。文章聚焦于两方面：一是对基准真值编辑工作流程作详细阐述，包括组建编辑团队、组织工作流程、建立操作规范和确保质量控制；二是探讨制作基准真值时遇到的具体困难，包括字符编码问题、与Unicode相关的异体字符问题等。该研究项目创建了两个基准真值数据集，分别是文本型/结构化数据(全文基准真值，full-text GT)和版面分割数据(几何基准真值，geometry GT)。此外，文章还指出研究项目发现的问题及应对方案，期望提高机器学习效率，并为其他从事非拉丁文阅读材料研究的同仁提供借鉴。

相关文章 | 多维度评价 | 评论（0）

Select

19.

通过人工智能研究早期电影：对电影馆藏图像检索的思考

比阿特丽斯·塔德奥·富伊卡, 奥利弗·布韦, 松克劳德·穆苏, 刘思成/译

数字人文研究 2023, 3 (4): 63-77.

摘要（316）

PDF（pc）（18097KB）（34）

计算机工具为我们提供了观看电影的新方法，并为电影学者们创造了提出多样研究问题和展望新研究方法的机遇。文章着重关注电影史学者的研究如何能从尚未被广泛使用的人工智能的帮扶中获益，分享了利用人工智能“Snoop”在老电影语料库中进行的第一轮试验。Snoop由法国国家视听研究所(INA)和国家信息与自动化研究所(INRIA)共同开发。通过探索性的方式，Snoop使研究者能够检索老电影语料库中的共同主题。除了介绍实验中遇到的挑战和新发现外，文章亦旨在对实验进行整体评估并讨论新的研究方向。从研究史的角度而言，文章的另一目的在于评估人工智能系统是否能成为实施不同研究方法的有效工具——既能解决新的研究问题，又能重新审视旧有疑窦；且如果是，又将如何实现。

相关文章 | 多维度评价 | 评论（0）

Select

20.

“中国古代可移动文物概念参考模型”构建实践

叶祎珮

数字人文研究 2023, 3 (3): 37-48.

摘要（691）

PDF（pc）（2895KB）（1163）

研究旨在实现文化遗产机构之间的信息交换与集成，并提供机器可读的信息资源以满足生成式人工智能在基于事实的判断推理与辅助决策等智能应用方面的需求。故宫博物院围绕中国古代可移动文物展开研究，以CIDOC-CRM框架为基础，结合自上而下和自下而上的方法构建了“中国古代可移动文物概念参考模型”（CRM-ACA）。该模型也是第一款中国博物馆落地应用的本体模型。在该本体模型的基础上构建知识图谱，为故宫博物院“数字文物库”线上藏品平台提供数据服务，验证了CRM-ACA具有可操作性。这一研发填补了博物馆行业的空白，有助于实现博物馆藏品信息的交换集成与智能化处理。

相关文章 | 多维度评价 | 评论（0）

Select

21.

自下而上的冲突地区数字文化遗产保护模式探讨——以“在线拯救乌克兰文化遗产”(SUCHO)行动为例

张扬明

数字人文研究 2023, 3 (3): 49-58.

摘要（552）

PDF（pc）（3110KB）（1574）

“在线拯救乌克兰文化遗产”（SUCHO）是一项在2022年俄乌冲突背景下由欧美数字人文主义者发起的乌克兰数字文化遗产紧急保护行动。该项目在冲突爆发后的短短几个月时间内汇聚了1500多名国际志愿者，主要利用开源社区的网络存档工具和定制化的元数据方案，以在线合作的形式备份了乌克兰文化机构5000余个网站的内容和50TB的数据资源。2022年下半年项目已进入后续的内容管护、宣传教育和线下支援等环节，并产出了多种类型的数字人文成果。通过案例分析，文章认为该项目的成功建立和持续运作离不开网络志愿者社群、分布式网络存档方案和数字人文团队协调的关键贡献。尽管项目自身也存在一些局限，例如志愿者模式本身的缺陷，但其为面临类似危机的数字文化遗产抢救提供了自下而上的创新解决方案。

相关文章 | 多维度评价 | 评论（0）

Select

22. 数字人文时代古典文学文献辑佚路径的实验与思考

唐宸张萍

数字人文研究 2023, 3 (2): 31-38.

摘要（593）

PDF（pc）（1377KB）（718）

数字人文时代的古典文学文献辑佚对学者提出了两方面的要求。一是要延续传统辑佚学、目录学和版本学的经验,主动对接数字人文领域最新技术方法。在辑佚准备阶段,应结合目录学传统经验明确文献范围;在深挖拓展阶段,应利用GIS 和社会网络分析等数字人文手段获取更多线索;在录入校勘阶段,应长期关注辑佚对象,反复利用最新数据库和资料开展续辑和校勘;在辨伪定本阶段,应灵活运用传统“知人论世”法与数字化考据方法。二是要灵活运用各种数据库与工具。针对检索型数据库,需要预先设置关键词,并结合辑佚所得随时增补调整。在现有检索型数据库中,地方志数据库的辑佚潜力最大,值得加强利用;针对尚未全文化的影像型数据库,可自行编制专题性索引或建设题录数据库,从而为辑佚工作建立新的增长点。此外,一些习见常用的其他领域数据库如知网、读秀等,有时也能为辑佚工作提供意想不到的帮助。

相关文章 | 多维度评价 | 评论（0）

Select

23. 基于关键词提取的文化遗产信息资源知识抽取方法

彭博

数字人文研究 2023, 3 (2): 39-49.

摘要（494）

PDF（pc）（5937KB）（399）

在文化遗产信息资源数量爆炸式增长的态势下,能否高效抽取非结构化数据构成的文化遗产信息资源中的知识,影响着是否能更有效传播和弘扬优秀传统文化。文章以文化遗产信息资源文本为研究对象,提出将其按来源分类,根据不同的知识分布特点选取针对性的关键词提取方法,获得关键词后在知识图谱中检索文化遗产实体与关系,完成知识抽取的路径。实验结果表明,研究所确立的分类关键词提取方法在多个阈值条件下较其他方法有较大提升,能够较好地抽取非结构化数据中的文化遗产知识。

相关文章 | 多维度评价 | 评论（0）

栏目文章信息