摘要:
历史研究长期依赖官方档案与精英著述,易导致个体记忆被边缘化。口述史则为重现被忽略的社会生活与个体记忆提供了独特窗口,但其非规范性、高语境依赖性及多维交织的文本特性,使结构化信息抽取和系统分析面临挑战。研究以票证口述史文本为案例,旨在探索并验证一套将大语言模型(LLM)“规训”为能够严格遵循研究指令的学术助手的“人机协同”方法论。研究设计了系统的四阶段渐进式实验,通过“基础指令—规则化指令—程序化约束—小样本学习”的迭代优化,探索如何科学、有效地利用LLM强大的语义理解与指令遵循能力,以实现高效、精准的结构化信息抽取。研究发现,提示词工程化水平显著影响LLM输出质量,精巧的程序化约束可将大模型分析准确度大幅提升。研究还系统比较了同一技术框架下为不同任务优化的LLM在逻辑遵循能力上的表现差异,验证了小样本学习的价值与效益饱和点,并揭示了LLM在精确计算等任务上的固有缺陷。研究最终提炼出一套面向口述史文本分析的包含“规则化转译”与“任务合理分工”等核心策略的LLM“规训”框架,实现了高效、精准的口述史文本结构化分析,为数字人文研究提供了一种可复现、兼具效率与深度的智能研究范式参考。
中图分类号: