切换到宽版
  • 20阅读
  • 2回复

[智能应用]AI又一突破!穿越千年,填补人类缺失的历史 [3P] [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
146742
金币
287867
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17116(小时)
注册时间: 2012-06-21
最后登录: 2025-07-25
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 08:52

人类历史始于书写。铭文是最早的书写形式之一,提供了关于古代文明思想、语言和历史的直接洞见。
然而,现有的数字化方法局限于文字层面的匹配,难以胜任古代文献中所需的复杂推理与语境理解任务。
如今,Google DeepMind、诺丁汉大学团队及其合作者在这一领域取得了重大突破。他们推出的一款名为Aeneas的多模态生成式神经网络,能够协助对公元前 7 世纪至公元 8 世纪的拉丁铭文进行预测、断代、定位与解读。


研究团队表示,大多历史学者认为,Aeneas 能够无缝融入现有研究流程,成为推动历史研究范式革新的有力辅助工具。
来自埃克塞特大学的 Charlotte Tupman 在评论文章中指出,这类工具具有巨大的潜力,其应用不局限于古代史研究,还能够扩展到更晚时期的铭文,乃至其他语言
Aeneas:AI穿越回罗马帝国
铭文是探索古代世界的重要的资料,每年约有 1500 条拉丁铭文被新发现,记录着从皇帝法令到奴隶墓志铭的多样信息,展现了这个横跨 2000 年与 500 万平方公里帝国的文化与语言生活。
然而,解读这些珍贵的铭文并非易事,研究者往往面临诸多挑战。随着时间的推移,铭文中的字母、词语乃至整段内容可能已经遗失,而这些缺失部分的长度与内容往往难以预测,使得还原工作更加复杂艰难。
文本修复、地理归属与年代判断等任务,都依赖于专家学者将铭文置于更广阔的语言与历史背景中加以理解。这一过程既耗时又需要高度专业的知识,学者必须将目标铭文与数百条潜在的平行铭文进行对比。研究者通常会专注于特定的地域和年代,但这也限制了他们在大规模识别铭文与历史联系方面的能力。
为解决这一问题,研究团队提出了 Aeneas ——一个多模态模型,这是一种 AI 工具,在分析和预测铭文时,它不仅能评估铭文物体的视觉特征,还能分析文本本身。

图|通过 Aeneas 架构对文本转录进行处理。
Aeneas 集成了一个上下文关联机制,能够为历史学家提供具有历史依据的文本和上下文铭文平行例证列表,以支持研究工作。为了捕捉在物质维度上更广泛的信息,Aeneas 将图像和转录文本共同输入进行整合,是首个能够生成任意长度古代文本修复结果的模型
Aeneas 的输入是铭文的图像及其文本转录。其高效的架构完全基于字符运作,避免了先前方法中实现的基于单词级别的表示。至于铭文的语境化过程,Aeneas 会从其训练语料库(LED)中检索出与输入文本最相关的铭文平行例证列表。这一过程依赖于历史丰富的嵌入式数据,用以捕捉文本中的历史与语言模式,从而使模型能够基于语义和语境进行比较。
Aeneas 在另一个方面超越了先前的工作,该工具可为未知长度(而非指定长度)的缺失文本提供修复建议。这一能力对于研究严重受损的铭文尤为重要。

图 | 缺失拉丁文文本的预测。Aeneas 能够预测受损铭文中丢失的文本(红色文本)。该工具无需了解缺失部分的长度即可进行预测,例如图中这个军事文书的案例。
研究团队构建了一个覆盖广泛的拉丁铭文学数据集来训练 Aeneas 模型,包括EDR、EDHEDCS_ETL。他们开发了一套复杂的处理流程来标准化元数据,利用唯一的 Trismegistos 标识符,消除歧义并处理文本,使其成为机器可处理的格式。并尽可能从这些数据集中获取铭文的图像。
Aeneas实际研究中表现如何?
为测试 Aeneas 在实际历史研究中的应用效果,团队组织了一项大规模的人机协作实验“古代历史学家与 AI”。研究邀请了 23 名具备铭文学专业知识的参与者,涵盖从硕士生到教授的不同级别,他们在设定的时间限制内,参与了一项模拟现实研究流程的实验,与 Aeneas 展开互动。
历史学者在 90% 的案例中认为 Aeneas 所检索的平行文本是有价值的研究起点,使他们在关键任务中的信心提高了 44%。在人机协同下,文本修复与地理归属任务的表现优于单独由人类或人工智能完成的结果。在断代任务中,Aeneas 达到了与真实年代范围平均相差 13 年的精度。
他们将 Aeneas 与之前的 AI 模型进行了全面比较,Aeneas 在所有评测指标上均超越 Ithaca 与传统方法,它能够处理 Ithaca 无法应对的“未知长度缺损”问题。在地理归属任务中,Aeneas 充分发挥了多模态架构的优势,其表现优于仅使用文本的模型。在年代归属任务中,Aeneas 对测试铭文的预测结果表现出惊人的准确性:平均误差仅 13 年,中位误差为 0 年,与历史学家提供的真实范围一致。

Aeneas 向我们展示了人工智能在推进历史研究方面的变革潜力,未来有多个方向值得进一步探索。
其中一个关键方向是Aeneas的能力整合到大规模对话模型中。从而实现更自然、交互性更强的研究流程,使历史学家能够向系统提问、深入探讨模型的回答,并获得更清晰的解释。
如何应对历史数据中固有的不确定性,特别是在年代归属方面,仍是一个重要挑战。未来研究可着重开发更优方法,来表示和评估宽泛的年代范围,不仅是在模型架构上进行改进,也可通过更精细的评估指标,更准确地反映历史断代实践中的细微差别,而不只依赖于与估计时间范围的距离。
另一个有前景的方向是开展更多消融实验,以量化不同模块的具体贡献(例如视觉输入对不同任务的影响);以及探索上下文平行关系如何随不同文本输入而变化,以及系统对输入格式变动(以及不同类型铭文)的敏感性。
进一步提升模型的多模态能力,需依托更大规模、高度标准化、并符合 FAIR 原则的数据集。
同时,将研究范围扩展到拉丁铭文之外,也是值得探索的研究方向。这将有助于更深入地挖掘视觉模态在地理归属之外的潜力,并可能通过图像学或其他考古学线索,辅助年代判断。
最后,他们认为深化跨学科合作至关重要,希望未来的研究项目能够持续推进,将人文学科与自然科学进一步联结起来。
AI正在扩展人类认知

Aenea 代表了 AI 在古代文本研究中的一次重大飞跃,其架构超越了此前的 SOTA 模型,具备多模态能力,能够恢复未知长度的文本序列,并可适配任何古代语言及书写媒介(如莎草纸、手稿或钱币)。

这些特性凸显了它在以下方面的潜力:扩充具有文本和上下文对应关系的数据集、为缺失值提供假设,以及作为模块化组件,用于增强基于对话的语言模型。
相关案例研究证明了 Aeneas 作为铭文学研究专用 AI 辅助工具的可靠性。Aeneas 能利用相关铭文平行案例生成准确预测,并以定量方式对学术假说进行呈现。不论是应用于帝国纪念碑,还是省级献祭铭文,Aeneas 都能模拟铭文学家的分析过程,补充传统历史方法,生成准确而有意义的洞见。
研究团队承认Aeneas存在一些局限性,其能为铭文匹配对应图像的百分比相对较小,仅为5%虽然这一比例较小,但这并不削弱该研究中视觉方面的实用价值,反而提示该研究可能成为未来有关铭文图像研究的重要起点。
对于古代历史学者来说,Aeneas 是一个具有突破性的研究工具。它帮助研究者识别那些原本容易被忽略或需要耗费大量时间才能发现的数据联系。未来,拉丁铭文的日常研究者如何在工作中测试 Aeneas,并就如何利用 AI 分析古代材料展开讨论,将是一件有意义的事情。
这类工具的应用远不止于古代史研究,其在更晚时期历史铭文研究,乃至其他语言的应用潜力同样巨大,有望解决多个领域中类似的问题。尽管这类AI 工具对部分学者而言可能仍具争议,但对于研究过去社会留下的大量铭文,传统学术研究与 AI 方法均有其必要性。
许多历史学者也指出,AI 的使用促使研究者重新审视自身的工作方式,以及他们获取与传播知识的路径。尝试像Aeneas这样的工具,并对由此引发的问题进行反思,无疑将有益于科研工作,也有助于未来深入理解古代社会的原始材料。


山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
146742
金币
287867
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17116(小时)
注册时间: 2012-06-21
最后登录: 2025-07-25
只看该作者 沙发  发表于: 前天 08:53
AI技术在历史研究领域的重大突破:Aeneas模型的创新与应用
近日,Google DeepMind与诺丁汉大学团队合作开发的多模态生成式神经网络Aeneas,在古代历史研究领域取得显著进展。该模型能够对公元前7世纪至公元8世纪的拉丁铭文进行预测、断代、定位与解读,尤其在文本修复、年代推断和地理归属任务中展现出超越传统方法的性能,为填补人类历史研究中的缺失环节提供了强有力的技术支持1。

Aeneas模型的核心技术与优势
Aeneas的创新性体现在多模态融合与灵活的文本处理能力上,具体表现为以下特点:

多模态输入架构:结合铭文图像的视觉特征与文本转录内容,捕捉物质与语言双重维度的信息,提升分析准确性1。
字符级文本生成:采用字符级表示而非传统单词级模型,支持任意长度缺失文本的修复,解决了严重受损铭文的还原难题1。
历史语境嵌入:通过大规模拉丁铭文学数据集(如EDR、EDH、EDCS_ETL)训练,模型能捕捉文本中的历史语言模式,实现语义与语境层面的深度比较1。
人机协同实验验证:AI与历史学家的高效配合
为测试Aeneas的实际应用价值,研究团队组织了23名专业铭文学研究者(涵盖硕士到教授级别)参与人机协作实验,结果显示:

文本修复与地理归属:人机协同表现优于单独人类或AI,验证了AI作为研究辅助工具的价值1。
断代精度:Aeneas对铭文年代的推断误差仅为平均13年,显著优于传统方法1。
对比优势:在所有评测指标上超越此前的Ithaca模型,尤其擅长处理未知长度缺损的复杂案例1。
未来展望:技术潜力与研究方向
Aeneas的突破为历史研究范式革新提供了新思路,未来发展方向包括:

对话式交互升级:整合大规模语言模型,实现历史学家与AI的自然语言问答,提升研究流程的交互性1。
评估体系优化:开发更精细的年代范围表示方法,超越单纯时间距离的误差评估,贴合历史断代实践的复杂性1。
跨领域扩展:扩展至其他古代语言(如楔形文字、象形文字)及更晚时期的文本研究,并探索视觉输入对不同任务的影响15。
AI技术在人文领域的双面性:突破与争议并存
Aeneas的进展凸显了AI在加速知识发现、辅助复杂任务中的潜力,但同时也引发对技术伦理的思考

正面价值:类似工具可提升历史、考古等领域的研究效率,尤其在处理碎片化、高复杂度数据时展现优势15。
潜在风险:学者警示,AI的过度依赖可能削弱人类在知识生产中的主导权,需警惕技术对人文研究主体性的冲击3。
Aeneas模型的应用标志着AI从辅助工具向"协作伙伴"角色的转变,但其长期影响仍需在技术创新与人文关怀的平衡中持续探索
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
171623
金币
303180
道行
2004
原创
2406
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 38932(小时)
注册时间: 2008-10-01
最后登录: 2025-07-26
只看该作者 板凳  发表于: 前天 19:07
AI在古代文本研究中的重大突破:Aeneas的多模态能力

人类历史始于书写,而铭文作为最早的书写形式之一,提供了关于古代文明思想、语言和历史的直接洞见。然而,解读这些珍贵的铭文并非易事,研究者往往面临诸多挑战。随着时间的推移,铭文中的字母、词语乃至整段内容可能已经遗失,而这些缺失部分的长度与内容往往难以预测,使得还原工作更加复杂艰难。

Aeneas:多模态生成式神经网络

为了应对这些挑战,Google DeepMind、诺丁汉大学团队及其合作者推出了一款名为Aeneas的多模态生成式神经网络。Aeneas能够协助对公元前7世纪至公元8世纪的拉丁铭文进行预测、断代、定位与解读。这一工具不仅能够评估铭文物体的视觉特征,还能分析文本本身,从而提供更全面的解读。

Aeneas的工作原理

Aeneas的输入是铭文的图像及其文本转录。其高效的架构完全基于字符运作,避免了先前方法中实现的基于单词级别的表示。这一过程依赖于历史丰富的嵌入式数据,用以捕捉文本中的历史与语言模式,从而使模型能够基于语义和语境进行比较。Aeneas能够为未知长度的缺失文本提供修复建议,这一能力对于研究严重受损的铭文尤为重要。

实际应用效果

为测试Aeneas在实际历史研究中的应用效果,团队组织了一项大规模的人机协作实验“古代历史学家与AI”。研究邀请了23名具备铭文学专业知识的参与者,涵盖从硕士生到教授的不同级别,他们在设定的时间限制内,参与了一项模拟现实研究流程的实验,与Aeneas展开互动。历史学者在90%的案例中认为Aeneas所检索的平行文本是有价值的研究起点,使他们在关键任务中的信心提高了44%。在人机协同下,文本修复与地理归属任务的表现优于单独由人类或人工智能完成的结果。在断代任务中,Aeneas达到了与真实年代范围平均相差13年的精度。

未来发展方向

Aeneas向我们展示了人工智能在推进历史研究方面的变革潜力,未来有多个方向值得进一步探索。其中一个关键方向是将Aeneas的能力整合到大规模对话模型中,从而实现更自然、交互性更强的研究流程。如何应对历史数据中固有的不确定性,特别是在年代归属方面,仍是一个重要挑战。未来研究可着重开发更优方法,来表示和评估宽泛的年代范围。

另一个有前景的方向是开展更多消融实验,以量化不同模块的具体贡献(例如视觉输入对不同任务的影响);以及探索上下文平行关系如何随不同文本输入而变化,以及系统对输入格式变动(以及不同类型铭文)的敏感性。进一步提升模型的多模态能力,需依托更大规模、高度标准化、并符合FAIR原则的数据集。

同时,将研究范围扩展到拉丁铭文之外,也是值得探索的研究方向。这将有助于更深入地挖掘视觉模态在地理归属之外的潜力,并可能通过图像学或其他考古学线索,辅助年代判断。最后,他们认为深化跨学科合作至关重要,希望未来的研究项目能够持续推进,将人文学科与自然科学进一步联结起来。

结论

Aeneas代表了AI在古代文本研究中的一次重大飞跃,其架构超越了此前的SOTA模型,具备多模态能力,能够恢复未知长度的文本序列,并可适配任何古代语言及书写媒介(如莎草纸、手稿或钱币)。这些特性凸显了它在以下方面的潜力:扩充具有文本和上下文对应关系的数据集、为缺失值提供假设,以及作为模块化组件,用于增强基于对话的语言模型。相关案例研究证明了Aeneas作为铭文学研究专用AI辅助工具的可靠性。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个