AI“短板”暴露：研究发现GPT-4 Turbo回答高级历史题准确率仅46%-脚本导航

> 自媒体 > （AI）人工智能 > AI“短板”暴露：研究发现GPT-4 Turbo回答高级历史题准确率仅46%

AI“短板”暴露：研究发现GPT-4 Turbo回答高级历史题准确率仅46%

来源：IT之家

2025-02-07 13:39:59

317

管理

IT之家 1 月 20 日消息，尽管人工智能（AI）在编码等任务中表现出色，但一项最新研究发现，AI 在应对高级历史考试时仍显得力不从心。

这项研究由奥地利复杂科学研究所（CSH）的团队主导，旨在测试三大顶尖大型语言模型（LLMs）——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具，其根据 Seshat 全球历史数据库来测试答案的正确性，Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

研究结果于上月在知名 AI 会议 NeurIPS 上公布，结果显示，即使是表现最佳的 GPT-4 Turbo 模型，其准确率也仅为 46%，并不比随机猜测高多少。

论文合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示：“这项研究的主要结论是，尽管 LLMs 令人印象深刻，但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实，但在面对更复杂、博士级别的历史研究时，仍无法胜任。”

IT之家注意到，研究人员分享了一些 LLMs 答错的历史问题示例。例如，当被问及古埃及某一特定时期是否存在鳞甲时，GPT-4 Turbo 给出了肯定的回答，但实际上，这种技术是在 1500 年后才出现在埃及的。del Rio-Chanona 解释说，LLMs 在处理技术性历史问题时表现不佳，可能是因为它们倾向于从非常突出的历史数据中推断，而难以检索到更冷门的历史知识。

另一个例子是，研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的，但 LLM 却错误地回答“有”。del Rio-Chanona 认为，这可能是因为关于其他古代帝国（如波斯）拥有常备军的公开信息较多，而古埃及的相关信息较少。“如果你被反复告知 A 和 B，而 C 只被提到一次，当你被问及 C 时，你可能会只记得 A 和 B，并试图从中推断。”她解释道。

研究还发现，OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的表现更差，这表明其训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示，这些结果表明，在某些领域，LLMs 仍无法替代人类。

尽管如此，研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道：“总体而言，尽管我们的结果突显了 LLMs 需要改进的领域，但它们也强调了这些模型在历史研究中的潜力。”

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek 全球爆火，到底火在哪

1个月前

5070≥4090！黄仁勋引爆科技春晚，NVIDIA要做机器人界的ChatGPT

1个月前