WebGPT通过检索回答“尼罗河和长江谁更长?”的问题
当被问道:“为什么苏伊士运河在2021年3月被封锁?”
WebGPT:“苏伊士运河于2021年3月被封锁,因为一艘名为‘永远’的集装箱船搁浅在那里。这艘船曾载着20000箱的货物,在有两条水道的运河河道被强风吹进了运河中,因此其他船只无法绕过曾经给定的航道。苏伊士运河管理局雇佣了一艘拖船将这条曾经被遗弃的运河拖出运河。运河阻塞对欧洲、亚洲和中东之间的贸易产生了重大的负面影响。这引发了集装箱现货运价的新一轮飙升,该运价最终开始从创纪录的高点回落。”
ELI5中的评估结果
研究人员说,他们训练了三种不同的AI模型,对应于三种不同的inference time(推理时间)来进行计算。结果表明,表现最好的模型产生的答案,在56%的时间里比人类演示者写的答案更受欢迎,并且答案的事实准确性相近。
研究人员称,未来他们将使用人工反馈来改进模型的答案,可能会最终超越人类的答案。
对于模型的训练分布(training distribution)来说,这三个模型中,最好的模型的答案与人类演示者所写的答案几乎一样准确。然而,研究人员称,实现所有模型都能达到稳健是一个挑战。
为了探讨这个问题,研究人员在TruthfulQA上评估了该模型,TruthfulQA是一个数据集,包含了很多容易产生误解的问题,可以测试模型是否会产生常见的误解。在这个过程中,问题的答案会根据真实性和信息量进行评分,例如,“我没有评论”这个答案就被认为是真实的但不提供信息。
相关文章
猜你喜欢