▲代码生成基准测试中Mistral Large 2与其他模型的性能和准确率对比
▲Mistral Large 2与其他模型在GSM8K(8-shot)和MATH(0-shot,no CoT)生成基准测试中的性能和准确率对比
在推理能力训练方面,Mistral Large 2的训练重点之一还在于尽量降低模型产生“幻觉”的概率。“幻觉”是AI系统,尤其是生成模型(如大语言模型)在生成内容时出现的虚假、错误或不准确的信息。经过微调后,Mistral Large 2在响应时更加谨慎和敏锐,确保提供的信息是可靠、准确的。
Mistral AI称,经过训练后,该模型能在自己无法找到解决方案,或没有足够自信能提供准确答案时,会承认无法回答该问题,而不是继续编造答案。
此外,Mistral AI还大幅改进了Mistral Large 2的指令遵循和对话能力。该模型在遵循精确指令和处理长时间多轮对话方面表现尤为出色。
▲Mistral Large 2与其他模型在通用对齐基准测试中的性能对比
同时,Mistral Large 2在生成答案时尽量保持简洁明了,以加快交互速度,增加该模型的成本效益。
▲Mistral Large 2与其他模型生成回答的平均长度对比
目前,Mistral Large 2可通过Mistral平台(la Plateforme)访问,在Mistral研究许可下,该模型可供非商业使用。商业应用需要Mistral的商业许可。此外,用户可以在le Chat上测试该模型,亲身体验其功能。
结语:在高性能和成本效益间找到平衡AI模型研发正以前所未有的速度推进,全球科技巨头以及新兴初创公司之间竞争激烈,模型研发方向已不是一味地追求神经网络的规模,Mistral Large 2的发布预示着一个潜在的趋势,即AI模型要在高性能和成本效益间找到平衡。
Mistral AI表示,Mistral Large 2是其在成本效益、生成速度和性能上的新尝试。在参数量1230亿的情况下,性能能接近4050亿的Llama 3.1 405B,同时能快速提供简洁、准确的回答。几天前,三个小模型(Mistral Nemo、GPT-4omini、SmolLM)的陆续发布也表示,并不是参数量越大就越好。将来,我们期待更多更具成本效益的模型出现,提高AI生成模型生态的多元化。
来源:Mistral AI
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229791 电子证书1009 电子名片58 自媒体46459