北大开源首个中文法律大模型—

> 自媒体 > （AI）人工智能 > 北大开源首个中文法律大模型——ChatLaw

北大开源首个中文法律大模型——ChatLaw

来源：AIGC开放社区

2023-07-21 14:29:53

589

管理

随着ChatGPT的火爆出圈，为大语言模型的场景化落地提供了肥沃的土壤。目前，医疗、教育、金融领域已逐渐有了各自的模型，但法律领域相关的产品却不是很多。

因此，北大团队开源了中文法律大模型，并针对大语言模型和知识库的结合问题给出了法律场景下合理的解决方案。

目前，ChatLaw法律大模型提供ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec三个版本，底座为姜子牙-13B、Anima-33B。使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

开源地址：https://github.com/PKU-YuanGroup/ChatLaw

在线测试：https://chatlaw.cloud/lawchat/#/

论文：https://arxiv.org/pdf/2306.16092.pdf

得到以下结论：

（1）引入法律相关的问答和法规条文的数据，能在一定程度上提升模型在选择题上的表现。

（2）加入特定类型任务的数据进行训练，模型在该类任务上的表现会明显提升。例如ChatLaw模型之所以能胜过GPT-4，是因为使用了大量选择题作为训练数据；

（3）法律选择题需要进行复杂的逻辑推理，因此，参数量更大的模型通常表现更优。

未来发展计划

提升逻辑推理能力，训练30B以上的中文模型底座：在ChatLaw的迭代过程中，发现和医疗、教育、金融等垂直领域不同的是，法律场景的真实问答通常涉及很复杂的逻辑推理，这要求模型自身有很强的逻辑能力，预计只有模型参数量达到30B以上才可以。

安全可信，减少幻觉：法律是一个严肃的场景，我们在优化模型回复内容的法条、司法解释的准确性上做了很多努力，现在的ChatLaw和向量库结合的方式还可以进一步优化，另外和ChatExcel团队师兄深度结合，在学术领域研究LLM的幻觉问题，预计两个月后会有突破性进展，从而大幅减轻幻觉现象。

私有数据模型：一方面会继续扩大模型的基础法律能力，另一方面会探索B/G端的定制化私有需求。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

索尼首席技术官这样看ChatGPT的问世

2023-07-21 14:31

清华第二代ChatGLM2开源！中文榜居首，超过GPT-4，推理提速42%

2023-07-21 14:25