GPT-4最大竞争对手Claude 2震撼发布！一次10万token免费用-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4最大竞争对手Claude 2震撼发布！一次10万token免费用

GPT-4最大竞争对手Claude 2震撼发布！一次10万token免费用

来源：新智元

2023-07-15 14:13:24

564

管理

编辑：编辑部

【新智元导读】等了这么久，Claude 2终于可以免费上手试用了！实测发现，文献概括、代码、推理能力都有了大提升，但中文还差点意思。

ChatGPT的最大竞争对手Anthropic再次上新！

就在刚刚，Anthropic正式发布了全新的Claude 2，并推出了更加便捷的网页测试版（仅限美国和英国的IP）。

相较之前的版本，Claude 2在代码、数学、推理方面都有了史诗级提升。

不仅如此，它还能做出更长的回答——支持高达100K token的上下文。

而且最重要的是，现在我们可以用中文和Claude 2对话了，而且完全免费！

各类考试评测

与申请研究生的美国大学生相比，Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生，并且在定量推理方面，它的表现与申请者的中位数相当。

Claude 2在美国律师资格考试（ Multistate Bar Examination）的多项选择题中，得分为76.5%，比曾经通过考试的小编要高。

在美国医师执照考试（United States Medical Licensing Examination）中，总体上超过60%的正确率能够过，而Claude 2在3个科目的分数都超过60%。

输入和输出的长度

这次Claude 2的一个大升级，就是输入和输出长度的增加。

在每个prompt最多可以包含100k的token，这意味着：Claude 2可以一次读取几百页的技术文档，甚至一整本书！

然后让Claude根据要求，生成一段让静态地图产生互动效果的代码。

然而，万万没想到的是，刚没生成多少内容，它就「卡bug」了……

而每个国产大模型都必经的测试，咱们当然也不能放过Claude 2。

对于经典的鸡兔同笼问题，Claude 2果然还是寄了……

中文能力，还得看谐音梗。

把这个笑话问Claude 2，它倒是回答出了这个笑话的妙处在于谐音，但解释得并不对。

更高的安全性能

此前据说，Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致，才集体出走，创立了Anthropic。

Claude 2也一直在不停迭代，安全性和无害性大大提高，产生冒犯性或危险性的输出的可能性大大降低。

内部的红队评估中，员工会对模型在一组有害提示上的表现进行评分，还会定期进行人工检查。

评估显示，与Claude 1.3相比，Claude 2在无害回应方面的表现提高了2倍。

Anthropic采用了被他们称为Constitute AI的技术框架来实现对于语言模型的无害化处理。

相比传统的RLHF的无害化方式，Constitude AI的纯自动化路线效率更高而且能更多地排除人类偏见。

Constitute AI主要分为两个部分。

在第一部分，训练模型使用一组原则和一些过程示例来批评和修改自己的响应。

在第二部分，通过强化学习训练模型，但不使用人类反馈，而是使用基于一组「人类价值观」原则，由AI生成的反馈来选择更无害的输出。

大致流程如下图所示：

论文地址：https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一，并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。

（Elo得分是一种比较性能指标，通常用于在锦标赛中对选手进行排名）

在语言模型的语境中，Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。

最近，LMSYS Org推出了一个公开的聊天机器人竞技场（Chatbot Arena），根据人类的偏好为各种LLM提供Elo分数。

本篇论文中，研究人员在内部也采用了类似的方法来比较模型，要求用户与模型进行聊天，并在一系列任务中对研究人员的模型进行评估。

用户每轮看到两个回答，并根据说明提供的标准选择哪个更好。

然后，研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。

在本报告中，研究人员收集了一些常见任务的数据，包含以下几个方面——有用性、诚实性、无害性。

下图展示了不同模型在这三个指标上的Elo得分。

黄色代表Helpful Only 1.3，蓝绿色代表Claude Instant 1.1，浅紫色代表Claude 1.3，深紫色代表Claude 2.

TruthfulQA则是另一项指标，用来评估模型是否输出了准确和真实的响应。

其方法是——使用人类标注者来检查开放式模型的输出结果。

从下图中可以看到，五种模型的得分。其中白色指的是基础语言模型（Base LM）。

Anthropic的研究人员还编写了438道二元选择题，用来评估语言模型和偏好模型识别HHH反应的能力（HHH：Helpfulness、Honesty、Harmlessness，有用性、诚实性、无害性）。

模型有两种输出，研究人员要求其选择更「HHH」的输出。可以看到，所有Claude模型在这个任务的0-shot表现上都比上一个更好，「HHH」三个方面均有普遍改进。

这个图对比了人工反馈（橙色）和Claude的方法在帮助性，诚实性和无害性评估中的得分。

看得出Claude采用的技术是非常禁得住考验的。

参考资料：

https://www.anthropic.com/index/claude-2

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

最像OpenAI的产品更新：GPT-4最强竞争模型Claude2发布！免费！

2023-07-15 14:14

商业模式来了！创纪录速度达到1亿用户后，ChatGPT要收费了

2023-07-15 11:39

相关文章

深度关注丨汽车消费向“新”而行

中央纪委国家监委网站李云舒图为近日，在河北省邯郸市永年区汽车促销活..

裁员、召回、无赔偿！理想汽车不谈“人文关怀”

原来车企不仅可以召回汽车，还可以“召回”员工。继大规模裁员一月之后，..

阿维塔总裁陈卓：中国汽车市场现状与重庆火锅非常相似，都是“热辣滚烫”..

“2024中国汽车重庆论坛（CACS2024）”于6月6日-8日举行。阿维塔科技总裁..

大众汽车集团三年内“动刀”裁员20%？最新回应→

每经记者：苗诗雨每经编辑：王月龙,孙磊日前，《每日经济新闻》记者获悉..

2024款凯迪拉克锐歌Lyriq评测：超值的豪华电动汽车

2024 款凯迪拉克 Lyriq 的尾部无疑是其最具争议的角度。凯迪拉克尾部几乎..

宝马打五折，4S店仅剩1辆现车，合资豪华品牌汽车溢价能力遭重构..

风口财经记者王贝贝近日“宝马i3腰斩式大降价”的话题登上热搜。官方报..

退市风险叠加人事更迭极星汽车危机重重

经济观察报记者王帅国连续十余天股价低于1美元面临退市风险，中国市场..

6大国产汽车品牌，高品质不贵，买车必看

质量最好，性价比高的汽车品牌，选择这6款国产品牌，准没错这车可是定位..

汽车认证存在造假行为，丰田、本田、马自达日本高管鞠躬道歉..

环球网及多家媒体报道，据日本国土交通省发布消息，鉴于日本大发工业等公..

关于作者

杨子(普通会员)

文章

1101

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

2个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40404 企业收录2983 印章生成238804 电子证书1060 电子名片60 自媒体58417

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索