机器之心报道
编辑:小舟、杜伟
此次,Claude 2 除了一大波能力上的升级,更重要的是大家都可以用了。
今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。
Claude 2 正式发布!
据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应。
更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。
上下文窗口
今年早些时候,研究团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token,现在 Claude 2 进一步扩展了上下文窗口, 达到 200K token,相当于约 150000 个单词。
为了证明 Claude 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:
不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中。
标准基准评估
该研究在几个标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:
Anthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。
官方示例及试用体验
我们先看 Anthropic 提供的一些官方示例。
1、编码能力:为静态地图添加交互式数据。
2、文本处理能力:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功能,可以在 prompt 窗口上传几百页的文档。
除了以上,机器之心也尝试了一些文本分析、数学推理和编写代码方面的示例。
最后测一些代码题,生成、检查和补全代码都不在话下。
不过,Claude 2 仍不具备生成图片的多模态能力。
参考链接:
https://www.anthropic.com/index/claude-2
https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
相关文章
猜你喜欢