一键让ChatGPT教出新模型！100美元炼出开源平替「白泽」-脚本导航

> 自媒体 > （AI）人工智能 > 一键让ChatGPT教出新模型！100美元炼出开源平替「白泽」

一键让ChatGPT教出新模型！100美元炼出开源平替「白泽」

来源：量子位

2023-04-06 14:11:53

877

管理

梦晨发自凹非寺量子位 | 公众号 QbitAI

炼ChatGPT需要高质量对话数据。

在以前这可是稀缺资源，但自从有了ChatGPT，时代就变了。

加州大学圣迭戈分校（UCSD）与中山大学、MSRA合作团队提出最新方法：

使用少量“种子问题”，让ChatGPT自己跟自己聊天，并自动收集成高质量多轮对话数据集。

团队不仅把使用此法收集的数据集开源，还进一步开发了对话模型白泽，模型权重和代码也一并开源。

（供研究/非商业用途）

100美元搞出ChatGPT平替？

具体来说，团队从美国知乎Quora，最大的编程问答社区StackOverflow等处收集到种子问题。

然后让ChatGPT自我对话，收集了11万条多轮对话，使用OpenAI的API大约花费100美元。

在此基础上使用LoRA（Low-Rank Adaption）方法微调Meta开源大模型LLaMA得到白泽。

与同样基于LLaMA的斯坦福Alpaca相比，新方法收集的数据不再仅限于单轮对话，可以达到3-4轮。

至于最后效果究竟如何，不妨就用Alpaca和ChatGPT来对比。

先来看最基本的常识问答。

常识问答

坦桑尼亚的首都是哪？

这个问题出自斯坦福Alpaca的发布博客，用来说明Alpaca能力的局限性。

生成、修改代码

由于训练数据中有来自StackOverflow的5万条对话，团队也测试了白泽在多轮对话中生成代码的能力。

如何用Python把数据保存在json文件里。

对这个问题，白泽可以给出基本代码，还可在进一步对话中改写成函数形式。

不过这个结果是团队从模型的多个回答中挑选出来的。

通过上面的例子可以看出，白泽给出的回答虽然通常比ChatGPT要少一些细节，但也能满足任务要求。

对于写代码之外的自然语言任务，基本可以看成是ChatGPT的一个不那么话痨版的平替。

还可炼垂直对话模型

这套自动收集对话-高效微调的流程，不仅适用于通用对话模型，还可以收集特定领域数据训练出垂直模型。

白泽团队使用MedQA数据集作为种子问题收集了4.7万条医学对话数据，训练出白泽-医疗版，同样也开源在GitHub上。

另外团队表示，中文模型也已经安排上了，敬请期待～

在线试玩：https://huggingface.co/spaces/project-baize/baize-lora-7B

GitHub仓库：https://github.com/project-baize/baize

论文地址：https://arxiv.org/abs/2304.01196

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

又一巨头跟进阿里版ChatGPT或11日亮相已推出内测

2023-04-06 14:12

突发！ChatGPT Plus停售

2023-04-06 14:09

相关文章

有人年赚百万汽车出海涌现“零公里二手车”

经济观察报记者王帅国在中国汽车出口连年增长的大背景下，二手车出口..

大佬爆赞！余承东邀请周鸿祎体验享界S9 新车豪华美学拉满..

【CNMO科技消息】一年一度的2024粤港澳大湾区车展已经正式揭幕，亮点太多..

深蓝G318解决了方盒子SUV的痛点？看喵哥试驾，你说该卖多少钱..

最近这几年，随着户外露营的兴起，方盒子已经很火了。经常有朋友跟喵哥讲..

多家车企又降价促销了，特斯拉、小鹏等车，最高下调15.1万..

大家都知道，9月份是车市传统销售旺季，消费者购车热情普遍较高，而车企..

丰田汽车全球产销量连续三个月下滑，汽车之王丰田该咋办？..

在世界汽车的江湖之中，丰田汽车可以说是绝对的王者，甚至多年雄踞世界汽..

昔日销冠跌出前十，长城汽车魏建军的焦虑与反思

赵永坡也在社交平台上介绍：“哈弗H6车型是国内最早一批可以实现OTA升级..

汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..

◆ 上汽大众途观L PRO售价23.68万元起5月30日，上汽大众全新途观L PRO正..

汽车电瓶能用几年？瓦尔塔、骆驼、风帆怎么选？一次性给你讲清楚..

咱们汽车上都有一个小电瓶，这个小电瓶的作用就是用来启动发动机的，一旦..

试驾全新福特Mustan-性能拉满的大玩具

⑖值得一提的是，2.3T车型的声浪也十分浑厚，配合车内的模拟声浪，驾驶氛..

关于作者

般若鱼(普通会员)

文章

1058

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

2个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40404 企业收录2983 印章生成239487 电子证书1065 电子名片60 自媒体60907

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索