> 自媒体 > (AI)人工智能 > 10月热门论文丨ChatGPT参数200亿?微软多次撤稿
10月热门论文丨ChatGPT参数200亿?微软多次撤稿
来源:AMiner科技情报挖掘
2023-11-08 13:04:57
155
管理

科研圈也“吃瓜”!

最近关于ChatGPT参数只有200亿的事情在各大社区、社群引起讨论。问题源于微软发布的一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是“只有”20B(200 亿)参数的模型。后续微软撤稿两次,并表示文章中对 ChatGPT 参数数量的猜测来自于一篇博客,作者们并未了解或者验证ChatGPT的参数,直接用了博客的内容,这才带来了公众的误导。

这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。现有的自动回归代码生成模型在生成代码时存在一个限制,即不能轻易地重新考虑之前生成的令牌。CodeFusion通过迭代去噪一个基于编码自然语言的条件程序,从而解决了这一问题。

另外,Agents更加火爆。如果说之前的火爆只是硅谷大佬或者OpenAI等大型公司的“狂欢”,那现在是越来越多Agents方向的创业公司和社区,越来越多的AI Agents出现在人们生活的各个场景下。

10月,一共整理了22篇论文,包括DALL-E 3论文、大模型下一阶段-Auto-Instruct,清华大学提出AgentTuning等。让我们通过AMiner AI功能,一起探寻论文背后的核心思想和创新点,快速了解论文细节。

1. Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

这篇论文介绍了一种名为 Auto-Instruct 的方法,用于自动提高向大型语言模型(LLM)提供的指令的质量。该方法利用 LLM 的生成能力为给定任务生成多种候选指令,然后使用一种训练于多种 575 个现有 NLP 任务的评分模型对它们进行排名。在 118 个领域外任务的实验中,Auto-Instruct 超过了人类编写的指令和现有的 LLM 生成的指令基线。此外,即使对于那些没有包含在其训练过程中的其他 LLM,我们的方法也表现出显著的泛化能力。

链接:https://www.aminer.cn/pub/6531e2ca939a5f4082f5d5f7/?f=toutiao

3. Contrastive Prefence Learning: Learning from Human Feedback without RL

这篇论文介绍了一种名为对比偏好学习(CPL)的新算法,该算法可以从人类反馈中学习最优策略,而无需学习奖励函数。传统的强化学习从人类反馈(RLHF)方法分为两个阶段:首先,使用人类偏好学习奖励函数;然后,通过强化学习(RL)优化所学奖励以使模型与人类意图对齐。然而,这种范式不仅基于对人类偏好的错误假设,而且由于策略梯度或 bootstrapping 在 RL 阶段导致的优化挑战,还导致难以处理的优化问题。为了解决这些问题,现有的 RLHF 方法限制自己仅在上下文性随机化设置(例如大型语言模型)或限制观察维数(例如基于状态的机器人技术)。

通过引入一种基于后悔的人类偏好模型来优化人类反馈的行为的新算法,我们克服了这些局限。利用最大熵原理,我们推导出对比偏好学习(CPL),一种无需学习奖励函数即可从偏好中学习最优策略的算法,从而绕过了 RL 的需求。CPL 是完全离线的,仅使用简单的对比目标,并可以应用于任意 MDP。这使得 CPL 可以优雅地扩展到高维和序列 RLHF 问题,同时比以前的方法更简单。

链接:https://www.aminer.cn/pub/65372d08939a5f40823b2cf5/?f=toutiao

21. In-Context Learning Creates Task Vectors

这篇论文探讨了大型语言模型(LLMs)中的上下文学习(ICL)机制。尽管ICL已经成为一种强大且新兴的学习范式,但其内在机制仍不太为人所理解。尤其是将其映射到“标准”机器学习框架中时,即使用训练集$S$来寻找某个假设类中的最佳拟合函数$f(x)$。本文通过展示ICL学习的函数结构通常非常简单:它们对应于仅使用查询$x$和从训练集计算出的单个“任务向量”的变压器LLM。因此,ICL可以被视为将$S$压缩成一个任务向量$boldsymbol{theta}(S)$,然后使用此任务向量来调节变换器以产生输出。本文通过在多种模型和任务上进行全面的实验来支持上述主张。

链接:https://www.aminer.cn/pub/653f11c2939a5f40828885eb/?f=toutiao

AMiner AI使用入口:「链接」

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
聚焦每日新资..(普通会员)
文章
405
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186746 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索