加强版的 ChatGPT,更聪明也更安全了。
该来的终于到来了。
美国当地时间 3 月 14 日,大热的 OpenAI 正式推出其最新作品 GPT-4。通过 ChatGPT 再次点燃整个科技圈的想象力之后,GPT-4 毫无疑问成为整个行业关注的焦点。
在 OpenAI 官方网站中,这一代的大模型 GPT-4 相较于前一代产品,最大的进化在于「多模态」和长内容生成。
此前的 ChatGPT,用户只能输入文字,而 GPT-4 现在已经可以识别图片内容,并给出答案,甚至能识别一些网络上常见「梗图」,并告诉用户「笑点」到底是什么。在输出方面,GPT-4 最多可以输出 25000 个单词,相比 ChatGPT 有大幅提升。
同时,相比上一代产品,GPT-4 给出答案的错误更少,涉及到伦理和敏感问题时,回答也更「安全」。
GPT-4 能像「哥哥」ChatGPT 一样再次席卷科技圈吗?它对接下来 AI 行业的走向,又会产生怎样的影响?
01
多了一双「眼」,更智能
根据 OpenAI 介绍,相较于 ChatGPT,GPT-4 有三个方面的主要提升。
1 读图能力
对话时可以直接用图片提问,它能够在读懂图片内容的基础上,给出有逻辑的回答。比如,你可以给它一张牛奶、鸡蛋、面粉的图片,问他「这些材可以用来做什么?」它会给出一系列选项:
煎饼或华夫饼
法式薄饼、法式吐司
煎蛋或煎蛋饼
乳蛋饼
蛋奶或布丁
蛋糕或纸杯蛋糕
松饼或面包
饼干或饼干
图片来源|OpenAI
4. 关于「胡编乱造」和「有害答案」
当然,目前大模型在「胡编乱造」上的问题,GPT-4 仍然有。不过 Open AI 表示,在对于「捏造事实」的内部测试上,GPT-4 的表现比 GPT-3.5 要高出 40%。GPT-4 的知识范畴也存在时间限制,截止于 2021 年 9 月。
在生成有害的想法上,Open AI 也强调了风险。「GPT-4 及其后续模式有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,改进我们理解和评估潜在影响的方式,并对未来系统中可能出现的危险能力进行评估。」
由于在基于人类反馈的强化学习(RLHF)环节中,增加了一个额外的安全奖励信,这使得 GPT-4 目前的表现更加优秀一些。此外,OpenAI 也聘请了 50 多名来自人工智能对齐风险(AI alignment risks)、网络安全、生物风险、信任与安全以及国际安全等领域的专家,对模型进行对抗性测试。研究结果中给出了两个例子。
微软的 Bing 搜索已经用上 GPT-4|微软
微软加持 OpenAI 大模型的迭代还体现在底层基础设施上。OpenAI 透露,在过去的两年里,与 Azure 一起为工作负载从头开始共同设计了一台超级计算机,重建了整个深度学习堆栈。
不仅如此,更多的应用也加入了 GPT-4 的早期使用阵营:
Stripe 宣布使用 GPT-4 扫描商业网站并向客户支持人员提供摘要;语言学习工具软件 Duolingo 将 GPT-4 构建到新的语言学习订阅中;摩根士丹利正在创建一个由 GPT-4 驱动的系统,该系统将从公司文件中检索信息并将其提供给金融分析师;可汗学院正在利用 GPT-4 构建某种自动化导师。毫无疑问,OpenAI 的速度会越来越快。除了开放给客户使用获得数据飞轮,本次随着 GPT-4 的发布,OpenAI 还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架,允许任何人报告其大模型中的缺点,以帮助指导进一步改进。
对此,出门问问创始人李志飞将其评价为众包评测,将帮系统找茬的任务,众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
03
加速的 AGI
2022 年 11 月 30 日,当 OpenAI 推出 ChatGPT 测试版的时候,也许不会料到,这款大语言模型加持下的对话机器人,会成为科技史上第一个最短时间用户破亿的产品,同时让全球科技从业者,再次因为 AI 的进展而兴奋起来。
而仅仅在 3 个月之后,OpenAI 就推出了下一代产品 GPT-4,其迭代非常具有「硅谷速度」了,从更新频率上也能看出,团队对于拿下大语言模型赛道的必胜之心。
虽然相对于上一代产品,GPT-4 的进化不算「革命性」的,但是各项指标上百分之几十的提升,依然会为已经很热的 AI 赛道,再添一把火。
同时,一边联手微软,让 ChatGPT 在全球最大商业软件 Office、以及基建 Azure 云上落地;一边通过开放 API 接口,接入更多商业合作伙伴,OpenAI 也成功将自己转型为类似云一样的平台型企业,生生闯出一条大模型的商业化之路,开了研究成果转商业的先河。
GPT 到底是不是通向人工智能的圣杯——通用人工智能的正确道路,现在还不好说。但可以肯定的是,GPT 的成功,已经让人们像当年互联网革命一样,想利用 AI「重新改造一切」。
GPT-4 的及时推出,给渴望改造和变革的人们,又打了一针强心剂。
以下为出门问问创始人李志飞对于此次 GPT-4 的评价:
1. 能力惊人:如果说 GPT3 系列模型给大家证明了 AI 能够在一个模型里做多个任务(也就是所谓通用),GPT-4 在很多任务上已经是人类水平(human-level),在很多专业和学术考试上超越 90% 的人类。各类中小学、大学和专业教育该如何应对?
2. 高效的炼丹:GPT-4 模型太大每次训练成本很高,但同时训练模型时很像炼丹需要做很多实验,如果这些实验都要在真实环境下跑一遍的话谁也承受不了。为此,OpenAI 搞了所谓的 predictable scaling,就是可以用万分之一的成本来预测各个实验的结果(loss 和 human eval)。这把大模型训练从碰运气的炼丹升级成了「半科学」的炼丹。
3. 众包评测:这次提供了一个 open source 的 OpenAI evals,就是把系统性的帮系统找茬的任务众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
4. 工程补漏:这次还发布了一个 system card,大概意思是为了减轻一本正经的胡说八道问题,系统打了各种各样的补丁做预处理和后处理,后面还会开放代码把打补丁能力众包给大家。这标志着 LLM 终于从一个优雅简单的 next token prediction 任务进入了各种 messy 的工程 hack 了。
5. 多模态:万众瞩目的多模态其实跟市场上很多论文描述的多模态能力没有太多差别,主要区别是把文本模型的 few-shot 和逻辑链(COT)结合进来了,这也是在一个基础能力很好的文本 LLM 加多模态的好处(其它多模态模型感觉 LLM 都太弱)。
6. 有计划的出王炸:GPT4 模型去年 8 月就炼出来了,但今天才发布,解释是花时间做了大量测试和各种查漏补缺。谷歌工程师傅估计又得熬夜跟了?
7. 不再 Open:论文里完全不讲模型参数和数据规模、也不讲任何技术原理,解释说是为了大家好,怕大家学会了怎么做 GPT4 用来作恶,个人完全不认同这种此地无银的做法。
8. 众志成城:论文里花了三页把系统的各个部分的贡献人员都列出来了,估计有一百多人,再次体现 OpenAI 里团队成员众志成城、高度协作的状态。
相关文章
猜你喜欢
成员 网址收录40387 企业收录2981 印章生成232073 电子证书1026 电子名片60 自媒体46877