3月15日,ChatGPT背后的创业公司OpenAI发布新一代的多模态模型GPT-4,该模型除了有更强大的文字交互能力外,还首次支持用户和AI模型间的图片交互。OpenAI称,GPT-4模型将会通过ChatGPT付费版开放给用户,后续也会将API接口开放给开发者。
相较ChatGPT之前使用的GPT-3.5模型,GPT-4模型新增图片输入模式,可以对图片进行分析、分类,并写配文。Greg Brockman在24分钟的演示视频里展示了多模态功能,包括描述网友实时发送的图片、阅读并理解一则手写笑话图片等。
目前,图片输入模式尚未开放使用。OpenAI创始人Sam Altman在社交媒体称,公司正在预览GPT-4模型的图片输入模式,以防止可能出现的安全伦理问题。
GPT-4做了哪些升级?GPT-4模型还扩展了文字处理能力。在输入方面,GPT-4模型可以处理高达25000个英文单词的文本,而GPT-3.5模型支持处理的英文单词仅为500个左右。
在内容反馈上,与GPT-3.5模型能生成8000词左右的内容相比,GPT-4模型可以生成6.4万词或50页左右的文本,足够写短篇小说。OpenAI还称,根据内部测试,GPT-4模型反馈不宜内容的概率降低了82%,内容准确度增加了40%。
语言生成:GPT是单向生成式模型。与之前的AI模型相比,ChatGPT有能力处理开放性的语言任务,比如生成文案、创意写作等,表达也可以更加丰富和精准。
多任务处理:ChatGPT在模型训练中可以同时处理多种不同类型的文本问题,包括阅读理解、翻译/转译、总结、交互问答。通过交叉融合同时完成这四个维度,实现更加自然、更加综合、更加有创意性的回答和创造。
融合人工反馈:ChatGPT一个重要的突破是在模型训练中通过强化学习引入了人类评价和反馈,这让反馈效果在有用性、易用性、准确性和拟人性方面大大提升。
上下文理解:ChatGPT拥有更强的上下文理解和记忆能力。它可以理解上下文,生成连贯且有逻辑性的回答。这使得ChatGPT在对话任务中可以产生更加流畅和个性化的语言交互,也使得未来ChatGPT有可能成为每个人的智能助手和教育伙伴。
大模型通用扩展:ChatGPT的模型参数巨大(包含上千亿个参数),并且表现随着模型延展和参数扩大而上升。这使得它可以更好地捕捉语言的复杂性和多样性,从而在各种自然语言处理任务中取得更好的性能。预训练数据集的多样性,使ChatGPT的知识不局限于某一特定领域,让多行业通用应用成为可能。
AI如何重塑人类技能和工作?ChatGPT深度融合了与人类语言、认知和创意相关的多种技能,能够适应复杂和综合的语言环境与任务。从而可以做到,人给定一个指令,引导对话方向,它就会向指定方向去生成有上下文的、特定语境下的、自然的结果。更重要的是,OpenAI借用Chat这种贴近用户的场景、很好的用户体验,将GPT技术带到了大众身边,让人们对于AI商业化应用的冲击有直观感受,并充满想象和期待。
根据GPT-3网站数据,截至2023年2月14日,GPT-3 DEMO共有626个应用程序,分为100个大类。为了方便研究,我们将其进行了大致归类,主要应用场景分布如图。同时,网站也给出了人们常用的11款应用,包括人工智能写作助理、学术论文助手、图片生成、学习、聊天机器人等。
OpenAI发布新一代的多模态模型GPT-4,该模型除了有更强大的文字交互能力外,还首次支持用户和AI模型间的图片交互。与GPT-3.5模型能生成8000词左右的内容相比,GPT-4模型可以生成6.4万词或50页左右的文本,足够写短篇小说。
交互式AI的诞生,将冲击IT、传媒、广告、影视、行政、教育等行业,ChatGPT在短期内将注定替代一些低技能或重复性劳动的工作,甚至部分脑力劳动者。
相关文章
猜你喜欢