文丨江志强(Vitally AI 创始人)
上线短短5天,用户量破百万,两个月余时间,月活跃用户数预计已达1亿——ChatGPT的火爆,意味着我们迎来了生成式AI的大浪潮。
人工智能(AI)是一个广泛的术语,指的是任何能够进行智能行为的技术。生成式AI是其中一种特定类型的AI,专注于生成新内容,如文本、图片、音乐等。
回顾2022年的AI格局,正是由生成式AI的大模型(foundation models)所驱动。这些大模型正在迅速从研究实验室走出来,扑向真实世界的各个场景与应用,2023年影响的层面会更大,发展的速度会更快。另外两个由大型语言模型 (LLM, large language model) 技术驱动的新兴领域,则是帮助人做决策的AI代理(游戏,机器人等), 以及应用在科学领域的AI for Science。
以下是笔者总结的全球范围内生成式AI的16个方向和场景应用,大致可以分为从文本转图片、从文本转音乐、文本聊天和沟通、文本驱动机器人、文本转视频以及AI做科研等几大类。
02 开源的 Stable Diffusion 横空出世继DALLE-2之后继续颠覆艺术的革命、也引起技术界轰动的 Stable Diffusion(文中简称SD),是一个基于 Latent Diffusion Models(潜在扩散模型)来实现文字转图片的大模型,类似DALLE-2和谷歌的Imagen等类似技术,SD可以在短短几秒钟内生成清晰度高,还原度佳、风格选择较广的AI图片,这让SD在同类技术中脱颖而出。
SD最大的突破是任何人都能免费下载并使用其开源代码,因为模型大小只有几个G而已!因此在短时间内 huggingface网站上有100万次模型的下载,也是破了huggingface网站的历史记录。这让AI图片生成模型不再只是业内少数公司自我标榜技术能力的玩物,许多创业公司和研究室正在快速进入,集成SD模型来开发各种不同场景的应用,包括我们Vitally AI公司。
SD以掩耳盗铃之势迅速迭代,开源社区也在不断改进SD。在SD v2.0上线不到两周时间,就迅速更新到v2.1版本。相比于前一版本,主要放宽了内容过滤的限制,减少了训练的误伤,也有这三大特色:更高质量的图片、图像有了景深、负向文本的技巧更好的约束AI生成的随机性,也支持在单个GPU上来运行。
Vitally AI公司的产品底层就集成了SD的各个版本模型,虽然做成应用,我们在模型底层和产品应用中间层还是要做非常多的工作,不过我们非常看好Stability AI这家公司, 也期待他们下一步能继续惊世骇俗。
03 谷歌两个未开源 Text-to-image 扩散模型2022年Google AI还有两个Image-to-text模型。Imagen和Parti分别是扩散模型 (Diffusion Model) 和自回归模型 (Auto-regression model),两者不同但互补,代表了谷歌两个不同探索方向,模型都没有开源或可以集成的API,所以 Vitally 团队无法动手研究,但论文仍是富有有趣的见解。不管这些大模型再怎么厉害,对Vitally AI这样做产品应用的公司而言,“只能仰望和远观,不能亵玩焉”。
Imagen大模型网址: imagen.research.google
Imagen不同于其他已知的文本出图的大模型,其更注重深层次的语言理解。Imagen的预训练语言模型(T5-XXL)的训练集包含800GB的纯文本语料,在文本理解能力上会比有限图文训练的效果更强。Imagen的工作流程为:在输入prompt后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”(A golden retriever dog wearing a blue checkered beret and red dotted turtleneck),Imagen先使用谷歌自研的T5-XXL编码器将输入文本编码为嵌入,再利用一系列扩散模型,从分辨率 64×64 → 256×256 → 1024×1024的过程来生成图片。结果表明,预训练大语言模型和多联扩散模型在生成高保真图片方面效果很好。
Parti大模型网址: parti.research.google
04 将颠覆搜索并冲击许多领域的ChatGPT!ChatGPT!史上唯一5天内获得100万用户的应用,两个月时间用户量达1亿,打破上个记录保持者——用9个月时间将用户量冲上1亿的TikTok。ChatGPT的快速发展与日益智能的知识助理角色,挑战了像谷歌这样的传统信息搜索巨头的产品形态与商业模式。
ChatGPT让机器学习如何更好地理解人类语言,从而更好地回答问题,更好地跟人类写作,甚至近一步启发人类的创造力。本次OpenAI发布的ChatGPT是基于GPT-3的微调版本,即GPT-3.5。它使用了一种新技术RLHF(“人类反馈强化学习”)。相比GPT-3,ChatGPT的主要提升点在于记忆能力,可实现高度拟人化的连续对话和问答,也可以按输入的具体指令产出特定的文本格式。
在各种社区的讨论中被总结出几十种ChatGPT内容产出的的场景与用例,比如:投资研究报告、工作周报、论文摘要、合同文本、招聘说明书、指定计算机语言的代码等等。ChatGPT会关注 Vitally AI 微信公众号,我们后续的选题规划,会整理出一篇文章,总结出几十种ChatGPT的使用方式。
当然,ChatGPT也有人工智障的时候,比如:对人类的知识只截止到2021年底,所以实时信息的搜索还是得借助搜索引擎;ChatGPT数学不好;或是如果问它不合逻辑的问题,它会被绕晕。
目前 GhatGPT的极致能力展现在:通过美国医疗专业执照的考试,通过美国知名商学院沃顿的MBA考试等接近人的水平。某种意义上,ChatGPT越来越像一个“真实的人”,只要算力足够强大,它与人类的互动越多,就将“成长”越快,也能具备更好的逻辑“思考”结果。只要时间足够长,人工智能的能力将持续提升和扩展。因此,也引发了学术界的抗争、与法律与伦理相关问题的诸多讨论与隐忧。
学术界反抗ChatGPT的力量,包括美国斯坦福团队推出DetectGPT,阻止学生用AI写作业。另一个由一位华裔学生 Edward 创建的GPTZero,用于检测文本是否由人工智能写作出来的。它使用两个指标"困惑度"和"突发性"来衡量文本的复杂度,如果GPTZero对文本感到困惑,则其复杂度较高,更判定可能是人工所编写的。
ChatGPT是个超级重磅的话题,2023 年对ChatGPT未来的揣想,我们在后续的文章中,再来继续探讨吧~
05 用文本来驱动机器人Text-to-robot !如何给GPT手臂和腿,让它们能够清理你整洁的厨房?不像NLP 自然语言处理的人工智能技术,机器人模型需要与物理世界互动。今年,大型的预训练模型终于开始解决机器人技术中困难的多模态问题。机器人技术中的任务规范有多种形式,如模仿一次性演示、遵循语言指示和达到视觉目标。它们通常被认为是不同的任务,由专门的模块来处理。
由英伟达等机构研发的VIMA用多模态的提示来表达广泛的机器人操纵任务。如此一来,它就可以用单一的模块来处理文本和视觉标记的提示,并自动输出运动动作。为了训练和评估VIMA,他们开发了新的模拟基准,其中有数千个程序化生成的任务和60万以上专家轨迹用于模仿学习。VIMA在模型容量和数据大小方面都实现了强大的可扩展性。在相同的训练数据下,它在最难的zero-shot泛化设置中优于先前的SOTA方法,任务成功率高达 2.9倍。在训练数据减少10倍的情况下,VIMA的表现仍然比竞争方法好2.7倍。
15 Text-to-music 文本指令生成音乐MusicLM是由谷歌研究院在近日发布的文本生成音乐模型,只发布了论文与数据集,没有开源。模型可以从文本描述例如 "平静的小提琴旋律伴着扭曲的吉他旋律"生成高保真的音乐。MusicLM将文本指示的音乐生成过程描述为一个层次化的序列到序列的建模任务。它生成的音乐频率为24kHz,在几分钟内保持一致。
与之前的模型相比,MusicLM在音频质量和对文本描述的遵守方面都更优。此外,MusicLM可以以文本描述的旋律为条件,它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究,谷歌研究院一并公开发布了MusicCaps。这是一个由5.5K音乐-文本对组成的数据集,有人类专家提供的丰富文本描述。
16 别忘记了亚马逊云的存在Amazon SageMaker是在亚马逊云上的一站式大模型开发平台,可以提高大模型的开发效率。在IDC发布的报告中,Amazon SageMaker被列入“领导者”阵营,并居于图中最高最远的位置。
亚马逊云科技自研AI芯片可以提供更具性价比的方案,例如Amazon Trainium自研芯片的Amazon EC2 Trn1实例可节省高达50%的训练成本,而Inf2实例可支持横向扩展分布式推理,方便部署并提升高速推理。
Stability AI选择AWS作为唯一云服务提供商,在AWS平台上搭建了大规模训练集群。使用SageMaker Jumpstart预集成的SD2.0预训练模型和优化库,Stability AI能够使其模型训练具有更高韧性和性能,训练时间和成本可减少58%(这是很多钱)。
(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com。)
相关文章
猜你喜欢