> 自媒体 > (AI)人工智能 > 中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
来源:大数据文摘
2023-11-14 15:14:19
227
管理

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的。

具体而言,多模态信息转换的三个接口设计如下:

图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;

视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;

语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练。

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到 Forbidden City。

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

对于敏感信息,X-LLM 也能做到识别

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
颠覆科技界的发布会和Open AI公司的介绍#前沿科技
颠覆科技界的发布会,GPT重新更新普通人的机遇。今天和大家介绍一下Open ..
翻车了!这条“新闻”是ChatGPT写的,警方已介入
来源:澎湃新闻 澎湃新闻记者 常正尚2月16日,一则“杭州市政府3月1号取..
人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
这几天轰动硅谷的 GPT-3 是什么来头?相信不太了解 AI 的朋友这几天也或..
教你如何查看别人的微信聊天记录,有微信号就行很简单..
如何查别人微信聊天记录引言微信作为中国最流行的社交媒体平台之一,已经..
微信小程序,这到底是不是所说的风口呢!大咖说2018预测趋势..
微信小程序是什么?风口正在到来微信小程序是一种全新的连接用户与服务的..
女生聊天技巧:10个让你和她愉快聊天的话题
大家好,我是你们的好朋友桃桃最近和一位闺蜜聊天,她向我抱怨自己的恋爱..
压力给到百度了,GPT- 4震撼发布!有4个惊喜,但仍有3个遗憾!..
一觉醒来,万众期待的GPT-4终于发布了,我们来看看他都有哪些迭代,给了..
chatAI:为什么超大城市和特大城市需要进行棚改?
为什么超大城市和特大城市需要进行棚改?超大城市和特大城市进行棚改的原..
ChatGPT:改变我们交流方式的革命性技术
在科技日新月异的今天,人工智能已经渗透到我们生活的方方面面。其中,最..
关于作者
冰冷的开会..(普通会员)
文章
451
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40335 企业收录2981 印章生成193716 电子证书831 电子名片53 自媒体26178

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索