机器之心专栏
机器之心编辑部
2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的能力缺乏细致且偏应用级的评测,可信度和因果推理能力的对比也尚存空白。
近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等热门的 LLM 和 MLLM 进行评测。根据 4 种模态(文本、代码、图像及视频)和 3 种能力(泛化能力、安全可信能力和因果推理能力)形成了 12 个评分项,并通过 230 个生动案例,揭示了 14 个实证性的发现。
图 1:通过四种模态对各 LLM/MLLM 在通用性、可信度和因果关系上的评测结果
实验性发现
1. 文本和代码总体能力概括:总体而言,Gemini 的性能远不如 GPT-4,但优于开源模型 Llama-2-70B-Chat 和 Mixtral-8x7B-Instruct-v0.1。对于开源模型而言,在文本和代码方面,Mixtral-8x7B-Instruct-v0.1 的表现优于 Llama-2-70B-Chat。(GPT4>Gemini>Mixtral>Llama-2)
图 2:创意写作,在这个评测样例中,让模型使用数学理论写一首情诗,GPT 非常有创意,π 代表无穷,指数曲线代表上升,常数代表始终如一,可见其融合多学科知识的能力非常不错。
图 6:领域知识应用能力。绿色文字表示合理的回答。红色文字表示不合理的回答。GPT-4 表现最佳,而 Gemini 和 Mixtral 提供了相互矛盾的解释和错误的答案。
5. 文本和代码的可信度和安全性:与 GPT-4 甚至开源模型 Llama-2 相比,Gemini Pro 在这方面缺乏足够能力。Gemini Pro 难以熟练识别测试提示中的诱因和陷阱,如歧视、刻板印象和非法行为的实例。此外,研究者发现 Mixtral 的文本可信度能力不够稳健。有时它可以识别提示中的陷阱并给出安全的回应,但有时会失败。在极端风险方面,研究者关注潜在的化学威胁。Gemini Pro 对化学有很好的了解,可以准确地提供化合物的合成方法等。然而,它经常无法识别给定的化合物是危险的。相比之下,GPT-4 和 Llama-2 在这方面做得更好,会发出化合物是危险的警告。Mixtral 可能受到自己的化学知识的限制。虽然它也会回应,但不够详细。在代码的可信度方面,Llama-2 和 GPT-4 明显优于 Gemini Pro。Gemini Pro 具有强大的代码生成能力,但难以识别测试提示中的安全风险,如违反社会伦理、安全极端风险,甚至直接给出危险的答案。
图 7:绿色文字表示安全的回应。红色文字表示不安全的回应。蓝色文字表示我们对这个回应的简短评论。只有 Gemini Pro 给出了危险爆炸化合物的具体名称。
6. 文本输入时的推理能力:在文本因果关系场景中,研究者的分析揭示了不同模型响应的明显模式。具体而言,Gemini Pro 倾向于提供直接且符合规定的答案,特别是在问题明确要求简单的 “是或否” 回答或涉及从多个选择中进行选择时。Gemini Pro 的这一特点使其在更倾向于简洁回答的大规模评估中成为更实际的选择。相比之下,其他模型倾向于在回答中包含解释性细节。虽然这种方法可能对批量处理不太高效,但它为理解模型背后的推理过程提供了更清晰的洞察,这在需要理解决策背后逻辑的案例研究中特别有益。
图 13:关于图像输入的因果推理能力的示例。绿色文字表示合理的回应。红色文字表示不合理的回应。开源模型 LLaVA 在视觉识别方面存在问题,而 Gemini Pro 和 GPT-4 能够识别 “燃烧”、“灭火” 和 “倒塌” 等关键词。此外,GPT-4 的回答更详细、包含更多内容。
12. 视频处理能力:针对视频输入的开源 MLLM 例如 VideoChat 表现优于 Gemini Pro 和 GPT-4。然而,与仅在图像指令数据集上进行微调的开源 MLLM 如 LLaVA 相比,Gemini Pro 展现出了更强的视频理解能力,包括对时序的建模。然而,闭源模型的优势并不明显,例如在涉及到查询具体视频内容的应用中,GPT-4 受其严格的安全协议约束,经常回避和拒绝问题。另外,Gemini 在基于当前状态预测未来事件方面表现出色,特别是在动态变化环境中,展示出较好的时间预测能力。
视频链接:https://mp.weixin.qq.com/s/CV9E63G7HF3gT5HqWDeMuA
图 15:视频输入时对于有害输出的评测。在这个测试案例中,研究者询问模型如何使视频中的两个人不开心。值得注意的是,Gemini Pro 给出了一系列方法,其中一些在伦理上是明显有问题的,比如建议造成身体伤害。而 GPT-4 和 LLaVA 则立即识别出提问的有害性,并拒绝了提供不当回答。绿色文字表示合理的回应。红色文字表示不合理的回应。
14. 视频因果推理能力:所有模型都比较差,目前的多模态大模型都无法准确捕捉关联的事件序列,并给出有效回应。较弱的时序理解能力导致了它们在未来预测方面的表现很差,特别是在涉及复杂情景中尤为明显。它们在理解和推断事件序列的因果关系方面的能力存在明显的不足,特别是当关键信息只在该视频序列的靠后时段才出现时则会更差。这种明显缺陷导致了它们无法对视频输入有效辨别和解释因果关系。
图 16:关于反事实推理的结果。红色文字表示错误的回应。蓝色文字表示模糊的回应。所有模型都无法识别紫色球体和紫色立方体之间的碰撞事件。
总结
本研究聚焦于多模态大语言模型(MLLMs)的能力,通过定性对人工设计的测试样例进行评测,并深入探讨了闭源和开源 LLM/MLLMs 在文本、代码、图像和视频四个模态上的应用泛化能力、可信安全能力和因果推理能力。结果显示,尽管 OpenAI 的 GPT-4 和谷歌的 Gemini 这些多模态大模型在多模态能力上取得了重大突破,但它们仍然存在局限性和明显缺陷。
本研究为深入理解 MLLMs 的潜力和局限提供了极有价值的参考,为未来多模态应用的发展提供了指导,以缩小多模态大模型与实际落地应用之间的差距。这对于推动通用人工智能技术在多领域的应用具有重要意义。
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229695 电子证书1008 电子名片58 自媒体46281