国内AI大模型综述：ChatGPT取得突破性进展，国内大模型争相发布-脚本导航

> 自媒体 > （AI）人工智能 > 国内AI大模型综述：ChatGPT取得突破性进展，国内大模型争相发布

国内AI大模型综述：ChatGPT取得突破性进展，国内大模型争相发布

来源：未来智库

2023-04-20 14:00:56

640

管理

（报告出品方/作者：国信证券，谢琦，陈淑媛，王颖婕）

大模型概述：大模型提升机器理解能力，优化人机交互

AI大模型是实现通用人工智能（AGI）的重要方向

AI 大模型是实现通用人工智能（AGI）的重要方向。AI 大模型是基于海量多源数据打造的模型。AI 大模型具备通用、可规模化复制等诸多优势，是实现 AGI（通用人工智能）的重要方向。AI 大模型当前包含自然语言处理(NLP)、计算机视觉（CV）等，统一整合的多模态大模型等。 ChatGPT 推出两个月 MAU 突破 1 亿，是自然语言处理领域突破性的创新，进一步理解了人类语言。大语言模型（Large Language Model，LLM）是一种使用了大量数据训练的深度学习算法，构建出一个能够理解人类语言并自动生成语言的模型。ChatGPT 在 2022 年 11 月底推出后，2023 年 1 月的月活跃用户数已达 1 亿，成为历史上用户增长最快的应用。ChatGPT 的自然语言处理能力超越了以往的自然语言处理模型，可以应对各种自然语言处理任务，包括机器翻译、问答、文本生成等。

ChatGPT 由 OpenAI 研发，GPT 模型已更新至 GPT-4，大力出奇迹后出现涌现能力。GPT 全称是 Generative Pre-trained Transformer，是 OpenAI 开发的一系列延伸自转换器架构（Transformer）的自然语言生成模型。2018 年， OpenAI 推出 GPT-1。2022 年 11 月，OpenAI 推出了对话交互式的 ChatGPT。ChatGPT 在 GPT-3.5 之上用基于人类反馈的监督学习和强化学习(RLHF)进行微调。人类反馈的引入，使机器更理解人类语言, 让 GPT 获得更逼真的结果。ChatGPT 在逻辑推理、上下文理解等方面的能力，是模型规模达到量级后“涌现”出的。

大模型应用：“预训练精调”即可对下游应用赋能，优化人类与机器交互方式

大模型借助“预训练精调”等模式，用相比较大模型更少量的数据即可对下游应用赋能。预训练大模型基于海量数据的完成了“通识”教育。在具体应用场景下，借助“预训练精调”等模式，应用模型用相比较大模型更少量的数据即可进行相应微调，高水平完成细分应用的任务。

大模型增强机器理解力，优化人类与机器交互方式，提升信息处理效率。 1）自然语言类大模型：人类可以用自然语言方式，与机器形成交互。ChatGPT 为自然语言方面的大模型应用，语言文本处理是人类世界最重要的工作内容之一，如果 AI 能够懂的人类自然语言，并与人类形成交互，将协助人类大幅提升语言文本处理效率，带来生产力效率提升。例如，ChatGPT 可以依托人类自然问答的方式，帮助人类完成回答问题、虚拟助手（计划旅行、预定餐厅、购买产品等）、创作、文本、编程、摘要等工作。

我们也可以通过语言类大模型调用机器工具，大模型相当于人类助手。根据微软论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》， GPT-4 能够根据人类指令推断出需要哪些工具，有效地解析这些工具的输出并适当地做出回应，而无需任何专门的训练或微调。2023 年 3 月 23 日，OpenAI 宣布推出插件功能，帮助 ChatGPT 访问最新信息、进行计算或使用第三方服务。据 OpenAI 官网，第一批支持 ChatGPT 第三方插件的网站共 11 个，包含电商、预定航班、订购食材、检索实时信息、检索知识库信息等领域。

2）视觉类大模型：与语言模型类似，视觉类模型需要完成对图片的理解。2023 年 4 月 6 日，MetaAI 在官网发布了基础模型 Segment Anything Model（SAM）并开源，其本质是基于 Transform 模型架构，可以对图像中的一切对象进行分割。交互方面，SAM 可使用点击、框选、文字等各种输入提示，指定要在图像中分割的内容。精准分割为大模型图像理解的基础。图像理解可以在智能驾驶、图像识别、安防（人脸识别）等方面进行利用。

3）多模态融合：多模态为语言、图片、音频等多个模态的感知和认知融合。多模态大模型能够让机器结合环境因素来模拟人与人之间的交互方式，让图像、文本、语音等模态之间的统一表示和相互生成。多模态融合也是各大模型着重努力的方向。当前，已有的大模型可在文本、图像等方面赋能，已有的渗透应用包括搜索引擎（Bing 等）、办公工具（Microsoft 365）、企业服务应用、垂直领域应用（金融、电商等）等等。根据 2023 阿里云峰会,阿里巴巴集团董事会主席兼 CEO 张勇表示“所有行业、所有应用、所有软件、所有服务都值得基于新型人工智能技术、基于 AIGC 各方面技术支撑、大模型支撑重做一遍”。

大模型三要素：算力、算法、数据

大模型是“大数据大算力强算法”结合的产物。 1）算力是 AI 发展的基础设施，芯片至关重要。算力的大小代表着对数据处理能力的强弱。芯片性能越好，大模型的处理能力越快。比如，黄仁勋在 2023 年 2 月财报会中表示“过去十年，通过提出新处理器、新系统、新互连、新框架和算法，并与数据科学家、AI 研究人员合作开发新模型，已使大语言模型的处理速度提高了 100 万倍。” 2）算法是 AI 解决问题的机制，源于算法理论发展、迭代优化。不同算法可以看做解决问题的不同路径，算法的优劣可以用空间复杂度与时间复杂度来衡量。例如，GPT 是在 Transformer 模型基础上发展的，Transformer 由 GOOGLE 在 2017 年提出。 Transformer 相比于传统的循环神经网络（RNN）或卷积神经网络（CNN），在处理长文本时具有更好的并行性和更短的训练时间。

3）数据是算法训练的养料，前期需要给模型喂养大量数据，形成模型理解能力，中后期数据质量决定了模型精度。机器学习中要用标注好的数据进行训练，数据标注对未经处理的初级数据进行加工处理, 转换为机器可识别信息，只有经过大量的训练，覆盖尽可能多的各种场景才能得到一个良好的模型。

当前，数据的丰富度和量对大模型的训练至关重要，只有大量数据的训练，大模型才有理解能力涌现的可能。当前训练数据集来源多为公开数据，比如根据 Alan D. Thompson 文章，列举的大模型的数据集包括维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集等。中后期，高质量数据将提升模型的精度。比如更加事实性的数据将提升模型准确性，更加通顺的中文语言将提升模型理解中文语言能力。另外，高质量反馈数据也可提高模型性能，比如 ChatGPT 采用人类强化学习 RLHF，通过更专业的问题、指令、人类反馈排序等加强模型理解人类语言逻辑。最后，也可以通过更精准的垂类数据，完成部分更细分领域模型搭建。

我们从以上三个维度，分析当前发布的部分大模型： 1）算力：算力布局主要来源于芯片的采购布局，算力基础设施的投入阻挡了部分小公司的入局。当前数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建，供应厂商包括英伟达等。应用层面只需调用整体大模型里的部分神经网络，故对芯片要求没有训练模型时那么高。 2）算法：OpenAI 仍有先发优势，GPT-3 之后并未开源。每家公司都有自己实现大模型的路径算法，由于 GPT 在成立之初就坚持自己的算法路径（采用单项 Transformer 架构等)，并在此基础上运用大量数据训练使得模型产生的涌现能力，取得了一定的成功，拥有先发优势。自 GPT-3 开始（2020 年），OpenAI 便不再公布大模型相关训练及技术细节。虽然当前 OpenAI 的成功提供部分借鉴，但其他公司仍需时间去研发追赶并进行模型迭代。

除此以外，部分公司在特定领域拥有算法积累的先发优势，比如搜索类公司对语料的切割和识别有先发优势，视觉类公司在图像领域识别有先发优势。 3）数据：当前中文语料规模与质量上不如英文语料。根据 W3Techs，中文网站占全球网站数 1.3%，英文网站占比 63.6%。除此以外，由于中国移动互联网发展较为成熟，大量的中文数据资源被存于各家企业或机构里，较难共享。

目前，国内已有百度、阿里巴巴、腾讯、华为等公司对 AI 大模型进行开发，各模型系列主要的 NLP 语言大模型、CV 大模型、多模态大模型也已推出并实现部分应用落地。此外，据 36 氪消息，字节跳动也在语言和图像大模型上有所布局，预期将于今年年中推出字节自研大模型。具体来看：百度在 AI 方面布局多年，具有一定大模型先发优势。当前，申请文心一言 API 调用服务测试的企业已突破 6.5 万。在行业大模型上，已经与国网、浦发、吉利、 TCL、人民网、上海辞书出版社等均有案例应用。

阿里通义大模型在逻辑运算、编码能力、语音处理方面见长，集团拥有丰富的生态和产品线，在出行场景、办公场景、购物场景和生活场景均有广泛应用。腾讯混元大模型已经在广告投放、游戏制作投入使用，目前集团在研究对话式智能助手，预计投入使用后将对 QQ 和微信生态有一定优化。华为与 B 端合作紧密，预计未来应用以 ToB 为主。此外，华为在算法、算力上储备较为丰厚。比如“鹏城云脑 II”获全球 IO500 排行五连冠，拥有强大的 AI 算力和数据吞吐能力。华为云 ModelArts 平台的高效处理海量数据能力，7 天完成了 40TB 文本数据处理。盘古大模型最早已经在 2021 年 4 月正式发布，当前盘古大模型训练文本数据高达 40 TB（GPT-3 为 45 TB）。

百度文心大模型

模型简述：已拥有NLP、CV、跨模态、行业等多个AI大模型场景

文心大模型拥有多个 AI 应用场景，文心一言是基于文心 NLP 大模型的对话式产品。根据官网介绍，文心大模型包含 NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型等，分别可用于语言、图像、跨模态、生物、细分行业等。2023 年 3 月 16 日，百度正式官宣全新的生成式 AI 对话应用——文心一言，是文心 NLP 模型应用下的产品。其能够与人对话互动，回答问题，协助创作。

百度 NLP 核心是 ERNIE 模型。文心 NLP 大模型面向语言理解、语言生成等 NLP 场景。百度文心 NLP 大模型打造了 ERNIE 模型系列，ERNIE 问世于 2019 年，目前发展至 3.0 版本。其中语言理解和生成包含 ERNIE 3.0 Tiny、ERNIE 3.0 、鹏城 -百度.文心、ERNIE 3.0 Zeus，另外文心 NLP 大模型包含医疗、金融等细分领域 ERNIE 模型。 ERNIE 3.0 Tiny（轻量级）：可用于通用语言理解。 ERNIE 3.0（百亿级）：可用于智能创作、摘要生成、问答、语义检索、情感分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务。鹏城-百度·文心（千亿级）：模型参数规模达到 2600 亿（GPT-3 1750 亿）, 可用于舆情分析、智能创作、文本解析等。

文心大模型在国内市场格局中较为领先。根据 IDC 发布《2022 中国大模型发展白皮书》，百度文心大模型在市场格局中在产品能力、生态能力、应用能力等方面在国内较为领先。文心一言核心优势是对中文的理解。百度作为中国语境的搜索龙头，拥有有更多的中文语料数据参与训练。比如，文心一言可以针对“洛阳纸贵”这种容易产生歧义的成语，给出较为贴切的解释。可以用成语写出藏头诗，用四川话读出文章。

模型应用：率先应用在硬件终端天猫精灵和软件通义千问

硬件终端方面：天猫精灵基于通义大模型推出拟声助手“鸟鸟分鸟”。4 月 4 日，脱口秀演员鸟鸟在微博发布了一条关于天猫精灵的演示视频。根据公司和鸟鸟的介绍，“鸟鸟分鸟”是天猫精灵联合阿里达摩院，基于通义大模型，对鸟鸟录制的一个多小时音频进行学习训练而成。从形态上看，“鸟鸟分鸟”本身是一个对话机器人，具备多轮对话能力，并且还能利用搜索引擎等工具。个性化是“鸟鸟分鸟”最大特点，具备拟人化的音色、语气、表达方式。我们推测，这意味着通用大模型将有可能在表达方式层面实现较低成本的定制化。

对话式通义千问已经开始内测，包含 9 款“百宝袋”小应用。4 月 7 日，阿里云宣布大模型“通义千问”上线，并定向邀请企业用户进行测试。测试版的通义千问与 ChatGPT 和文心一言在界面上相似，都是采用问答对话的形式。此外，通义千问在对话模式之外，制作了 9 款称为“百宝袋”的小应用，可以分为三类：1）效率类：写提纲、SWOT 分析、商品描述生成；2）生活类：会放飞的菜谱、小学生作文、然后呢；3）娱乐类：彩虹屁专家、写情书、为你写诗。我们认为，未来阿里大模型有望添加至阿里系电商和钉钉等场景中，带动用户体验和效率的提升。

腾讯混元大模型

模型简述：热启动降低训练成本，文字视频等多领域表现优异

“混元”AI 大模型由 TEG 数据平台部和机器学习平台部联合主导，涵盖计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等方向。“混元”AI 大模型由腾讯 17 级研究员/杰出科学家（腾讯史上最高专业职级）张正友博士带队，2022 年 4 月公司首次披露研发进展，目前已更新至 2.0 版本。性能上看，“混元”大模型在文字、视频等多个领域表现优异。其中 HunYuan-tvr 模型在文字和视频在全球最具权威的 MSR-VTT，MSVD，LSMDC，DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单排名第一，实现该领域的大满贯； HunYuan-NLP 1T 模型在 CLUE（中文语言理解评测集合）总榜、分类榜和阅读理解榜排名第一。

技术上看，“混元”大模型基于腾讯太极机器学习平台研发，通过改进模型与算法，大幅降低训练成本。HunYuan 利用千亿小模型帮助万亿大模型完成启动，相较从 0 启动耗时短耗能低，仅用 256 卡，最快一天内即可完成万亿参数大模型 HunYuan-NLP 1T 的训练，整体训练成本仅为直接冷启动训练万亿模型的 1/8。

模型应用：已在广告游戏多场景落地，大幅提升效率并降低成本

腾讯广告业务：腾讯在广告业务中应用 AI 模型，助力广告主提升广告创作效率、提升广告推荐系统的内容理解能力，大幅提升了广告效率，实现降本增效。在混元 AI 大模型基础上建立“巨阙”广告内容理解、“乾坤”广告智能创作、“神针” 广告智能审核、“天印”广告指纹系统等四大技术平台，提升了广告系统的理解能力，让系统更加智能，从而提高用户体验以及广告转化效果与广告制作效率。

内容创作：腾讯智能创作助手文涌（Effidit）主要用途是帮助创作者开阔思路、提升创作后的文本水平和质量等，目前已经发布 2.0 版本。据官方介绍，文涌融合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等技术，部分功能的实现使用“混元”系列 AI 大模型作为底层预训练模型。

游戏业务：腾讯近日提出基于 AI Bot 与 AIGC 两大方向的自研 3D 虚拟场景自动生成解决方案，帮助游戏开发者以更低成本创造风格多样、贴近现实的虚拟城市，大幅提升 3D 虚拟场景的生产效率。以 3D 虚拟城市道路布局设计为例，现有技术生成的路网通常横平竖直、风格单一，要实现不同城市风格必须手动设计和反复修改，耗时至少一周。腾讯解决方案只需用户输入城市主干道和海岸线，模型 1 分钟内即可填充合理、多样的路网细节并支持微调操作，相比现有技术下效率提升近 100 倍。

对话式智能助手：腾讯集合集团内资源与顶尖人才，正在全力打造类 ChatGPT 对话式产品。36 氪旗下媒体消息，腾讯类 ChatGPT 对话式产品项目组——腾讯混元助手项目组（HunyuanAide）于 2023 年 2 月已经成立。该项目组联合腾讯内部多部门构建大参数语言模型，目标是通过性能稳定的强化学习算法训练，完善腾讯智能助手工具，打造腾讯智能助手，并能成为国内的业界标杆，我们预计未来 AI 只能助手将广泛应用于腾讯系社交产品和办公产品等。

华为盘古大模型

模型简述：基于ModelArts研发设计的系列模型，NLP、CV等方向性能优越

“盘古”大模型由计算机视觉（CV）大模型、科学计算大模型、自然语言处理（NLP）大模型、多模态大模型组成，该模型由华为云人工智能领域首席科学家田奇带领的华为云 EI 盘古团队主导设计。“盘古”项目自 2020 年 11 月起立项，2021 年 4 月在华为开发者大会上首次正式发布，2023 年 4 月 8 日，团队介绍了盘古模型的应用进展，包括模型在物流、药物研发、气象预测等领域的落地。盘古模型基于华为一站式 AI 开发平台 ModelArts 进行研发。ModelArts 是华为开发的 AI 生产线，具备持续构建大模型训练及推理加速能力、分布式训练能力等，并提供数据处理、算法开发、模型训练、模型管理、模型部署等 AI 应用开发全流程技术能力。

模型性能优异，NLP 大模型是首个千亿参数级中文大模型，2021 年位列 CLUE 榜单三项第一。2021 年 4 月华为云盘古 NLP 大模型发布，这是当时业界首个 2000 亿参数的中文预训练模型。在 2021 年，盘古 NLP 模型在中文语言理解评测基准 CLUE 榜单中总排行榜及分类、阅读理解单项均排名第一，刷新了三项榜单世界历史纪录。盘古 CV 大模型是业界最大的 CV 预训练模型。盘古 CV 大模型包含了 30 多亿参数和 10 亿级别的图像，已经在 100 多个场景中得到了验证。在 Image Net 1%、10% 数据集上的小样本分类精度上均达到业界最高水平。

模型应用：在物流、药物研发、气象等多个场景实现落地，极大提高行业效率

NLP 大模型、CV 大模型等都是华为 L0 级别的基础大模型，往上则是 L1 级别的行业大模型和 L2 级别的细分场景模型。具体而言，盘古 CV 大模型目前覆盖了工业质检、物流仓库监控、时尚辅助设计等行业和领域；盘古 NLP 大模型覆盖了智能文档检索、智能 ERP 和小语种大模型；盘古科学计算大模型则应用于气象预报、海浪预测等方面。

物流仓库监控：在物流场景，华为盘古团队为浦发银行构建了“物的银行”—— 普慧云仓。相比于传统的数字银行，它能够更彻底的做到业务流程的线上化，进一步提升效率。华为数据显示，在人员行为、货物检测方面，“物的银行”可以实现 5%到 10%的性能提升。新药研发：传统模式下，新药研发有周期长、投入大、成功率高的难题，盘古药物分子大模型是专门面向药物研发领域推出的模型，可以帮助医药公司进行 AI 辅助研发，使得先导药研发周期从数年缩短到 1 个月，极大改善了新药研发过程的效率。

气象预测：盘古气象大模型的研究团队通过 3D Earth-Specific Transformer 的方式处理复杂的不均匀 3D 气象数据，提高 AI 大模型的预测精度。盘古气象大模型能够提供秒级的全球气象预报，其气象预测结果包括位势、湿度、风速等，其精度首次超过了欧洲气象中心的数字分析的方法，并且预测速度提升了 1 万倍以上。

字节跳动大模型

模型简述：AI探索基础扎实，语言大模型和图像大模型初步布局

字节跳动 AIGC 大模型将从语言和图像两种模态发力。根据 36 氪消息，字节跳动在大模型上已有所布局，分别在语言和图像两种模态上发力，预期是在今年年中推出大模型。字节跳动 AIGC 大模型尚在初期探索阶段，有一定 AI 基础。根据 36 氪，在 ChatGPT 公开前，字节跳动对大模型的投入存疑。但字节跳动在工程团队和云服务团队方面并无短板。 1）算力：字节并不缺 GPU。字节旗下的企业技术服务平台火山引擎，在 2021 年正式进军基础云市场（IaaS 层），为大模型所需的算力奠定了基础。4 月 18 日，火山引擎发布自研 DPU 等系列云产品，并推出新版机器学习平台：支持万卡级大模型训练、微秒级延迟网络，弹性计算可节省 70%算力成本。同时，火山引擎宣布与字节跳动国内业务并池，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用。

2）算法：阿里巴巴 M6 大模型的原带头人杨红霞现已加入字节 AI Lab（人工智能实验室），参与语言生成大模型的研发。模型应用：可用于图文、视频内容生成等，飞书将推出智能 AI 助手“My AI” 抖音、今日头条基于 AIGC 生成图文内容。在 AIGC 的加持下，用户上传照片后，短时间内系统即可自动生成不同风格的图片。例如，抖音上线该“漫画脸”特效后，吸引了大量用户，据抖音平台数据显示，截至 2022 年 12 月 6 日，该特效已经超 2428 万人使用，并迅速飙升至特效潮流榜 TOP1。

剪映提供 AI 生成视频功能。剪映的创作者可以通过几个关键词或一小段文字，生成一段创意小视频。除此以外，剪映可以根据文字描述智能匹配视频素材，将视频包装为更垂直的内容作品，包括财经、历史、人文等类别。飞书将推出智能 AI 助手“My AI”。4 月 11 日字节跳动飞书宣布将推出智能 AI 助手“My AI”，My AI 将包括自动汇总会议纪要、创建报告、优化和续写文字内容，在飞书 app 中，My AI 也可以通过对话形式，帮助用户自动创建日程、搜索公司内部知识库等功能。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】「链接」

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT如何倒逼人工智能产业？对就业影响几何？上海市科委解答

2023-04-20 14:01

对话ChatGPT：Prompt是普通人“魔法”吗？

2023-04-20 13:58