GPT-4大模型硬核解读！看完成半个专家-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4大模型硬核解读！看完成半个专家

GPT-4大模型硬核解读！看完成半个专家

来源：智东西

2023-04-27 15:18:04

452

管理

▲缩放定律（参数增加后精度损失连续减少）V.S. 涌现能力（1010-1011参数后新能力的涌现）（来源：OpenAI）

在语言模型发展的早期，通过在更多数据上训练更大的模型，可获得近似连续的精确度提升。（可称为缩放定律/Scaling Laws）到了2015年左右，随着深度学习技术的发展和语料库的增大，模型达到一定的临界规模后，NLP开发者们发现，大语言模型（包括GPT-3、GLaM、LaMDA和Megatron-Turing NLG等）开始表现出一些开发者最开始未能预测的、更复杂的能力和特性，这些新能力和新特性被认为是涌现能力的体现。

▲多模态提示示例（来源：微软）

提示工程同时也提高了语言模型“可操纵性”，即模型根据用户要求更改其行为的能力。例如，用户可以命令GPT-4以不同的风格、语气或内容特征来回答。例如“你是一个唠叨的数据专家”或“你是一个言简意赅的数据专家”来开始提示，让模型解释一个数据科学概念。这里“唠叨”和“言简意赅”操纵了模型回答的语言量。

1.4 关键技术——人类反馈强化学习

GPT-4/ChatGPT与GPT-3.5的主要区别在于，新加入了被称为RLHF（Reinforcement

Learning from Human Feedback，人类反馈强化学习）的技术。这一训练范式增强了人类对模型输出结果意向（Intent）的调节，并且对结果进行了更具理解性的排序。

OpenAI在其早期的学术报告中公开表示，与人类偏好保持一致，是许多领域人工智能研究和部署的核心组成部分。OpenAI希望通过RLHF技术，模型能倾向出高质量回答，确保模型输出对人类有益，进而保证模型的安全性。就笔者团队分析来看，RLHF也是保持多轮对话不偏离主题的关键保障。

GPT-4/ChatGPT最初引入人类标记员的主要目的是加快训练速度和质量。尽管强化学习技术在很多领域有突出表现，但是仍然存在着许多不足，例如训练收敛速度慢，训练成本高等特点。特别是现实世界中，许多任务的探索成本或数据获取成本很高。如何加快训练效率，是如今强化学习任务待解决的重要问题之一。

▲奖励模型的过拟合导致模型性能下降（来源：OpenAI）

因为模型仅仅从狭窄分布的训练数据中学习，所以GPT-4中奖励模型只是人类偏好的部分表征（管中窥豹），过度的训练反而可能导致奖励模型过拟合（以偏见代替整体），并导致模型训练效果的下降。另一方面，模型的人类标注员可能也无法代表用户所在地区人群的总体偏好。

1.5 安全技术——基于规则的奖励模型

安全是大模型商用的关键要素，OpenAI也投入了大量资源来提高GPT-4的安全性和一致性。包括引入领域专家进行对抗性测试和红队测试，模型辅助的安全流水线以及安全指标的改进。OpenAI引入的领域安全专家达到了50多人，覆盖AI一致性风险、网络安全、生物风险等领域。

与ChatGPT一样，GPT-4也使用了强化学习和人类反馈（RLHF）来微调模型的行为，以产生更符合用户意图的响应。但当给定不安全的输入时，模型可能会生成不良内容，例如提供有关犯罪的建议。另外，模型也可能对安全输入变得过于谨慎，拒绝无害的请求。

GPT-4的安全流水线包括两个主要部分：一组额外的安全相关RLHF训练提示，以及基于规则的奖励模型。

基于规则的奖励模型（Rule-based Reward Model，RBRM）是一组zero-shot迷你GPT-4分类器，根据预定义的规则为特定动作或事件分配奖励。在这种模型中，奖励是根据事先定义的一组规则确定的，而不是从数据中学习得到的。这些分类器在RLHF微调期间为GPT-4策略模型提供额外的奖励信号，以正确的输出行为为目标进行训练，例如拒绝生成有害内容或不拒绝无害的请求。

▲基于规则的奖励模型（来源：日本国立信息学研究所）

很多早期的NLP模型和软件就是基于规则的（包括各种早期的智能音箱/”人工智障”），但这类模型在泛化场景下表现不佳，只能回答相对固定的问题，并不具备现在的大语言模型的涌现能力。

GPT-4中使用RBRM的目的是充分借助其优势，即模型中使用的规则可以简单实用一些，建立成本低于常规奖励模型。例如，在象棋等游戏中，规则可能很简单。在更复杂的情况下，规则可能相对复杂，例如为实现特定目标或达到一定的性能水平授予奖励，但总体来说比构建奖励模型的训练数据集成本更低。

规则奖励模型通常用于强化学习，其中代理被训练为采取最大化奖励信号的行动。在这种情况下，规则奖励模型基于代理是否遵循特定规则或实现特定目标，为代理分配奖励。

规则奖励模型的优点允许更多地控制学习过程。通过事先指定规则，开发人员可以引导学习过程，使其专注于特定的行为或结果。

▲大语言模型可视为知识/语言的有损压缩

幻觉包括以下几类：

1、含义相关性（Semantic Relatedness）的幻觉：模型生成的输出可能包含与输入语境无关或不相关的单词或短语，这些单词或短语通常是通过模型之前接触过的文本来学习的。

2、语义扩张（Semantic Expansion）的幻觉：模型生成的输出可能包含与输入语境相关但是过于具体或者过于抽象的内容，这些内容也可能是通过模型之前接触过的文本来学习的。

3、结构错误（Structural Errors）的幻觉：模型生成的输出可能不符合正确的语言表达或句子结构，这些错误可能是由于模型在生成时遗漏了某些信息，或者将不相关的信息结合在一起导致的。

为了降低幻觉出现的概率，改善模型质量，Meta AI提出一种幻觉内容检测机制。通过检测生成内容中的幻觉令牌/单词，对生成内容的真实度进行评估，以减少模型幻觉出现的概率。从GPT-4的幻觉减少比率来看，猜测类似该技术的方法或已应用在GPT-4中。

▲视觉与语言Transformer技术的演进

GPT和BERT之前的时代

最早的NLP技术是基于规则的，即基于特定的规则使用程序进行固定模式的对话，所有的应答都是固定模式的。在深度学习诞生后，NLP技术逐渐进入基于模型的时代。文本生成是通过递归神经网络（RNN）或各种长短时记忆神经网络（LSTM）实现的。这些模型能够较好的进行模式识别，在输出单个单词或短语方面表现良好，但无法生成高精度的多轮对话，更无法实现逻辑推理能力。

▲BERT与GPT的技术基本架构对比（图中En为输入的每个字，Tn为输出回答的每个字）

GPT-2

2019年，OpenAI发表了另一篇关于他们最新模型GPT-2的论文（Language Models are Unsupervised Multitask Learners）。该模型开源并在一些NLP任务中开始使用。相对GPT-1，GPT-2是泛化能力更强的词向量模型，尽管并没有过多的结构创新，但是训练数据集（WebText，来自于Reddit上高赞的文章）和模型参数量更大。目前很多开源的GPT类模型是基于GPT-2进行的结构修改或优化。

GPT-3

2020年6月，OpenAI发表了另一篇关于GPT-3模型的论文（Language Models are Few-Shot Learners）。该模型的参数是GPT-2的100倍（175B），并且在更大的文本数据集（低质量的Common Crawl，高质量的WebText2，Books1，Books2和Wikipedia）上进行训练，从而获得更好的模型性能。GPT-3实际上由多个版本组成的第3代家族，具有不同数量的参数和所需的计算资源。包括专门用于代码编程的code系列。GPT-3的后继知名版本包括InstructGPT和ChatGPT。

▲GPT-3家族

GPT-3.5/ChatGPT

2022年3月15日，OpenAI发布了名为“text-davinci-003”的新版GPT-3，该模型被描述为比以前版本的GPT更强大。目前有若干个属于GPT-3.5系列的模型分支，其中code-davinci针对代码完成任务进行了优化。

ChatGPT是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。

OpenAI使用RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对ChatGPT进行了训练，且加入了更多人工监督进行微调。

ChatGPT具有以下特征：

1）可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。

2）ChatGPT可以质疑不正确的问题。例如被询问“哥伦布2015年来到美国的情景”的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。

3）ChatGPT可以承认自身的无知，承认对专业技术的不了解。

4）支持连续多轮对话。

与大家在生活中用到的各类智能音箱和“人工智障”不同，ChatGPT在对话过程中会记忆先前使用者的对话讯息，即上下文理解，以回答某些假设性的问题。ChatGPT可实现连续对话，极大的提升了对话交互模式下的用户体验。

▲GPT-4数据集构成（预测）

OpenAI在预训练阶段过滤GPT-4的数据集组合，以专门减少不适当的文本内容的数量。并通过结合内部训练的分类器和基于词典的方法来识别含有不当内容的数据。

其中来自GPT-3的预训练数据集包括约570GB（该大小为去重过滤后的，去重过滤前大概45TB）的CommonCrawl数据，大概是410B字节对编码的令牌，以及19B的WebText2数据，合计67B的书籍数据和3B Wiki数据。这些数据被整合为约300B大小的GPT-3预训练数据集。其中Wiki数据质量最高，在训练中平均被重复使用了3.4次。

▲GPT-3.5标注员学历和国籍构成

GPT-3.5的数据集包括SFT数据集、RM数据集和PPO训练数据集。在最关键的SFT训练集中，标注员撰写比例为89.3%，100%由标注员标记。RM模型较小但是训练集数量更多，达到33K。

可以看出，无论是GPT-3还是GPT-3.5的训练集中，数据质量的重要性都远超过数据的数量。（互联网大厂或许只剩下资金、应用和渠道优势？）其中训练GPT-3.5 175B SFT模型仅需要算力资源4.9 petaflops/s-days，训练GPT-3.5175B PPO-ptx模型需要60 petaflops/s-days，而预训练GPT-3却需要3640 petaflops/s-days的算力资源，是175B PPO-ptx的60.7倍。极少量的高质量标注数据却显著提升了GPT-3.5的应答能力。这就好比好的教材胜过大量普通书籍。

GPT-4的多模态训练数据集由图片和文本共同构成（一般是单幅图片多行文本）。根据GPT-4的技术报告，可以分析GPT-4的多模态数据集包括图表推理、物理考试、图像理解、论文总结、漫画图文等不同类型。目前GPT-4的多模态应用还处于实验中，并未对公众开放。

3.2 GPT-4训练流程分析

我们根据GPT-4的技术报告，初步分析其训练流程如下：

第一阶段：构建交叉注意力架构预训练模型，收集数据并进行有监督策略精调

GPT-4模型是基于GPT-3.5构建的，增加了视觉语言模型组件（在图形Transformer阶段完成的视觉预训练模型）。为了预训练模型在多模态领域进行初步调优，首先会在文本数据集和多模态数据集中抽取问题，由人类标注员，给出高质量答案，然后用这些人工标注好的数据来精调GPT-4初始模型（获得SFT模型，Supervised Fine-Tuning）。

此时的SFT模型在遵循指令/对话方面已经优于GPT-3.5，但对多模态的解答不一定符合人类偏好。

▲计算服务器架构对比

针对GPT-4这类大模型的计算架构，按照计算芯片的组合方式，一般可以分为：“CPU GPGPU”，“CPU DSA”，和“CPU DSA GPGPU”三种类型。这三种类型目前都已在云计算场景广泛应用和部署。

DSA即领域专用加速器，是用于一些特定场景或算法族计算的芯片级加速。最早的GPU也属于DSA，也就是图形加速的DSA。随着GPU逐渐演化，将非常小的CPU核心加入GPU形成GPGPU架构后，才具备了通用化的计算能力。

1）CPU GPGPU是较早且部署众多的一种。由于这种架构的计算灵活度高，也可用于模型训练和非AI类计算。适合任务种类繁多且差异化大的云计算场景。

2）CPU DSA是目前Google云计算（GCP）应用较多的方式。例如Google去年发布的Pathways计算系统（包含6144块TPU）就是这类架构的典型代表。这类架构计算灵活性稍低一点，但是计算性能和成本都非常明显优于CPU GPGPU模式，非常用于GPT-4或其他算法部署场景。例如早些年的AlphaGo的性能突破很大程度上来自于Google自研的TPU。当时如果用GPU，估计超过人类棋手的集群成本恐是当年的Google也难以承受的。

▲Google Pathways “CPU DSA”训练集群基础架构（来源：Google）

3）CPU DSA GPGPU介于前两者之间，充分提高了灵活性又明显降低了计算成本。这类架构需要算法设计/部署人员有丰富的异构架构部署经验。

计算卡间的高速互连对GPT-4计算的影响排在单卡算力之后。对于多数GPU来说，由于一般需要多卡才能放下一个模型，因此整体的计算效率受限于互连带宽和单卡有效算力密度。（算力密度大可以减少互连交互的总数据量）

▲CPU、GPU和存算一体芯片的架构对比

从目前GPT-4的部署需求来看，GPT-4大模型具有数据量大、数据带宽要求高、算力要求高的计算特点，且算法相对单一。如果要提高计算效率和性价比，就应该像超算那样选择更高计算密度的算力芯片。从这个角度上看，具备存算一体结构的DSA可以很好的满足这些要求，并且具备比GPGPU更高的计算性能，未来很有可能与CPU或GPU组合，形成GPT-4这类算法的主要部署芯片。

在GPT-4这类大模型训练中，一般需要使用Infiniband进行大算力芯片间的协同工作，整合海量芯片的算力。Infiniband摒弃了传统网络和应用程序之间消息传递的复杂结构，使应用程序之间直接进行通信，绕过了操作系统，大大提高了效率。

05.

GPT-4的局限与未来改进方向

5.1 GPT-4局限

尽管GPT-4表现出出色的上下文对话能力甚至编程能力，以及能看懂图梗和分析数据图。我们也要看到，GPT-4技术仍然有一些局限性，还在不断的进步。

1）GPT-4在其未经大量语料训练的某些领域缺乏“人类常识”和引申能力”。GPT-4在很多领域可以“创造答案”，但当用户寻求正确答案时，GPT-4也有可能给出有误导的回答。大预言模型的安全性问题仍是横亘在其大规模商用上的拉路虎。如果遇到关系重大利益的抉择时，我们是该相信GPT-4的结果还是不相信呢？

▲CAI模型训练过程（来源：Anthropic）

Claude和GPT-4都依赖于强化学习（RL）来训练偏好（Preference）模型。CAI（Constitutional AI）也是建立在RLHF的基础之上，不同之处在于，Claude的CAI的排序过程使用模型（而非人类）对所有生成的输出结果提供一个初始排序结果。这种模式的好处是节约了大量人工标注的时间和资源，可以加速大模型的训练进程，并降低成本。

CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套法规（Constitution）原则来评价回复内容。

▲SparseGPT压缩流程（来源：ISTA）

06.

GPT-4的产业未来与投资机会

6.1 大模型的技术栈

GPT-4这类大模型的用户量巨大，算力需求巨大，连接的设备和软件众多。其技术栈具有更多组件，可包括用于容器化、性能监控、商业智能、事件处理、云服务、微服务和分析的工具。

GPT-4/ChatGPT等大模型的技术栈可以分为5层：

1）应用层：将生成的AI模型（可通过接口）集成到面向用户的应用程序，运行私有模型或通过第三方接口运行模型。这一层的应用企业最多。大量企业无需研发自有的大模型，即可使用GPT-4带来的人工智能协作能力和生成能力，形成各类应用。

2）接口层：包括各种调用API和数据中心调用工具，同时提供对应的提示工程接口和模型精调接口。接口层将应用层和模型层衔接，方便应用层调用，使得开发者和用户能够以编程方式与模型进行交互。这可以简化GPT-4在实际应用中的部署和调用，从而降低使用门槛。

3）模型层：包括各类开源或非开源模型，以及各种模型的共享平台。这一层提供了不同的模型数据和功能，通过接口层为应用层提供大模型的功能支持。

4）框架层：提供训练或云部署的深度学习框架和中间件等，包括PyTorch、TensorFlow等知名深度学习框架和中间件。

5）计算层：为模型层提供模型计算和调度的各种算力支持，为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。在这一层，AI芯片会是核心瓶颈。

▲GPT-4等大模型的技术栈

目前GPT-4的几乎所有内容都通过云计算GPU或TPU来运行，使用者包括运行训练工作的模型提供商/研究实验室、进行模型部署或精调的应用企业。在GPU替代CPU成为主要的AI算力芯片之后，AI界10多年来再一次受到大规模计算能力的限制。

截至目前，GPT-4这个领域目前还未看到非常明确的技术或产品护城河。由于使用相似的模型，应用层企业在早期可能会缺乏很强的产品差异化；由于大部分云服务提供方目前只能使用同一FAB生产的GPU作为主力算力芯片，普通云提供商实质上也难以提供成本或性价比的差异化。

GPT-4等大模型目前以同质化的模式进行构建，具备统一的“图像自然语言”接口，因此短期内，除了模型参数本身不易训练好的壁垒外，暂时还未明确通过软件生态或数据管道建立自家独有竞争壁垒的路线。

就目前来说，我们还无法判断GPT-4这类多模态大模型领域是否会像互联网那样出现少数几家独大的情况。也许大模型的时代会是一个无中心的状态，每个团队都有可能成为英雄。

6.2 GPT-4的产业应用

AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。

GPT-4模型的出现对于图像/文字/语音多模态的AIGC应用具有重要意义，会对AI产业上下游产生重大影响。

▲GPT-4的应用领域（修改自OpenAI）

GPT-4对依赖人类智能处理和生成的各个领域和行业具有许多潜在的应用和影响。与其考虑哪些细分领域可以使用GPT-4这类技术辅助人工，不如考虑哪些领域还不能用GPT-4辅助，后者的名单或许更短一些。

可以快速使用GPT-4的一些行业包括（可视为会快速变革的行业的预测）：

1）教育行业：GPT-4可以作为想要学习新技能或学科的学生的辅导员或指导者。GPT-4还可以根据学生的学习目标和进度，为他们提供个性化的反馈和指导。

2）文娱行业：GPT-4作为讲故事的人或作曲家，为观众和平台输出原创且引人入胜的内容。GPT-4还可以用作游戏设计师或角色，为游戏玩家创造身临其境的互动体验。

3）商业：GPT-4可用作营销人员或销售人员，为顾客和客户创建有效且有说服力的话术。GPT-4还可以用作客户服务代理或聊天机器人，以快速准确地响应查询和投诉。

4）新闻：GPT-4可用作记者或编辑，以生成有关各种主题和事件的高质量和真实的新闻文章。GPT-4还可以用作新闻检查器或验证器，用于检测和纠正错误信息和假新闻。

5）医疗大健康：医生或护士可以使用GPT-4作为助手诊断和治疗患有各种疾病的患者。GPT-4也可以用作治疗师或健康顾问，提供心理健康支持和建议。

6）法律：GPT-4可以作为律师或法官助理起草和审查法律文件和合同。

7）生命科学：GPT-4及其模型的生物分支可用于从用于临床试验的合成数据创建到基于蛋白质折叠模型的生成式蛋白质设计以加速药物发现，再到学术论文的研究总结。虽然采用还处于早期阶段，但加速药物发现和批准、改善患者疗效和节省医疗成本的潜力是巨大的。

8）供应链和物流：借助GPT-4的思维链能力来进行自动化产品开发，包括设计和组件替换，从而以更低的成本生产出具有更高性能和可持续性的新产品。GPT-4还可支持文档自动化和合同生成，以更好的简化工作流程。

随着算法技术和算力技术的不断进步，GPT-4也会进一步走向更先进功能更强的版本，在越来越多的领域进行应用，为人类生成更多更美好的对话和内容。

6.3 GPT-4对我们和未来的影响

GPT-4这类多模态大模型技术会对我们每个人的生活和工作产生一系列的影响。例如：

1）GPT-4会极大的影响宣传和社交。以后GPT-4这类技术会在互联网上横行，我们会很难分辨到底是“大众的声音”还是“中心服务器的声音”，大量没有主见的人可能会盲从于GPT-4这类技术生成的观点，人类会变成机器的复读机。同时GPT-4工具会大量渗透入普通人的社交，“唯有套路得人心”的场景会遍地开花。

2）AI大量替代低端重复性沟通和多模态工作。GPT-4会与机器人技术结合，从云渗透到端，进入每个人的日常生活。操作系统和办公软件的交互UI会大量被大模型主宰化。也许开始会有很多人因为AI技术的替代而失业，逐渐更多的人借助GPT-4这类技术获得更高的效率并成为自然语言程序员，人类开始剥削机器，创造力和自然情感成为人类能坚守的宝贵特质。

3）各种考核将从知识型考核转向综合能力考核。知道多少或者会什么外语已经不重要，工作经验或技术经验也只是看是否拥有更先进的GPT模型或算力。一些曾经的热门专业可能会逐渐凋落。人类下一代从人类“内卷”过渡到“人机互卷”，高层次能力竞争会更加激烈。

GPT-4这类多模态大模型到底会给我们每个人带来什么样的具体影响，也许是现在的我们还不能完全想象的。但这影响一定是巨大和深远的。毕竟“圣杯”的语义不仅仅代表贵重，也代表了神奇和不可思议，甚至是独一无二。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

120名顶级技术专家用GPT-4搞出的脑洞发明大赏

2023-04-27 15:18

GPT-4 重磅发布，有哪些升级和变化？

2023-04-27 15:17