近期,ChatGPT的更新再度引发市场热潮。想必这个产品大家都不陌生,很多人也都有使用过。而最新版本的GPT4是将各大模块进行了集成,可以在任务中选择并组合使用各种工具,包括数据分析、网页浏览和DALL·E 3。那么,我们今天就一起来深入了解一下,看看它的前世今生是什么样的,未来又将走向何方?
一、前世:ChatGPT的核心——Transformer 架构
首先,在了解ChatGPT之前,大家肯定会好奇一个问题,就是它为什么那么能聊?
核心其实很简单,More is different,量变到质变,多即不同。这其实也恰好吻合了凝聚态物理的核心思想。ChatGPT的开发归功于OpenAI,但其技术基础实际上源于谷歌在2017年的一项创新。那一年,谷歌发布了一篇论文,介绍了一种新型的神经网络架构——Transformer Architecture。这种架构专为处理自然语言而设计,最初主要被应用于语言翻译领域。
为什么Transformer架构用来处理自然语言会很有优势呢?
我们都知道,人类大脑的运作依赖于数十亿神经元所构成的复杂网络,这些神经元通过节点(Node)相互连接,共同参与信息的传递和处理。神经网络架构正是模仿了这种人脑的思维模式。在这些架构中,节点间的连接模式各异,以适应不同类型的任务。例如,图像处理通常采用卷积架构(Convolution Architecture),而早期的语言处理则采用了循环神经网络(RNN)架构。RNN架构将语言视为马尔可夫链(Markov Chain),即每个词仅与其前一个词唯一相关。然而,这种处理方式并不完全符合人类语言的实际运作规律。例如,中文等语言的语法规则相对模糊,没办法用简单的线性关系来描述。
RNN vs Transformer
图片来源:网络,截至2023.10
而Transformer架构的创新之处在于,它不将语言处理视为简单的马尔可夫链。相反,它允许每个单词与之前的所有单词建立联系,并通过大量训练来优化不同节点间的权重分配。这种方法更贴近于人类语言的模糊性和经验性特征。比如一个外国人跟我们讲中文,哪怕他讲得乱七八糟,词也乱用,我们也能猜出来他想表达什么。根据我们在中文方面的充足经验,大脑对中文的处理已经趋近完美,所以这句话我们很容易理解。那为什么我们看很多外国人都是一个样子很难分辨呢?这就是因为我们的经验不够,对于外国人面部识别的节点权重分配不到位的原因。
$工银科创板50ETF联接A(OTCFUND|011614)$
$工银科创板50ETF联接C(OTCFUND|011615)$
二、今生:OpenAI都做了什么?
在ChatGPT的开发过程中,OpenAI在Transformer架构的基础上进行了大量复杂且繁琐的数据训练,使ChatGPT经历了多个版本的迭代,每个版本都在不断完善其语言处理能力。最初,它主要学习网络上的数据,但这导致了一些问题,如生成的内容偏向于粗俗和暴力。为了解决这一问题,后续版本采用了更加有针对性的数据源,并通过人工干预来不断纠正和优化AI的回答。
ChatGPT的训练过程
相关文章
猜你喜欢