规模庞大的GPT-3
在机器学习领域内,像GPT-3这样的语言模型只是根据前面给定的单词(又称为上下文)来预测句子中的下一个单词。这是一种超强的自动补齐系统,类似于你在写邮件时使用的系统。初看之下,能够预测句子中的下一个单词似乎很简单,但实际上许多了不起的项目都是以该项技术为基础,例如聊天机器人、自动翻译以及常见问题解答等。
截止到目前,GPT-3是有史以来训练复杂度最高的语言模型,共有1,750亿个参数,如此多的神经网络结点需要经过数周密集的云计算微调后,才能让这个AI发挥神奇的作用。虽然这个参数量非常庞大,但远不及人脑在推理、感知以及情感能力方面的数百万亿(甚至千万亿)神经突触。
由于规模庞大,GPT-3可直接用于新任务以及简短的演示,而无需针对特定数据进行进一步的微调。这意味着该模型只需学习几个最初的示例,就可以成功地理解需要执行的任务。与之前简单的语言模型相比,此属性有很大的改进,而且更接近人类的实际行为,比如我们并不需要成千上万的例子来区分猫和狗。
由于数据来源混杂,从各种基本的书籍到整个互联网,从维基百科到《纽约时报》,因此GPT-3的训练数据有明显的偏差,但它在将自然语言转换为网站,创建基本的财务报告,破解语言谜题,乃至生成吉他指法等方面都有出色的表现。那么,在医疗保健领域又如何呢?
我们的第一项测试表明,似乎GPT-3可用于基本的管理任务,例如预约管理。但是当深入研究时,我们发现该模型对时间没有清晰的了解,也没有任何恰当的逻辑。有时它的记忆力明显不足,如下图所示,在处理预约的时候,患者曾明确表示下午6点之后没空,但GPT-3还是推荐了下午7点。
当你坐在客厅的沙发上,放松休息并与GPT-3交谈时,它会倾听患者的问题,甚至提出一些可行的建议。这可能是GPT-3在医疗保健中最出色的用例之一。而实际上,1966年的Eliza算法仅通过模式匹配就实现了像人类一样的行为,所以GPT-3的成果也并不足为奇。
GPT-3与Eliza的关键区别在于,Eliza这类基于规则的系统能够完全控制计算机的响应。换句话说,我们确信这类系统不会给出任何可能对患者有害的说法。
然而,不幸的是与Eliza相反,在如下示例中,GPT-3却建议患者自杀……
正如其他人所观察到的那样,GPT-3输出的质量很大程度上取决于其使用的种子词汇,以两种不同方式提出同一个问题也可能得到差异非常大的两个答案。此外,该模型的各种参数(例如温度参数和top P参数)也起着重要作用。温度参数和top P参数控制着该引擎所呈现答案的风险和创造力。
温度参数在不同的温度参数设定下,对于同一个问题,我们得到了两个截然相反的答案。如下是当温度参数T = 0.9时得出的答案。
频率惩罚参数与存在惩罚参数
此外,我们还应注意频率惩罚参数与存在惩罚参数,二者既能防止单词重复又能防止主题重复。在医学上,直观地来讲我们应尽可能降低这两个参数,因为过于生硬的主题切换可能引发混乱,而且重复实际上相当有用。然而,通过比较人类两次提出的同一个问题,我们可以清楚地看到,具有重复惩罚的模型更富有同情心且更友好,而另一种设定则看起来比较冷漠且对于人类来说重复过多。下面是一个没有惩罚的例子。
而下面则是一个惩罚满格的例子:
总结
正如OpenAI所警告的那样,距离GPT-3真正在医疗保健领域大展拳脚,我们还有很长一段的路要走。由于GPT-3的训练方式,它缺乏科学和医学领域的专业知识,因此尚不能胜任医学文献记录、诊断支持、给出治疗建议或回答医生问题等工作。虽然GPT-3可能给出正确的答案,但也很有可能给出非常错误的答案,这种不一致在医疗保健领域中是站不住脚的。即使对于翻译或总结医学术语等管理任务,GPT-3的发展前景虽然良好,但距离真正为医生提供支持还需要付出很大的努力。在目前这个阶段,与采用一种雄心勃勃的通用模型相比,采用多个经过专项任务训练的监管模型更为有效。
话虽如此,GPT-3的聊天模块似乎已做好准备鞠躬尽瘁,为医生减轻重担。在结束了一天的忙碌之后,坐下来与私人医疗助手开怀畅谈,可以为你洗去一天的尘埃,抛去一天的劳累。
此外,毫无疑问,从整体上来看语言模型也将得到快速改善,这不仅会对上述用例产生积极的影响,而且也会影响到其他重大问题,例如信息结构与规范化或自动咨询汇总等。
原文:https://www.nabla.com/blog/gpt-3/
本文为 CSDN 翻译,转载请注明来源出处。
点分享
相关文章
猜你喜欢
成员 网址收录40405 企业收录2984 印章生成242719 电子证书1086 电子名片62 自媒体71431