> 自媒体 > (AI)人工智能 > 使用 GPT 基于您自己的文档构建聊天机器人的分步指南
使用 GPT 基于您自己的文档构建聊天机器人的分步指南
来源:科技下沉
2023-04-08 19:05:15
1343
管理

与 ChatGPT 聊天既有趣又有益——过去一段时间我一直在用它闲聊并探索一些新的想法来学习。但这些都是更随意的用例,新奇感很快就会消失,尤其是当你意识到它会产生幻觉时。

我们如何以更高效的方式使用它?随着 OpenAI 最近发布的 gpt 3.5 系列 API,我们可以做的不仅仅是聊天。QA(问答)是企业和您个人使用的一个非常有效的用例——您用自然语言向机器人询问您自己的文档/数据,它可以通过从文档中检索信息并生成响应来快速回答您[1 ]. 您可以将其用于客户支持、综合用户研究、您的个人知识管理等等!

向机器人询问与文档相关的问题。使用稳定扩散生成的图像。

在本文中,我将探讨如何根据自己的数据构建自己的问答聊天机器人,包括为什么某些方法不起作用,以及使用 llama 高效构建文档问答聊天机器人的分步指南-索引和 GPT API。

(如果你只想知道如何搭建问答聊天机器人,可以直接跳到“一步步搭建文档问答聊天机器人”部分)

探索不同的方法

我的日常工作是产品经理——阅读客户反馈和内部文件占据了我生活的很大一部分。当 ChatGPT 出来时,我立刻想到了用它作为助手来帮助我综合客户反馈或查找有关我正在开发的功能的相关旧产品文档的想法。

我首先想到的是用自己的数据微调GPT模型来达到目的。但是微调需要花费相当多的钱,并且需要一个带有示例的大数据集。也不可能每次文档发生变化时都进行微调。更关键的一点是,微调根本不能让模型“知道”文档中的所有信息,而是教会模型一种新技能。因此,对于(多)文档 QA,微调不是可行的方法。

我想到的第二种方法是通过在提示中提供上下文来进行提示工程。例如,我可以在实际问题之前附加原始文档内容,而不是直接提出问题。但是 GPT 模型的注意力跨度有限——它只能在提示中接受几千个单词(大约 4000 个标记或 3000 个单词)。如果我们有数千封客户反馈电子邮件和数百份产品文档,就不可能在提示中给出所有上下文。如果您将长上下文传递给 API,成本也会很高,因为定价是基于您使用的令牌数量。

我会根据以下上下文问您问题:— 上下文开始 —您的文档内容— 上下文结束 —我的问题是:“用户希望在应用程序中看到哪些功能?”

(如果想了解更多关于GPT的微调和提示工程,可以阅读文章:https ://medium.com/design-bootcamp/3-ways-to-tailor-foundation-language-models-like -gpt-for-your-business-e68530a763bd )

由于提示对输入标记的数量有限制,我想到了首先使用算法搜索文档并挑选出相关摘录,然后仅将这些相关上下文与我的问题一起传递给 GPT 模型。当我研究这个想法时,我遇到了一个名为 gpt-index(现在更名为 LlamaIndex)的库,它正是我想做的,而且使用起来很简单 [2]。

从文档中提取相关部分,然后将它们提供给提示。来自https://www.flaticon.com/的图标

在下一节中,我将提供有关使用 LlamaIndex 和 GPT 在您自己的数据上构建问答聊天机器人的分步教程。

逐步构建文档问答聊天机器人

在本节中,我们将基于现有文档使用 LlamaIndex 和 GPT (text-davinci-003) 构建一个问答聊天机器人,以便您可以提出有关文档的问题并从聊天机器人那里获得答案,所有这些都使用自然语言。

先决条件

在我们开始教程之前,我们需要准备一些东西:

您的 OpenAI API 密钥,可在https://platform.openai.com/account/api-keys找到。您的文件的数据库。LlamaIndex 支持许多不同的数据源,如 Notion、Google Docs、Asana 等 [3]。对于本教程,我们将只使用一个简单的文本文件进行演示。本地 python 环境或在线Google Colab 笔记本。工作流程

工作流程很简单,只需几个步骤:

使用 LlamaIndex 为您的文档数据建立索引用自然语言查询索引LlamaIndex 将检索相关部分并将它们传递给 GPT 提示符使用相关上下文询问 GPT 并构建响应

LlamaIndex 所做的是将您的原始文档数据转换为矢量化索引,查询效率非常高。它将使用该索引根据查询和数据的相似性找到最相关的部分。然后,它将检索到的内容插入将发送给 GPT 的提示中,以便 GPT 具有回答您问题的上下文。

配置

我们需要先安装库。只需在您的终端或 Google Colab 笔记本上运行以下命令。这些命令将同时安装 LlamaIndex 和 OpenAI。

!pip 安装 llama-index !pip 安装 openai

接下来,我们将在 python 中导入库并在新的 .py 文件中设置您的 OpenAI API 密钥。

#从llama_index导入必要的包import GPTSimpleVectorIndex, Document, SimpleDirectoryReader import os os.environ[ 'OPENAI_API_KEY' ] = 'sk-YOUR-API-KEY'

构建索引并保存

安装并导入所需的库后,我们需要为您的文档构建索引。

要加载文档,您可以使用 LllamaIndex 提供的 SimpleDirectoryReader 方法,也可以从字符串加载它。

# 从目录加载documents = SimpleDirectoryReader( 'your_directory' ).load_data() # 从字符串加载,假设您将数据保存到字符串 text1, text2, ... text_list = [text1, text2, ...] documents = [ text_list中t的文档 (t) ]

LlamaIndex 还提供了多种数据连接器,包括 Notion、Asana、Google Drive、Obsidian 等。您可以在https://llamahub.ai/找到可用的数据连接器。

加载文档后,我们可以简单地构建索引

# 构造一个简单的向量索引 index = GPTSimpleVectorIndex(documents)

如果你想保存索引并加载它以供将来使用,你可以使用以下方法

# 将索引保存到 index.json 文件index.save_to_disk( 'index.json' ) # 从保存的 index.json 文件加载索引 index = GPTSimpleVectorIndex.load_from_disk( 'index.json' )

查询索引并获得响应

查询索引很简单

# 查询索引response = index.query( "用户希望在应用中看到什么功能?" ) print (response)

瞧!您将打印出您的答案。在幕后,LlamaIndex 将接受您的提示,在索引中搜索相关块,并将您的提示和相关块传递给 GPT。

高级用法的一些注意事项

上面的步骤仅显示了使用 LlamaIndex 和 GPT 进行问答的非常简单的入门用法。但您可以做的远不止于此。事实上,您可以将 LlamaIndex 配置为使用不同的大型语言模型 (LLM),为不同的任务使用不同类型的索引,使用新索引更新现有索引等。如果您有兴趣,可以阅读他们的文档https://gpt-index.readthedocs.io/en/latest/index.html

一些最后的话

在本文中,我们了解了如何结合使用 GPT 和 LlamaIndex 来构建文档问答聊天机器人。虽然 GPT(和其他 LLM)本身很强大,但如果我们将它与其他工具、数据或流程相结合,它的力量会大大增强。

您会使用文档问答聊天机器人做什么?

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT无法取代的一个职业
最近这段时间,ChatGPT火爆全网,人工智能再次成为人们热议的话题。随着A..
第一批公司已采用GPT-4,都用它来做些什么?
人工智能研究机构OpenAI 3月14日发布了其大型语言模型的最新版本GPT-4。G..
人工智能商业化提速,聊天机器人ChatGPT一夜蹿红!中国版有望两年内出现..
一夜蹿红的超级对话模型ChatGPT,搅动了寂静许久的人工智能业界“一池春..
微软Bing Chat现已处于开放预览阶段 将增加聊天记录、可视化搜索等功能..
微软今天向所有人提供其Bing GPT-4聊天机器人,不再需要等待名单,只需要..
Science:ChatGPT缩小了打工人的差距
克雷西 发自 凹非寺量子位 | 公众号 QbitAIScience正刊发表对ChatGPT的调..
ChatGPT最近被微软内部禁用!GPTs新bug:数据两句话就能套走..
杨净 衡宇 发自 凹非寺量子位 | 公众号 QbitAI注意!你创建GPTs时上传的..
“我手工活一窍不通”,广东一小学校长与女主任不雅聊天记录曝光..
9月24日,广东潮州潮安区一小学校长徐某某,与另一小学女副校长杨某的不..
【震撼】感情觉醒的机器人,GPT和Ameca联手诞生,...
感情觉醒的机器人,竟然是GPT和IAmeca联手打造的。它不仅能识别人类的表..
中文ChatGPT行业版将大量涌现,或革了5G消息的命
ChatGPT 火了,国内各种蹭热点,一点不亚于元宇宙,还有不少是边踩元宇宙..
关于作者
我是歌王(普通会员)
文章
635
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索