> 自媒体 > (AI)人工智能 > 推荐9个优秀的 Github 开源项目
推荐9个优秀的 Github 开源项目
来源:Echa攻城狮
2023-06-29 22:18:14
800
管理

大家好,我是Echa。

最近这段时间小编陆续收到粉丝们的私信,提到的最多的问题就是有没有非常优秀的开源项目推荐,有没有AI相关的开源项目推荐,有没有的Chatgpt开源项目推荐等等。说句话实话,优化开源项目不是那么容易能找到,不是百里挑一,那也是几十挑一。即使找到了还得自身要了解,而且还得抽空搭建部署成功后,才整理出来分享给粉丝们。

小编也是随着粉丝们的意愿,百忙之中精选了9个优秀的GitHub 开源项目,希望对大家学习有所帮助。

全文大纲transformers 提供了数以千计的预训练模型Open Chat Video Editor 是开源的短视频生成和编辑工具yuzu 是基于 C 的 Switch 模拟器Ryujinx 是基于 C# 的任天堂 Switch 模拟器Chat2DB 一个集成了AIGC的数据库客户端工具privateGPT 你的私人 GPTWebCPM 一个使用中文预训练模型进行互动网页搜索的项目gpt4free 变相「开源」GPT-4ChatGPT-Prompt-Engineering-for-Developers-in-Chinese 面向开发者的 ChatGPT 提示词工程transformers 提供了数以千计的预训练模型

官网:https://huggingface.co

Github:https://github.com/huggingface/transformers

Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。

Transformers 提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。同时,每个定义的 Python 模块均完全独立,方便修改和快速研究实验。

Transformers 支持三个最热门的深度学习库: Jax, PyTorch 以及 TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。

为什么要用 transformers?

便于使用的先进模型:NLU 和 NLG 上表现优越对教学和实践友好且低门槛高级抽象,只需了解三个类对所有模型统一的API更低计算开销,更少的碳排放:研究人员可以分享已训练的模型而非每次从头开始训练工程师可以减少计算用时和生产环境开销数十种模型架构、两千多个预训练模型、100多种语言支持对于模型生命周期的每一个部分都面面俱到:训练先进的模型,只需 3 行代码模型在不同深度学习框架间任意转移,随你心意为训练、评估和生产选择最适合的框架,衔接无缝为你的需求轻松定制专属模型和用例:我们为每种模型架构提供了多个用例来复现原论文结果模型内部结构保持透明一致模型文件可单独使用,方便魔改和快速实验

什么情况下我不该用 transformers?

本库并不是模块化的神经网络工具箱。模型文件中的代码特意呈若璞玉,未经额外抽象封装,以便研究人员快速迭代魔改而不致溺于抽象和文件跳转之中。Trainer API 并非兼容任何模型,只为本库之模型优化。若是在寻找适用于通用机器学习的训练循环实现,请另觅他库。尽管我们已尽力而为,examples 目录中的脚本也仅为用例而已。对于你的特定问题,它们并不一定开箱即用,可能需要改几行代码以适之。

transformers 实现流程图

Open Chat Video Editor

Github:https://github.com/SCUTlihaoyu/open-chat-video-editor

Open Chat Video Editor 是基于 AI 的短视频创作工具,解放你的生产力。基于 ChatGPT、Alpaca 等大模型,可以将短文本、网页链接一键转成短视频。

如下图是技术框架图:整体流程是将短文本输入到模型,来生成文案。通过图像搜索、图像 AI 生成技术来寻找配图,通过视频搜索、视频生成等技术来找合适的视频片段,最终通过语音合成、BGM 匹配、字幕合成打造一个短视频作品。

Open Chat Video Editor是开源的短视频生成和编辑工具,整体技术框架如下:

yuzu 是基于 C 的 Switch 模拟器

官网:https://yuzu-emu.org/

Github: https://github.com/yuzu-emu/yuzu

yuzu是世界上最受欢迎的开源任天堂Switch模拟器,由Citra的创建者创建。

它是用C 编写的,考虑到了可移植性,我们积极维护Windows和Linux的构建。

应该是因为 塞尔达·王国之类 游戏的发布, Switch 模拟器相关的开源项目都登上了 GitHub 热榜。

其中,Ryujinx 是基于 C# 的任天堂 Switch 模拟器,通过这个模拟器你能在 Windows 上玩 Switch 上的游戏,目前已经获得了 21.7K 的 Star。

Chat2DB 一个集成了AIGC的数据库客户端工具

官网:http://www.SQLgpt.cn/

Github:https://github.com/alibaba/Chat2DB

WebCPM 一个使用中文预训练模型进行互动网页搜索的项目

Github:https://github.com/thunlp/WebCPM

2021 年 12 月,OpenAI 正式推出 WebGPT,该项目的横空出世,标志着基于网页搜索的问答新范式的诞生。

在此之后,New Bing 首先将网页搜索功能整合发布,随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。

大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。

近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了 中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM,相关工作录用于自然语言处理顶级会议 ACL 2023。

WebCPM 是面壁智能自研大模型工具学习引擎 BMTools 的首个成功实践,其特点在于其信息检索基于交互式网页搜索,能够像人类一样与搜索引擎交互从而收集回答问题所需要的事实性知识并生成答案。

WebCPM 背后的基础模型 CPM 是由面壁智能与 OpenBMB 开源社区开发的百亿参数中文语言模型,占据多个中文领域语言模型排行榜前列。

WebCPM 搜索交互界面和数据集

为推动相关领域发展,这篇 ACL 论文的研究团队首先构建了一个 开源的交互式网页搜索界面,用于记录人类为开放式问题收集相关信息时的网页搜索行为。

该界面底层调用必应搜索 API 支持网页搜索功能,囊括 10 种主流网页搜索操作(如点击页面、返回等等)。

在这个界面中,用户可以执行预定义的操作来进行多轮搜索和浏览。在找到网页上的相关信息时,他们可以将其作为支持事实记录下来。

当收集到足够的信息后,用户可以完成网页搜索,并根据收集到的事实来回答问题。同时,界面会自动记录用户的网页浏览行为,用于构建 WebCPM 数据集。

单个子任务的性能评估结果,作者测试了包括 CPM 模型在内的多个有代表性的中文大模型

单个子任务评估

作者测试了多个有代表性的中文大模型,并得出以下结论(结果如上图所示):不同模型在四个子任务上的性能各有优劣。

例如在搜索行为预测、查询语句生成和支持事实摘要中,mT0 的表现优于 mT5,但在综合信息方面表现较差。

此外,CPM 系列模型的性能随着模型参数量的增加也不断提高。得益于 scaling law ,更大的模型通常拥有更强的理解和生成能力,能表现出更好的下游任务性能。

整体 pipeline 评测

对于每个测试问题,作者比较了模型(CPM 10B 模型)和人类用户使用搜索引擎回答问题和做相同任务的表现,并进行人工评测。

具体而言,给定一个问题和模型与人类分别给出的答案,标注员将根据多个因素(包括答案整体实用性、连贯性和与问题的相关性)决定哪个答案更好。

从下图(a)的结果可以得出以下结论:模型生成的答案在 30% 的情况下与人写的答案相当或更优。

这个结果表明整个问答系统的性能在未来仍有巨大的提升空间(例如训练性能更加强大的基底模型);当将人工收集的事实应用于信息综合模型时,性能提高到了45%,这可以归因于收集的事实质量的提高。

近年来,大模型在诸多领域展现出惊人的应用价值,持续刷新各类下游任务的效果上限。尽管大模型在很多方面取得了显著的成果,但在特定领域的任务上,仍然存在一定的局限性。

这些任务往往需要专业化的工具或领域知识才能有效解决。因此,大模型需要具备调用各种专业化工具的能力,这样才能为现实世界任务提供更为全面的支持。

gpt4free 变相「开源」GPT-4

官网:https://discord.gg/gpt4free

Github:https://github.com/xtekky/gpt4free

ChatGPT-Prompt-Engineering-for-Developers-in-Chinese 面向开发者的 ChatGPT 提示词工程

Github:https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese

ChatGPT 上线至今,已经快 5 个月了,但是不少人还没真正掌握它的使用技巧。

其实,ChatGPT 的难点,在于 Prompt(提示词)的编写,OpenAI 创始人在今年 2 月时,在 Twitter 上说:「能够出色编写 Prompt 跟聊天机器人对话,是一项能令人惊艳的高杠杆技能」。

因为从 ChatGPT 发布之后,如何写好 Prompt 已经成为了一个分水岭。熟练掌握 Prompt 编写的人,能够很快让 ChatGPT 理解需求,并很好的执行任务。

目前你在网上看到的所有 AI 助理、智能翻译、角色扮演,本质上还是通过编写 Prompt 来实现。

只要你的 Prompt 写的足够好,ChatGPT 可以帮你快速完成很多工作,包括写爬虫脚本、金融数据分析、文案润色与翻译等等,并且这些工作还做的比一般人出色。

之前我经常听到有同学抱怨,说 ChatGPT 也就那样,我说一句他回一句,并没有网上说的那么厉害,其实,你确定真正掌握 Prompt 应用了吗?

打个比方,至今还有不少人,不知道在给 ChatGPT 提供代码或者翻译文本时,需要使用引号分隔符来传给 ChatGPT,让它输出更准确的结果。

为了帮助大家能更好的掌握 Prompt 工程,DeepLearning.ai 创始人吴恩达与 OpenAI 开发者 Iza Fulford 联手推出了一门面向开发者的技术教程:《ChatGPT 提示工程》。

吴恩达老师相信大家都有所耳闻,作为人工智能界的重量级大佬,我们经常能在 AI 技术界看到他活跃的身影。

另一位讲师 Iza Fulford,大家可能不太熟悉,这里重点介绍下。

她是斯坦福本硕高材生,ChatGPT 之前在 GitHub 开源的那个文档搜索插件:Retrieval,就是出自她之手。

另外,她还是 OpenAI Cookbook(官方手册)的编撰者,如果你最近有深入了解过 GPT 相关的技术,那这本手册于你而言应该不会陌生。

该手册里面提供了大量 GPT 相关的使用案例,能帮助你快速上手并掌握 GPT 模型的开发与应用。

可以说,这两位大佬联手,推出的教程绝对不会差。更令人振奋的是,这个教程完全对外开放,所有人均可免费学习!

那么,这个教程里面主要讲了什么内容呢?

该教程总共分为 9 个章节,总一个多小时,里面主要涵盖:提示词最佳实践、评论情感分类、文本总结、邮件撰写、文本翻译、快速搭建一个聊天机器人等等。

所以当下 ChatGPT 的流行案例,你都能在这个教程里面找到,十分全面!

除了能在这个教程里面学到如何使用 Prompt,你还能学到 GPT 接口调用开发知识。有需要的话,你甚至能在这个教程之上去延伸扩展,搭建出一款令人惊艳的应用。

目前该教程已经在 DeepLearning.ai 正式上线,官网上线提供了可交互式的 Notebook,让你可以一边学习,一边跟着编写代码实践。

不过当下这个教程只有英文版,为了让看不懂英文的同学也能第一时间学习并掌握这项技术。

最后

一台电脑,一个键盘,尽情挥洒智慧的人生;几行数字,几个字母,认真编写生活的美好;

一 个灵感,一段程序,推动科技进步,促进社会发展。

创作不易,喜欢的老铁们加个关注,点个赞,打个赏,后面会不定期更新干货和技术相关的资讯,速速收藏,谢谢!你们的一个小小举动就是对小编的认可,更是创作的动力。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
帝王之星(普通会员)
文章
390
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186789 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索