> 自媒体 > (AI)人工智能 > OpenAI 和谷歌最怕的,是一张「开源笑脸」
OpenAI 和谷歌最怕的,是一张「开源笑脸」
来源:金融界
2023-06-16 21:56:51
524
管理

作者|美漪编辑|靖宇

“我们没有护城河,OpenAI也没有。”

在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的AI竞赛中,虽然谷歌与OpenAI在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

这个力量就是“开源社区”,它才是谷歌和OpenAI最大的敌人。

而开源社区的顶流,当属Hugging Face了。作为一个AI领域的Github,它提供了大量高质量的开源模型与工具,将研发成果最大程度地惠及社区,极大地降低了AI的技术门槛,推进了AI的“民主化”进程。

它的创始人之一,Clément还曾公开表示:“在NLP或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。”

Hugging Face创立于2016年,几年间连获5轮融资,目前估值已经飙到20亿美元,Github上的星标数量已经超过了9.8w,稳居热门资源库之列。

那么这家公司是做什么的?是如何逆袭成为开源界的“顶流”的?它的发展模式又是怎样的呢?

01 NLP开启逆袭之路

Hugging Face是一家以自然语言处理(NLP)技术为核心的AI初创公司。

它是由法国连续创业者ClémentDelangue(曾创办笔记平台VideoNot.es,媒体监测平台mention以及被Google收购的移动开发平台Moodstocks等项目)和Thomas Wolf、Julien Chaumond一起创办的,于2016年成立,总部设在美国纽约。

其中的两位创始人ClémentDelangue和Thomas Wolf都是自然语言处理领域的专家。在不断推进Hugging Face的发展的过程中,他们被视为当代NLP领域的先锋。

他们创办Hugging Face的初衷,是为年轻人带来一个“娱乐型”的“开放领域聊天机器人”,就像科幻电影《Her》里面的AI那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。

也正因如此,Hugging Face的名字来源于一个张开双手的可爱笑脸emoji。

2017年3月9号,Hugging FaceApp在iOS AppStore正式推出,就得到了不少关注,还拿到了包括SVAngel、NBA球星杜兰特等投资人在内的120万美元的天使投资。

为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。

同时,Hugging Face团队在GitHub上将此库的免费部分开源,目的是从用户共创中获得开发灵感。

到了2018年,Hugging Face仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于AI应用程序,这个笑脸emoji也开始被广大AI开发者们所熟知。

恰巧同年,谷歌推出基于双向Transformer的大规模预训练语言模型BERT,开启了AI模型的“内卷时代”。

在这样的大环境下,Hugging Face做起了提供AI模型的服务,随之迎来了自己的“黄金时代”。

它先是开源了PyTorch-BERT;随即,又整合了它先前贡献的NLP领域的预训练模型,发布了Transformers库。

Transformers库提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助Transformers库,开发者可以便捷地使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动QA等AI任务,节省大量的时间和计算资源。

简而言之,Transformers库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助Transformers库,将模型应用到产品开发和工作流程中。

Transformers库也因此迅速地流行起来,成为了GitHub史上增长最快的AI项目。

Hugging Face在Github上的Star曲线,图片来自于LuxCapital

Hugging Face的创始人之一ClémentDelangue也不禁感慨,“我们发布东西时没有考虑太多,而社区的爆炸式增长甚至让我们感到惊讶。”

面对如此多的开发者,Hugging Face顺理成章地建立了自己的社区,Hugging FaceHub;同时,调整产品战略,不再局限于自然语言处理,而是将机器学习的不同领域进行融合,探索创建新的用例,着手构建一套完整的开源产品矩阵。

截至2023年4月,Hugging Face共享了16,6894个训练模型,2,6900个数据集,涵盖NLP、语音、生物学、时间序列、计算机视觉、强化学习等领域,搭建了完整的AI开发生态。

这大大降低了相关研究与应用的门槛,让Hugging Face成为AI社区最具影响力的技术供应商。

目前,这些模型已经服务了数万家企业进行资源开发,帮助科研人员和相关从业人员更好地构建模型、更好地参与到产品和工作流程中,其中不乏Meta、亚马逊、微软、谷歌等知名AI团队。

使用Hugging Face的公司和产品|Hugging Face

在资本市场,Hugging Face也同样备受青睐。

在2022年5月,团队完成了由LuxCapital领投、红杉资本参投的1亿美元C轮融资,估值狂飙到20亿美元。

面对资本的追捧,Hugging Face的创始人表现的极其冷静,表示拒绝了多个“有意义的收购邀约”,并且不会像GitHub那样出售自己的业务。关于Hugging Face的未来,它的创始人还有一些有趣的想法:“我们希望成为第一家以表情符号上市的公司,而不是三个字母的股票代码。”

02 AI大模型的Github

凭借开源获得了万众瞩目的Hugging Face,也格外注重社区的建设,而刚刚诞生不久的Hugging FaceHub,现在俨然已经成为AI开发者的大本营。

Hugging FaceHub是一个探索、实验、合作,并建立机器学习技术的中心场所。在这里任何人都可以分享和探索模型、数据集等,大家轻松合作,共同构建机器学习模型,Hugging FaceHub也因此被称做“机器学习之家”。

它是Hugging Face坚持“开源”的产物,也是它的核心。正如官网的宣传语所述:AI社区,建设未来。

Hugging Face的开发者页面|Hugging Face

Hugging Face的创始人曾公开表示“Hugging Face的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。”

他还补充说,“没有任何一家公司,包括科技巨头,能够独自『解决AI问题』,而我们实现这一目标的唯一途径,是通过以社区为中心的方式,分享知识和资源。”

因此,公司致力于在Hugging FaceHub上建立最大的模型、数据集、演示和指标的开源集合,以使每个人都能利用机器学习进行探索、实验、合作和构建技术,从而实现AI“民主化”的目标。

目前,Hugging FaceHub提供超过12万个模型(Models)、2万个数据集(Datasets)和5万个演示应用程序(Spaces),而且所有这些都是开源、公开、免费的。

Hugging Face提供的API托管业务|Hugging Face

Hugging FaceHub对所有机器学习模型开放,并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然语言处理库的支持,其中,最核心的自然语言处理库是Transformers库。

Transformers库支持PyTorch、TensorFlow和JAX之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过InferenceAPI(推理API),用户可以直接使用Hugging Face开发的模型与数据集,进行推理、迁移学习,这让Transformers框架在性能与易用性上达到业界领先水平,彻底改变了深度学习在NLP领域的发展模式。

Hugging FaceHub堪称是AI界的“Github”|Hugging Face

此外,该平台还提供了一些实用工具,如模型版本控制、测试集成、共享和协作等,可以帮助开发人员更好地管理和共享模型和数据集。

因此,在Hugging FaceHub,任何开发者或者工程团队都可以通过接口,使用数千个模型的推理API,轻松下载和训练最先进的预训练模型,完成不同模式的常见任务,例如自然语言处理、计算机视觉、音频、多模态等,在几分钟内构建自己的机器学习驱动的应用程序,省去了从头开始训练模型,所需的大量时间和资源。

在此基础上,他们还可以在自己的账号下创建自己的仓库,用于存储和分享已经训练好的模型、数据集和脚本,同时与强大的社区分享交流,轻松协作完成ML工作流程。

简而言之,Hugging FaceHub为研究者提供了一个平台,去展示那些他们想要分享的模型,测试他人的模型,以此来深入研究这些模型的内部架构,共同促进ML的发展。而此前,AI对前端开发者来说似乎遥不可及,毕竟到目前为止,只有少数代码生成的AI系统向公众免费开放。

也正因如此,Hugging Face决定在社区提供开源模型和API来改变这种状况,主动承担起AI科研走向应用的这个过程中复杂、细碎的工作,使得任何AI从业者都可以便捷地使用这些研究模型和资源。用Hugging Face自己的话来讲,他们所做的事情,就是要架起AI科研和应用之间的桥梁。

除了提供便利,Hugging Face还积极采取措施强化Hub的安全性,确保用户的代码、模型和数据是安全的,让用户放心使用。

例如,在模型库配备模型卡,以告知用户每个模型的限制和偏见,从而促进这些模型被负责任地使用和开发;在数据集设置访问控制功能,允许组织和个人可以出于许可和隐私考虑,创建私人数据集,并且可以自行处理其他用户的访问请求。

还值得一提的是,为了进一步使自然语言处理技术“民主化”,Hugging FaceHub上还开设了NLP课程——Hugging Facecourse。

该课程将使用Hugging Face生态系统中的数据库(Hugging FaceTransformers、Hugging FaceDatasets、Hugging FaceTokenizers和Hugging FaceAccelerate),讲解自然语言处理(NLP)的有关知识。它是完全免费的,甚至没有广告。

简而言之,Hugging FaceHub就像是机器学习领域的GitHub。一个由社区开发者驱动的平台,提供大量资源,让开发人员可以在机器学习(ML)模型、数据集和ML应用程序上,不断探索、创新和互相协作,通过分享知识和资源以加速和推进AI发展。

03 “开源”带动“商业”

那么问题来了,一家提供“平台社区”的“开源”公司,又是如何盈利的呢?

首先,“开源”就是一个正确的决定。

Hugging Face凭借开源项目Transformers,积累了巨大的影响力,聚集了广大开发者构建了庞大的社区Hugging FaceHub,也赢得了客户与投资者的信任,这使得它的商业化转型水到渠成。

对此,红杉资本合伙人PatGrady也表示,“他们优先考虑的是应用,而不是变现,我认为这是正确的做法。他们看到了Transformer模型在NLP之外的应用方式,看到了成为GitHub的机会,这不仅是面向NLP,而且会延伸到机器学习的每个领域。”

而且,纵观过去十年,市场上初创公司的创业历程,会发现开源模式的商业可行性得到过有力的印证。像MongoDB、Elastic、Confluent等,都是收入增长最快的开源公司,它们都实现了盈收,并且还在市场中存活了下来。

Hugging Face的创始人之一,Clément也因此坚信,“初创公司可以通过某种方式为开放的社区赋能,此种方法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。”

甚至公开表示,“考虑到开源机器学习的价值和它的主流地位,其使用量就是递延收入。机器学习会成为技术开发的默认方式,而且Hugging Face会成为这方面的头号平台,并创造出数十亿美元的收入。”

因此,Hugging Face选择了“开源带动商业”,这一商业化发展路径,并在2021年开始提供付费功能。

Hugging Face的收费项目|Hugging Face

目前,Hugging Face的盈利业务主要有三类:

付费制会员:提供更加优质的服务和社区体验,来获得收益;

数据托管:根据不同参数需求,提供不同的按小时收费托管服务;

AI解决方案服务:目前的主打产品,围绕NLP、Vision等方向为客户提供定制化解决方案,以获得技术服务费用。

值得一提的是,从2020年开始,Hugging Face就开始做面向企业的定制自然语言模型,并推出了包括AutoTrain、InferenceAPI&;Infinity、PrivateHub、ExpertSupport等,针对不同开发者类型的个性化产品。

目前,1000多家公司已经成为了Hugging Face的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和eBay。

2021年,Hugging Face已经实现收入1千万美元,从数据上来看,Hugging Face这套的“开源带动商业”的策略是成功的。

这也印证了Hugging Face的CEO,Clément所说的,“公司不需要从创造的价值中获取100%的红利,只需将其中1%的价值变现,但即便只是1%,也足够让你成为一家高市值的公司。”

简而言之,Hugging Face凭借开源社区积累影响力,而后逐步向SaaS产品和企业服务拓展。这种渐进式的转型,让Hugging Face在开源和商业化之间,取得了良好的平衡,也是其能取得成功的重要原因。这种发展策略也让Hugging Face成为了AI界独树一帜的存在,并为其他AI初创公司树立榜样。

但是,开源生态也有它自己的软肋,因为商业化的发展很可能会伤害到自然生长的社区环境。对此,Hugging Face的做法是加强对技术的管控,维护自己的开源生态;同时,向科研领域深挖。

“机器学习技术仍然还处于早期发展阶段,开源社区的潜力是巨大的。在未来5到10年,我们一定还会看到更多开源机器学习公司的崛起。”

Hugging Face的CEOClément说道。

本文源自极客公园

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT:你的聊天机器人好友,还是未来的超级敌人?
书接上文。我是一个很纠结的人,对 ChatGPT 的未来充满着好奇和恐惧。好..
记者卧底世界杯赌球网站!平台“代理”佣金高得惊人..
眼下,2022年卡塔尔世界杯激战正酣11月24日中央纪委国家监委网站发布了题..
笔记本就能运行的ChatGPT平替来了,附完整版技术报告
机器之心报道编辑:陈萍、蛋酱GPT4All 是基于大量干净的助手数据(包括代..
站上大模型制高点:给不输GPT-4的文心大模型4.0,来了一场技术揭秘..
机器之心报道作者:泽南我们即将进入一个 AI 原生的时代,一个人机交互的..
53岁女子出轨27岁男子,聊天记录不堪入目,网友:丢八辈子人了..
一段令人瞩目的年龄差婚外情引发了社会广泛讨论,这位53岁的女子与27岁男..
ChatGPT
ChatGPT 是一种大型语言模型,具有以下的优势:1. 自然语言生成:ChatGPT..
腾讯QQ崩溃官方回应来了;京东发力ChatAI推出ChatJD |节点晚报..
节点晚报一、今日头条华为车BU2023年开始背负营收指标,余承东称人事变动..
回顾ChatGPT的前世今生,“超强AI”是怎样练成的?
ChatGPT的诞生,无疑是今年最令人兴奋的科技创新之一,与之相关的AI主题..
马斯克:OpenAI和我创建它时的初衷背道而驰
开始走向“黑红”的ChatGPT引发了“AI威胁论”支持者马斯克的强烈不满。..
关于作者
月深沉(普通会员)
文章
640
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索