0°

OpenAI 和谷歌最怕的,是一张「开源笑脸」

  他们要做 AI 界的 Github,瞬间做到 20 亿美元估值。

  「我们没有护城河,OpenAI 也没有。」

  在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的 AI 竞赛中,虽然谷歌与 OpenAI 在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

  这个力量就是「开源社区」,它才是谷歌和 OpenAI 最大的敌人。

  而开源社区的顶流,当属 Hugging Face 了。作为一个 AI 领域的 Github,它提供了大量高质量的开源模型与工具,将研发成果最大程度地惠及社区,极大地降低了 AI 的技术门槛,推进了 AI 的「民主化」进程。

  它的创始人之一,Clément 还曾公开表示:「在 NLP 或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。」

  Hugging Face 创立于 2016 年,几年间连获 5 轮融资,目前估值已经飙到 20 亿美元,Github 上的星标数量已经超过了 9.8w,稳居热门资源库之列。

  那么这家公司是做什么的?是如何逆袭成为开源界的「顶流」的? 它的发展模式又是怎样的呢?

  01 NLP开启逆袭之路

  Hugging Face 是一家以自然语言处理 (NLP) 技术为核心的 AI 初创公司。

  它是由法国连续创业者 Clément Delangue(曾创办笔记平台 VideoNot.es,媒体监测平台 mention 以及被 Google 收购的移动开发平台 Moodstocks 等项目)和 Thomas Wolf、Julien Chaumond 一起创办的,于 2016 年成立,总部设在美国纽约。

  其中的两位创始人 Clément Delangue 和 Thomas Wolf 都是自然语言处理领域的专家。在不断推进 Hugging Face 的发展的过程中,他们被视为当代 NLP 领域的先锋。

  他们创办 Hugging Face 的初衷,是为年轻人带来一个「娱乐型」的「开放领域聊天机器人」,就像科幻电影《Her》里面的 AI 那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。

  也正因如此,Hugging Face 的名字来源于一个张开双手的可爱笑脸 emoji。

  2017 年 3 月 9 号,Hugging Face App 在 iOS App Store 正式推出,就得到了不少关注,还拿到了包括 SV Angel、NBA 球星杜兰特等投资人在内的 120 万美元的天使投资。

  为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face 构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。

  同时,Hugging Face 团队在 GitHub 上将此库的免费部分开源,目的是从用户共创中获得开发灵感。

  到了 2018 年,Hugging Face 仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于 AI 应用程序,这个笑脸 emoji 也开始被广大 AI 开发者们所熟知。

  恰巧同年,谷歌推出基于双向 Transformer 的大规模预训练语言模型 BERT,开启了 AI 模型的「内卷时代」。

  在这样的大环境下,Hugging Face 做起了提供 AI 模型的服务,随之迎来了自己的「黄金时代」。

  它先是开源了 PyTorch-BERT;随即,又整合了它先前贡献的 NLP 领域的预训练模型,发布了 Transformers 库。

  Transformers 库提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助 Transformers 库,开发者可以便捷地使用 BERT、GPT、XLNet、T5 、DistilBERT 等 NLP 大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动 QA 等 AI 任务,节省大量的时间和计算资源。

  简而言之,Transformers 库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助 Transformers 库,将模型应用到产品开发和工作流程中。

  Transformers 库也因此迅速地流行起来,成为了 GitHub 史上增长最快的 AI 项目。

  Hugging Face 在 Github 上的 Star 曲线,图片来自于 Lux Capital

  Hugging Face 的创始人之一 Clément Delangue 也不禁感慨,「我们发布东西时没有考虑太多,而社区的爆炸式增长甚至让我们感到惊讶。」

  面对如此多的开发者,Hugging Face 顺理成章地建立了自己的社区,Hugging Face Hub;同时,调整产品战略,不再局限于自然语言处理,而是将机器学习的不同领域进行融合,探索创建新的用例,着手构建一套完整的开源产品矩阵。

  截至 2023 年 4 月,Hugging Face 共享了 16,6894 个训练模型,2,6900 个数据集,涵盖 NLP、语音、生物学、时间序列、计算机视觉、强化学习等领域,搭建了完整的 AI 开发生态。

  这大大降低了相关研究与应用的门槛,让 Hugging Face 成为 AI 社区最具影响力的技术供应商。

  目前,这些模型已经服务了数万家企业进行资源开发,帮助科研人员和相关从业人员更好地构建模型、更好地参与到产品和工作流程中,其中不乏 Meta、亚马逊、微软、谷歌等知名 AI 团队。

  使用 Hugging Face 的公司和产品|Hugging Face

  在资本市场,Hugging Face 也同样备受青睐。

  在 2022 年 5 月,团队完成了由 Lux Capital 领投、红杉资本参投的 1 亿美元 C 轮融资,估值狂飙到 20 亿美元。

  面对资本的追捧,Hugging Face 的创始人表现的极其冷静,表示拒绝了多个「有意义的收购邀约」,并且不会像 GitHub 那样出售自己的业务。关于 Hugging Face 的未来,它的创始人还有一些有趣的想法:「我们希望成为第一家以表情符号上市的公司,而不是三个字母的股票代码。」

  02 AI大模型的 Github

  凭借开源获得了万众瞩目的 Hugging Face,也格外注重社区的建设,而刚刚诞生不久的 Hugging Face Hub,现在俨然已经成为 AI 开发者的大本营。

  Hugging Face Hub 是一个探索、实验、合作,并建立机器学习技术的中心场所。在这里任何人都可以分享和探索模型、数据集等,大家轻松合作,共同构建机器学习模型,Hugging Face Hub 也因此被称做「机器学习之家」。

  它是 Hugging Face 坚持「开源」的产物,也是它的核心。正如官网的宣传语所述:AI 社区,建设未来。

  Hugging Face 的开发者页面|Hugging Face

  Hugging Face 的创始人曾公开表示「Hugging Face 的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。」

  他还补充说,「没有任何一家公司,包括科技巨头,能够独自『解决 AI 问题』,而我们实现这一目标的唯一途径,是通过以社区为中心的方式,分享知识和资源。」

  因此,公司致力于在 Hugging Face Hub 上建立最大的模型、数据集、演示和指标的开源集合,以使每个人都能利用机器学习进行探索、实验、合作和构建技术,从而实现 AI「民主化」的目标。

  目前,Hugging Face Hub 提供超过 12 万个模型(Models)、2 万个数据集(Datasets) 和 5 万个演示应用程序(Spaces),而且所有这些都是开源、公开、免费的。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论