谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAI
作者 | 褚杏娟、核子可乐
“我们没有护城河,OpenAI 也没有。”一名谷歌内部研究员在一份文件的开头直接说道。近日,有位匿名人士将这份文件共享到了公共 Discord 服务器上,有外媒已经验证了这份文件的真实性。
在我们都将注意力放到企业 AI 大战时,谷歌内部人员反而指出,最后的赢家不是谷歌和 OpenAI,反而是开源模型。作者用各种示例证明了自己的观点,同时建议谷歌借力开源来赢下这场战争。大家可以先看下这份文件的内容,我们翻译后并在不改变原意的基础上做了整理。
谷歌内部文件
我们没有“护城河”
OpenAI 也没有。
我们一直在努力追赶OpenAI的步伐,但谁能率先跨越下一个里程碑?AI 的下一步又该迈向哪里?
真正令人不安的事实在于,我们双方可能都没有能力赢下这场军备竞赛。就在谷歌和 OpenAI 较劲的同时,第三股势力一直在闷声发大财。
没错,我说的就是开源模型。明确地讲,他们在照搬我们的劳动成果,而且已然克服了开放 AI 面对几道重大关隘。下面仅举几例:
大语言模型在手机上的运行:已经有人在Pixel 6上运行起了基础模型,每秒能处理 5 个 token。
可扩展的个人 AI:大家花一个晚上,就能在自己的笔记本电脑上微调出个性化AI。
负责任发布:与其说是“攻克”了这个难题,不如说是“回避”了问题。如今各种网站上充斥着大量艺术创作模型,文字生成模型同样所在多有。
多模态:目前的多模态ScienceQA STOA能在一小时之内完成训练。
虽然我们的模型在质量方面仍略有优势,但双方差距正在以惊人的速度缩小。开源模型更快、可定制性更强、更私密,而且功能性也不落下风。他们可以用100美元外加13B参数解决需求,而我们则需要面对千万美元的成本和 540B 参数。相较于长达数月的训练周期,他们的模型往往几个礼拜就能火热出炉。这对我们产生了深远的影响:
我们没有什么秘方。我们最好的出路就是学习外部各方的思路并开展合作。谷歌应该优先考虑启用 3P 集成。
当免费、不受限制的替代模型在质量上与专有模型相当时,人们肯定不会愿意继续付费。我们应该考虑真正的业务增值空间在哪里。
巨型模型正在拖慢我们的脚步。从长远来看,最好的模型一定是那些能够快速迭代的模型。既然我们知道参数少于 20B 也能达到相当不错的效果,那就该主动尝试做一些更小的变体。
发生什么事了?
3 月初,随着Meta的LLaMA模型被泄露,开源社区获得了首个真正具备一线“战斗力”的基础模型。虽然缺少说明、对话微调和 RLHF(基于人类反馈的强化学习),但社区还是很快理解了这套模型的重要意义。
随之而来的就是铺天盖地的创新涌现,而且每隔几天就会出现一波重大发展。仅仅一个月后,我们就走到了如今的局面,有了指令微调、量化、质量改进、人工评估、多模态、RLHF 等变体,其中很多还互为依托。
最重要的是,开源社区解决了真正的可扩展性问题,让普通人也有了在 AI 平台上一试身手的机会。训练和实验的门槛已经从研究机构的高精尖操作,下降成了一个人、一个晚上加一台高配笔记本电脑就能搞定的小探索。
从很多方面来看,这样的现实都有其必然性。开源大语言模型的蹿红其实是紧跟着图像生成模型的爆发,社区也倾向于将目前阶段称作大语言模型的“Stable Diffusion 时刻”。
无论是图像生成还是文本生成,广泛的公众参与都是通过成本极低的微调机制来实现的,也就是所谓“低秩适应”(LoRA),同时辅以规模上的重大突破(图像合成中的 latent diffusion,以及大语言模型的 Chinchilla)。在这两方面,高质量模型的出现引发了每位个人和机构的关注和迭代尝试,最终形成了超越技术巨头的改进成果。
这些贡献在图像生成领域至关重要,也让 Stable Diffusion 真正走上了与 Dall-E 不同的道路。前者基于开放的发展路线,使其获得了 Dall-E 所不具备的产品集成、市场、用户界面和创新加持。
开放的效果也显而易见:与 OpenAI 的同类解决方案相比,开源模型的文化影响力迅速占据主导,后者则逐渐退出舞台的中心。目前还难以断言大语言模型会不会重复这样的故事,但总体来看,决定历史走向的基本要素是相同的。
我们错过了什么
推动开源近期一系列成功的创新举措,也直接攻克了一直困扰我们技术大厂的难题。更多关注他们的工作成果,将帮助我们避免重新发明轮子。
LoRA是一种非常强大的技术,能够将模型更新表示为低秩分解的形式,从而将更新矩阵的体量缩小至数千分之一。如此一来,我们就能以极低的成本和时间实现模型微调,从而在几个小时内在消费级硬件上打造出个性化语言模型。
这绝对非同小可,也让我们真正走向以近实时方式整合新的、多样化知识的愿景。事实上,这项技术在谷歌内部并未得到充分的重视和运用,但却直接影响到了我们一些雄心勃勃的项目。
从零开始重新训练模型没有前途。
LoRA 之所以如此高效,部分原因在于跟其他微调手段一样,它是一种可堆叠的方法。我们可以通过指令微调等实现改进,借此吸引其他贡献者提供的对话、推理或工具使用方式。虽然个别微调是低秩的,但其总和却不一定,模型的全秩更新需求将随着时间推移而逐渐累积。
也就是说,随着新的、质量更高的数据集和任务的出现,模型能够始终维持较低的更新成本,而无需承担从零开始重新训练的开销。
从零开始重新训练巨型模型不仅会丢弃预训练效果,还会丢弃以堆叠方式完成的任何迭代式改进。在开源世界中,这种改进将很快占据主导地位,并让重新训练的成本迅速提升至无法承担的程度。
我们应当思考每个新的应用或场景是不是真的需要一套全新模型。如果真存在值得丢弃原有权重的重大架构改进,那也应该投资探索更积极的蒸馏形式,想办法让新模型尽可能多地保留上一代的功能。
如果我们能够在小模型上加快迭代速度,那么从长远来看,大模型恐怕将不再具备能力优势。
对于占据主流的模型规模,LoRA 更新的生产成本可以控制到极低(约 100 美元)。也就是说,几乎任何人都能按照自己的想法实现模型微调,到时候一天之内的训练周期将成为常态。以这样的速度,微调的累积效应将很快帮助小模型克服体量上的劣势。
事实上,从工程师的单人工时出发,这些小模型的改进速度大大超过了体量庞大的“同门兄长”,而且其中最出色的选手在相当程度上已经跟 ChatGPT 站在同一水平线上。另外,反复训练超大体量模型也不利于保护自然环境。
数据质量比数据规模更重要。
许多项目都开始在规模较小、但经过精心筛选的数据集上训练,希望借此节约时间。这代表着数据规模化法则其实具有一定的灵活性。此类数据集同样遵循“数据不在乎你怎么想”这个基本逻辑,并迅速成为外部社区的标准模型训练方式。
这些数据集是使用合成方法(例如从现有模型中过滤出最佳响应)和其他项目中提取而来,这两种方式在谷歌内部都不太受重视。幸运的是,这些高质量数据集都是开源的,所以可以免费使用。
直接与开源竞争将必然失败
按近的动向已经对我们的业务战略产生了直接且无法回避的影响。如果有了免费、高质量的替代品,谁还愿意花钱去用设定了请求上限的谷歌产品?
而且这种差距是无法弥合的。现代互联网运行在开源基础之上绝非偶然,开源社区有着很多我们无法复制的显著优势。
相较于开源需要我们,我们更需要开源。
我们的技术机密只靠一项脆弱的协议来维持。谷歌研究人员随时都在跳槽前往其他企业,不妨假设我们知道的他们也都知道。而且只要职业生涯的规划渠道仍然开放,这种情况就无法改变。
而随着大语言模型的前沿研究成本越来越低,保持技术竞争优势也变得愈发困难。世界各地的研究机构都在相互借鉴,以广度优先的方式探索解决方案空间,而单凭谷歌自己根本把握不住如此浩瀚的战场。我们当然可以在外部创新不断降低其价值的同时继续保守秘密,也可以敞开胸怀尝试相互学习。
企业受到的许可约束更强,个人则相对自由灵活。
目前开源社区的大部分创新都以 Meta 泄露的模型权重为基础。虽然随着开放模型质量的不断提升,这种情况肯定会发生变化,但开源阵营真正的优势在于“个人行为”。毕竟没有谁能够挨个打击和起诉个人用例,所以人家用不着等技术过气就能随时随地研究和探索。
作自己的客户,意味着更了解用例。
看看人们在图像生成空间中创建的模型,就会发现从动漫生成器到 HDR 景观,大家的创意简直源源不断。这些模型出自那些长期浸淫于特定流派和风格当中的人们,体现出了我们无法企及的知识深度和内心共鸣。
掌控生态系统:让开源为我们服务
矛盾的是,这一切背后最大的赢家反而是 Meta 自己。泄露的模型就是他们搞出来的,所以他们其实是获得了全世界的免费劳动力。由于大部分开源创新都发生在他们的架构之上,所以 Meta 当然可以直接把成果整合到自家产品当中。
这种对生态系统的掌控力,再怎么强调都不为过。谷歌本身就已经在开源产品(例如 Chrome 和 Android)中成功践行了这一原则。通过掌控创新发生的平台,谷歌巩固了自己作为思想主导和方向制定者的地位,获得了超越自身极限塑造宏大趋势的能力。
而我们对自有模型约束得越严格,就相当于在为开源 AI 模型做市场宣传。谷歌和 OpenAI 都倾向于采取充满戒备感的发布模式,想要努力控制模型的使用方式。但这种控制力根本站不住脚,毕竟任何想用大语言模型的人们都可以直接选择免费开放的模型。
谷歌应当让自己成为开源社区的领导者,通过更广泛的对话来塑造优势地位。没错,期间肯定涉及一些与以往习惯不符的环节,比如发布小型 ULM 变体的模型权重,也就是放弃我们对模型的某些控制。但这种妥协是不可避免的,我们没办法既想刺激创新、又要强行控制创新。
OpenAI 怎么做并不重要
考虑到 OpenAI 目前的封闭政策,可能前面那些开源建议都让人很难接受。OpenAI 都不愿意开放,我们谷歌凭什么这么做?但事实上,源源不断的技术挖角早就让封闭成了一个伪命题。如果无法阻断这条通路,那保密到底有没有意义真的不太好说。
最后,OpenAI 怎么做并不重要。毕竟他们只是谷歌的难兄难弟,在对待开源的态度上犯了类似的错误,保持优势的能力也没有明显更强。除非他们改变立场,否则开源 AI 模型可能、且最终必然会令其黯然失色。至少在这方面,我们可以先行一步。
关于开源模型的争论
谷歌内部研究员的观点引起了广大开发者对于开源模型和企业模型之间的讨论。
开发者“dahwolf”指出,当前的范例是人工智能的目的之一:用户访问并与之交互的产品。但这根本不是将来大众与人工智能互动的方式。人工智能将无缝集成到日常软件中:在 Office/Google 文档中、在操作系统级别 (Android)、在图形编辑器 (Adobe) 中,在主要网络平台上,如搜索、图像搜索、Youtube 等。
他认为,由于谷歌和其他科技巨头继续控制着这些拥有十亿用户的平台,因此它们拥有人工智能的影响力,即便它们在能力上暂时落后。他们还将找到一种集成方式,让用户无需直接为该功能付费,因为它将通过其他方式收费:广告。
“dahwolf”表示,OpenAI 面临生存风险,而不是谷歌。巨头们会迎头赶上,并将拥有覆盖面和补贴优势。它并没有就此结束。这种来自开源的所谓“竞争”将是免费劳动力。任何成功的想法都会在短时间内移植到 Google 的产品中。感谢开源!
有网友指出,人工智能无处不在的问题就是需要一直都有非凡的计算能力,而这种计算能力需要花钱。因此,也有人指出,LLM 的运行成本越来越低,这对谷歌来说是一个胜利。OpenAI 的服务太贵了,无法靠广告资助。谷歌需要一种更便宜的技术来维持其广告支持的商业模式。
对于开源模型,开发者“kelipso”表示,开源模式在过去几十年一直行之有效。对 LLMs 的担忧是开源(和学术界)无法做大公司正在做的事情,因为他们无法获得足够的计算资源。“这篇文章在讨论(我猜开源 ML 组正在展示)企业不需要用那些计算资源来铺平道路。OpenAI 或其他大公司能否通过某些模型、数据集、计算资源等在 AI 中获得最大收益,这仍然是一个悬而未决的问题。”
不过,开发者“not2”回应称,没有一个“开源”AI 模型是经典意义上的开源。它们是免费的,但不是源代码;它们更接近可自由分发的编译二进制文件,其中编译器和原始输入尚未发布。一个真正的开源 AI 模型需要指定训练数据和从训练数据到模型的代码。
“当然,让其他人获取这些信息、重新构建模型并验证是否获得了相同的结果成本非常高,也许我们真的不需要那样。但如果我们没有,那我认为我们需要用除‘开源’之外的其他术语来描述这些模型。你可以得到它、分享它,但你不知道它里面有什么。”not2 表示。
未来,谷歌是否会选择开源策略,又能否借此打出不一样的“翻身仗”,我们拭目以待。