0°

ChatGPT的一小步,NLP范式转变的一大步

  作者:符尧,yao.fu@ed.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学;与Tushar Khot,彭昊在艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿;与李如寐(美团NLP中心)共同翻译为中文;感谢 Aristo teammates, Jingfeng Yang, 和 Yi Tay 的讨论与建议。请同时参考CoT[1]团队的博客。

  在此前《ChatGPT进化的秘密》一文中,本文作者剖析了ChatGPT的技术路线图。而在ChatGPT发布前,作者详细介绍了大模型的突现能力、以及它在NLP/ML任务中的潜在优势,以此来探讨大模型所带来的“潜在的”范式转变。显然,后来ChatGPT所展现出的强大能力,将这种转变的步伐扎实地推进了一大步。

  英文版原文:https://franxyao.github.io/blog.html

  最近,人们对大型语言模型所展示的强大能力(例如思维链[2]、便签本[3])产生了极大的兴趣,并开展了许多工作。我们将之统称为大模型的突现能力[4],这些能力可能只存在于大型模型中,而不存在于较小的模型中,因此称为“突现”。其中许多能力都非常令人印象深刻,比如复杂推理、知识推理和分布外鲁棒性。

  值得注意的是,这些能力很接近 NLP 社区几十年来一直寻求的能力,因此代表了一种潜在的研究范式转变,即从微调小模型到使用大模型进行上下文学习。对于先行者来说,范式转变可能是很显然的。然而,出于科学的严谨性,我们确实需要非常明确的理由来说明为什么人们应该转向大型语言模型,即使这些模型昂贵、难以使用,并且效果可能一般。

  在本文中,我们将仔细研究这些能力是什么,大型语言模型可以提供什么,以及它们在更广泛的 NLP/ML 任务中的潜在优势是什么。

  前提:我们假设读者具备以下知识:

  预训练、精调、提示(普通从业者应具备的自然语言处理/深度学习能力)

  思维链提示、便签本(普通从业者可能不太了解,但不影响阅读)

  1

  存在于大模型而非小模型的突现能力

  X轴为模型尺寸。GSM8K是一个小学水平的数学问题集。

  在以上的效果图中,我们可以观察到模型的表现:

  当尺寸相对小的时候提升并不大

  当模型变大时有很明显的提升

  这从根本上说明,某些能力可能不存在于小模型中,而是在大模型中获得的。

  有很多种突现能力,比如 Wei 等人在 2022年[5]所梳理的。有些能力很有意思,但我们在本文不会讨论,比如last latter concatenation,我们认为这是Python而不是语言模型要做的任务;或者3位数加法,我们认为这是计算器而不是语言模型要做的事。

  在本文中,我们主要对以下能力感兴趣:

  1. NLP 社区近几年都关注但还没实现的能力

  2. 之前的 NLP 模型很难达到的能力

  3. 源自于人类语言最深层的本质的能力

  4. 可能达到人类智力的最高水平的能力

  2

  突现能力的三个典型例子

  很多有意思的能力都可以归到上文提到的类别里,在它们之中,我们主要讨论以下三种典型能力:

  复杂推理

  知识推理

  分布外鲁棒性

  接下来让我们一个个详细讨论。

  复杂推理

  下面是一个GSM8K数据集中,用提示词显著超过精调的例子:

  虽然这道题对于10岁的孩子来说很容易,但对语言模型来说却很难,主要是由于数学和语言混合在一起。

  GSM8K 最初由 OpenAI 于 2021 年 10 月[6]提出。当时他们用第一版GPT3在全部训练集上进行了精调,准确率约为 35%。这个结果让作者相当悲观,因为他们的结果显示了语言模型的缩放规律:随着模型大小呈指数增长,性能呈线性增长(我之后会讨论)。因此,他们在第 4.1 节中思考:

  ”175B 模型似乎需要至少额外两个数量级的训练数据才能达到 80% 的求解率。“

  三个月后,即 2022 年 1 月,Wei 等人[7]基于 540B PaLM 模型,仅使用了8个思维链提示示例便将准确率提高到56.6%(无需将训练集增加两个数量级)。之后在 2022 年 3 月,Wang 等人[8]基于相同的 540B PaLM 模型,通过多数投票的方法将准确率提高到 74.4% 。当前的 SOTA 来自我自己在 AI2 的工作(Fu et. al. Nov 2022[9]),我们通过使用复杂的思维链在 175B Codex 上实现了 82.9% 的准确率。从以上进展可以看到,技术进步确实呈指数级增长。

  思维链提示是一个展示模型随着规模突现出能力的典型例子:

  从突现能力来看:尽管不需要 17500B,但模型大小确实要大于 100B ,才能使思维链的效果大于的仅有回答提示。所以这种能力只存在于大型模型中。

  从效果来看:思想链提示的性能明显优于其之前的精调方法(目前还没有能公平对比提示词和微调的工作。但当思维链被提出的时候,尽管他们对于提示和精调的比较可能是不公平的,但确实比精调效果要好)。

  从标注效率上来看:思维链提示只需要 8 个示例的注释,而微调需要完整的训练集。

  有些同学可能会认为模型能做小学数学代表不了什么(从某种意义上说,他们确实没有那么酷)。但 GSM8K 只是一个开始,最近的工作已经把前沿问题推向了高中[10]、大学[11],甚至是国际数学奥林匹克问题[12]。现在更酷了吗?

  知识推理

  下一个例子是需要知识的推理能力(例如问答和常识推理)。在这种情况下,对大型模型进行提示不一定优于精调小型模型(哪个模型更好还有待观察)。但是这个情况下的注释效率被放大了,因为:

  在许多数据集中,为了获得所需的背景/常识知识,(以前很小的)模型需要一个外部语料库/知识图谱来检索[13],或者需要通过多任务学习在增强[14]的数据上进行训练

  对于大型语言模型,可以直接去掉检索器[15],仅依赖模型的内部知识[16],且无需精调

  以前的 SOTA 模型需要从外部知识源中检索。GPT-3 的性能与以前的模型相当/优于以前的模型,且无需检索。

  如表中所示,与数学题的例子不同,GPT-3 并没有明显优于之前的精调模型。但它不需要从外部文档中检索,本身就包含了知识(虽然这些知识可能过时或者不可信,但选择哪种可信知识源超出了本文的讨论范围)。

  为了理解这些结果的重要性,我们可以回顾一下历史:NLP 社区从一开始就面临着如何有效编码知识的挑战。人们一直在不断探究把知识保存在模型外部或者内部的方法。

  上世纪九十年代以来,人们一直试图将语言和世界的规则记录到一个巨大的图书馆中,将知识存储在模型之外。但这是十分困难的,毕竟我们无法穷举所有规则。

  因此,研究人员开始构建特定领域的知识库,来存储非结构化文本、半结构化(如维基百科)或完全结构化(如知识图谱)等形式的知识。通常,结构化知识很难构建(因为要设计知识的结构体系),但易于推理(因为有体系结构),非结构化知识易于构建(直接存起来就行),但很难用于推理(没有体系结构)。然而,语言模型提供了一种新的方法,可以轻松地从非结构化文本中提取知识,并在不需要预定义模式的情况下有效地根据知识进行推理。下表为优缺点对比:

  分布外鲁棒性

  我们讨论的第三种能力是分布外的鲁棒性。在 2018 年至 2022 年期间,NLP、CV 和通用机器学习领域有大量关于分布偏移/对抗鲁棒性/组合生成的研究,人们发现当测试集分布与训练分布不同时,模型的行为性能可能会显著下降。然而,在大型语言模型的上下文学习中似乎并非如此。Si 等人在2022年的研究显示[17]:

  虽然 GPT-3 在同分布设置下比 RoBERTa 要差,但在非同分布设置下优于 RoBERTa,性能下降明显更小。

  同样,在此实验中,同分布情况下基于提示词的 GPT-3 的效果并没有精调后的 RoBERTa要好。但它在三个其他分布(领域切换、噪声和对抗性扰动)中优于 RoBERTa,这意味着 GPT3 更加鲁棒。

  此外,即使存在分布偏移,好的提示词所带来的泛化性能依旧会继续保持。比如:

  图片来自于 Fu et. al. 2022. 即使测试分布与训练分布不同,复杂提示也始终比简单提示的表现更好。

  Fu 等人2022年[18]的研究显示,输入提示越复杂,模型的性能就越好。这种趋势在分布转移的情况下也会继续保持:无论测试分布与原分布不同、来自于噪声分布,或者是从另一个分布转移而来的,复杂提示始终优于简单提示。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论