深入浅出，解析ChatGPT背后的工作原理

　　自 ChatGPT 发布以来，已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的?尽管它内部实现的细节尚未公布，我们却可以从最近的研究中一窥它的基本原理。

　　ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

　　OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT，其中的强化学习组件使 ChatGPT 独一无二。OpenAI 使用了「人类反馈强化学习」(RLHF)的训练方法，该方法在训练中使用人类反馈，以最小化无益、失真或偏见的输出。

　　本文将剖析 GPT-3 的局限性及其从训练过程中产生的原因，同时将解释 RLHF 的原理和理解 ChatGPT 如何使用 RLHF 来克服 GPT-3 存在的问题，最后将探讨这种方法的局限性。

　　大型语言模型中的能力与一致性

　　「一致性 vs 能力」可以被认为是「准确性 vs 精确性」的更抽象的类比。

　　在机器学习中，模型的能力是指模型执行特定任务或一组任务的能力。模型的能力通常通过它能够优化其目标函数的程度来评估。例如，用来预测股票市场价格的模型可能有一个衡量模型预测准确性的目标函数。如果该模型能够准确预测股票价格随时间的变化，则认为该模型具有很高的执行能力。

　　一致性关注的是实际希望模型做什么，而不是它被训练做什么。它提出的问题是「目标函数是否符合预期」，根据的是模型目标和行为在多大程度上符合人类的期望。假设要训练一个鸟类分类器，将鸟分类为「麻雀」或「知更鸟」，使用对数损失作为训练目标，而最终目标是很高的分类精度。该模型可能具有较低的对数损失，即该模型的能力较强，但在测试集上的精度较差，这就是一个不一致的例子，模型能够优化训练目标，但与最终目标不一致。

　　原始的 GPT-3 就是非一致模型。类似 GPT-3 的大型语言模型都是基于来自互联网的大量文本数据进行训练，能够生成类似人类的文本，但它们可能并不总是产生符合人类期望的输出。事实上，它们的目标函数是词序列上的概率分布，用来预测序列中的下一个单词是什么。

　　但在实际应用中，这些模型的目的是执行某种形式的有价值的认知工作，并且这些模型的训练方式与期望使用它们的方式之间存在明显的差异。尽管从数学上讲，机器计算词序列的统计分布可能是建模语言的高效选择，但人类其实是通过选择最适合给定情境的文本序列来生成语言，并使用已知的背景知识和常识来辅助这一过程。当语言模型用于需要高度信任或可靠性的应用程序(如对话系统或智能个人助理)时，这可能是一个问题。

　　尽管这些基于大量数据训练的大模型在过去几年中变得极为强大，但当用于实际以帮助人们生活更轻松时，它们往往无法发挥潜力。大型语言模型中的一致性问题通常表现为：

　　提供无效帮助：没有遵循用户的明确指示。

　　内容胡编乱造：虚构不存在或错误事实的模型。

　　缺乏可解释性：人们很难理解模型是如何得出特定决策或预测的。

　　内容偏见有害：一个基于有偏见、有害数据训练的语言模型可能会在其输出中出现这种情况，即使它没有明确指示这样做。

　　但具体来说，一致性问题源自何处?语言模型的训练方式本身就容易产生不一致吗?

　　语言模型训练策略如何产生不一致?

　　Next-token-prediction 和 masked-language-modeling 是用于训练语言模型的核心技术。在第一种方法中，模型被给定一个词序列作为输入，并被要求预测序列中的下一个词。如果为模型提供输入句子：

　　“The cat sat on the”

　　它可能会将下一个单词预测为「mat」、「chair」或「floor」，因为在前面的上下文中，这些单词出现的概率很高;语言模型实际上能够评估给定先前序列的每个可能词的可能性。

　　masked-language-modeling 方法是 Next-token-prediction 的变体，其中输入句子中的一些词被替换为特殊 token，例如 [MASK]。然后，模型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子：

　　“The [MASK] sat on the ”

　　它可能会预测 MASK 位置应该填的词是「cat」、「dog」。

　　这些目标函数的优点之一是，它允许模型学习语言的统计结构，例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本，并且是每个语言模型预训练阶段的重要步骤。

　　然而这些目标函数也可能导致问题，这主要是因为模型无法区分重要错误和不重要错误。一个非常简单的例子是，如果给模型输入句子：

　　”The Roman Empire [MASK] with the reign of Augustus.”

　　它可能会预测 MASK 位置应该填入「began」或「ended」，因为这两个词的出现概率都很高。

　　一般来说，这些训练策略可能会导致语言模型在一些更复杂的任务中出现不一致，因为一个仅被训练来预测文本序列中的下一个词的模型可能不一定会学习其含义的某些更高级表征。因此，该模型很难推广到需要对语言更深入理解的任务。

　　研究人员正研究各种方法来解决大型语言模型中的一致性问题。ChatGPT 基于最初的 GPT-3 模型，但为了解决模型的不一致问题，使用了人类反馈来指导学习过程，对其进行了进一步训练。所使用的具体技术就是前面提到的 RLHF。ChatGPT 是第一个将此技术用于实际场景的模型。

　　那 ChatGPT 是如何利用人类反馈来解决一致性问题的呢?

　　从人类反馈中进行强化学习

　　方法总体上包括三个不同步骤：

　　有监督的调优：预训练的语言模型在少量已标注的数据上进行调优，以学习从给定的 prompt 列表生成输出的有监督的策略(即 SFT 模型);

　　模拟人类偏好：标注者们对相对大量的 SFT 模型输出进行投票，这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型，被称为训练回报模型(Reward Model，RM);

　　近端策略优化(PPO)：RM 模型用于进一步调优和改进 SFT 模型，PPO 输出结果是的策略模式。

　　步骤 1 只进行一次，而步骤 2 和步骤 3 可以持续重复进行：在当前最佳策略模型上收集更多的比较数据，用于训练新的 RM 模型，然后训练新的策略。接下来，将对每一步的细节进行详述。

　　步骤 1：监督调优模型

　　第一步是收集数据，以训练有监督的策略模型。

　　数据收集：选择一个提示列表，标注人员按要求写下预期的输出。对于 ChatGPT，使用了两种不同的 prompt 来源：一些是直接使用标注人员或研究人员准备的，另一些是从 OpenAI 的 API 请求(即从 GPT-3 用户那里)获取的。虽然整个过程缓慢且昂贵，但最终得到的结果是一个相对较小、高质量的数据集(大概有 12-15k 个数据点)，可用于调优预训练的语言模型。

　　模型选择：ChatGPT 的开发人员选择了 GPT-3.5 系列中的预训练模型，而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text-davinci-003(通过对程序代码调优的 GPT-3 模型)。

　　为了创建像 ChatGPT 这样的通用聊天机器人，开发人员是在「代码模型」而不是纯文本模型之上进行调优。