OpenAI 认为超人类人工智能即将到来，并希望构建工具来控制它

　　当萨姆·奥尔特曼 (Sam Altman)被 OpenAI毫不客气地驱逐后，投资者们正准备重回公司，而奥尔特曼 (Altman) 正在谋划重返公司时，OpenAI 的Superalignment团队的成员正在孜孜不倦地研究如何控制比人类更聪明的人工智能的问题。

　　或者至少，这是他们想要给人的印象。

　　本周，我与 Superalignment 团队的三名成员——Collin Burns、Pavel Izmailov 和 Leopold Aschenbrenner——通了电话，他们正在新奥尔良参加年度机器学习会议 NeurIPS，介绍OpenAI 在确保人工智能系统的行为方面的最新工作。故意的。

　　OpenAI于 7 月成立了Superalignment 团队，旨在开发引导、调节和管理“超级智能”人工智能系统的方法，即智能远远超过人类的理论系统。

　　“今天，我们基本上可以调整比我们更愚蠢的模型，或者最多只能达到人类水平，”伯恩斯说。“调整一个实际上比我们更聪明的模型是非常非常不明显的——我们如何才能做到这一点?”

　　Superalignment 项目由 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 领导，该项目在 7 月份并未引起人们的关注，但鉴于 Sutskever 是最初推动解雇 Altman 的人之一，因此现在肯定引起了人们的关注。虽然一些报道表明 Sutskever 在 Altman 回归后处于“悬而未决的状态”，但 OpenAI 的公关告诉我，Sutskever 确实——至少到今天——仍在领导 Superalignment 团队。

　　超对齐在人工智能研究界是一个有点敏感的话题。一些人认为这个子领域还为时过早。其他人则暗示这是转移注意力。

　　尽管 Altman 邀请人们将 OpenAI 与曼哈顿计划进行比较，甚至组建了一个团队来探索人工智能模型，以防范包括化学和核威胁在内的“灾难性风险”，但一些专家表示，几乎没有证据表明这家初创公司的技术很快或永远就会获得终结世界、超越人类的能力。这些专家补充说，超级智能即将到来的说法只是为了故意转移人们对当今紧迫的人工智能监管问题的注意力，比如算法偏见和人工智能的毒性倾向。

　　无论如何，Sutskever 似乎真诚地相信人工智能(不是 OpenAI 本身，而是它的某种体现 )有一天可能会构成生存威胁。据报道，他甚至在一家公司异地委托并焚烧了一个木制肖像，以表明他致力于防止人工智能伤害人类，并为 Superalignment 团队指挥了大量的 OpenAI 计算(占其现有计算机芯片的 20%)。研究。

　　“人工智能最近的进展非常快，我可以向你保证它不会放缓，”阿申布伦纳说。“我认为我们很快就会达到人类水平的系统，但它不会止步于此——我们将直接进入超人类系统……那么我们如何调整超人类人工智能系统并确保它们安全呢?这确实是全人类的一个问题——也许是我们这个时代最重要的未解决的技术问题。”

　　目前，Superalignment 团队正在尝试构建可能适用于未来强大的人工智能系统的治理和控制框架。考虑到“超级智能”的定义以及某个特定的人工智能系统是否实现了这一目标，这是一个激烈争论的话题，这并不是一项简单的任务。但该团队目前确定的方法是使用较弱、不太复杂的人工智能模型(例如GPT-2)来引导更先进、复杂的模型(GPT-4)朝理想的方向发展，并远离不理想的方向。

　　该图展示了 Superalignment 团队基于人工智能的类比，用于对齐超级智能系统。图片来源： OpenAI

　　“我们想做的很多事情就是告诉模型该做什么，并确保它会这样做，”伯恩斯说。“我们如何让模型遵循指示，并让模型只帮助处理真实的事情而不是捏造事实?我们如何让模型告诉我们它生成的代码是安全的还是异常的行为?这些是我们希望通过我们的研究能够实现的任务类型。”

　　但是等等，你可能会说——人工智能指导人工智能与防止威胁人类的人工智能有什么关系?嗯，这是一个类比：弱模型是人类监管者的替代品，而强模型代表超级智能人工智能。Superalignment 团队表示，与可能无法理解超级智能 AI 系统的人类类似，弱模型无法“理解”强模型的所有复杂性和细微差别，这使得该设置对于证明超对齐假设非常有用。。

　　“你可以想象一个六年级的学生试图监督一名大学生，”伊兹梅洛夫解释道。“假设六年级学生正试图告诉大学生一项他知道如何解决的任务……尽管六年级学生的监督可能在细节上存在错误，但希望大学生能够理解要点并且能够比主管更好地完成任务。”

　　在 Superalignment 团队的设置中，针对特定任务进行微调的弱模型会生成标签，用于将该任务的大致流程“传达”给强模型。研究小组发现，给定这些标签，强模型可以根据弱模型的意图或多或少正确地进行概括，即使弱模型的标签包含错误和偏差。

　　该团队声称，弱-强模型方法甚至可能会在幻觉领域带来突破。

　　“幻觉实际上非常有趣，因为在内部，模型实际上知道它所说的事情是事实还是虚构，”阿申布伦纳说。“但如今这些模型的训练方式是，人类主管会因为他们所说的话而奖励他们“竖起大拇指”或“竖起大拇指”。因此，有时，人类会不经意地奖励模型说出错误的事情或模型实际上不知道的事情等等。如果我们的研究取得成功，我们应该开发出基本上可以召唤模型知识的技术，我们可以将这种召唤应用于判断某件事是事实还是虚构，并用它来减少幻觉。”

　　但这个类比并不完美。因此 OpenAI 希望将想法众包。

　　为此，OpenAI 正在启动一项 1000 万美元的资助计划，以支持超级智能对齐的技术研究，其中部分资金将保留给学术实验室、非营利组织、个人研究人员和研究生。OpenAI还计划于 2025 年初举办一次关于超对齐的学术会议，届时将分享和推广超对齐奖决赛入围者的工作。

　　奇怪的是，这笔赠款的部分资金将来自谷歌前首席执行官兼董事长埃里克·施密特。施密特——奥特曼的热心支持者——正迅速成为人工智能末日论的典型代表，他声称危险的人工智能系统即将到来，而监管机构在准备方面做得还不够。这不一定是出于利他主义—— 《协议》和《连线》杂志的报道指出，如果美国政府实施他提出的加强人工智能研究的蓝图，施密特作为一名活跃的人工智能投资者，他将获得巨大的商业利益。

　　那么，从愤世嫉俗的角度来看，捐赠可能会被视为美德信号。施密特的个人财富估计约为 240 亿美元，他还向其他显然不那么注重道德的人工智能企业和基金投入了数亿美元——包括他自己的企业和基金。

　　当然，施密特否认了这一点。

　　“人工智能和其他新兴技术正在重塑我们的经济和社会，”他在一份电子邮件声明中表示。“确保它们符合人类价值观至关重要，我很自豪能够支持 OpenAI 的新 [赠款]，以负责任的方式开发和控制人工智能，以实现公共利益。”

　　事实上，具有如此透明商业动机的人物的参与引发了一个问题：OpenAI 的超级对齐研究以及它鼓励社区提交给未来会议的研究是否会提供给任何人以他们认为合适的方式使用?

　　Superalignment 团队向我保证，是的，OpenAI 的研究(包括代码)以及获得 OpenAI 资助和奖项的其他人在超对齐相关工作上的工作都将公开分享。我们会让公司坚持下去。

　　“我们的使命之一是不仅为我们模型的安全做出贡献，而且为其他实验室模型和先进人工智能的安全做出贡献。” “这确实是我们为全人类安全造福而构建 [AI] 的使命的核心。我们认为，进行这项研究对于使其有益且安全绝对必要。”