ChatGPT 加持，决策大模型距离 AGI 更进一步

　　过去短短不到一年里，ChatGPT、GPT-4 的相继面世，不断刷新人们对 AI 的认知。

　　新技术带来变革，也引发了外界对 AI 是否会取代人的讨论，OpenAI 首席执行官 Sam Altman 也公开表示，对人工智能技术的强大能力有些担忧。

　　近日，伦敦大学学院(UCL)计算机系教授汪军在接受 AI 科技评论采访时坦言，虽然 ChatGPT 的语言能力、对话能力很强，但其并无法进行系统性决策，例如机器控制、群体协作、动态调度等，而这些是 AI 技术浪潮中更具革命性的部分。

　　汪军，伦敦大学学院(UCL)计算机系教授，阿兰·图灵研究所 Turing Fellow。其主要研究智能信息系统，包括机器学习、强化学习、多智能体，数据挖掘、计算广告学、推荐系统等;谷歌学术被引用量超过1.6万次，已发表学术论文120多篇，曾多次获得最佳论文奖。

　　汪军

　　2022年4月，上海数字大脑研究院正式创立，内部孵化并成立了 Enigma Tech(中文名“谜题科技”),汪军担任上海数字大脑研究院联合创始人、院长，并出任谜题科技首席科学家;下半年，数研院研发出全球第一个多智能体决策大模型，该大模型集合 CV、NLP、强化学习和多智能体，致力于帮助企业解决多场景决策问题。

　　汪军认为，ChatGPT 的出现，解决了以往大模型训练中如何降低门槛的难题，通过将自然语言处理与决策大模型的结合，ChatGPT 带来的不能只是聊天，而是在 AIGC(AI Generated Content，内容生产) 的基础上更进一步探索 AIGA(AI Generated Actions，决策生成)，让模型的思考能力和决策能力应用到具体场景中，真正实现帮助企业和人们解决决策问题，将人类释放到更具创造性的活动中。

　　在多智能体中通向“智能”

　　AI 智能探索的进程中，脱离不开对定义问题的终极追求。

　　汪军将通往智能的路径分为两步。第一步，需要先明确生物系统(Living System，人归属于生物系统)和非生物系统的差别。

　　2013年，生物物理学家 Jeremy England 提出一个开创性“耗散适应”理论(dissipation-driven adaptation)，将生命起源归结于热力学的必然结果，无分子系统在一定条件下通过化学反应代谢消耗能量，以促进能量持续消耗及“熵”的增加。

　　在熵增熵减理论中，生命体从无序变成有序的过程持续吸收能量不断熵减，汪军认为，AI 从人产生，因此也是吸收能量帮助人完成熵减的使命，解决基础问题的关键点在于如何定义智能，明确 AI 需要吸收多少能量才能达到一定的智能。

　　使用 AI 做图像分类识别时，分类算法其准确率可达到98%。通过分类，AI帮助我们可以将处于无序状态的图像内容组织转变为有序、有规律可循的图像，系统中不确定性减小，产生熵减。熵减也需要计算，形成算法的算力多少，算力即是消耗能量的一种体现。

　　通往智能的第二步，汪军认为，是分辨生物系统、所谓的 AI 系统的意识问题。当前，人工智能作为工具存在，算法只能判别 AI 工作的优良程度，机器本身并不存在思考，如何使机器最终达到与人相等的思考能力，需要先理解人类大脑的各种现象，并增加对 AI 意识的关注。

　　在汪军看来，意识是智能的一个重要表现，哺乳动物可以察觉意识、感知意识并形成主观感受;同时，当多个个体与环境交互时，必须存在除单个个体外、另一有意识个体与环境发生影响、产生共鸣，从而使主观感受得以表达。

　　对此，汪军和团队提出，在 AI 研究中，必须有多智能体(Multi-Agent)的相互作用来引发意识。

　　以大模型为例，跨任务是人为定义的，只局限在给定一个特定任务，把算法设计好让机器去跑，难以产生更大智能的 AI，模型的思考能力和决策能力也无法得到提升。

　　汪军告诉 AI 科技评论，“在同时推进多个事情时，需要大的思想来指导。如果没有，显然还缺乏一个内在的规律。”这个规律，正是机器模型通往更大“智能”的关键路径。

　　2022年5月，DeepMind 发布集合 CV 和 NLP 的通用智能体“GATO”，它可以玩雅达利游戏、输出图片字幕、用机械臂堆叠积木、跟人聊天等等，还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token(逐词)，这项工作在当时引起了不小的讨论。汪军也是关注者之一。

　　事实上，从2021年开始，汪军和团队就开始思考创建一个可实现跨任务，将 CV、NLP、强化学习和多智能体四者嵌套为一个统一体决策模型的可能性。“GATO”的出现让汪军看到大模型广阔的可探索空间，“这足以证明，一个模型解决多个领域任务是大势所趋。”

　　决策大模型并不能单纯从模型大小意义出发，究其本质，是在数据集中通过强化学习与环境不断交互所达到的一定的认知水平，如何攻破这个问题?当中最大的技术点就在于，降低强化学习和环境交互的复杂度。

　　原有数据在这一环节中起到关键性作用。

　　通过对其他任务或算法同环境交互产生的原有数据训练，搭建一个预训练模型，这一模型在面对新任务时即可迅速在进行应用，从而实现规律、关系和数据的价值最大化。而伴随预训练数据集的不断扩大，模型也随之变大，直至它可覆盖的所有任务。

　　最终结果是，解决问题的方法聚拢，多个方向汇聚、统一为一个可预约、可跨任务泛化的多智能体。多智能体往往需要考虑平衡关系，即在达到自我目标的同时，使对方也能达到它的目标，互相牵制从而保持一个稳定的平衡。

　　进入实际应用场景中，多智能体也可以帮人们解决很多实际问题，例如搜索、推荐，甚至互联网广告，其本质上是一个决策的过程，帮助用户找到需要的内容，而且这个内容是符合用户喜好的，“推荐给你看，其实就是个决策。”。

　　多智能体的优势在于，可以很好地发挥其跨任务的能力。

　　事实上，早在2017年开始，汪军和其学生张伟楠(上海交通大学教授)就开始了跨任务尝试，在自然语言处理(NLP)中加入强化学习。

　　以往的自然语言处理使用 GAN 生成文字时，由于词索引与词向量在转换过程中的数据不连续，经常会导致微调参数不起作用;不仅如此，由于 GAN 的判别模型只对生成数据整体打分，但文字一般均为逐词生成，难以控制细节。

　　为此，他们提出 SeqGAN 模型，通过在借鉴强化学习策略，解决了 GAN 应用于离散数据的问题，这也是最早利用强化学习训练生成性语言模型的论文之一，实现了文本生成，在自然语言处理和信息检索等不同领域具有广泛的应用。

　　论文地址：https://arxiv.org/pdf/1609.05473.pdf

　　“强化学习和决策本质上是相通的，通过强化学习，可以解决一些决策问题。”在汪军看来，决策是一个长期研究的问题，多智能体决策大模型的提出，经泛化后可在某些特定领域形成特有优势，AI 中大部分问题均可借助决策大模型来解决。