生成式AI：缘起、机遇和挑战

　　陈永伟/文

　　生成式AI元年

　　每隔几年，在人工智能领域都会出现一个新的热点。在刚刚过去的2022年，这个新热点无疑就是“生成式AI”(GenerativeAI)。所谓生成式AI，就是通过各种机器学习(MachineLearning，ML)方法从数据中学习对象的组件，进而生成全新的、完全原创的内容(如文字、图片、视频)的AI。这些生成的内容会和训练数据十分相似，但却不是简单地对学习数据进行复制。

　　早在去年年初，著名科技咨询机构高德纳(Gartner)就发布了一份2022年最有前景的技术预测榜。在榜单中，总共列举了十二种技术，生成式AI位列榜首。此后的事实证明了高德纳预测的正确性，在这一年中，一个接一个的生成式AI模型不断惊艳了人们。

　　最先是OpenAI于4月份发布的Dall-E2。这个AI程序可以根据用户的需要生成所需要的图形。用户只要输入自己想要的内容和图形风格，程序就可以迅速地生成对应的图形——即使人们对图形的描述是非常天马行空、不切实际的。Dall-E对绘画风格的模仿非常精准。OpenAI曾经让Dall-E2仿照一些画家的风格生成了一批图片，然后将这些图片和画家本人绘制的图放在一起让用户来进行分辨。结果显示，大部分的用户根本无法判断哪些图是原画，哪一些图是由AI生成的。

　　由于Dall-E2的出色表现，通过言语描述生成图形的AI概念迅速爆火。在众多的类似产品中，最有代表性的是由StabilityAI推出的StableDiffusion模型。与OpenAI相比，作为初创公司的StabilityAI不太起眼，但从产品的品质看，StableDiffusion却十分可圈可点，在不少方面甚至比Dall-E2更为出色。举例来说，Dall-E2在生成图形时是带有非常大的随机性的。如果用户不满意，那么Dall-E2就只能按照要求重新随机生成一张。而StableDiffusion的处理则更为人性化：它可以根据用户的要求，生成一组图片。如果用户感觉其中的某一张比较满意，就可以将其存为种子。这样，程序就可以记录这张图片的大致构图样式，在随后的生成中，就可以在这个种子的基础上进行改动。通过这样的设计，人们就可以比较容易地得到自己满意的图片。更为重要的是，在StableDiffusion大火之后，其开发团队立即将其开源。目前，开发者已经可以通过对StableDiffusion的源程序进行修改来得到自己的生成式AI程序。

　　在图形生成AI大获成功的同时，文本生成型AI也异军突起，而其代表产品就是年底时火爆全网的ChatGPT。ChatGPT也是由OpenAI开发的。从外观上看，ChatGPT就是一个聊天机器人，用户只需要在对话框中键入相关内容，ChatGPT就会给出对应的回答。但和之前的对话机器人相比，ChatGPT的能力显然要强大太多。它不仅可以根据交互过程中的上下文，对用户的一些简单问题对答如流，还可以按照用户指示完成较为复杂的工作。比如，用户可以命令它撰写小说——为了实现这一点，用户只需要列出大纲，提出要求，ChatGPT就会根据要求生成对应的内容。再如，用户也可以描述相关要求，让它编写对应的程序。在程序生成之后，它甚至还可以根据要求进行对应的修改。此外，ChatGPT甚至还可以求解数学题。我曾经让ChatGPT做了一套中学数学试卷的选择题部分，结果其正确率达到了80%以上——作为一个AI，可以顺利读懂题干，并进行对应的求解，可谓已经相当不易了。值得一提的是，一些用户还将ChatGPT和Dall-E2这出自同一公司的“两兄弟”配合使用，让ChatGPT生成对图片的描述，再让Dall-E2根据描述生成对应的图片，结果非常亮眼。

　　正因为有如此多的生成式AI模型在这一年中陆续涌现，因此很多业内人士建议将2022年称为“生成式AI元年”。

　　AI是如何生成内容的

　　AI是如何通过学习内容材料，最终达到生成内容的结果的呢?其背后的原理是什么?如果用比较专业的术语讲，AI能实现这一切，都是因为一个名为“生成式对抗网络”(Generativead-versarialnetworks，简称GAN)的模型。而要讲明白这个模型，我们就需要对机器学习和深度学习的一般概念有一个比较初步的了解。

　　对人工智能领域有所了解的读者应该知道，在“人工智能”这个大领域下面，存在着很多子领域，并且在不同的时期，引领人工智能发展的子领域各不相同。举例来说，在上世纪六七十年代，人工智能的发展重心是专家系统;到了八十年代，概率推理则一度成为了人工智能发展的重点。而在近十年中，人工智能的发展主要是由机器学习推动的。顾名思义，机器学习就是让计算机对数据进行学习，从中找出规律，建立模型。举例来说，如果我们要让计算机从图片中识别出狗，就可以让它学习很多有狗的图片，让它从中摸索出足以判断某个图形是狗的规律。当然，机器学习可以用很多模型来实现。比如，我们常用的回归(regression)算法就是标注出一系列可以判断图片是狗的要素，类似“翘起的耳朵”、“浑身长毛”、“有尾巴”等，计算机通过对数据的学习，就可以在这些特征与“图形是狗”这个事实的概率之间建立一种关系，例如发现了图片中有“翘起的耳朵”，则判定图形是狗的概率增加10%;发现图片中“有尾巴”，则判定图形是狗的概率增加5%……最终，计算机可以在学习了大量图片的基础之后，建立起一个模型，据此来判断新的图片当中究竟有没有狗。

　　不过，类似的算法的缺陷是显而易见的。具体来说，在上面的例子中，用来判断图形是狗的因素是人们事先给定的，这些因素夹杂着人们的先验判断，因而很可能是不可靠的。比如，一个动物有“翘起的耳朵”、“浑身长毛”、“有尾巴”，但它可能是狼。在多数情况下，人们只要看到了图片，就可以从动物的神情等信息十分精准地判断出它究竟是狗还是狼，但如果根据前面的算法，机器就很难作出类似的判断。那么如何解决这一问题呢?一个可能的破解办法就是引入深度学习(deeplearning)技术。

　　所谓深度学习，是一种模仿人脑思维过程的方法，它利用多层神经网络进行学习，通过组合低层特征形成更加抽象的高层表示属性类别或特征，最后作出综合判断。回想一下我们学会认识狗的过程，我们只是看多了，就自然而然地知道什么是狗了。把这个“自然而然”的过程进行解剖，我们其实是通过对狗的大量观测，在大脑中总结出了很多关于狗的特征——这些特征很可能很难用语言准确地描述出来，但却可以在实践中用于判断。类似的，深度学习也是通过对大量样本的学习，逐步总结出一些判断动物是不是狗的重要特征，最终生成一个用来判断图形是否为狗的模型。

　　在实践当中，深度学习很快表现出了其强大的能力。例如，目前得到广泛应用的语音识别和影像辨识系统，其背后的原理都是深度学习;而2016年因打败人类围棋高手而闻名于世的AlphaGo，也是根据深度学习的原理训练的。不过，深度学习的问题是十分明显的，那就是它对于数据有着海量的需求。比如，如果要训练一个AI程序能够顺利地实现对狗的识别，很可能要“喂”给它上百万，乃至上千万张与狗相关的图片。

　　如果没有如此充足的数据，又应该怎么办呢?几年前，我曾经就这个问题问过一位AI从业者。他打趣地回答说：“能怎么办呢?我就和AI说，你已经是个成熟的AI了，应该自己生成数据，自己训练自己了。”起初，我认为这就是他和我开的一个玩笑，但在他的一番解释之后，我才恍然大悟，原来他和我说的，正是GAN的基本原理。

　　GAN的思想最早出自2014年，其提出者是著名的深度学习理论专家伊恩·古德费洛(IanJ.Goodfellow)。在原理上，生成式对抗网络使用两个神经网络相互对立，一个生成器和一个判别器。生成器或生成网络是一个神经网络，负责生成类似于源数据的新数据或内容。判别器或判别网络是负责区分源数据和生成数据之间的神经网络。这两个神经网络都经过交替周期训练，生成器不断学习生成更逼真的数据，判别器则更善于区分假数据和真实数据。为了能够生动地说明GAN的原理，古德费洛打了一个形象的比方：GAN就像是构造了一个警察抓小偷的游戏。小偷不想被警察抓住，因此他需要不断揣摩警察的行为，并据此来隐藏自己是小偷这个事实。而警察则想要抓住小偷，因此他就需要不断学习小偷的伪装办法，并据此调整自己的抓捕策略。这样，经过不断的“斗法”，小偷的伪装技巧和警察的抓捕策略都可以得到大幅的改善，并且这种迭代的速度会非常快。在古德费洛发表的第一篇关于GAN的论文中，就展示了这个过程：起初，他用一个生成网络生成了一只假狗的图形，这个图形很快就被判别器识别为是假的。但是在经过几轮学习之后，生成网络生成的狗的图片就已经可以很好地骗过判别器了。

　　显然，在对GAN进行应用之后，就可以很好地解决数据不足的问题，因为生成网络可以根据自己的学习结果，不断生成出对应的数据供判别器来进行判断，想要多少数据就能生成多少数据。也正是因为这个道理，GAN的思路一经提出，就得到了广泛的应用。

　　当然，在训练某些大型AI程序时，除了使用GAN，还需要使用一些其他的训练方法。以ChatGPT为例，GAN的使用主要是让他的回答在表现上更像一个人，但GAN本身是难以保证它回答的内容本身究竟是不是准确的——比如，ChatGPT要知道清朝是哪一年建立的，只能通过检索网络信息得到。而这些检索到的信息本身的可靠性是存疑的，要对此进行验证，必须依靠人力。而将这个程序放到网上，让用户来对其回答的内容进行反馈和纠错，就是对它的进一步训练——明白了这点，我们也就不难理解为什么OpenAI会舍得把用巨资训练的ChatGPT放在网上，让用户免费使用了。因为用户在不断“调戏”这个AI的同时，也在充当着免费AI训练师的角色，帮助它不断成长。

　　为什么是现在

　　这里有一个问题：为什么生成式AI会在2022年迎来爆发呢?我们知道，大约在五六年前，由于AlphaGo击败了人类围棋高手，人工智能曾经迎来过一次热潮。在这股热潮中，也涌现出了很多著名的AI模型。按照“生成式AI”的定义，我们很容易从前些年火爆的AI模型中找到它们的原型。比如，2017年，微软开发的人工智能“小冰”就出版了诗集《阳光失了玻璃窗》;美国工程师扎克·图特(ZackThoutt)用自己设计的人工智能RNN续写了知名小说《冰与火之歌》——这些实践都是早期生成式AI的例子。不过，在当时，生成式AI的应用还仅限于一个很小的范围。那么，为什么是现在爆发呢?其原因是多方面的。

　　第一个原因是在最近几年中，人们对AI模型的认识产生了变化，更加适合于生成式AI的“大模型”取代“小模型”成为了人们的新宠。在五年之前，人们更为偏爱那些参数量相对较小，结构较为简单的小模型。这一方面是因为小型的模型对于硬件的要求较低;另一方面是由于和大模型相比，小模型具有更高的可解释性和稳健性——想象一下，有两个模型，一个是只有两个参数的线性回归模型，另一个是有2000个参数的深层学习模型，那人们可以很容易从第一个模型看出某个参数变化和结果变化之间的关系;而对于第二个模型，人们根本无法知道参数的变化会对结果造成怎样的影响。但对于执行比较复杂的任务，大模型的表现要比小模型好太多，并且在其他条件相同的情况下，模型的参数更多，模型的表现也会更出色。事实上，我们现在看到的生成式模型，无论是Dall-E、StableDiffusion，还是ChatGPT，都具有数量庞大的参数。

　　第二个原因是在最近几年，人们发展出了一些新的模型结构，这使得大模型的训练变得更为容易了。其中，比较有代表性的模型结构就是著名的Transformer。相比于过去的模型结构，Transformer可以实现更好的并行性，并可以大幅度缩短训练时间。在后来对于大型生成式AI的训练过程中，这些更好的模型结构都起到了关键作用。

　　第三个原因是近几年硬件能力的进步。要训练像Dall-E、ChatGPT等大型的AI模型，需要有巨大的算力作为支撑。在最近几年中，随着各种软硬件技术的突破，人们可以驾驭的算力获得了突飞猛进的增长，在这样的背景下，训练大型生成式AI才成为了可能。

　　第四个原因是数据的极大丰富。虽然随着GAN的发明，AI的训练已经在一定程度上摆脱了对于数据的依赖，但很显然，如果是要训练出大型的生成式AI，充分的初始数据投入是必要的。而在过去的几年中，随着移动互联网的发展，人们已经能十分方便地生成并分享包括文字、图片，以及视频在内的各种信息，而这些信息都可以被用来进行生成式AI训练的材料。

　　正是在理念转变的指引之下，以及更好的模型、更强的算力，以及更丰富的数据的共同支撑之下，生成式AI才最终在2022年迎来了爆发。

　　生成式AI究竟有什么用

　　那么，生成式AI究竟有哪些可能的应用场景呢?或者说，除了做成类似Dell-E、ChatGPT这样的产品，放在网上供人们娱乐之外，它们到底能带来什么?在我看来，可能的想象空间是十分巨大的。

　　第一，它可以提供大量素材的生成。借助于生成式AI，人们可以以相对低廉的价格大规模地生成包括文本、图片、视频、3D形象在内的各种素材，这可以对丰富网络环境起到非常大的作用。尤其值得一提的是，随着元宇宙时代的到来，人们对元宇宙中的3D建筑和人物形象的需求出现了大规模的上升，显然，依靠纯粹的人工制作是很难满足这样的需求的，而生成式AI的出现则可以很好地解决这个问题。事实上，包括微软、英伟达在内的很多企业已经看到了这个商机，推出了自己的生成式AI平台，专门为元宇宙提供3D素材。

　　第二，它可以在包括文艺演出、影视等很多领域替代人力完成部分工作。比如，在《星球大战》的衍生剧《波巴·费特之书》中，有一部分剧情是涉及年轻时的“天行者”卢克的。很显然，出于满足“星战粉”的情怀需要，让1977年的电影《星球大战》中卢克的原扮演者马克·哈米尔出演这个角色是最为合适的。不过，在拍摄时，哈米尔业已年迈，即使借助高超的化妆技巧也很难重现他那张青年时代的脸。为了弥补这一遗憾，制作方让AI学习了大量哈米尔年轻时的表演片段后，成功地做出了一张年轻版的哈米尔的脸。于是，年轻的“天行者”卢克就这样时隔四十多年后，重新出现在了电视频幕上。

　　第三，类似ChatGPT这样的生成式AI模型将有希望成为新一代的智能助手和信息检索工具。谷歌和ChatGPT在提供信息时的方式是不同的：谷歌更强调对相关信息的全面提供，而Chat-GPT则会在整合各种有用信息的基础上，直接提供整理后的信息，其覆盖面要比谷歌更小。但尽管如此，类似ChatGPT的AI仍然可能成为一种新一代的信息检索工具，并对人们的信息获取方式产生广泛而深远的影响。

　　第四，生成式AI的崛起还将让科技研发、工业设计等领域产生深刻的变化。一个著名的例子是用AI来破解蛋白质折叠问题。在现实中，氨基酸残基形成的长链将会折叠成错综复杂的3D结构，错误折叠的蛋白质有可能会引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生。因此，要开发可以应对这些疾病的药物，人们就需要发现蛋白质的3D结构，并找出哪些药物或化合物可能与人体组织相互作用，以及怎样相互作用。然而，要发现蛋白质如何折叠是非常困难的，应用实验的方法分析一种蛋白质的结构往往需要几周、几个月，甚至更长的时间。在AI进入这个领域前，科学家们只分析了人体2万种蛋白质中17%的结构。然而，从2020年开始，由DeepMind推出的AlphaFold改变了这一切。AlphaFold模型可以根据基因“代码”预测生成蛋白质的3D形状，并在数小时或数分钟内生成结果。到目前为止，AlphaFold已经分析出了2亿多种蛋白质的结构，几乎已经将人类已知的蛋白质都一网打尽了。此外，研究显示，用AlphaFold预测得到的准确率已经达到了90%以上，比用人力通过实验测定的准确性有过之而无不及。可以想象，这个事件对于蛋白质结构分析这个领域，甚至整个分子生物学的影响将会是颠覆性的。

　　生成式AI的发展带来的挑战

　　需要指出的是，虽然生成式AI的发展具有非常巨大的应用潜力。但和任何一项新技术一样，它的发展也会带来很多挑战。限于篇幅，这里我们只对其中的三个挑战进行讨论。

　　第一是对现有知识产权体系的挑战。2022年8月，在美国科罗拉多州博览会上的艺术比赛中，一副名为《太空歌剧院》的作品一举夺得了数字艺术类别的冠军。不过，不同于其他参赛作品，它并不是由真人创作的，而是一副AI生成作品。游戏设计师杰森·艾伦(Ja-sonAllen)在AI绘图工具Midjourney中输入了自己对作品的构思，Midjour-ney就生成了画作的初稿。然后，艾伦又在初稿的基础上用Photoshop进行了一些修改，并生成了最终的画稿。因此，根据创作流程，艾伦并不能算是这副画作的作者，充其量只能算是一位修改者。更为麻烦的是，作为一款生成式AI程序，Midjourney其实是通过学习既有的画作，然后用其中的素材来组合出初稿的，从严格意义上讲，它也并非“创作”了作品，只是对前人的素材进行了重组。在这种情况下，究竟《太空歌剧院》是谁的作品?这个大奖又应该颁给谁?相应的经济回报又应该由谁享有?所有的这些，都成了棘手的问题。

　　而随着生成式AI日益成为重要的生产工具，类似的问题会越来越多。如果不进行妥善处理，平衡好素材提供者，以及再创作者之间的利益，相关行业的发展将会受到很大的干扰。而要处理好这个问题，就需要对现有的知识产权体系进行比较大的变革。

　　第二是安全和隐私问题。2017年底，一组色情短片开始在国外著名的论坛Reddit上传播，其中的女主角竟然是《神奇女侠》的主演，著名演员盖尔·加朵。追查之下，真相很快就浮出水面：那些视频其实都是由Deepfake在色情片的基础上换脸而成。但尽管如此，作为事件的主角，加朵本人已经在这个事件中遭受到了深深的伤害。

　　这只是生成式AI带来的安全问题的一个代表。事实上，随着人们可以用AI轻易地生成某个特定风格的作品，真相就已经开始死亡了。这些合成视频的真实度已经非常高，这意味着，如果有人将类似的技术用于不良用途，其欺骗性将会是非常高的。

　　虽然目前人们依靠肉眼已经很难分辨出生成内容和真实的内容，但借助于一些特定的AI工具，我们依然可以完成真假的鉴别。不过，这个过程又能持续多久呢?如果生成式AI的目标就是让生成的目标更为真实，那么它是不是很快就能创造出让识别AI都难分真假的作品?最终，生成式AI和鉴别AI之间的博弈会不会构成另一个GAN的结构?这一点似乎是值得我们引起重视的。

　　第三是生成式AI引发的失业问题。在2017年前后，也就是上一轮AI热潮来临的时候，AI引发的失业危险就是人们关心的问题。当时，面对担心被AI替代的群众，很多专家给出的建议就是去选择一些有创造性的职业，比如绘画、写作、程序编写等。但没有想到的是，在短短五六年后，这些曾经被专家们认为难以被AI替代的工作却这么快被替代了。

　　那我们应该如何应对这样的就业挑战呢?我想，这应该取决于个人和政府的共同努力。从个人角度看，应当直面AI的挑战，及时对自己的工作方向进行调整。例如，当AlphaFold分析了所有已知蛋白质的结构后，原来通过实验来探索蛋白质结构的科研人员就可以将工作重心更多地转到根据结构开发对应的药物;当StableDiffusion可以帮助人们完成作画细节后，原来的画师就应该更多去思考作画的构图。而从政府层面看，则应该继续加强相关的就业指导，保证因AI冲击而失业的人员可以及时转向其他的工作，并对无法转岗的人员提供相应的保障。只有通过这样的配合，才能有效应对这一轮新的AI就业冲击。