在许多人眼中,AIGC的元年已经来临了。
风从AI绘画开始刮起。2022年8月31日,一幅名为《太空歌剧院》的绘画作品在美国科罗拉多州博览会的美术比赛中斩获了一等奖,随即引发了舆论风暴,其创作者游戏设计师Jason Allen更是被推上了风口浪尖。
某种程度上,《太空歌剧院》代表的是一个时代的奇点——AI创作的内容,拥有了击败人类作品的实力。没错,实际上,Jason Allen并不是作品严格意义上的创作者,他利用AI绘图软件MidJourney创作了《太空歌剧院》,经过近千次的调整和尝试,才将这幅宏大的科幻作品呈现到了无数人面前。
AIGC初露端倪,随即便席卷了全球,很快,“拥有灵魂的人工智能”ChatGPT横空出世,在一场场对话与互动中,人们惊叹着,属于AI的时代似乎真正来临了。
在国内外,一场AIGC的内容创作革命也旋即开始,在谷歌、微软大步向前的同时,百度、腾讯等国内玩家也进一步加紧了布局。2023年1月10日,2022百度Create大会正式举办,在百度息壤元宇宙中,10万人同屏共同见证了过去一年百度在新技术领域实现的突破,而AIGC则是其中最重要的部分之一。
这再度印证了许多人对于这一赛道的判断:AIGC必将成为时代的下一个风口。
元年来临
为何此前一直在公众领域默默无闻的AI绘图能够突然爆火?
事实上,在过去一年里AI绘图的迭代堪称恐怖。自2015年开始,AI绘图就在GAN(生成式对抗网络)概念模型迎来了较为快速的发展,但始终难以突破技术的瓶颈,实现高效率又低门槛的图片生成,彼时的AI绘图,不仅需要输入复杂的参数,生成时间也较长,最终的结果也往往不能尽如人意。
但与此同时,NLP(自然语言处理)技术在架构升级中不断向前演进,预训练模型的使用进一步提升了AI的深度学习能力。这为绘图技术的突破提供了新的想象力,2022年,另一个计算机视觉生成技术扩散模型(Diffusion model)被广泛使用。
扩散模型早期相关论文
在NLP与视觉生成技术的双重进化下,AI绘图终于突破了临界点,迎来了爆发。标志性就在于,只要输入关键词组,每一个用户都能利用AI绘图技术创作出足够精美的图画,并且创作效率是秒级的。
AI绘画让人工智能生成内容广为人知,而ChatGPT的出现则让人们看到了AI的“恐怖实力”。ChatGPT是人工智能巨头OpenAI推出的对话式AI产品,聊天式AI似乎早在几年前就非常常见了,但ChatGPT的魅力在于,它似乎能够真正“理解”使用者的语义,并给出相对合理的反馈。
更重要的是,ChatGPT不仅是一个对话式AI,它还融合了检索等功能,真正能通过对话生成、创作文本内容,且这些内容拥有相对较高的质量。你可以让它作一首诗,解答一个哲学意味的问题,甚至帮你做一些创作类型的工作,比如写剧本,或者编程。
ChatGPT背后是OpenAI推出的AI模型产品GPT-3.5,基于对超大规模数据的深度学习,GPT-3.5的性能已经实现了飞跃式的进展,这才为ChatGPT赋予了“灵魂”。
在AI绘图与ChatGPT等产品的多重震撼下,人们终于注意到了一个新的名词——AIGC,即AI生成内容。2022年12月16日,Science杂志发布了2022年度科学十大突破,AIGC正是其中之一,在不少人看来,AIGC是下一个科技革命的开端,新的时代正在来临。
放眼世界,Stability AI、OpenAI群星闪耀,而在国内AIGC领域,同样也有一批企业抓准了时代科技的脉搏,而百度绝对能成为其中最具代表性一家企业。
早从十年前开始,百度就已经入局人工智能领域,是国内最早一批进驻AI赛道的玩家,在多年的深度耕耘中,百度在人工智能领域的投入超千亿,始终引领着国内AI技术的发展,也是世界AI领域最杰出的企业之一。
早从几年前开始,百度就已经在AIGC领域展开布局,在今年A绘图迎来技术突破之时,百度就推出了基于文心大模型的AI绘图产品文心一格,其也是国内最早出现、技术力最强的AI绘图产品之一。
ChatGPT以对话反馈与生成式搜索惊艳全球,百度也早已将AI技术深度植入了搜索引擎汇总,同样基于文心大模型,百度搜索已经进行了一轮AIGC化升级,通过搜索就能生成图表、文本等内容,用户的开放型搜索需求进一步得到了满足。从某种角度来说,中国的ChatGPT或许正在来临的路上,基于百度搜索的强大数据基础,在准确度与时效性上,百度的生成式搜索或许能够更加强大。
产品及应用已初见成效,对于百度来说,这一次的Create大会就是一个重要的节点,其第一次系统地对自身的AIGC成果进行了展示。那么,在元年来临的时刻,百度是如何理解AIGC的,又将打出什么差异化的玩法?
科技、反馈、创新
李彦宏再一次站在了Create大会的演讲台上。
这已经是百度Create大会的第五年,一直以来,Create大会都是全国乃至全世界AI开发者的一场盛会,但在2022年之后,Create大会也正在发生着变化,而契机正是AIGC。
对于李彦宏和百度来说,AIGC在2022年的爆发,代表的是新时代的开始。
“让我来判断第四次科技革命的标志,我认为是深度学习算法。这个技术能够带来的效率提升、能够驱动的经济增长,是比很多人想象的要更大的。”在演讲中,李彦宏给出了这样一个判断,过去一年AIGC的技术突破与强应用更是为AI领域发展提供了新的视角。
“技术层面,AI从理解内容,走向了自动生成内容,这包括AIGC用于作画、用于图文、视频等多类型的内容创作。”在李彦宏看来,方向的转变是清晰可见的,从在过去各个巨头对真正实现AGI(通用人工智能)的“执念”,到现在AI在创作领域的广泛应用,AI正在实践化、实用化的路上飞速狂奔着,同时在实践的过程中,通过最真实的反馈驱动创新。
这也是李彦宏的核心观点之一,即“反馈驱动创新”。他在演讲中提到了一个例子,即一位盲人在没有外部反馈的条件下需要用137亿年才能还原魔方,而在有及时反馈的情况下只需要两分半钟,“闭门造车”永远不能带来真正的创新发展。
百度正在这条“反馈”驱动创新的路上前行着。以百度AIGC的基石文心大模型为例,作为百度在NLP等领域布局的预训练大模型产品,文心大模型能有效集成自然语言处理、计算机视觉、智能语音等多模态能力,并在实践中推进深度学习技术的发展,以及大模型产品的调优。目前为止百度文心已经累计发布了11个行业大模型,深入科技、金融、创作等多个领域,作为技术底座,文心大模型能够适应多业务场景与行业需求,同时在实践中不断进化。
百度将AIGC的实践同样融入在了整个大会之中。
2022百度Create大会也是首届“人机共创大会”,最直接的表现即为,整个大会中深度应用了AIGC技术,在宣讲百度及行业的技术发展的同时,通过AIGC创造、搭建数字化演讲场景,比如在大会开场视频里,数字人希加加即开展一场Create世界的多维度跑酷,带领与会者深度参与进未来之中;在大会之中,数字人乐队还演绎了了AI作词作曲的歌曲,展现了AI超强的创作能力。
值得关注的是,数字人正在成为百度展现AIGC实力的最佳窗口。一直以来,数字人都被认为是AIGC技术的集大成者,以百度的度晓晓为例,2022年,度晓晓发布了MV《启航星》,无论是词曲还是MV内容,都完全由AI创作;度晓晓还在世界大会上挑战了实时创作高考作文,四十秒内完成了四十篇,并且获得了较好的得分反馈。
百度数字人融入了计算视觉技术、智能交互、语言生成等多种先进技术,能够最直接地将AIGC融入其中。在大会的宣讲环节里,百度还展示了他们在智慧出行、智能搜索、元宇宙解决方案、量子计算机、AI异构计算平台等技术突破,在每一个宣讲的背后,都有度晓晓、希加加、林悠悠等数字人的参与,他们不仅深度参与了大会内容的创作过程,还在宣讲场景、演讲脑图展开实时生成,从某种角度来说,AI成为了这场大会最重要的幕后创造者之一。
在2021年的Create大会上,李彦宏曾下过一个判断,“随着技术应用门槛不断降低,创造者们将迎来属于人工智能的黄金10年”,事实证明,这句话无疑是正确的。2022年开始,AIGC的黄金时代正在来临,人机共创Create大会或许只是个起点。
人机共创时代
我们再度将视角回归AIGC本身,百度所理解、践行的AIGC到底是什么样的?又将如何抓住“元年”的机遇?
正如“人机共创大会”这一名称一样,百度认为AIGC是一种“人机共创”的新模式。在2022年6月的世界大会上,李彦宏就曾直言,未来十年,AIGC将会颠覆现有内容生产模式。其并不仅是AI生成内容那么简单,AIGC代表的是内容生产力的一种解放,在效率、精细度以及数据采样等领域,AI都拥有极强的优势,用更低的成本创造出更多元独特的内容。
“人机共创“也同样需要更深层次的理解。在AIGC渐起之时,“取代人类创作者”的论调甚嚣尘上,甚至在绘画领域掀起了一场大论战,而在百度看来,AIGC代表的是一种更先进的生产方式,而不是AI将人类“取而代之”。
这主要关乎三方面,一方面是辅助内容创作,以文本创作和美术设计为例,AIGC能够完成许多较为基础的工作,大大提升创作者的效率;另一方面,AIGC是真正需要贴近用户需求的,以更低门槛、更便捷的方式为人们提供创作相关的服务,掌握基本的技术,人人都能通过AIGC成为创作者;最后,AI也并不是“完美”的,只有与人类创作者的结合中,在不断地反馈、纠错之下,才能产生更优质的内容产品。
我们可以以百度的文心大模型驱动的AIGC产品为例,其衍生出了三个内容生成模型,百度大模型负责人吴华将它们称为三个能力超群的天才创作者。
首先是“天才编剧”文心 ERNIE 3.0 Zeus,其是基于文本创作的内容生成模型,它能够从包括诗歌、剧本、小说等多类型数据中进行深度学习,同时通过多样的任务学习知识,从而更好的应对多样的文本生成任务。例如写剧本,文心 ERNIE 3.0 Zeus可以在创作者输入总纲及分集要求的情况下撰写剧本,实现高效率的创作。文心 ERNIE 3.0 Zeus在几十类自然语言理解和生成公开权威任务上,以及零样本和小样本学习任务上处于世界领先水平。
文心 ERNIE-ViLG 2.0则针对的是当前的风口AI绘图。在百度文心一格平台上,你就能体验到大模型生成图片内容的实力。通过一句话或者一段描述文本,文心 ERNIE-ViLG 2.0就能生成你想要的视觉画面,堪称天才美术师、设计师。文心一格作为国内领先的绘图产品,其核心优势在于在扩散模型的基础上进行了知识增强,引入语言、视觉等多源知识,指引模型更加关注文本和图像中的核心语义元素,实现更精准的语义控制。
最后即是视频内容生成与编辑技术,百度基于大模型给出了一整套视觉内容生成与剪辑的技术方案。简单来说,用户可以通过一个视觉画面或者一段描述文本,生成视频内容,同时这一内容是高清、流畅的。在视频编辑方面,AIGC技术的运用也更加娴熟,无论是视频修复,还是提升质感,文心大模型都已经实现了落地,大大提升了这一领域的创作效率。
从文本到图像再到视频,我们能看到,百度的AIGC内容生产工具是非常清晰的,借由这三位帮手,创作者能够实现更高效率的生产工作,普通人也能借由工具成为内容创作者,这无疑是对未来内容生产的一次革新。
百度也同样有着独属于自身的优势,一方面是知识增强、小型化等技术优势,能够帮助国内AI领域实现弯道超车,通过差异化打法中推动AIGC的迅速发展;另一方面,百度对于AI的布局是产业级的,“百度是全球为数不多的、进行全栈布局的人工智能公司。我们所做的事情可以分为四层:芯片层、框架层、模型层和应用层。”李彦宏在演讲中提到。在这样的产业链路之下,百度能够将AIGC真正运用进产业场景中,再度实现实践中反馈,反馈中创新的循环链路。
值得一提的是,百度没有忽视人才的重要性。AI领域,人才是最核心的资源之一,百度已经在三年间培养了超过300万AI人才,距离500人才的目标距离不远,在这一次的百度Create大会上,百度也再提人才战略,宣布未来百度会投入更多资源,通过高校合作、竞赛等方式推动创新实践型AI人才的培养。
在演讲的最后,李彦宏展示了一幅用文心一格平台创作的画作,以“危机和希望”为关键词,为AIGC乃至AI领域的发展作“序”。“生机勃勃的新生命已经破冰而出,然而寒冷还没有完全褪去。”在黑暗中摸索,走无人走过的路,百度正在开启一个属于AI的崭新时代。