给出简单的信息、写作目的-点击发送-得到一篇结构完整、逻辑缜密、语句通顺的文章。这是近期大热的OpenAI最新对话模型ChatGPT能做到的,除了写文章,它还能闲聊、问答、修改代码,甚至定制简历和商业解决方案。
与此前我们想象的远离生活的实验室研究和展示在会议大屏幕上的虚拟形象完全不同的是,进入2023年,AIGC(人工智能自动生成内容)真正走向了实用水平,深入我们生活的方方面面,逐渐颠覆现有内容生产模式。而这背后是人类对自身智慧的最大探索,更是行业领先者如微软(MSFT.O)、百度(BIDU.US/9888.HK)等公司在技术、策略、人才等方面实现的重大跃迁。
在布局探索深度学习、自然语言处理等人工智能技术的中国公司中,百度毫无疑问走在行业前列,尤其是通过AI实力和底层技术积累,百度的前瞻性布局和探索将推动包括绘画、音乐、新闻创作、主播等诸多行业的跨越式发展。在1月10日百度举办的Create AI开发者大会(下称“Create大会”)上,“人机共创”不仅是前台的展示案例,更是幕后真正的创造者,深入应用到了大会歌曲、场景、演讲脑图等的创作。
更加值得关注的是,在打造首个“人机共创大会”的背后,“创新-反馈-创新-增长”的逻辑在百度的整体发展路径中变得格外清晰。技术层面的AIGC发展和应用将承上启下,反馈底层框架的同时,深化应用并赋能产业及实体经济发展。正如其创始人、首席执行官李彦宏在开发者大会开幕时所说,“技术的发展,没有导航地图,只有指南针。在方向大致正确的情况下,基于实践反馈,一步步迭代,才能跑出有价值的创新。”
图说:百度创始人、董事长兼首席执行官李彦宏在Create大会上
生成式搜索指路未来
从ChatGPT说起,这一人工智能模型如此聪明,以至于编程问答社区Stack Overflow“手疾眼快”地以错误率高为由封杀了ChatGPT。那么,ChatGPT是否会取代谷歌等平台,成为下一代搜索引擎?
在研究搜索引擎与自然语言处理的张俊林博士分析看来,ChatGPT的技术路线强在训练回报模型(Reward Model,RM)的阶段,即在模型给出一批语言答案后,通过人工标注训练数据,来训练回报模型的过程。
但ChatGPT自身要取代搜索引擎,还存在诸多问题和困难,例如其回答的质量未必靠谱,且在提问者不知道答案的情况下很难判断。网友的“用小学生题测试ChatGPT”的实验显示,ChatGPT主要适合回答很难证伪的问题,有时会“一本正经地胡说八道”,比如把葫芦娃说成是来自《聊斋志异》。此外,模型吸纳新知识的训练时间成本和金钱成本都较高,且可能产生新数据的引入导致对原有知识的灾难遗忘问题。
因此,张俊林及很多专家学者都认为,ChatGPT暂时还不能取代搜索引擎,但搜索引擎+ChatGPT的双引擎结构比较可行。即搜索引擎给出资料来源,帮助用户验证答案的准确性;ChatGPT则提炼逻辑,优化Top1搜索结果。通俗来说,未来的搜索引擎大概率是以用户智能助手APP的形式存在的。
从搜索引擎与ChatGPT二者关系来看,考虑到短期内大模型训练成本难以大幅下降,张俊林认为过渡阶段会以传统搜索引擎为主,ChatGPT这种生成模型为辅,通过生成式搜索不断提升判断和处理效率,并最终走向以AIGC为主。
在国内的AIGC产品探索中,百度的手机虚拟AI助手度晓晓或许是目前最接近未来搜索引擎的样子。基于百度大脑7.0核心技术驱动,度晓晓整合了多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等多项技术,拥有实时可交互、陪伴可养成、开放式AIGC等能力。
度晓晓创作每幅画作的时间平均仅为几十秒,其使用AIGC能力创作的四幅画作为数字藏品卖出了17万元,还参加了西安美院本科毕业展。2022年,度晓晓还作为数字人主播,参与了全国两会报道。凭借着其不俗的内容生产能力,我们或许还可以期待时机成熟后,度晓晓和ChatGPT的问答pk。
从度晓晓的应用模式中,可以一窥百度在生成式搜索方面的优势。ChatGPT的能力优势在于回报模型,即有多少标注就有多少智能;而百度的优势则在于作为领先的搜索引擎,有着极大的用户量+全域搜索能力,这就意味着规模化的数据积累、大模型的应用以及深度学习能力的不断提升。在这样的背景下,AI获得了极大的应用场景,搜索效能也能完成大幅飞跃。
正如百度搜索杰出架构师辜斯缪在Create大会上所说,“搜索一直是AI规模最大的应用场景,搜索引擎就是最大的人工智能项目”。
AIGC的价值,创新的价值
AIGC所代表的人工智能技术创新价值,不仅体现在实践层面,也正在商业层面被资本市场所认可。《巴伦周刊》1月5日的报道称,尽管其目前的收入不多,但聊天机器人背后的研究实验机构OpenAI 正在洽谈以要约收购的方式出售现有股票,该公司估值约为290亿美元。考虑到2022年的科技股震荡,如果成交,该公司将成为今年极少数的能够在私人市场以更高估值筹集资金的初创公司之一,也是全球最有价值的美国初创公司之一。
资本市场对待创新往往是乐观而慷慨的,这也是百度所引领的人工智能技术及其应用蕴含的潜能和潜在价值。参考美股市场,分析师认为人工智能方面的投资和发展明显被市场低估了。投资公司DA Davidson的分析师在2023年年初的一份报告中写道:“市场尚未定价OpenAI技术(即ChatGPT)与微软Azure和Bing平台之间的共生关系所带来的增量上行潜力。”
百度在人工智能和搜索引擎的结合优势及市场潜力可以参考微软。人工智能的发展对消费者的友好性提升意味着明显的范式改变,进而意味着市场更多的认可和资金流向。一个显而易见的指标是,人工智能业务为企业带来的收入正在飞速增长。2021年,微软的云计算业务大爆发,智能云部门营收174亿美元,同比增长30%,增速高居其他业务之上;而受到百度智能云及其他AI驱动业务的推动,百度2021年的非广告收入达到人民币212 亿元(33.3亿美元),同比增长率高达71%。
“人机共创”的背后:AIGC渗透内容生产
在李彦宏看来,过去一年,无论是技术层面还是商业应用层面,人工智能都有了方向性的改变。技术层面,AI已经从理解内容走向了自动生成内容,基于百度领先的AI多模态技术,百度的AIGC可以用于作画、图片、图文、视频等多类型的内容创作。
例如,在AI作画方面,在百度“文心一格”平台上,只需要输入几个关键词,几分钟就可以生成风格独特的画作。音乐方面,2022年,百度数字人度晓晓发布了MV《启航星》,作画、作词、作曲,全部由AI一手操刀。
此外,百度的AI数字人度晓晓在挑战写高考作文时,40秒写了40篇,得分可以排在总考生前 25%。除了通过文字描述自动生成文章,百度AI还可以将百家号的图文内容自动转换成视频,在百度APP中呈现。
另一个生动的案例是,2022年7月21日,由百度与央视新闻联合举办的2022百度世界大会在线上召开,由总台央视主持人撒贝宁与百度AI数字人希加加担任主持。
现场,中国十大传世名画之一《富春山居图》的残卷被百度AI技术补全修复。完成绘画后,AI还为此题诗一首。百度AI数字人希加加还在现场一展画技,完成了撒贝宁提出的“后现代感的色彩斑斓的朦胧的猫”的考题。
AIGC对内容生产的颠覆不仅体现在种类的多样性,更体现在效率的极大提升和成本的几何级缩减。未来,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。
内容生成的技术底座:天才创作者
支撑AIGC生产能力的,是深度学习能力和预训练大模型。和人的成长类似,AI的能力提升也需要经过学习、应用、反馈和创新。从更底层的技术支持来看,预训练大模型是当前人工智能发展的重要方向,也极大地促进了AIGC的发展。
百度文心大模型,就凭借着超群的学习能力和内容生成能力,构建起了业界规模最大的产业大模型体系,领先行业降低门槛,让更多企业和开发者步入了AI应用的新阶段。
与人类大脑的学习需要积年累月的记忆、技能的积累以及团队协作相比,文心大模型算得上是一个“天才创作者”。例如,文心ERNIE 3.0 Zeus是“天才编剧”。这个模型首先能够从丰富多样的无标注数据中学习,这些数据的题材包括百科、小说、新闻、戏剧、诗歌等。通过NLP(自然语言处理)的持续学习,模型可以完成同义改写、写作文、对对联、写小说等多种任务,不仅是“天才”,还是“通才”。
图说:文心ERNIE 3.0 Zeus平台截图
文心 ERNIE-ViLG 2.0,则是“天才美术师”。根据输入的简单描述文本,就可以生成风格各异的画作。与文字的处理和生成不同,为了达成这个目标,百度提出了知识增强的扩散模型。扩散模型在学习过程中,引入语言、视觉等多源知识,指引模型更加关注文本和图像中的核心语义元素,实现精准的细粒度语义控制。
图说:用文心 ERNIE-ViLG 2.0平台生成的“兔年大吉”主题、蒸汽波艺术风格图片
在应用层面,这些功能可以应用于工业设计、动漫设计、游戏制作、摄影艺术等场景,激发设计者创作灵感,极大提升设计效率、降低商业出图的门槛。
此外,基于大模型技术,文心构建了涵盖视觉内容生成与编辑的全套技术方案。因此,文心大模型还拥有视频内容生成与编辑技术,是“天才剪辑师”和动画师。在生成视频的同时,可根据需要调节片段的时长,提升视觉内容生产效果和效率。
这一技术可应用于老电影的修复。以前的人工修复需要手动一帧一帧地修复,费时费力,而现在使用大模型则大幅提升了效率,每天单机可修复视频28.5万帧,解决了绝大部分画面的修复问题;即便是需要进一步精修,速度也能提升3-4倍。
截至目前,文心已累计发布11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域,加速推动行业的智能化转型升级。这意味着,基于大模型底层技术上的积累,百度将真正通过AI实力及技术应用推动实体经济和产业的发展,极大地促进降本增效。
人工智能的黄金10年
除了人工智能在各种形式内容产出的应用外,在Create大会上,百度的技术团队还带来了技术的深度解读与产品发布,展现了百度在人工智能领域多行业、多角度的的深厚技术实力。
例如,在与人们的日常生活更加息息相关的智慧出行领域,百度研发了在世界范围内、在全行业、第一个能在手机上实现纯软件方案回声消除的技术,实现自由语音交互。此外,百度提出了车路一体的解决方案UniBEV,它支持多传感器、多模态、多任务、时序融合等端到端感知能力,让聪明的车和智慧的路可以更好地协同发展。
李彦宏判断,以车路协同为基础的智能交通,可以让通行效率提升15%-30 %,推动GDP每年2.4%-4.8%的绝对增长;随着智能交通的深入实践,2027年之前,中国一线城市不再需要限购限行。
此外,在搜索业务、量子计算、智能计算、IaaS(基础设施即服务)层产品等方面,百度都在核心业务上扩展并升级应用,并不断提升效能。
技术之外,百度也在人才方面促进中国人工智能的未来发展。三年前,百度宣布五年内为社会培养500万AI人才,目前已培养了超过300万。通过高校教师赋能、大国智匠人才培养计划、各类竞赛、奖学金等方式,百度已经与全国100多所高校进行深度人才培养战略合作,共同培养创新实践型AI人才。
事实上,从实体经济多个产业领域来看,数字化改造尚未完成,全球的技术市场需求仍很大。因此,李彦宏以“危机和希望”为关键词,在百度AI作画平台一格上,由人工智能自动生成了一幅画:生机勃勃的新生命已经破冰而出,然而寒冷还没有完全褪去。
2022年的Create大会上,李彦宏说,“随着技术应用门槛不断降低,创造者们将迎来属于人工智能的黄金10年”。考虑到潜在的市场需求空间、技术的升级及应用的不断扩展,《巴伦周刊》中文版认为,今天这句话依然适用。
从高端芯片昆仑,到飞桨深度学习框架,再到文心预训练大模型,在人工智能大浪潮中,百度已经在各个层面都布局关键自研技术,且通过每一层之间的反馈带来创新,实现端到端优化。这一模式带来的飞轮效应意味着一方面技术开发和应用的门槛进一步降低,另一方面则是人工智能深入产业,赋能实体经济发展。
“创新驱动增长,反馈驱动创新。”百度及其他人工智能引领者将进一步获得资本市场的褒奖与回馈,在实践中带动产业效率的提升和产业升级,赋能实体经济发展,最终实现高效率的、高质量的增长。