央广网北京2月16日消息(记者 黄昂瑾)自2022年底推出以来,ChatGPT凭借接近于人类的语言理解和表达能力在社交媒体迅速走红,其背后的技术创新和产业价值也持续受到业界内外的关注。
近日,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》(以下简称“白皮书”)明确提出,支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。
白皮书中提到的“ChatGPT的大模型”是什么?国内企业如何对标?国内企业突破的方向有哪些?
对标ChatGPT
打造普适性大模型助力新业态
通俗理解,ChatGPT是美国人工智能实验室OpenAI在2022年11月推出的一款聊天机器人,从用户体验来看,ChatGPT不仅能实现流畅的文字聊天,还可以翻译、作诗、写论文、写新闻、做报表、编代码。在这些强大功能的背后,支撑ChatGPT的是人工智能大模型。
关于大模型,腾讯研究院发布的《2022十大数字科技前沿应用趋势》报告解释称:“当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于‘小模型’的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练, 就可以满足新应用场景的需要。”
中国新一代人工智能发展战略研究院首席经济学家、南开大学数字经济研究中心主任刘刚在接受央广网记者采访时指出,ChatGPT的推出,意味着大模型正式进入商业化、产业化时代,而大模型商业化运作成功,将会变成商业运用的产业集群,“因为一个大模型后面涉及大量下游的研发运用,比如其对话聊天功能可以应用到多个不同领域”。
事实上,近年来,预训练大模型已成为人工智能领域的共识。早在2021年12月,国家人工智能标准化总体组副组长、北京航空航天大学人工智能研究院教授吴文峻曾指出,业界的一个共识是,未来新的业态是预训练大模型,即大数据、算法和算力的一个发展的新阶段。预训练大模型可以作为一个基础的模型去支撑更多的应用领域模型的构建和研发,形成一种新的业态。
对标ChatGPT,吴文峻对央广网记者表示,“更核心的是它提供了一种普适性的大模型构造训练和应用的方法。现在ChatGPT聚焦在了自然语言方面,但也有可能将来会推广到其他的方面,比如视觉、语音等方面都有可能。”
前述《报告》也指出,大模型中的数据类型将不断丰富,由目前文本为主向图像、视觉等多模态方向丰富,进而推动模型准确性和泛化能力的提升。大模型正成为业界重点投入方向,谷歌、脸书、微软、百度、阿里巴巴、腾讯、华为和智源研究院纷纷推出超大模型。
支撑ChatGPT在自然语言处理方面表现出色的核心技术之一,是Transformer网络架构。简言之,GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。谷歌公司在2017年提出的Transformer网络架构,是一种采用注意力机制的深度学习模型,可以按输入数据各部分重要性的不同,而分配不同的权重。
据腾讯研究院资深专家、前沿科技研究中心主任王强介绍,Transformer的精度和性能上都要优于之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力。此外,Transformer还具有很强的跨模态能力,不仅在自然语言理解领域表现优异,在语音、图像方面也显示出了优异的性能。
“我们把ChatGPT的技术称为根技术,根技术的创新和突破会带来一个技术群,即一个技术体系,就是指除了大模型之外,它还有很多其他技术。”刘刚告诉记者,ChatGPT的根技术还涉及一个产业的生态系统创新,包括生态系统的完善和向各个产业的扩散。要对标ChatGPT的大模型,某种意义上就是要缩短我们在根技术创新上存在的差距。
(图源自CFP)
强算力、优数据
为支撑大模型更多元应用夯实基础
值得注意的是,白皮书中还提出,加强人工智能算力基础设施布局。加速人工智能基础数据供给。
对此,吴文峻告诉记者,一方面是算力基础设施,目前只有头部企业和大的研究机构拥有训练大模型所需的算力。不过,如果大模型基础底座长期被少数企业“垄断”,不利于人工智能长期健康发展。“加强基础设施其实是希望让我们有更多的人能参与到大模型应用的研发推广和产品技术升级当中,而算力是基础。政府则可以推动打造普适的算力基础设施,把生态做大,让大家来共同参与,助力整个产业再进一步。”
另一个方面是数据,吴文峻表示,“大模型非常依赖数据,不论是自然语言,还是将来把大模型用在视觉、图像等方面所需的大规模数据。同时,数据不只是从网上爬取数据后进行简单的汇集就行,还要对数据做好预处理,才能更好地训练大模型,所以如何打造优质的基础数据也是一个非常重要的问题。”
“自然语言大模型的语料可以从网页上取得,但涉及很多专业领域的基础模型所需的数据从哪来?”吴文峻指出,“未来在一些重要的领域可能会出现支撑性的模型,对于构造训练这类模型,就需要对其基础数据做很多扎实的工作,包括共享数据、隐私保护、数据清洗、质量管理等等,所以只有把数据治理好了,才有可能打造面向不同领域的大模型。”
在刘刚看来,数据、算法、算力和应用场景,这四个因素是人工智能运用的关键。“北京此次提出的支持头部企业打造对标ChatGPT的大模型,反应很快。”刘刚表示,从国家层面来说,应该重点支持科研创新资源向平台集中,尤其是向有能力开发大模型的平台集中,因为大模型的开发需要大量的数据训练和算力支持,而平台就具备这样的条件。同时也要支持具备创新能力的科研机构,包括人工智能实验室这类机构共同发力。
此外,刘刚强调,推动大模型实现商业化应用这“最后一公里”同样非常重要,即大模型必须与应用场景结合,在此过程中,可能稍微在一个分支领域运用,又会产生一个新产业。