决战中国版ChatGPT

　　陆奇都说他跟不上大模型时代的狂飙速度了。

　　“我实在不行了，论文实在是跟不上，代码实在是跟不上。Just too much(太多了)。”这位中国AI布道人，也是中国关于大模型最有发言权的人之一，这样评价道。

　　今年以来，整个世界因ChatGPT进入快进状态。几乎每天都有人工智能新进展传来。一众科技大厂、创业公司陆续公布相关进展，加速入场。

　　争相涌现的国产大模型，特别是大厂基于投入、算力、大数据等方面的优势，为中国自主大模型的发展带来了广泛的可能性。

　　中国版ChatGPT发展何样?国产大模型含金量如何?我们是否能实现“弯道超车”?在国内首个大模型百度“文心一言”“飞”了一个多月后，记者整合相关资料，尝试寻找这些问题的答案。

　　玩家有谁?

　　忽如一夜春风来。

　　3月16日，“文心一言”问世，10年在AI砸了千亿的百度，由此拉开了国内大模型混战的序幕。眼下，除了阿里、腾讯、华为等大厂，李开复、王小川、李志飞等业界大牛亦纷纷宣示入局……据不完全统计，国内宣布要做大模型的已超过30家。或琢磨着如何快速推出自己的国产大模型抢占市场，或在以算力为代表的底层基础设施层发力，堪比“神仙打架”。

　　据中信建投的一份“会议纪要”，过去几个月，他们对多家一线互联网企业进行调研发现：这次是全面的一把手工程，不管是BAT还是字节、华为，均是创始人亲自督战，对大模型团队全力支持。上一次出现如此情景，还是2009年移动互联网来临的时候。

　　竞逐大模型并非易事。以ChatGPT为例，根据Open AI公开数据，早在2020年训练GPT-3模型时，用到的参数数量和数据训练量便高达1750亿和45TB，消耗算力3640PF-days，即按每秒一千万亿次计算，需运行整整3640天。更不必说参数数量持续扩大的GPT-4模型。庞大的数据量及算力决定了搭建大模型为典型的重资金产业。面对这一“烧钱”赛道，我国仅有大厂能玩?

　　“方向指向了云。”近日，“FORCE原动力”大会上，火山引擎总裁谭待说。

　　作为字节跳动旗下年轻云平台，火山引擎具备天然的先发优势——不仅有资金、技术、算力资源，甚至还有应用场景。但与自己做大模型的其他云不同，火山引擎主要服务客户做好大模型。类似微软云平台Azure和OpenAI，通过大厂云平台的赋能，“客户只需专注创新、做好模型本身”，给很多初创公司带来了机会。

　　火山引擎总裁谭待宣布支持“多云多模型”的未来架构

　　但囿于国内生态，搭建在大模型与产品之间，类似火山引擎的处于中间架构层的创业公司，几乎真空。就好比吃一顿饭，必须从挖地、种菜开始。国内落地实现的壁垒依然很高，形成一种大模型大厂才玩得起的共识。

　　为何要争?

　　当问及中国会不会出现一个OpenAI?百度创始人李彦宏直接回答，“基本不会”“没有必要再重新发明一遍轮子”。在他看来，ChatGPT技术本身并不是吸引各家大厂入局的关键，而是其背后“在应用层，将会出现的全新的、十倍于现在微信和抖音的创业机遇”。

　　就应用层来说，不同于To C的国外大模型，我国目前大模型的主要应用场景都在B端。如华为“盘古”强调在矿山、电力等场景的应用，阿里“通义千问”的典型应用场景包括电商跨模态搜索、AI辅助设计、医疗文本理解等，或者像商汤的“日日新SenseNova”，为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。

　　To B的行业特点导致中国的AI大模型并不需要做到非常大的参数规模，甚至于当ChatGPT出现后，国内讨论的一个重要方向，是如何将已有的大模型规模“做小”，从而应用到具体的行业上。To B和To C两种完全不一样的发展路径，也将国内和国外的AI大模型引向了两种完全不同的发展方向。

　　在我国，大模型不仅是聊天软件，更是生产力工具，着重以更小的参数，做更有效率、更适合垂类的场景已成共识。

　　在近期举行的阿里云峰会上，“所有产品都值得用大模型重做一次”，张勇称所有产品未来都将接入“通义千问”大模型，全面升级;刘炽平在腾讯财报会上强调，生成式AI可成为已有业务的 “倍增器”，也可帮助开拓新增长线;任正非更是认为，ChatGPT 把计算、管道流量撑大，华为产品就有了机会。

　　这意味着，大模型之于今天，就好比移动互联网时代的安卓和IOS系统，也将加速促进产业数字化的发展，对生产、生活方式进行下一次重塑，带来更大空间的新领域。如果不能取得先机，未来就有可能会影响现有的整个商业模式，甚至被颠覆。

　　来源：视觉中国

　　弯道超车?

　　算力、算法、数据是AI大模型研发的三大要素。

　　相比于To C，To B的大模型研发具有天然优势——瞄准垂直行业场景落地，不仅可以持续获得各个行业里“好的原材料”(数据)，也使更多的研发人员有机会深入到一线，用大模型去解决实际问题(应用场景)，从而在工程化、产品化、场景化上不断迭代，最终与技术底座形成飞轮效应，走向商业化的正循环。

　　但所有应用，究其根本，依赖于大模型而存在。就像PC互联网时代，所有的桌面应用都基于Windows开发，移动互联网时代所有APP又都基于安卓或IOS系统一样。而目前多数国产大模型，在算法方面和GPT-3架构基本类似，追随OpenAI的脚步实践，由此在受制于英伟达A100 GPU 迭代速度本就不如人的情况下，差距越拉越大。

　　以百度“文心一言”为例，在研发阶段,“与ChatGPT差距是40分的水平，一个月能追得上”。李彦宏曾明言，百度有信心在综合能力上，迅速追上甚至超过ChatGPT。然而一个月过后，经过再次测试，发现差距反而拉大了——虽然，据4月25日百度智能云召开的技术交流会，“文心一言”开启内测一个月以来，已完成4次技术版本升级，相较最初版本推理效率提升了10倍，模型算力利用率提升了1倍，在模型性能和成本上实现了大幅优化，大模型推理成本降为原来的十分之一。

　　阿里云也坦承，目前“通义千问”与ChatGPT仍有差距，“ChatGPT属于各方面都领先的地位”。

　　如何追赶?

　　百度一直强调，它是全球为数不多在芯片层、框架层、模型层和应用层四层进行全栈布局的人工智能公司。有近水楼台的智能云、充裕且体系健全的算力、运行平稳的深度学习框架、一群具有多年AI开发经验的人才，最重要的，还有一个日活数十亿搜索引擎来提供中文的本地化数据——某种程度上，距离大模型的完成形态，具备了大多数的硬条件。

　　国内做出大模型的大厂也都类似，有一套自己的训练架构，在自己的生态中形成闭环。但这也在一定程度上反映了整个国内开源的生态不够成熟。

　　对此，复旦大学邱锡鹏提出，我国的大模型得“开源”。在他看来，OpenAI做ChatGPT的时候，不需要分心做其他东西，只需专注于做模型，有微软帮它做算力，还有一家开源公司帮它做部署，也有专门的公司做数据清洗。“生态促使它发展非常快。”邱锡鹏说，“而国内每家公司什么都要做。”这就产生一个问题，每家都做不大，每个都做自己的。囿于有限的数据、算力、金钱，容易重复“造车轮”，一直做一些很基础、重复性的事情。

　　邱锡鹏表示：“如果有一个统一的语言、统一的基座，下面对接一下国产的算力，做好一份接口，大家就都可以来用，能够去促进生态链的建设，使得整个中国的AI往前进一步发展。”

　　此外，AI从来不只是技术、算力、人才的角逐，更是国家战略的角力。4月份以来，网信办发布了《生成式人工智能服务管理办法(征求意见稿)》，科技部发起成立“国家超算互联网联合体”，及从去年到现在出台的一系列有关数字经济、数据要素相关政策，都表明了国家的关切与肯定。

　　也就是说，相对海外对大模型发展的矛盾态度，中国对整个数字经济及人工智能的发展，是持一贯的支持态度，这为中国大模型的未来，加上了一个至关重要的确定性。

　　(文章有参考钛媒体、澎湃、虎嗅等公开内容)

　　“转载请注明出处”