上午半导体板块方向的算力芯片大涨,寒武纪、龙芯中科、海光信息、乐鑫科技、芯原股份、芯源微纷纷上涨。实际上,不仅仅是今天,今年1月下旬以来,景嘉微、寒武纪、龙芯中科等多只个股涨幅已超30%。
随着ChatGPT推出来后,一些大厂也紧随其后,市场已经进入非常火的时候了,像谷歌也推出了自己的AI聊天机器人,科大讯飞,阿里巴巴,腾讯,都有相关对ChatGPT技术的开发。而已经推出的ChatGPT,其官方网站已经显示无法登陆。主要原因就是大量用户的访问和注册,像有些平台的用户数能够在几个月里就过亿元,导致系统平台难以负荷。说明现在的平台和系统还是难以支撑大家的需求。
我们之前提到过,要想构建一个比较完善的ChatGPT平台或者系统,是少不了核心算法、数据、算力等要素的支撑,也少不了强大的计算机芯片。
因为ChatGPT的原理就是基于GPT3.5架构开发的对话AI模型,历经 GPT-1/2/3迭代,在GPT3.5模型后,开始引入代码训练和指令微调,加入RLHF技术(人类反馈强化学习),从而实现能力进化。而GPT是基于Transformer技术储备,模型技术更新之后,会带来更多的层数,那么就需要更多的算力去支撑。
相关数据统计,一个ChatGPT应用的算力消耗是非常巨大的。其大模型GPT经过了三次的发展,GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练单次的成本就已经高达460万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640PF-days,即假如每秒计算一千万亿次,仍然要计算3640天。
所以Chat GPT带来的考验,现在还不是用户得使用体验,而是人工智能背后的支撑产业,像信创、算力和芯片等技术的考验,算法是系统运行的基础,接着还要给算法海量的数据(数据量级跃升,能带来更多能力的涌现),再搭配算力,才能获得最基础的大模型。毕竟Chat GPT只是一个软件工具,ChatGPT作为一种新兴的超智能对话AI产品,它属于信创的一部分,无论是从技术原理角度还是运行条件角度,ChatGPT都需要强大算力作为支撑。想要完整的运行,要强大算力和芯片的支撑,所以这一阵信创应用、数据中心算力和芯片等领域纷纷获得了不少关注。
比如算力是人工智能发展的重要组成部分,随着深度学习算法的普及和应用,人工智能对算力提出了更高的要求,传统的CPU架构难以满足人工智能算法对算力的要求,还需要有海量数据并行计算能力、能加速计算处理的AI芯片来支撑。
而AI芯片作为算力基础设施中的核心硬件,AI芯片设计方案繁多,比如CPU、GPU、FPGA、ASIC、DSP等等。
具体来看,AIGC可以推动AI产业化从软件转向硬件,半导体+AI生态逐渐清晰,AI芯片产品将实现大规模落地。硬件端核心包括AI芯片、GPU、CPU、FPGA、AISoC等,这里的每一个环节都比较重要,比如GPU支撑强大算力需求。由于具备并行计算能力,可兼容训练和推理,GPU被广泛应用于加速芯片。从构建AI模型的过程来看,首选要用超大算力和数据构建预训练模型,然后要在预训练模型上进行针对性训练。而GPU由于具备并行计算能力,可兼容训练和推理,所以目前被广泛应用,ChatGPT训练模型中就已导入至少1万颗英伟达 GPU(曾经风靡一时的AlphaGO也只需要8块GPU),推理部分使用微软的Azure云服务也需要GPU进行运作。所以,ChatGPT的火热兴起对GPU的需求可见一斑。
另外,CPU能够用来做推理工作。AI服务器利用CPU和加速芯片的组合可以起到互联的作用。上段介绍的GPU是一个可以被用来深度学习应用的芯片,CPU和FPGA也可以起到很好的效果。
FPGA非常灵活,还可以编程、并行计算,它起到的作用是能够利用深度学习加分布集群数据传输赋能大模型。相比于CPU/GPU/ASIC,FPGA具有更高的速度和极低的计算能耗,常年来被用作专用芯片的小批量替代品。在AI模型构建的时候,FPGA想要实现深度学习功能,需要与CPU结合,共同应用于深度学习模型,同样可以实现庞大的算力需求。
还有ASIC有非常好的性能,AI ASIC芯片通常针对AI应用做专业的架构。此外,还有光模块的作用,可以进行设备互联,它的逻辑是AI模型向以ChatGPT为首的大规模语言模型发展,驱动数据传输量和算力提升。由于数据传输量的提高,光模块作为数据中心内设备互联的载体,也会跟着提高。
围绕AI芯片、GPU、CPU、FPGA、AISoC等技术做文章
所以,这几天算力芯片大涨的个股里,也多是围绕上述这些技术来展开的。其中龙芯中科,就是做处理器及配套芯片的研制、销售及服务,主要产品与服务包括处理器及配套芯片产品与基础软硬件解决方案业务。
而龙芯中科被市场所关注的药店就是其CPU的研究,龙芯所研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片。龙芯中科芯片产品依据应用领域的不同可分为工控类芯片和信息化类芯片。在信息化领域,国内数十家整机品牌推出了基于龙芯CPU的台式机、笔记本、一体机与服务器设备,已经广泛应用于电子政务办公信息化系统,并在金融、教育等应用中展开批量应用试点。在工控领域,国内上百家主要工控和网络安全设备厂商推出了基于龙芯CPU的工控和网安产品,包括工业PC、工业服务器、工业存储设备、DCS(分布式控制系统)、PLC(可编程逻辑控制器)、交换机、路由器、防火墙、网闸、网络监测设备、数据加密通信设备等。为支持芯片销售及应用,龙芯中科开发了基础版操作系统及浏览器、Java虚拟机、基础库等重要基础软件。
此外,在处理器及配套芯片的研发及系统软件的研究,龙芯中科也有自己的技术。建立了涵盖指令系统设计、处理器核设计、GPU 核设计、内存接口设计、高速接口设计、多核互连设计、SoC设计、处理器验证、可测性设计、定制 IP 设计、物理设计、封装设计、板级设计、基础软件开发、内核及编译优化、图形优化技术、编程语言虚拟机和引擎技术、浏览器及安全增强技术等领域完整人才链、技术链和产业链。
龙芯在处理器上的研究比较深,像高性能处理器微结构设计技术方上,已经可以完成乱序多发射流水线、物理寄存器堆重命名、高精度分支预测器、256 位向量运算部件、多访存部件、多级高速缓存、硬件数据预取,逼近日前主流微处理器设计水平。
研发出了LA664、LA464,LA364、1A264、LA132为代表的“白大、中、小、微”五个产品系列处理器核,源代码全部自主设计,可持续优化演进。报告期内,公司研发了LA664高性能微外理器核,相较干LA464处理器核,流水线规模升级为6发射4访存,优化了分支预测和硬件预取器设计,研发了多种流水线效率优化机制,同时在功能部件数量、访存带宽、流水线乱序执行咨源等方面都有大幅度的改进,并集成了同时多线程技术、系统级中制虚拟化和 IO虚拟化支持,相同工艺下比龙芯 3A5000/3C5000中使用的 LA464 处理器核性能提高30%-50%等等。
龙芯中科也有图形处理器设计的研究,公司完成了第一代龙芯图形处理器架构 LG100系列图形处理器核的研制,并随着7A2000芯片产品发布。该图形处理器核支持 OpenGL2.1和OpenGLES2.0 规范,支持缓冲区压缩和快速清屏,支持页式存储管理,满足桌面办公应用的图形处理要求,大幅提升了龙芯桌面应用的综合体验。功能及性能进一步优化的版本已进入验证阶段。目前已启动第二代龙芯图形处理器架构 LG200系列图形处理器核的研制。该架构面向 OpenGI4.6和OpenCL3.0规范设计,在LG100的基础上进行了大幅优化。这里就不过多介绍。
另外还有海光信息也是做CPU研发的厂商,其主要产品为面向服务器与工作站的CPU和面向AI训练、数据挖掘的DCU,早年技术来源于AMD的x86授权。海光信息的DCU系列产品以GPGPU架构为基础,兼容通用的“类CUDA”环境,主攻加速计算市场,每两年快速技术迭代,深算一号DCU达到国际上同类型高端产品水平。
终归来说,这次ChatGPT的推广,开辟了AI产业化的新路径,以大模型敲开通用人工智能的大门。为了满足大模型应用的巨大算力需求,很多厂商开始加大相关基础设施产业的关注度和投资。作为算力基础设施中的核心硬件会给AI、算力、算法带来新一轮的技术更新和升级。更会推动AI芯片、GPU、CPU、FPGA、AISoC等硬件端的迭代升级。