来源:澎湃科技 作者张静
“百模大战”下大模型算力需求猛增。北京超级云计算中心计划今年下半年起陆续上线3万余张满足大模型训练场景用的GPU卡,搭建超算架构大模型算力矩阵;并组建一支7×24小时技术服务团队。“在未来的市场竞争上,谁能把可用的资源变成好用的资源,谁就会在市场上胜出。”
北京超级云计算中心机房
算力是当代生产力,超级计算也被称为高性能计算,同时使用几十台甚至几千台服务器这样庞大的算力资源共同完成一个计算任务。人工智能大模型的爆发让算力需求陡增。
“目前主流的大模型训练是超算使用模式,超算相比云计算更加贴合大模型训练场景,服务器之间的计算带宽配比更大,是目前主流云计算环境中的计算网络带宽的数十倍,数据传输效率要求更高。”2023世界人工智能大会期间,北京超级云计算中心CTO甄亚楠对澎湃科技(www.thepaper.cn)表示,北京超级云计算中心当前可调度超100万CPU核心、超2万张基于超算架构的大模型GPU算力卡。今年下半年起,北京超级云计算中心计划陆续上线3万余张适用大模型训练场景用的GPU卡,满足国产大模型研发需求,构建算力生态。
北京超级云计算中心(下称“北京超算”)成立于2011年,是在北京市人民政府指导下“院市”共建的国家重要信息化基础平台,坐落于北京市怀柔综合性国家科学中心怀柔科学城,成立之初主要为北京市提供在线算力资源,已在北京、内蒙古、宁夏布局三大算力枢纽。
计划陆续上线超3万余张GPU满足大模型训练
算力是人工智能大模型训练的核心生产力,GPT-4等大模型成功的背后有着万张训练卡的计算资源支撑,大模型爆发直接带来了算力需求陡增。北京超级云计算中心营销总监王永旭切身感受到了大模型爆发带来的“颠覆性”算力业务。在大模型兴起前,他所在的单位算力客户小而散,以科研院所为主;大模型流行后,AI算力需求猛增,客户主要为AIGC(生成式人工智能)企业,“ChatGPT的盛行为市场打了一剂强心针。”
北京超级云计算中心CTO甄亚楠。
北京超级云计算中心CTO甄亚楠介绍,“从客户需求情况来看,现在大模型单次训练任务基本上都需要几百张甚至几千张GPU卡做计算加速,同时需要长周期、稳定可靠的计算环境,保障计算任务不中断。”他表示,相对于大型科技公司,科研院所和初创企业的资金实力较弱,建设算力中心的投入高,因此平衡算力成本是重要考量。如果要新建1000张GPU卡的算力规模,包括服务器、交换机、存储、运营等相关资金投入就需要2亿元甚至更多。与此同时,目前国内仍处于缺卡状态,“各大服务器厂商要拿到新的GPU卡资源,预计供货周期都在半年以上,算力卡供不应求的情况应该会一直持续到至少明年年初。”
市场对于人工智能算力的需求旺盛。甄亚楠表示,北京超算具备天然的“技术基因”,目前可调度超100万CPU核心、超2万张基于超算架构的大模型GPU算力卡。从今年7月起,北京超算计划上线11720余张英伟达A800算力卡,以及19000余张英伟达H800算力卡。总体来看,从今年下半年起,北京超算将总计上线超3万张满足大模型训练场景用的GPU卡。
北京超算将符合推理与训练的算力资源通过云服务方式共享给用户,用户通过租赁方式远程访问算力资源。在甄亚楠看来,这种算力使用方式性价比高,用户无需自建算力中心就能获得稳定可靠的计算资源,节省使用成本,缩短计算时长,提高效率。相对于企业根据产品研发需求自建算力中心形成算力使用的波峰和波谷,算力服务商提供弹性算力,拉平算力需求,不浪费算力资源。
把可用的算力资源变成好用的算力资源
“我们最近看到一些大模型的训练需求,服务器之间的互联网带宽一般要求达到3200Gbps,但主流的云计算服务器之间的网络带宽在200Gbps,相差十几倍。如果环境配置和用户需求无法统一,用户的模型要么跑不起来,要么运行效果大打折扣。”甄亚楠说,目前主流的大模型训练是超算使用模式,比如一个模型需要用数百甚至千张卡连续计算两个月或者更久,超算则是把多台服务器进行统一管理和调度,实现高性能计算。大模型训练正是需要超算这种多台服务器并行的模式,而非传统云计算所采用的虚拟化共享模式。相比云计算,超算更加贴合大模型训练场景,服务器之间的计算带宽配比更大,是目前主流云计算环境中的计算网络带宽的数十倍,数据传输效率要求更高。
根据王永旭的观察,大模型算力客户在选择算力服务商时,主要关注GPU卡的型号、卡间互联、节点间互联、是否为超算架构的物理集群。大模型单次训练需要上百张甚至几千张卡,因此通讯非常重要,它会极大影响训练的速度。用于大模型训练的芯片必须是卡间互联大、节点间互联好的集群,这就好比高速公路畅通无阻、不堵车。
北京超算通过算力预测判断用户真正需要的算力资源,基于算力选型首先保证用户拥有可用的算力资源。甄亚楠表示,在解决可用以后要考虑如何让算力更好用,“我们为用户提供的不是单一技术、单一资源,而是一套满足用户综合发展需求的行业解决方案。通过7×24专家服务、平台预置AI主流框架、常用数据集等方式,满足用户在算力使用中方方面面的需求。”为实现算力资源的好用,北京超算在提供算力资源基础上组建了一支7×24小时技术服务团队,针对模型框架的安装、部署、优化以及长时间运行的保障诉求等提供在线技术支持,让终端用户轻松调度算力资源。
“在未来的市场竞争上,谁能把可用的资源变成好用的资源,谁就会在市场上胜出。”甄亚楠表示,目前北京超算已服务国内超20万用户,包括1000多家企业,并为北京智源人工智能研究院、智谱AI等单位提供大模型预训练所需的基于超算架构的GPU算力资源。
搭建算力网络期望GPU算力全国调度
今年5月,中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,中国10亿参数规模以上的大模型已发布79个。“我们希望以超算架构支撑大模型算力应用,成为超算架构大模型算力领跑者,不管是基于当前的大模型训练,还是未来可能会进一步爆发的模型推理。”甄亚楠表示,在“百模大战”之下,需要分析行业的真正痛点,考虑未来芯片、算力规模、业务场景的发展趋势。
大模型所需的算力分为两类,一类是训练算力,一类是推理算力。训练是一个计算密集型的学习过程,每一次训练可以提升模型的精准度,如果计算结果没有达到预期,就需要调整参数重新训练,直到达到预期。一旦模型精准度达到一定水准后,就会产生推理需求。推理是一个判断过程,基于训练好的模型,每次喂新数据,产生更多的预测结果。
甄亚楠表示,大模型训练的参数多、循环次数多,单次训练的算力需求大,而推理的判断逻辑相对固定,单次算力需求较小,当推理的并发量提升,也会提高推理的算力需求。目前国内大模型仍处于发展初期,大模型企业百舸争流,发力点主要集中在大模型训练上,因此训练算力紧缺。“现在我们面向大模型训练是提供基于超算架构的算力资源,面对推理以及小规模的测试验证,我们也提供基于云计算的算力资源,两条腿走路。”
为了更好地支持人工智能产业发展,王永旭表示,北京超算除了部署算力资源,也在全国搭建算力网络,以实现GPU算力全国调度的目标。此外参与到大模型用户的MaaS(模型即服务)推广中,计划集成算力、模型和用户端数据,为用户提供基于大模型基座的人工智能解决方案。
“中长期内,我们关注国产算力以及国产大模型研发需求,希望构建完善的算力生态,一方面建设满足行业需求的算力资源,提供算力共享、性能评测、应用场景支撑等服务,另一方面推动算力供应多元化,既提供通用GPU芯片,也提供国产芯片,解决供需失衡问题。”甄亚楠表示,北京超算将依托12年超算技术积淀和超算架构大模型算力矩阵,持续领跑大模型算力建设,以超算云服务模式实现海量算力资源随需供应,为大模型训练需求提供一站式解决方案。