随着AI工作负载大规模投入生产,业界关注焦点正从GPU数量转向系统运行效率。在北卡罗来纳州举办的Tech Fest活动上,企业IT和基础设施领域专家探讨了电网压力、集群复杂性及大规模AI部署带来的运营挑战。北卡卫生部门CIO指出,电网供能与算力需求之间的缺口日益扩大,行业评估标准也从单纯的FLOPS转向"每瓦特生成token数"。软件优化与工作负载调度正成为AI基础设施规划的重要组成部分。
英美两国签署科技繁荣协议,推动人工智能、量子和核技术发展。英国政府投资440亿英镑,微软、英伟达、谷歌、OpenAI等承诺投资310亿英镑,目标建设欧洲最大AI工厂。协议包括联合研究计划,开发AI模型用于癌症等疾病的靶向治疗。英伟达将在12个月内向英国提供12万块GPU,OpenAI部署8000块GPU并计划扩展至6万块,微软投资220亿英镑建设英国最大AI超级计算机。
Meta宣布了两个新的24K H100 GPU集群,用于训练大模型Llama-3,预计4月末或5月中旬上线。集群使用RoCEv2网络和基于Tectonic/Hammerspace的存储解决方案,支持PyTorch。
大模型的训练需要大量的计算资源,企业的资金投入几十亿到上百亿,因此在算力投入上要特别谨慎。大模型的训练是个典型的超算场景,采用超算的方式对企业来说更具性价比。租用算力方式比自建方式能让企业风险更低、现金流更充裕。