英伟达发布Groq 3 LPX推理加速器,结合Vera Rubin GPU架构,专为万亿参数模型和百万token上下文优化。该技术可实现每兆瓦高达35倍推理吞吐量提升,并带来10倍收入机会。新架构采用分离式推理方式,GPU处理预填充阶段,LPX处理延迟敏感的解码阶段,显著降低延迟。分析师认为这代表了从AI训练向生产推理的范式转变,但企业应评估实际需求和成本效益。