d-Matrix在AI基础设施峰会上发布JetStream IO加速卡,这款定制PCI卡可提供400Gbps带宽和2微秒延迟。该产品基于FPGA技术,可与去年发布的Corsair推理加速平台配合使用,支持在服务器内部和多节点间扩展。CEO表示,随着行业重点从大模型训练转向商业化推理,该产品旨在解决内存计算瓶颈后的IO瓶颈问题。JetStream采用标准以太网协议,可直接部署到现有数据中心。
AI推理初创公司Baseten完成1.5亿美元D轮融资,估值达21.5亿美元。该轮融资由BOND领投,谷歌母公司Alphabet旗下CapitalG等多家知名机构参投。Baseten提供AI推理加速平台,声称性能比竞品快50%,支持本地部署和云端托管。平台采用拓扑感知并行技术优化硬件使用,通过算子融合和量化工具提升模型性能,并提供完整的开发者工具链和监控功能。
GridGain软件通过集群服务器实现内存共享,使内存密集型应用能在单独内存不足的服务器上运行。该技术在AI推理领域日益重要,因为所需令牌数量不断增长。软件提供跨x86服务器集群的分布式内存空间,具备大规模并行架构。GridGain声称其引擎可用于任何数据驱动的分析或事件处理项目,提供超低延迟的分布式多模型数据存储和计算引擎,实时为AI推理引擎提供企业数据。
网络巨头HPE Aruba推出了适用于零售的网络产品组合,其中包括最现代的连接技术例如Wi-Fi 7、私有5G和边缘计算。该产品组合可以将接入点、全新的蜂窝桥、紧凑型交换机与HPE旗舰网络管理和AI平台HPE Aruba Networking Central捆绑在一起。
AI推理领域的重要性日益凸显,市场重心从AI训练转向推理。Groq LPU推理卡解决了性能和成本问题,使AI推理大规模部署成为可能
在英伟达,负责引导研究朝着应用、而非纯学术项目前进的,是斯坦福大学计算机科学与电气工程兼职教授,公司首席科学家、高级研究副总裁以及GPU、网络与CPU芯片设计师Bill Dally。
深度学习深刻改变了计算机应用程序的功能与形态,为了加速深度学习模型的推理,NVIDIA 英伟达推出了高性能深度学习推理优化器TensorRT。