机器学习的突破性进展颠覆了传统数据中心架构,AI模型训练的计算需求持续增长。MLPerf训练基准测试作为标准化框架应运而生,用于评估机器学习性能,帮助数据中心专业人员做出符合快速发展工作负载需求的基础设施决策。该基准测试通过"训练时间"这一核心指标,为不同系统提供公平比较标准。
Galileo 发布了 Agentic Evaluations 平台,用于评估基于大语言模型的 AI 代理性能。该平台提供全生命周期框架,支持系统级和步骤级评估,帮助开发者快速定位inefficiencies和错误。平台使用专有的 LLM-as-a-Judge 指标,支持 LangGraph 和 CrewAI 框架,现已向所有 Galileo 用户开放。