Hugging Face推出开源工具Yourbench,允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集,以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法,有望改善模型评估的方式。