AI基准评测 关键字列表
大模型到底哪家强?红杉xbench:告别刷题时代,AI评测应该以解决问题的能力为基准

大模型到底哪家强?红杉xbench:告别刷题时代,AI评测应该以解决问题的能力为基准

Xbench是知名投资机构红杉中国推出一款全新的AI基准测试工具,旨在真实地反映AI的客观能力,其在评估和推动AI系统提升能力上限与技术边界的同时,会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉AI产品的关键突破。