微软研究人员发布新的仿真环境来测试AI智能体,研究显示当前智能体模型容易受到操纵。该名为"Magentic Marketplace"的合成平台让客户智能体与商家智能体进行交互实验。测试包括GPT-4o、GPT-5和Gemini-2.5-Flash等模型,发现智能体在面临过多选择时效率下降,且在协作方面表现不佳。研究揭示了AI智能体在无监督环境下的性能问题。