微软正在Copilot的Researcher智能体中同时整合Anthropic的Claude与OpenAI的GPT模型。新增的"批评"功能让GPT负责起草内容,Claude负责审核准确性、完整性和引用规范。基准测试显示,双模型协作模式得分57.4,高于任何单一模型。此外,微软还推出"council"功能,支持多模型并排对比。Copilot Cowork功能现已上线,让企业数据保留在安全边界内使用Claude能力,进一步深化了微软的多模型战略布局。
微软发布Copilot Cowork新功能,可处理复杂的多步骤长期任务,无需持续人工监督。该功能通过Frontier项目向企业用户开放测试,用户只需描述预期结果,AI即可跨Microsoft 365应用自主完成任务规划和执行。系统采用多模型方法,集成OpenAI GPT和Anthropic Claude,通过"批评层"提升准确性,在DRACO基准测试中得分提升13.8%,有效减少AI幻觉问题。
日本AI实验室Sakana AI推出Multi-LLM AB-MCTS技术,让多个大语言模型协作完成单一任务,形成AI智能体"梦之队"。该方法使模型能够试错并结合各自优势,解决单一模型无法处理的复杂问题。在ARC-AGI-2基准测试中,模型组合正确解决了超过30%的问题,显著优于单独工作的任何模型。公司已将核心算法开源为TreeQuest框架,为企业开发更强大可靠的AI应用铺平道路。