AI代理文章列表第1页-至顶网频道

2025-07-02

当AI开始自己做研究：Meta团队测试机器人科学家能否重现NanoGPT训练突破

Meta团队开发了首个专门测试AI代理科学重现能力的基准，基于真实的NanoGPT训练加速竞赛。研究发现即使最先进的AI模型如o3-mini，在详细提示下也只能恢复约46%的预期性能提升，表明当前AI在科学研究的基础任务——重现已知发现方面仍存在重大局限。

AI初创公司Context携手高通推出智能代理自动驾驶系统

Context公司推出AI驱动的自动驾驶平台，可同时启动数千个AI代理执行深度研究、数据分析和报告生成等工作。该公司与高通建立战略合作，支持AI代理在骁龙神经处理单元上本地部署，实现在用户个人电脑而非云端运行的AI自动化。平台类似中国AI平台Manus，通过大语言模型执行复杂任务，包括企业搜索、代码解释、文档生成等应用，已完成1100万美元种子轮融资。

Salesforce全面集成AI技术并将产品价格上调6%

Salesforce宣布将销售云、服务云等多款产品价格平均上调6%，并推出AI代理平台Agentforce的新版本。公司声称AI集成度提升证明了涨价的合理性。新的Agentforce附加组件起价为每用户每月125美元，高级版本每月550美元。Slack也将添加AI功能并涨价至每月15美元。然而公司自身研究显示，AI代理在单一任务中准确率仅58%，多步骤任务降至35%。

Databricks全面发力企业AI：推出智能代理与数据库解决方案应对复杂性挑战

Databricks联合创始人兼CEO Ali Ghodsi在Data+AI Summit上宣布了多个新产品，如Agent Bricks和Lakebase，旨在简化企业AI应用开发、降低高成本及解决数据平台锁定问题。

AI 科研自动化的新里程碑：EXP-Bench 评估 AI 能否自主开展 AI 研究实验

EXP-Bench是一项开创性研究，旨在评估AI是否能够自主进行AI研究实验。来自密歇根大学等机构的研究团队创建了这个基准测试，从51篇顶级论文中提取461个研究任务，挑战AI代理完成从实验设计到结果分析的全过程。评估结果显示，虽然AI在单项任务上得分可达20-35%，但完整实验的成功率仅为0.5%，揭示了当前AI在设计复杂实验、实现代码和确保稳健执行方面的关键瓶颈，为未来AI研究助手的发展提供了明确方向。