Meta团队开发了首个专门测试AI代理科学重现能力的基准,基于真实的NanoGPT训练加速竞赛。研究发现即使最先进的AI模型如o3-mini,在详细提示下也只能恢复约46%的预期性能提升,表明当前AI在科学研究的基础任务——重现已知发现方面仍存在重大局限。
Context公司推出AI驱动的自动驾驶平台,可同时启动数千个AI代理执行深度研究、数据分析和报告生成等工作。该公司与高通建立战略合作,支持AI代理在骁龙神经处理单元上本地部署,实现在用户个人电脑而非云端运行的AI自动化。平台类似中国AI平台Manus,通过大语言模型执行复杂任务,包括企业搜索、代码解释、文档生成等应用,已完成1100万美元种子轮融资。
Salesforce宣布将销售云、服务云等多款产品价格平均上调6%,并推出AI代理平台Agentforce的新版本。公司声称AI集成度提升证明了涨价的合理性。新的Agentforce附加组件起价为每用户每月125美元,高级版本每月550美元。Slack也将添加AI功能并涨价至每月15美元。然而公司自身研究显示,AI代理在单一任务中准确率仅58%,多步骤任务降至35%。
Databricks联合创始人兼CEO Ali Ghodsi在Data+AI Summit上宣布了多个新产品,如Agent Bricks和Lakebase,旨在简化企业AI应用开发、降低高成本及解决数据平台锁定问题。
EXP-Bench是一项开创性研究,旨在评估AI是否能够自主进行AI研究实验。来自密歇根大学等机构的研究团队创建了这个基准测试,从51篇顶级论文中提取461个研究任务,挑战AI代理完成从实验设计到结果分析的全过程。评估结果显示,虽然AI在单项任务上得分可达20-35%,但完整实验的成功率仅为0.5%,揭示了当前AI在设计复杂实验、实现代码和确保稳健执行方面的关键瓶颈,为未来AI研究助手的发展提供了明确方向。
CES开幕演讲的第二天,英伟达创始人兼CEO黄仁勋接受了全球媒体的采访,持续1小时的采访中,黄仁勋回答了关于英伟达策略、全球投资、AI生态格局、AGI时刻、Agentic AI、自动驾驶、物理AI等26个问题。
就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果。
AI代理很快就会变得无处不在,复杂业务流程实现自动化,为员工处理日常任务——至少这是各种软件厂商的说法,这些厂商正在迅速将智能机器人添加到各种工作应用中。
随着AI技术的进步和普及,经济结构和劳动力市场将经历重大变革,这种变革将带来两极分化的影响:一方面,有些人能够迅速适应并利用AI技术来获得竞争优势;另一方面,那些未能及时适应或缺乏必要技能的人可能会感到自己将被AI代理所取代。
IT研究公司Gartner预测了2025年的十大技术趋势,其中包括代理AI技术的兴起、对虚假信息网络安全解决方案的需求、以及可以遵循人类指令的多功能机器人。