UCL与华为联合研发的MT-GRPO多任务训练方法,解决了AI语言模型在同时学习多种推理技能时的关键难题。该方法通过动态调整任务权重和比例保持采样器,确保AI在各类任务上均衡发展,避免传统方法中强项越强、弱项被忽视的问题,实现最差任务性能提升16-28%,训练效率提高50%。
BMW Group与奥格斯堡大学联合开发了CAR-bench,这是首个专门评测汽车语音助手在真实环境中表现的基准系统。研究发现,即使是最先进的GPT-5模型,在面对模糊指令和缺失信息时也存在严重的一致性问题,经常编造答案而非承认局限性。该系统包含58种工具和19条安全策略,揭示了当前AI助手从实验室到真实应用之间的巨大鸿沟。
剑桥大学团队发现视频生成AI具有超越文字的视觉推理能力。通过迷宫导航和七巧板拼图实验,研究证明视频模型能更准确处理空间推理任务,甚至展现类似人类的"慢思考"和自我纠错能力。这项发现挑战了AI主要依赖文字处理的传统模式,为开发更接近人类认知的智能系统开辟新路径。
这项由清华大学等顶尖学府联合开展的研究开发了V-Retrver系统,让AI具备了类似人类的"主动观察"能力。与传统搜索只能机械匹配的方式不同,V-Retrver能够像侦探一样主动调用视觉工具来验证假设,通过反复推理找到准确答案。系统采用独特的三阶段训练法,在多个权威测试中性能平均提升23%,为AI从"被动响应"走向"主动思考"开辟了新道路。
Google为其BigQuery数据仓库新增对话式分析功能,允许企业数据团队和业务用户通过自然语言询问数据问题,从而加速AI用例的数据分析。该智能体目前处于预览阶段,可在BigQuery新增的智能体中心找到。此外,Google还推出了构建、部署和管理自定义智能体的工具,通过API端点支持跨应用和运营工作流。这些功能扩展了现有的文本转SQL能力,支持上下文对话分析。
Anthropic宣布其AI聊天机器人Claude将保持无广告状态,与竞争对手OpenAI形成鲜明对比。后者上月开始在ChatGPT低价版本中测试广告。Anthropic认为在AI对话中插入广告与其打造"真正有用助手"的目标不符,并担心广告会影响助手提供客观建议。OpenAI目前计划在对话旁显示横幅广告,但面临巨大财务压力。Anthropic选择专注于企业合同和付费订阅的商业模式。
研究人员发现攻击者利用AI技术在不到10分钟内成功入侵AWS云环境并获得管理员权限。攻击者通过从公共S3存储桶窃取凭证开始,随后使用大语言模型自动化攻击的多个阶段,包括权限提升、横向移动和恶意代码编写。攻击过程中,入侵者破解了19个AWS身份,滥用Bedrock模型和GPU计算资源,并进行LLMjacking攻击。代码中包含塞尔维亚语注释和虚构的GitHub仓库引用,表明使用了AI辅助攻击技术。
2026年的自动化测试,关键词不再仅仅是“脚本”,而是“智能体(Agent)”。全球领先的服务商正通过智能化手段实现测试全生命周期的效能跃升。本文将深入解析包括Testin云测在内的全球十大服务商,探讨它们如何利用AI重构质量保证的未来。
华为香港研究中心联合港科大和港中大(深圳)发布的CatRAG技术,解决了AI系统在多步推理中容易"迷路"的核心问题。该技术通过符号锚定、动态边权重调整和关键事实增强三个机制,让AI能像人类一样根据具体问题调整搜索策略,在四个权威数据集上显著提升了推理完整性,为智能问答和教育辅助等应用带来新突破。
加州大学戴维斯分校联合Google DeepMind提出强化注意力学习方法,通过直接优化AI模型的内部注意力分配而非仅关注输出结果,显著提升了多模态AI在图像和视频理解任务上的表现,为AI训练范式带来了从"结果导向"向"过程导向"的根本性转变。
腾讯混元团队提出ProAct框架,解决AI智能体在长期规划任务中的"模拟漂移"问题。通过两阶段训练——基于环境的前瞻推理蒸馏和蒙特卡罗评判员优化,让4B参数模型在2048和推箱子游戏中达到接近顶级闭源模型的性能,并展现出色的泛化能力。
ByteDance的研究团队最近就深入探索了这个有趣的问题。他们发现,目前评估AI深度研究能力的方法就像是让学生带着所有参考书去考试,然后只看最终成绩。这样的评估方式根本无法区分学生是真正理解了知识,还是只是善于查找和拼凑信息。更重要的是,当AI在实际应用中表现不佳时,我们往往搞不清楚是因为它找错了信息(检索出了问题),还是因为它不知道如何运用这些信息(推理出了问题)。
亚玛顿在国内产能已经站在供需失衡的潮头,新的海外产线更像一条在周期底部提前铺设的第二通道,它既面向中东本地的增量装机,也试图把欧洲、南亚乃至更远市场的交付风险拆分成可管理的工程节点。
由上海AI实验室等多家机构联合研发的LatentMem框架,为多智能体系统记忆设计带来突破。该系统通过轻量化经验存储和智能记忆压缩技术,解决了传统AI团队协作中记忆同质化和信息过载问题。实验显示性能提升达19.36%,计算效率大幅优化。这项创新为智能客服、软件开发、在线教育等领域的AI协作应用开辟了新前景。
哥伦比亚大学和微软研究院联合开发了一种名为RWML的新型AI训练方法,让AI智能体具备了预测行动后果的能力。通过在虚拟环境中自主探索和学习,AI建立了对世界的深层理解,任务成功率显著提升。这项技术不需要专家示范,完全自监督学习,为智能家居、客服、教育等领域的AI应用开辟了新可能。该研究标志着AI从"模仿语言"向"理解世界"的重要转变。
纽约大学与耶鲁大学合作研究发现,在科学文献检索任务中,传统BM25算法竟然比最新AI检索系统性能高出30%。研究构建了包含1200个查询的SAGE基准,涵盖四大科学领域,揭示了深度研究智能体生成关键词导向查询的特性,并提出语料库级别测试时扩展框架,通过为论文添加AI生成的关键词和元数据,使传统检索器性能提升8%。
阿里巴巴团队推出SwimBird模型,首次实现AI根据问题类型动态选择文字或视觉思维模式。该模型突破传统AI固定思维模式限制,能在纯文字推理、纯视觉推理和交替推理间智能切换。通过92000样本的专门训练,SwimBird在保持强大视觉理解能力的同时,也维持了优秀的文字逻辑推理性能,为通用人工智能发展指出了新方向。
华盛顿大学研究团队构建了史上最大的数学定理搜索引擎,包含920万个定理并能通过自然语言查询精确定位。系统让AI为每个定理生成通俗标语,将复杂符号转化为可搜索文本,在测试中达到45%的定理级搜索准确率,大幅超越现有工具。该系统已免费开放使用,为数学研究和AI辅助科学发现开辟新路径。
美团研究团队发现现有AI训练方法GRPO和GSPO存在长度偏见,导致AI回答越来越短,影响推理能力。他们提出LUSPO方法,通过在损失计算中乘以回答长度来消除偏见。实验显示,LUSPO在数学推理任务上比GSPO提升2.9-17.1%准确率,在多模态任务上提升0.5-7.2%,同时避免了回答长度坍塌问题,为AI训练提供了更公平有效的新范式。
这项研究解决了AI视频生成中的"健忘症"问题,通过Context Forcing训练方法和慢速-快速记忆系统,让AI能够生成超过60秒的连贯视频,比现有技术提升2-10倍。该技术有望应用于娱乐、教育和商业视频制作领域。