这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。
NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。
清华大学团队开发了AEGIS智能安全系统,为机器人配备"安全管家"功能,通过视觉识别和数学算法实时避障,无需重训练即可让现有机器人变得更安全。实验显示该系统将碰撞率降低59.16%,任务成功率提升17.25%,为机器人安全进入日常生活铺平道路。
这项由东京山田AI研究院领导的突破性研究,首次实现了具备"交互智能"的数字人类Mio。该系统通过五个核心模块的协同工作,让数字人类具备了真正的理解、学习和成长能力,而不仅仅是外表的模仿。研究团队提出了全新的评估标准Interactive Intelligence Score,Mio获得76.0分,相比现有技术提升8.4分,标志着数字人类从被动播放向主动智能交互的历史性转变。
英属哥伦比亚大学研究团队发现,当前主流AI图像生成模型存在严重的美学偏见,过度追求"普遍美感"导致无法执行用户的反美学创作意图。研究通过构建300个反美学提示词数据集,测试发现经过美学对齐的模型会自动"美化"输出,即使用户明确要求生成低质量或"丑陋"图像。这种偏见不仅限制了艺术表达多样性,还可能构成无意识的创作审查,威胁文化多元化发展。
威斯康星大学麦迪逊分校与亚马逊AGI团队联合提出START框架,通过同时训练AI的空间感知和文本理解能力来解决图表理解难题。该框架设计了图表元素定位和图表转代码两个创新训练任务,创建了包含33,067张图表的START数据集,并推出CS-Bench评估基准。实验显示START在多个图表理解基准上取得显著性能提升。
华中科技大学与MiniMax联合研究团队在2025年12月发表重要论文,提出VTP视觉标记器训练框架。该研究解决了AI绘画系统中的关键问题:传统训练只注重像素复制而忽视语义理解,导致扩展性差。VTP通过整合图片重建、图文对比学习和自监督学习三种任务,让AI既能准确重现细节又能理解深层含义。实验显示VTP具有优秀扩展性,投入十倍计算资源可获得65.8%性能提升,为AI绘画技术带来突破性进展。
苹果公司研究团队在2024年12月发表了突破性研究成果,首次实现用大脑信号直接控制AI聊天机器人进行自然对话。这项技术通过"思维解码器"系统捕捉大脑电信号并转换为文字,让AI代替用户表达想法,准确率超过85%。该技术将为失语患者带来重新交流的希望,并可能彻底改变人机交互方式,开启"思维计算"新时代。
俄罗斯科学院研究者发现了3×3矩阵乘法的新算法,将所需加法运算从60次减少到58次,保持23次乘法不变,总运算量从83次降至81次。算法使用三进制翻转图搜索和贪心优化策略,仅用普通电脑30分钟即可找到最优解。该成果对计算机图形、人工智能和科学计算等领域具有重要应用价值。
中科院信息工程研究所与腾讯微信AI团队等机构联合开发出首个具备"全局记忆"的智能问答系统Mindscape-Aware RAG,模仿人类阅读时构建心智地图的认知机制。系统通过分层摘要建立文档全局记忆,结合全局感知检索器和生成器,在长文本理解任务中显著超越传统方法,140亿参数模型性能甚至超过720亿参数传统系统。
阿里巴巴通义实验室发布MAI-UI,这是一套革命性的手机AI操作技术。该技术能让AI像人类助手一样理解屏幕、与用户对话、使用外部工具,并实现本地云端智能协作。在测试中,MAI-UI在视觉识别上达到73.5%准确率,在复杂任务执行上达到76.7%成功率,全面超越现有竞品,标志着手机智能交互进入新时代。
KAIST AI团队开发的InsertAnywhere系统实现了视频物体插入的重大突破,通过4D场景重建技术和ROSE++数据集训练,能够将虚拟物体完美融入真实视频中。该系统不仅准确处理空间定位和遮挡关系,还能自动生成逼真的阴影和光照效果,在各项测试中明显优于现有商业工具,为视频内容创作开辟了新的可能性。
2025年,企业技术高管面临巨大压力,需要帮助企业从持续的AI投入中获得回报。大多数高管取得了进展,完善了项目优先级排序方法。然而,CIO仍面临AI相关问题。支离破裂的AI监管环境和宏观经济阻力将继续推动技术高管保持谨慎态度。随着AI采用增长的影响不断显现,一些CIO预期明年将带来劳动力策略变化。
FinOps基金会周四更新了其FinOps开放成本和使用规范云成本管理工具,新版本1.3更好地支持多供应商工作流。该版本新增了合同承诺和协商协议数据集,增加了跨工作负载成本分摊跟踪列,以及云支出和使用报告时效性和完整性的元数据可见性。随着云和AI采用推动企业IT预算增长,技术供应商正在关注将成本与价值联系起来的努力。大型企业通常使用三到四家云供应商,小企业可能使用两家,同时还有数据中心、SaaS和许可等服务。
亚马逊CEO贾西宣布,AWS实用计算产品高级副总裁彼得·德桑蒂斯将领导新的AI组织,专注于Nova模型发展、定制芯片开发和量子计算。作为领导层变动的一部分,德桑蒂斯将接管人工通用智能团队,原负责人罗希特·普拉萨德将于2025年底离职。新组织还包括皮特·阿贝尔领导前沿模型研究团队。