香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。
西湖大学团队发现大语言模型在强化学习训练中存在"过度自信"问题,虽然提升了单次答题准确率,却损失了探索多种解题思路的能力。他们提出SimKO方法,通过巧妙的概率重分配机制,让AI在保持高准确率的同时重新获得思维多样性,在多个数学和逻辑推理任务上都取得显著改进。
Salesforce团队提出ProgSearch数据合成方法,通过渐进式难度增强机制生成高质量AI训练数据。该方法采用自上而下和自下而上两种策略,利用基准AI助手逐步增加问题复杂度直至其失败,确保生成的数据处于AI能力边界。实验显示,尽管数据量较小(约6000样本),但在多个基准测试中显著优于现有方法,验证了质量胜过数量的理念。
马普所团队开发的AnyUp是首个通用特征上采样技术,能将任何AI模型的低分辨率特征提升为高分辨率,无需重新训练。该技术采用特征不可知层和窗口注意力机制,在语义分割、深度估计等任务中达到最佳性能,并具备跨模型泛化能力。已开源的AnyUp将降低AI应用开发门槛,推动计算机视觉技术普及。
慕尼黑大学等机构联合开发的GroundedPRM框架,通过结合蒙特卡洛树搜索、外部工具验证和混合奖励机制,让AI在数学推理时能够像侦探一样精确评估每个步骤。该系统仅用4万训练样本就在ProcessBench测试中实现26%性能提升,并在多个数学基准测试中超越了使用人工标注数据的模型,为AI推理评估提供了新的发展方向。
耶鲁大学研究团队通过引入循环推理、算法监督、离散锚定和错误纠正四种机制,成功解决了AI系统的分布外泛化难题。新方法让AI能够像侦探一样进行层层递进的推理,在面对复杂度提升四倍的问题时仍保持近乎完美的准确率,为构建具备真正推理能力的智能系统提供了重要突破。
苹果研究院发布Mirror-SD技术,通过让GPU和NPU协同工作实现AI推理并行化,将大模型推理速度提升2.8-5.8倍。该技术让草稿生成与目标验证同时进行,充分利用异构芯片优势,在多项任务中展现显著性能提升,为AI实时交互应用带来重大突破。
新加坡国立大学研究团队开发了FML-bench评估平台,首次系统性评估AI智能体在机器学习研究中的科学能力。通过对比三种不同探索策略的AI研究助手,研究发现采用广度探索的智能体比深度专精的表现更优秀。该研究建立了包含八个基础机器学习任务的测试体系和五维评估框架,为未来AI研究助手的设计提供了重要指导,表明多样性探索在自动化科学研究中的关键作用。
11月27日,夸克AI眼镜正式发布了S1、G1两个系列共六款单品,均搭载阿里最新的千问AI助手。
据报道,ServiceNow正与身份管理平台初创公司Veza进行深度收购谈判,交易金额可能超过10亿美元。Veza的平台帮助企业保护员工工作账户安全,识别未使用账户和权限过度的账户,还能检测违反职责分离政策的账户。该平台还可管理机器身份和应用程序集成。此次收购将补强ServiceNow在用户账户和机器身份管理方面的功能短板。
谷歌云发布PanyaThAI数字化转型计划,旨在帮助泰国企业部署企业级AI智能体应用。该计划首批支持15家机构,包括朱拉隆功大学、泰国证券交易所等。研究显示AI到2030年可为泰国经济贡献7300亿泰铢。计划提供全栈AI基础设施、咨询服务和员工培训,合作伙伴将培训300名本地专家。已有企业展示成果,如SE-Education通过AI语义搜索将转化率从12%提升至27%。
英国阿斯顿大学土木工程师与电子元件开发商Pulse Power & Measurement合作,探索利用光纤技术实现更稳定、更强、更远距离的无线电通信。这个三年期知识转移合作项目旨在进一步开发光纤无线电技术,将模拟射频信号转换为光信号通过光纤传输,解决传统同轴电缆远距离传输中的信号损失问题。该技术可应用于卫星通信、数据中心和媒体广播等领域。
中国科技巨头阿里巴巴推出Quark AI智能眼镜,包括旗舰版S1和生活版G1两款型号,起售价分别为3799元和1899元。产品最大亮点是采用可更换双电池系统,续航可达24小时。眼镜搭载阿里通义千问AI模型,支持语音和触控操作,集成支付宝、淘宝等应用,可提供实时翻译、价格识别、导航和会议转录等功能。国际版将于明年发布。
即使对于技术高管而言,单靠个人也难以实现可见性和影响力的提升,而盟友的支持能够成倍放大这些效果。文章分析了拥有和缺乏盟友的差异,探讨了自下而上建立联盟的多重机会,以及如何避免可能破坏联盟关系的隐性错误。通过建立内部盟友网络,CIO能够获得政治资本、减少阻力并创造网络效应,最终摆脱被动应对模式,专注于数字战略的架构设计。
做数据转化知识之路的“探路人”、AI-Ready探索之路的“点灯人”,是联想凌拓的自身定位。他们希望帮助企业将海量数据转化为有价值的知识、在 AI 转型的道路上少走弯路,加速前行。
罗切斯特理工学院团队开发SPHINX系统,专门测试AI视觉推理能力。该系统可无限生成25类视觉推理题目,测试发现最强的GPT-5准确率仅51.1%,远低于人类75.4%。研究显示AI主要困难在视觉信息提取而非逻辑推理,通过强化学习训练可显著改善表现并迁移到其他任务。
法国理工学院研究团队开发的I-GLIDE系统,通过将复杂设备拆解为多个子系统分别诊断,结合不确定性量化技术,实现了设备剩余寿命预测的重大突破。该系统在NASA飞机引擎数据集上的预测误差比传统方法降低23-39%,同时提供了前所未有的可解释性,能够精确指出具体组件的健康状况,为工业智能维护提供了新的解决方案。
清华大学团队发布RaiseCity系统,这是首个能自动生成逼真3D虚拟城市的AI智能体。该系统仅需真实世界地理信息和街景照片,就能像经验丰富的城市规划师一样智能重构完整城市,包含精确的建筑模型、道路网络和城市设施。在质量评估中获得90%以上胜率,为自动驾驶、城市规划、游戏开发等领域提供突破性解决方案。
Stability AI研究团队提出了Block Cascading技术,这是一种无需重训练就能显著提升视频生成速度的创新方法。该技术通过"瀑布式"并行处理,让多个视频片段同时生成而非依次排队,在保持视频质量的同时实现了2-3倍的速度提升。技术已在多种模型上验证有效,为实时交互式视频应用铺平了道路。
威廉玛丽学院研究团队提出UniGame框架,通过让AI模型内部组件互相"对抗"训练,解决统一多模态模型在理解和生成任务间的一致性问题。该方法让生成模块制造挑战性场景来考验理解模块,实现自我改进。实验显示一致性提升4.6%,理解能力提高3.6%,鲁棒性大幅增强,且仅需增加不到1%参数,具有广泛适用性。