这篇研究论文展示了以物体为中心的表征(OCR)如何提升机器人操作的泛化能力。法国中央工学院的研究团队对比了全局、密集和基于OCR的视觉模型在模拟和真实环境中的表现,发现OCR方法(特别是VIDEOSAUR*)在各种视觉干扰条件下表现最佳。研究通过在机器人数据上预训练和加入时间动态信息,使OCR模型能像人类一样感知物体,而非混杂像素,为未来机器人视觉系统设计提供了新方向。
2025年5月20日,上海交通大学与上海人工智能实验室合作发布了"视觉智能体强化微调"(Visual-ARFT)研究,使AI模型能像人类一样主动使用搜索引擎和编写代码处理图像。这项突破性技术通过强化学习让大型视觉-语言模型获得工具使用能力,在研究团队设计的多模态智能体工具基准(MAT)上表现优异,甚至超越了GPT-4o。经过训练的模型能够分析问题、分解任务、调用工具并解决复杂视觉问题,为构建能真正"用图像思考"的AI智能体开辟了新路径。
香港城市大学、OPPO研究院与香港理工大学研究团队提出了VisualQuality-R1,一种通过排序强化学习训练的推理增强型图像质量评估模型。该模型将Thurstone排序模型无缝集成到组相对策略优化中,使用连续保真度奖励取代传统二元反馈,生成上下文丰富的质量描述。实验表明,它在多种失真场景中始终优于现有方法,无需感知尺度重校准即可支持多数据集训练,为图像处理领域提供了更可靠的质量评估工具。
这项研究提出了AnytimeReasoner框架,通过从先验分布采样思考预算,优化大语言模型在任意计算资源下的推理能力。研究团队开发的预算相对策略优化(BRPO)技术引入可验证的密集奖励,提升强化学习效率。实验表明,该方法在各种数学推理任务上显著优于现有技术,为资源受限环境下的AI服务提供了更高效的解决方案。
文章指出在企业中,AI 试点屡遭挫折,OpenAI因此转向消费者市场,暗示AI将通过用户扩散进入企业,最终由IT部门解决相关问题。
本文汇总了解释 AI 领域常用术语及技术概念,涵盖从 AGI 到神经网络等多个关键内容,帮助读者理解人工智能的基本原理与应用。
谷歌正全力打造具备“世界模型”的全能 AI 助手,通过深度整合各项技术与产品,旨在重塑搜索体验,并在 AI 竞争中超越微软和 OpenAI。
这篇研究通过创新的"先描述后推理"方法,解决了视觉语言模型在学习推理过程中容易走捷径的问题。研究团队开发的Visionary-R1模型不依赖任何推理链标注数据,仅使用问题-答案对和强化学习,就实现了超越GPT-4o等商业模型的视觉推理能力,为AI推理能力的提升开辟了新途径。
香港浸会大学周開陽教授率领的研究团队提出了IndexMark,这是首个针对自回归图像生成模型的免训练水印框架。该方法利用码本中索引的冗余性,通过匹配-替换策略在生成过程中嵌入不可见水印。具体而言,IndexMark将码本索引分为红绿两组,在图像生成时有选择地用绿色索引替换红色索引,实现水印嵌入而不影响图像质量。水印验证通过计算图像中绿色索引比例完成,并引入索引编码器提高精度。
这项研究提出了量化零阶优化(QZO)方法,解决大型语言模型微调时的内存瓶颈问题。研究团队通过创新性地结合模型量化(将权重从16位压缩到4位)和零阶优化(通过前向传递扰动估计梯度),同时消除了对梯度和优化器状态的存储需求,将总内存消耗减少了18倍以上。实验表明,QZO在各种自然语言处理任务上表现优异,甚至能在单张24GB的消费级GPU上微调13B参数的模型和Stable Diffusion 3.5 Large。这一技术突破为资源有限的研究者提供了微调大模型的可能性。
纽约大学阿布扎比分校研究团队提出了一种创新的两阶段训练方法,解决了AI领域的数据稀缺问题。他们首先让AI模型在简单的"骑士与恶棍"逻辑游戏中"热身",学习通用推理技能,然后再用少量特定领域数据进行强化学习。实验表明,这种方法不仅大幅提升了模型在数学、编程和多学科理解任务上的表现,还显著提高了样本效率,使用仅100个样本就能达到传统方法需要数千样本才能实现的效果。更重要的是,"热身"过的模型在适应特定领域后仍能保持跨领域的泛化能力,为资源受限环境下开发强大AI系统提供了实用策略。
这项由EPFL和Google联合完成的研究提出了WilliamT,一种创新的低成本自动化程序修复工具。与传统的寻找漏洞根本原因的方法不同,WilliamT专注于"崩溃点修复",直接在程序崩溃位置添加防护代码,有效阻止漏洞被利用。通过模板引导的补丁生成技术,WilliamT将令牌成本降低了99.7%,与顶级工具CodeRover-S结合使用时,能以45.9%更低的成本修复29.6%更多的漏洞。更令人惊讶的是,WilliamT甚至可以在普通Mac Mini上与小型语言模型有效运行,展示了其在资源受限环境中的卓越适应性。
这项研究介绍了一种新型的新闻偏见检测工具"bias-detector",由慕尼黑工业大学和罗马大学的研究团队开发。他们通过在BABE数据集上微调RoBERTa模型,显著提升了偏见检测准确率,其宏观F1得分达0.9257,优于现有最佳方法DA-RoBERTa的0.8364。统计测试证实了这一提升的显著性。研究还将偏见检测与类型分类结合,构建了完整的偏见分析流程。模型分析显示,新方法能更准确识别语境中的偏见线索,避免了对政治词汇的过度敏感,为媒体分析和新闻客观性评估提供了可靠工具。
在世界一级方程式锦标赛(F1)成立75周年之际,F1与亚马逊云科技让车迷拥有了全新的数字互动体验,联合推出的实时赛道(Real-Time Race Track)利用Amazon Bedrock中新一代前沿模型Amazon Nova的AI分析能力,能够让车迷设计出原创的专属赛道。
5月23日,由国产智能工业软件领军企业赛美特主办的“AI无界·智联未来Al Defines the New Fab”AI制造应用峰会在上海成功召开。
2025年5月23日, 以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。
2025年5月24号下午,为了更好促进中国AIGC开发者拥抱MCP带来的红利,带领更多的开发者投身到具身智能生态发展中,AIGCLINK联合张江集团、中国人工智能学会智工委、至顶科技、中关村超互联新基建联盟等,在模力社区举办了2025年第二届AIGC上海开发者大会,邀请了MCP生态的核心参与者、具身智能领域核心参与者一起共谈未来,为Agent互联网和具身智能行业的发展指明方向。