这篇研究介绍了Meta团队开发的Multi-SpatialMLLM,一种能够理解多帧图像空间关系的多模态大语言模型。研究者创建了首个大规模多帧空间理解数据集MultiSPA,包含超过2700万个样本,并在此基础上训练模型掌握深度感知、视觉对应和动态感知能力。实验表明,该模型显著超越了现有系统,在空间理解任务上平均提升36%,并展示出多任务协同效应和能力涌现现象,为机器人学习等实际应用提供了新的可能性。
本文介绍了 AI 工厂如何通过整合芯片制造、超级计算及数据中心部署,推动全球企业转型升级。文中详细阐述了 NVIDIA 与国际伙伴在技术创新、产业变革和可持续发展方面的探索与挑战。
VAST Data 推出了一款集成 AI 操作系统,通过整合存储、实时数据处理、向量数据库和原生代理编排等功能,旨在简化复杂的 AI 基础设施部署。该方案有望降低部署难度及延时,但其与 Nvidia 深度绑定以及封闭式整合可能限制使用弹性,面临开放模块化生态系统的挑战。
本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。
这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。
文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。
PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。
研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。
Salesforce以80亿美元收购Informatica,整合双方数据管理与agentic AI优势,构建企业统一数据平台,加速低代码AI方案落地。
OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。
Mistral AI 推出新专有 API,利用 Mistral Medium 3 模型快速集成自主生成 AI 代理。平台内置 Python 执行、图像生成、文档库 ( RAG ) 及网络搜索等功能,支持多代理协同处理复杂任务,适用于各领域应用。
这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。
MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。
这项由香港中文大学和新加坡国立大学研究者合作开发的"思考或不思考"(TON)框架,通过创新的"思考丢弃"策略和两阶段训练方法,实现了让视觉-语言模型能够像人类一样根据问题难度选择性推理的能力。实验表明,TON可减少高达90%的输出长度,同时保持或提升性能,在计数、数学和导航等多种任务中展现出显著优势,为AI系统在保持推理质量的同时大幅提升效率提供了新思路。
GRIT是一种创新框架,它教会多模态大语言模型(MLLMs)在视觉推理过程中"边看边思考"。传统MLLMs虽能处理图像和文字,但无法明确指出推理时关注的具体图像区域。GRIT通过引入一种新的推理范式,让模型生成的推理内容自然地混合文本和边界框坐标,使AI能像人类一样在思考时明确参考视觉信息。研究团队开发的GRPO-GR强化学习方法不需要详细标注数据,仅用20个训练样本就能赋予模型这种能力。
Tool-Star是人民大学研究团队开发的AI多工具协作系统,它通过强化学习使大型语言模型能够自主调用多种外部工具进行推理。该系统采用创新的数据合成流程和两阶段训练框架,包括冷启动微调和带有层级奖励的自我批评强化学习。在10项挑战性推理任务中,Tool-Star展现出卓越性能,证明了多工具协作方法的有效性,为AI系统扩展能力边界开辟了新路径。
本文探讨如何借助人工智能和数据科学实现医疗研发、生产及护理的极速升级,通过提高数据采集、处理与解读能力,为患者带来精准诊疗和创新药物,同时解决技术普及难题。
微软为记事本、画图和截屏工具引入了 AI 增强功能,可实现文本生成、贴纸创作和自动优化截屏。记事本和画图的新功能仅面向 Microsoft 365、Copilot Pro 用户及 Copilot Plus PC,而截屏工具功能对所有人均开放。
本文介绍了微软最新开源协议 NLWeb,它利用现有结构化数据,将网站转变为支持自然语言交互的 AI 应用,为企业构建 agentic AI 提供新路径,同时对比了当前其他 AI 协议的特性与优劣。
文章详细分析了企业在推广代理型人工智能时面临的基础设施高投入、技术整合、专才匮乏以及后续管理等挑战,并探讨了如何构建完善生态系统以实现实际业务价值。