这项由上海人工智能实验室、南京大学和中科院深圳先进技术研究院联合完成的研究,开发了全球首个专门测试AI长视频推理能力的评估平台VRBench。该平台包含1010个多语言长视频和超过9000个多步推理问答对,创新性地采用双重评估机制,既测试AI的答案准确性,也评估推理过程质量。测试结果显示,即使是最先进的AI模型在复杂视频推理任务上仍存在显著不足,特别是推理过程的可靠性方面。
下一波数字化转型浪潮由智能体AI驱动。与简单回答问题或生成内容不同,AI智能体能够以最少的人工干预执行复杂的多步骤任务。它们可以执行从日常任务协助到创建和自动化新业务流程的广泛任务。最好的是几乎任何人都能做到这一点,因为智能体可以使用与ChatGPT交互相同的无代码自然语言过程来构建。
中国AI初创公司MiniMax发布最新开源大语言模型MiniMax-M1,采用Apache 2.0许可证,支持商业应用。该模型拥有100万输入token和8万输出token的超大上下文窗口,采用创新的混合专家架构和强化学习技术。训练成本仅53.47万美元,计算效率比DeepSeek R1高75%。在数学竞赛等基准测试中表现优异,为企业提供了高性能、低成本的AI解决方案。
企业数据基础设施正从回答"发生了什么"转向支持AI实时决策。传统架构无法满足AI对语义理解的需求,知识图谱通过节点和边的方式组织信息,提供实体间的关系和上下文。谷歌十多年的知识图谱实践表明,从"字符串到实体"的转变是现代AI的核心特征。随着智能代理AI的发展,知识图谱将作为智能层为自主代理提供上下文支持。
LibreOffice项目准备削减部分Windows支持,并鼓励用户转向Linux。文档基金会在博客中强调Windows 10即将终止支持,建议考虑Linux和LibreOffice。即将发布的LibreOffice 25.8版本将取消Windows 7和8/8.1支持,并弃用32位Windows版本。尽管一些老旧系统仍需32位支持,但项目坚持推进现代化。LibreOffice提供免费的Office替代方案,具备类似功能和界面选项。
安全研究人员发现,Salesforce行业云客户容易因配置错误导致攻击者获取加密客户信息、会话数据、凭证和业务逻辑。该平台的低代码工具OmniStudio存在20个配置风险,包括访问控制检查缺失、工作流可被外部用户执行、缓存机制绕过访问控制等。Salesforce已针对其中5个问题发布CVE编号和修复指导,其余风险仍需客户自行防范。
韩国KAIST团队首次提出文字感知图像修复技术,解决了传统图像修复无法准确恢复文字内容的难题。研究构建了包含10万张图像的SA-Text数据集,开发了TeReDiff模型,通过三阶段训练和智能提示机制,实现图像修复与文字识别的协同工作。实验显示该技术在文字识别准确率上比传统方法提升15-20%,为历史文献保护、档案数字化等领域提供了重要解决方案。
斯坦福研究员发现,AI模型无需复杂"改造"就能获得新技能,只需观察少量例子即可模仿专业训练效果。这种"情境学习"方法大幅降低了AI应用门槛,文本生成需数千例子,分类任务仅需数百例子,有望让普通用户轻松定制专属AI助手,推动AI技术民主化进程。
中山大学研究团队开发了SWE-Factory自动化系统,通过四个AI助手协作完成GitHub问题解决环境构建。系统利用程序退出码实现自动评分,解决了传统手工方法费时费力的问题。实验显示能以低成本自动构建数百个有效测试实例,为AI软件工程训练提供大规模高质量数据,有望推动编程AI工具的快速发展。
清华大学研究团队提出VERIF方法,通过结合代码验证和大语言模型验证解决AI指令遵循中的验证难题。该方法构建22000实例数据集VERINSTRUCT,将约束分为硬性和软性两类分别处理,在多个基准测试中显著提升模型性能,同时保持通用能力不下降,为强化学习训练提供可靠验证机制。
这项由西南大学和新加坡国立大学联合完成的研究,首次建立了全球最大规模的验证码攻防测试平台MCA-Bench。研究发现AI在简单视觉识别任务上成功率超96%,但在交互式操作任务上仅为2.5-55%,揭示了当前AI技术的能力边界。基于实验结果,团队提出了"深度模态耦合"、"行为锚定验证"、"会话特定语义个性化"三大设计原则,为构建更安全的人机验证系统提供了科学指导。这项研究不仅为验证码安全性评估建立了标准化基准,也为AI时代的网络安全防护指明了新方向。
FuriosaAI团队提出突破性的Draft-based Approximate Inference框架,通过小模型预测指导大模型智能管理资源。研究开发了SpecKV和SpecPC两种方法,分别用于KV缓存管理和文本压缩,在保持高准确性的同时显著降低内存使用和计算延迟,为长文本AI推理提供了高效可行的解决方案。
上海交大团队发现多模态AI在数学推理中存在视觉信息利用不充分的问题,纯文本模型配合图像描述竟能超越直接处理图像的多模态模型。研究提出三种视觉扰动策略:分心物拼接、保持主导混合和随机旋转,通过增加适当的视觉"挑战"来提升AI的感知鲁棒性。实验显示该方法在多个数学推理基准上实现了持续性能提升,平均改进约2个百分点,证明了"更好的推理始于更好的观察"这一核心理念。
CrowdStrike在AWS re:Inforce 2025大会上发布Falcon for AWS Security Incident Response服务,为AWS客户提供AI驱动的网络安全事件响应。该服务基于CrowdStrike Falcon平台,可检测威胁速度提升96%,事件调查速度快66%。新服务与AWS现有安全事件响应工作流互补,为客户提供完整的安全事件生命周期解决方案,并通过AWS市场提供优惠定价。
研究人员专注创新而不受商业约束限制,这种思维对企业和首席信息官具有重要价值。CoVent联合创始人兼首席技术官Krishna Dubba结合研究背景和商业实践经验,从AI研究到创业公司,展示了研究思维如何帮助快速验证假设、持续学习新技术、培养同理心领导力。他强调实验失败应被视为反馈,跨学科交叉能够打破部门壁垒,连接各部门资源,为商业创新提供新思路。
英国卫生大臣宣布,作为NHS十年计划的一部分,将在NHS应用中整合临床试验注册功能,让数百万英国民众能够通过应用搜索并参与临床研究。该举措旨在扭转英国在全球临床研究领域地位下滑的趋势,2017至2021年间新研究启动数量下降了41%。系统将基于患者健康数据自动匹配合适的试验项目,并通过推送通知提醒用户。政府还承诺简化审批流程,将试验建立时间从目前的250天缩短至150天。
NTT Data 2024年调查显示,80%的企业认为过时技术阻碍了创新能力。战略科技合作伙伴可通过六种方式加速创新:明确创新战略、优化现有流程、替换过时技术、识别新市场机会、快速获取新兴技术、缩短产品上市时间。合作伙伴能提供专业指导、自动化工具和数据分析能力,帮助企业提升运营效率并获得竞争优势。
这项研究揭示了大语言模型推理中的一个重要问题:数值精度会显著影响结果的可重现性。研究团队发现,即使使用相同设置,不同硬件配置下模型输出可能截然不同,准确率差异可达9%。他们提出了LayerCast解决方案,在保持内存效率的同时提供高精度计算,为AI研究的可重现性提供了实用工具。
UC伯克利大学研究团队发现,当前先进的视觉语言AI模型虽然拥有强大的视觉识别能力,但在实际应用中却无法有效利用这些视觉信息。研究通过对比AI视觉系统的直接表现与完整系统的表现,发现存在巨大的性能差距,AI往往依赖语言模型的偏向性而非真实的视觉感知来回答问题。这一发现揭示了AI系统中视觉-语言整合的根本性缺陷,为未来AI发展指明了新方向。
挪威研究团队创建了Kvasir-VQA-x1数据集,这是一个专门用于训练医疗AI进行胃肠镜检查分析的大型数据库。该数据集包含159,549个分层次的医学问答对,能让AI从简单识别发展到复杂临床推理。实验显示经过训练的AI模型在医疗图像分析上达到85%以上准确率,展现了从模式识别向深度医学推理跨越的重要进展,为未来智能医疗诊断奠定了基础。