这项研究提出了首个统一的可解释AI生成内容检测框架IVY-FAKE,能同时处理图像和视频。研究团队创建了一个包含15万多个带有详细注释样本的大型数据集,并开发了IVY-XDETECTOR模型,不仅能准确识别AI生成内容,还能用自然语言解释判断理由。实验表明,该模型在多个基准测试中显著超越现有方法,在检测准确率和解释能力上均达到了新高度,为打击虚假信息提供了有力工具。
这项研究提出了RARE框架,全面评估检索增强生成系统面对现实干扰时的鲁棒性。它包含三大核心组件:RARE-Met评估指标,RARE-Get自动数据生成管道,以及RARE-Set覆盖金融、经济、政策领域的大规模数据集。实验结果揭示RAG系统在文档扰动下特别脆弱,模型大小并非决定鲁棒性的唯一因素,且多跳问题比单跳问题更易受扰动影响。这一框架为构建更可靠的RAG系统提供了关键洞察和评估工具。
今日,以“AI重构商业未来”为主题的2025思爱普中国峰会盛大召开。在全球商业环境持续面临不确定性影响的当下,中国企业正积极拥抱变革,寻求韧性发展。
Snap 推出 Lens Studio 的 iOS 应用和网页工具,让所有技能层次的用户都能通过文字提示和简单编辑,轻松创建 AR 镜头,包括生成 AI 效果和集成 Bitmoji,从而普及 AR 创作,并持续为专业应用提供支持。
Epic Games 在 Orlando Unreal Fest 上发布 2025 年 Unreal 状态报告,展示了 UE5.6 新技术、AI 创作工具和 Epic Games Store 成就,助力开发者打造开放世界游戏体验。
在数字化浪潮汹涌的当下,软件测试作为保障软件质量的关键环节,正经历着由 AI 技术引发的深刻变革。传统软件测试模式在周期、成本和效率等方面的固有弊端,正被 AI 的智能化能力逐一突破,开启软件测试的全新篇章。
罗切斯特理工学院和美国陆军研究实验室的研究团队开发了一种突破性的无源域适应方法,通过混搭拼图增强技术和置信度-边界加权策略,使AI模型能在没有原始训练数据的情况下适应新环境。该方法在三个主要基准数据集上取得显著成果,特别是在PACS数据集上准确率提升了7.3%,为AI系统在隐私保护、安全限制等现实场景中的应用提供了新解决方案。
苹果将在 WWDC 2025 上推出重磅软件更新,包括 iOS 全新设计、系统命名变革、AI 功能提升及游戏体验升级,进一步优化跨设备生态。
这篇论文介绍了R1-Code-Interpreter,一种通过有监督学习和强化学习训练大型语言模型进行代码推理的新方法。研究团队收集了144个推理和规划任务,利用多轮训练教会模型自主决定何时使用文本推理或生成代码。最终的14B模型在测试集上将准确率从44.0%提高到64.1%,超过纯文本GPT-4o并接近带Code Interpreter的GPT-4o。研究揭示了SFT阶段的关键作用,并发现模型展现出自发的自我检查行为,为开源模型提供了与商业模型竞争的代码解释器能力。
这项研究探索了一种全新的AI文本生成方式:"弗兰肯文本"。灵感来自《弗兰肯斯坦》小说,研究者让大型语言模型在一个极端条件下创作:90%的内容必须直接复制自人类写作片段。尽管限制严格,但像Gemini-2.5-Pro这样的模型能生成既符合写作提示又保持连贯的故事。令人惊讶的是,这些混合文本常常逃过AI检测工具的识别——多达59%被误判为人类写作。这项研究不仅挑战了现有AI检测技术,还为混合作者归属研究提供了宝贵数据,并为人类-AI协作写作研究创造了可控的实验环境。
ISTA和Red Hat AI的研究团队在《Unified Scaling Laws for Compressed Representations》论文中提出了一个革命性的统一框架,揭示了AI模型压缩背后的数学规律。他们发现,无论使用什么压缩方法,模型性能都可以通过"表示容量"这一单一指标准确预测,而这一指标与表示法拟合随机高斯数据的能力直接相关。研究不仅证明了容量在组合表示中可以分解,还开发了基于容量的改进稀疏训练方法,在同等参数条件下显著提升模型性能。
这项研究揭示了机器生成文本检测器的重大漏洞。意大利研究团队通过直接偏好优化技术,成功训练AI模型生成更像人类的文本,导致顶尖检测器准确率下降高达60%。研究者分析了语言特征分布变化,发现经过训练的模型能有效模仿人类写作特征,而检测器主要依赖于浅层语言线索识别AI文本。这一发现为开发更可靠的检测方法提供了重要参考,同时也警示我们区分人类与AI内容将变得越来越困难。
武汉大学研究团队开发了PCogAlign框架,使视觉语言模型能够理解人类的个性化情境认知。研究采用社会学中"角色集合"概念描述人类多样性,构建了PCogAlignBench基准测试集,包含18,000个样本和20个不同角色集的个体。该框架通过估计情境认知、采样个性化回应和使用认知感知奖励模型选择最佳回应,使AI能够根据不同人的背景提供个性化帮助,实验证明其性能优于现有方法。
Snapchat 推出全新 watchOS 应用,支持 Apple Watch 用户预览及通过键盘、手写、语音或表情快速回复消息,打造便捷的多平台通讯体验。
6月5日,由中国移动研究院与中国光网络研讨会(OptiNet China)联合主办的首届“卫星光通信与智能组网技术”专项研讨会在北京召开。
Amazon旗下秘密研发机构Lab126新成立团队,专注在机器人上嵌入自主代理AI,实现通过自然语言完成复杂任务,从而提升仓储物流与配送效率,同时开发高精度地图技术。
这项由ETH苏黎世、ELLIS图宾根研究所和MPI图宾根的研究者合作完成的论文,揭示了评估大型语言模型预测能力时的关键陷阱。研究发现两类主要问题:数据时间泄露导致评估结果不可信,以及基准测试表现难以外推到实际预测能力。通过系统分析,研究者展示了这些问题如何可能导致对语言模型预测能力的过度乐观评估,并提出了更严格的评估方法建议,以帮助科研社区更准确地判断大模型的真实预测能力。
CityLens是清华大学和北京交通大学联合开发的基准测试系统,旨在评估大型语言-视觉模型通过城市图像预测社会经济指标的能力。研究团队构建了一个覆盖17个全球城市的多模态数据集,包含经济、教育、犯罪、交通、健康和环境六大领域的11项指标。通过直接指标预测、归一化指标估计和基于特征的回归三种评估方法,他们测试了17种最先进的大型语言-视觉模型。结果表明,虽然这些模型展示了有希望的感知和推理能力,但在准确预测城市社会经济指标方面仍有明显局限。