M?FinMeeting是由苏州大学和阿里云研究团队开发的创新性金融会议理解评估数据集,支持英语、中文和日语三种语言,涵盖全球行业分类标准(GICS)定义的11个行业部门,包含摘要生成、问答对提取和问题回答三项任务。研究团队用七种代表性大型语言模型进行了实验评估,发现即使是最先进的长上下文模型在处理金融会议理解任务时仍有显著提升空间。这一数据集填补了金融领域人工智能评估基准的重要空白,为未来研究提供了宝贵资源。
这项研究创建了"Visual CounterFact"数据集,通过展示与常识相悖的图像(如蓝色草莓)测试视觉语言模型如何平衡视觉输入与记忆知识。研究发现,模型往往会被视觉输入左右,即使被问及通用知识问题。团队开发了"像素与先验"转向技术,成功控制模型在两种信息源之间的依赖,颜色任务成功率高达92.5%,大小任务达74.6%,为构建更可靠的多模态AI系统提供了新工具。
SEALQA是维吉尼亚理工大学研究团队开发的新型基准测试,旨在评估搜索增强型语言模型在面对矛盾、嘈杂或无用搜索结果时的推理能力。它包含三种测试:SEAL-0(极具挑战性的核心问题集)、SEAL-HARD(更广泛的困难问题集)和LONGSEAL(测试长上下文多文档推理)。研究发现,即使是前沿模型在这些测试中表现也很差,增加测试时计算资源往往不能带来可靠的性能提升,高级推理模型对嘈杂搜索结果特别敏感,模型在识别大量干扰文档中的相关信息时仍然困难重重。
这篇论文提出了"计划与预算"框架,解决大型语言模型在推理任务中的效率问题。研究者发现模型存在"推理失调"现象——简单问题上过度思考,复杂问题上思考不足。他们开发了贝叶斯预算分配模型(BBAM)作为理论基础,将推理分解为子问题并根据不确定性分配计算资源。实验表明,该方法在不同任务上显著提高推理效率,令牌使用减少39%,E?指标提升187.5%,且能使小型模型达到大型模型的效率水平。
康奈尔大学团队提出的"神秘语言模型"(Eso-LMs)创新性地融合了自回归和掩码扩散模型的优势,实现了两种范式间的平滑过渡。研究最大突破在于首次为掩码扩散模型引入KV缓存技术,同时保留并行生成能力,使推理速度比标准扩散模型快65倍,比半自回归模型快4倍。通过设计特殊的注意力机制和采样策略,Eso-LMs在保持扩散模型并行生成优势的同时,解决了传统扩散模型的效率瓶颈,为语言生成任务提供了质量与速度兼具的新解决方案。
这项由LMU慕尼黑大学研究团队进行的研究,首次深入探索了代码语言模型如何在内部表示和处理多种编程语言。研究通过分析Llama系列模型的中间层表示和神经元激活模式,发现模型在处理代码翻译任务时会经过"英语思维"的中转,且不同编程语言在模型内部的表示存在显著的共享和差异模式。研究结果不仅揭示了AI理解代码的内部机制,还为设计更高效的多语言代码模型提供了实用见解。
这项研究提出了首个统一的可解释AI生成内容检测框架IVY-FAKE,能同时处理图像和视频。研究团队创建了一个包含15万多个带有详细注释样本的大型数据集,并开发了IVY-XDETECTOR模型,不仅能准确识别AI生成内容,还能用自然语言解释判断理由。实验表明,该模型在多个基准测试中显著超越现有方法,在检测准确率和解释能力上均达到了新高度,为打击虚假信息提供了有力工具。
这项研究提出了RARE框架,全面评估检索增强生成系统面对现实干扰时的鲁棒性。它包含三大核心组件:RARE-Met评估指标,RARE-Get自动数据生成管道,以及RARE-Set覆盖金融、经济、政策领域的大规模数据集。实验结果揭示RAG系统在文档扰动下特别脆弱,模型大小并非决定鲁棒性的唯一因素,且多跳问题比单跳问题更易受扰动影响。这一框架为构建更可靠的RAG系统提供了关键洞察和评估工具。
今日,以“AI重构商业未来”为主题的2025思爱普中国峰会盛大召开。在全球商业环境持续面临不确定性影响的当下,中国企业正积极拥抱变革,寻求韧性发展。
Snap 推出 Lens Studio 的 iOS 应用和网页工具,让所有技能层次的用户都能通过文字提示和简单编辑,轻松创建 AR 镜头,包括生成 AI 效果和集成 Bitmoji,从而普及 AR 创作,并持续为专业应用提供支持。
Epic Games 在 Orlando Unreal Fest 上发布 2025 年 Unreal 状态报告,展示了 UE5.6 新技术、AI 创作工具和 Epic Games Store 成就,助力开发者打造开放世界游戏体验。
在数字化浪潮汹涌的当下,软件测试作为保障软件质量的关键环节,正经历着由 AI 技术引发的深刻变革。传统软件测试模式在周期、成本和效率等方面的固有弊端,正被 AI 的智能化能力逐一突破,开启软件测试的全新篇章。
罗切斯特理工学院和美国陆军研究实验室的研究团队开发了一种突破性的无源域适应方法,通过混搭拼图增强技术和置信度-边界加权策略,使AI模型能在没有原始训练数据的情况下适应新环境。该方法在三个主要基准数据集上取得显著成果,特别是在PACS数据集上准确率提升了7.3%,为AI系统在隐私保护、安全限制等现实场景中的应用提供了新解决方案。
苹果将在 WWDC 2025 上推出重磅软件更新,包括 iOS 全新设计、系统命名变革、AI 功能提升及游戏体验升级,进一步优化跨设备生态。
这篇论文介绍了R1-Code-Interpreter,一种通过有监督学习和强化学习训练大型语言模型进行代码推理的新方法。研究团队收集了144个推理和规划任务,利用多轮训练教会模型自主决定何时使用文本推理或生成代码。最终的14B模型在测试集上将准确率从44.0%提高到64.1%,超过纯文本GPT-4o并接近带Code Interpreter的GPT-4o。研究揭示了SFT阶段的关键作用,并发现模型展现出自发的自我检查行为,为开源模型提供了与商业模型竞争的代码解释器能力。
这项研究探索了一种全新的AI文本生成方式:"弗兰肯文本"。灵感来自《弗兰肯斯坦》小说,研究者让大型语言模型在一个极端条件下创作:90%的内容必须直接复制自人类写作片段。尽管限制严格,但像Gemini-2.5-Pro这样的模型能生成既符合写作提示又保持连贯的故事。令人惊讶的是,这些混合文本常常逃过AI检测工具的识别——多达59%被误判为人类写作。这项研究不仅挑战了现有AI检测技术,还为混合作者归属研究提供了宝贵数据,并为人类-AI协作写作研究创造了可控的实验环境。
ISTA和Red Hat AI的研究团队在《Unified Scaling Laws for Compressed Representations》论文中提出了一个革命性的统一框架,揭示了AI模型压缩背后的数学规律。他们发现,无论使用什么压缩方法,模型性能都可以通过"表示容量"这一单一指标准确预测,而这一指标与表示法拟合随机高斯数据的能力直接相关。研究不仅证明了容量在组合表示中可以分解,还开发了基于容量的改进稀疏训练方法,在同等参数条件下显著提升模型性能。
这项研究揭示了机器生成文本检测器的重大漏洞。意大利研究团队通过直接偏好优化技术,成功训练AI模型生成更像人类的文本,导致顶尖检测器准确率下降高达60%。研究者分析了语言特征分布变化,发现经过训练的模型能有效模仿人类写作特征,而检测器主要依赖于浅层语言线索识别AI文本。这一发现为开发更可靠的检测方法提供了重要参考,同时也警示我们区分人类与AI内容将变得越来越困难。
武汉大学研究团队开发了PCogAlign框架,使视觉语言模型能够理解人类的个性化情境认知。研究采用社会学中"角色集合"概念描述人类多样性,构建了PCogAlignBench基准测试集,包含18,000个样本和20个不同角色集的个体。该框架通过估计情境认知、采样个性化回应和使用认知感知奖励模型选择最佳回应,使AI能够根据不同人的背景提供个性化帮助,实验证明其性能优于现有方法。