华盛顿大学和卡内基梅隆大学的研究团队开发了"位置专家"(PosS)技术,解决了推测性解码中的关键挑战。传统方法使用单一草稿模型预测多个位置的词汇,导致预测质量随位置深入而急剧下降。PosS创新性地引入多个专业化层,每层负责特定位置的预测,有效缓解了特征偏差累积问题。实验表明,在Llama系列模型上,PosS比基线方法提高了接受长度达4.5%,加速比提升最多5.7%,而仅带来微小的计算开销。这一技术为大型语言模型的高效推理提供了新思路。
这篇研究论文《段级策略优化》提出了一种介于词元级和轨迹级之间的新型强化学习框架SPO,用于提升大语言模型的推理能力。研究者将生成序列划分为连续段落,并在段级粒度上估计优势,实现了更精确的信用分配和更准确的优势估计。SPO框架包含灵活段落划分、基于蒙特卡洛的段落优势估计和段落优势策略优化三个核心组件。研究团队基于此框架设计了SPO-chain和SPO-tree两个特定实例,分别针对短链思维和长链思维场景。
NVIDIA研究团队在最新研究中指出,小语言模型(SLM)将成为AI智能代理的未来。他们论证了SLM不仅足够强大,还在操作上更适合且经济性更高。研究显示现代SLM已可媲美更大模型的性能,同时推理成本降低10-30倍,微调更快捷。论文提出了从大型模型向小型模型转换的算法,并通过案例研究证明在实际智能代理中40-70%的LLM调用可被SLM替代。这一转变将大幅降低AI运营成本,推动更可持续的AI发展。
RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环境源和用户源两大类,通过风险目标意图和完成两个维度进行评估。对十个代表性MLLM代理的测试结果表明,当前代理在风险目标意图上的不安全率高达84.93%,在风险目标完成上达59.64%,揭示了AI代理在计算机使用安全性方面存在的严重隐患,为未来可信AI系统的开发提供了重要参考。
牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连贯视频。研究团队还构建了包含20,170个视频对的高质量数据集,实验表明IllumiCraft在视觉质量、提示对齐和时间一致性方面显著优于现有方法,开创了可控视频生成的新可能。
中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160K。研究不仅提供了公开的评估框架,还总结了提高超导温度的物理策略,如空穴掺杂和轻元素引入。该基准已在GitHub开源,为AI驱动的超导材料发现提供了重要支持。
MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出了ChainEval评估指标,同时评估最终答案正确性和中间推理步骤一致性。对30个大语言模型的测试表明,即使最先进模型在处理复杂金融推理时仍有很大提升空间,且模型规模是决定推理能力的关键因素。
这项研究提出了VIDEO-SKILL-COT(别名VIDEO-SKOT),一种新型视频理解框架,能自动构建和利用技能感知的思维链进行领域自适应视频推理。北卡罗来纳大学教堂山分校的研究人员首先从训练问题中提取领域相关推理技能并聚类成共享技能分类法,然后为每个视频-问题对创建定制的多步骤思维链。接着,他们开发了技能专家学习框架,每个专家模块专注于特定推理技能集。在三个不同的视频理解基准测试上,该方法一致优于现有系统,显示了其出色的领域适应能力。
莫斯科物理技术学院和人工智能研究所共同开发的AmbiK数据集,专门用于评估大型语言模型处理厨房环境中歧义指令的能力。该数据集包含1000对任务,按照偏好类、常识知识类和安全类三种歧义类型分类,每对包含歧义和无歧义指令、环境描述、澄清问题和答案等完整信息。研究表明,现有最先进的方法在AmbiK上仍面临重大挑战,为相关研究提供了新的发展方向。
MBZUAI和澳大利亚国立大学的研究团队开发了CASS,这是首个大规模跨架构GPU代码转译系统,实现了Nvidia和AMD之间的源代码和汇编级代码转换。该项目包含7万对验证代码对,展示了源代码转换95%和汇编转换37.5%的准确率,远超GPT-4o等商业基准。CASS生成的代码在85%以上的测试中保持了与原生代码相当的性能,并通过CASS-Bench提供严格的评估基准。所有资源已开源,为GPU代码可移植性开辟了新途径。
MMR-V是一个创新的视频多模态深度推理基准测试集,专注于评估AI模型在视频长距离多帧推理能力。与现有基准不同,它要求模型不仅理解问题帧,还需在远距离帧中挖掘证据进行推理。研究发现即使最先进的模型o4-mini也仅达到52.5%准确率,远低于人类86%的表现,突显了当前技术局限。研究还揭示传统思维链等增强策略在视频推理中效果有限,并发现添加音频模态可提升性能。这一基准测试为未来视频AI系统发展提供了重要方向。
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。
这项由四川大学、浙江大学和清华大学合作完成的研究提出了"双架构"框架,创新性地解决了持续学习中的稳定性-可塑性困境。研究发现深度网络具有更好的可塑性,而宽度网络则更具稳定性,据此设计了两个互补网络:一个专注学习新知识,另一个专注保留旧知识。实验表明,该方法在多个数据集上超越现有技术,同时减少高达87%的参数,为资源受限环境提供了高效解决方案。
上海人工智能实验室的研究揭示了视觉语言模型具有"视觉拼接"能力,可以整合训练中看到的分散图像碎片。研究者将图像切分成不同粒度的碎片进行测试,发现模型不仅能根据完整图像识别相关信息,还能通过纯文本引用进行推断。这种能力虽有助于模型泛化,但也存在安全隐患:有害内容可被切分成看似无害的碎片绕过内容审核,而模型仍能将它们重组理解。研究团队建议开发超越样本级别的审核技术,以应对这一新兴安全挑战。
这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差异,基于边缘的不确定性策略整体表现最佳,随机选择约4000个超参数组合即可获得可靠结果。这些发现为设计可重现、可信赖的主动学习实验提供了明确指导,有助于降低入门门槛,促进技术在实际应用中的普及。
这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供了更真实的评估场景。研究对18个长文本模型的测试表明,即使最先进的模型在检索、推理和可信任性方面仍存在显著挑战,特别是上下文长度增加时。研究还揭示了现有合成基准测试的设计缺陷和长上下文预训练的局限性,为未来模型开发提供了重要指导。