这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。
这项研究提出了"思想家"(Thinker)任务,一种受人类双重加工理论启发的新型AI训练方法。研究者将问答过程分解为四个阶段:快速思考(严格预算下给出初步答案)、验证(评估初步答案)、慢速思考(深入分析修正错误)和总结(提炼关键步骤)。实验表明,该方法使Qwen2.5-1.5B模型的准确率从24.9%提升至27.9%,DeepSeek-R1-Qwen-1.5B模型从45.9%提升至49.8%。显著的是,仅使用快速思考模式就能达到26.8%的准确率,且消耗更少计算资源,证明了直觉与深度推理作为互补系统的培养价值。
这项由ELLIS研究所和马克斯·普朗克智能系统研究所的科学家进行的研究,揭示了大语言模型安全测试的根本规律:越狱攻击成功率由攻击者与目标模型间的能力差距决定。通过评估500多个攻击者-目标组合,研究团队发现:更强的模型是更好的攻击者;当目标能力超过攻击者时攻击成功率急剧下降;社会科学能力比STEM知识更能预测攻击成功。基于这些发现,研究者建立了预测模型,表明随着AI进步,人类红队测试可能逐渐失效,提示需要发展自动化安全评估方法及更全面地评估模型的说服和操纵能力。
华中科技大学和香港中文大学研究团队提出SATORI-R1,一种通过空间定位和可验证奖励增强多模态推理的新方法。该方法将视觉问答任务分解为图像描述、区域定位和答案预测三个可验证阶段,解决了自由形式推理中注意力分散和训练收敛慢的问题。实验证明,SATORI-R1在七个视觉问答基准上一致提升性能,最高达15.7%,并展示出更聚焦的视觉注意力和更低的训练方差。
这项由浙江大学和香港大学联合研究的PH-Reg方法解决了视觉Transformer模型中的"异常令牌"问题,这些异常会干扰模型对图像细节的准确理解。研究团队提出了一种不需要完全重新训练的自蒸馏方法,通过添加"寄存器令牌"来吸收这些异常。实验表明,PH-Reg在语义分割和深度预测任务上显著提升了性能,平均mIoU达到41.85%,优于现有方法。该技术为现有大型视觉模型提供了一种高效的改进路径,无需昂贵的重新训练过程。
ServiceNow研究团队开发了一种名为RLRF的新方法,通过强化学习显著提升了AI生成矢量图形(SVG)的质量。与传统方法不同,RLRF让AI能够"看到"自己生成的SVG代码渲染后的效果,并据此获得反馈。研究表明,这种方法不仅提高了生成图像的视觉准确性,还使代码更加简洁高效,并能够轻松泛化到从未见过的图像类型。这一突破为从图像或文本自动生成高质量矢量图形铺平了道路,对设计和开发领域具有重要意义。
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
普林斯顿大学研究团队开发了VideoGameBench,这是一个新基准测试,挑战视觉语言模型在经典视频游戏中的表现。研究发现,即使最先进的AI模型如Gemini 2.5 Pro在10款90年代游戏中也仅能完成0.48%的进度,表明当前AI在空间感知、记忆管理和实时交互等人类自然擅长的能力上仍有巨大差距。研究结果对理解AI与人类认知差异提供了重要参考。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。
BiomedSQL是由NIH和DataTecnica团队开发的首个生物医学文本转SQL基准,专门评估大型语言模型在生物医学知识库查询中的科学推理能力。这项创新研究构建了一个包含68,000个问题-SQL-答案三元组的数据集,基于整合了基因疾病关联、组学数据和药物记录的BigQuery知识库。与通用文本转SQL系统不同,BiomedSQL测试模型是否能理解隐含的科学约定(如基因组显著性阈值为p
清华大学与阿里巴巴通义实验室合作研发了EXTAGENTS,一个创新的多智能体框架,解决了大语言模型处理超大规模外部知识的限制问题。该研究通过全局知识同步和知识累积推理两大创新组件,使模型能够有效整合远超其上下文窗口大小的信息量,在多跳问答和长篇综述生成等任务中取得显著优势。这一突破为知识密集型应用提供了无需额外训练的高效解决方案,同时保持了高并行性和可扩展性。
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。