最新文章
KO 满血版DeepSeek?AM-Thinking-V1,32B干翻一众千亿级大模型

KO 满血版DeepSeek?AM-Thinking-V1,32B干翻一众千亿级大模型

在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。

字节Seed团队绝地翻盘,发现多模态模型也有涌现时刻,开源BAGEL模型

字节Seed团队绝地翻盘,发现多模态模型也有涌现时刻,开源BAGEL模型

北京时间5月21日,百度发布2025年第一季度财报,这场会议不仅仅是一次常规的财务数据披露,更像是百度在AI时代战略布局的全景展示,李彦宏在开场发言中,将2025年第一季度形容为一个“稳健的开局”。

大模型能否欺骗CLIP?通过文本更新测试预训练多模态表示的对抗组合能力

大模型能否欺骗CLIP?通过文本更新测试预训练多模态表示的对抗组合能力

首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。

SridBench:首个科研插图绘制基准测试揭示AI绘图能力差距

SridBench:首个科研插图绘制基准测试揭示AI绘图能力差距

SridBench是首个评估人工智能模型科研插图绘制能力的基准测试,由中国科学技术大学等机构研究团队创建。该测试包含1,120个来自自然科学和计算机科学13个学科的高质量样本,并设计了六维评估标准。实验结果显示,即使是目前表现最佳的GPT-4o-image模型也仅达到基本合格水平,文本信息缺失、视觉元素不完整和科学错误是主要瓶颈。这项研究揭示了AI科研绘图能力的现状,为未来技术发展提供了方向。

推理增强的大模型更容易产生幻觉吗?清华和新加坡国立大学团队深度解析

推理增强的大模型更容易产生幻觉吗?清华和新加坡国立大学团队深度解析

这项研究由清华大学和新加坡国立大学团队完成,系统探讨了大推理模型在事实查询任务中的幻觉问题。研究发现,仅通过单一训练阶段(仅SFT或仅RL)开发的推理模型更容易产生幻觉,而完整SFT+RL流程训练的模型幻觉较少。研究者识别出两种导致幻觉的关键认知行为:"错误重复"和"思考-答案不匹配",并从模型不确定性校准角度揭示了幻觉产生的内在机制,为开发更可靠的推理模型提供了重要指导。

动态适配的无分类器引导:用低置信度掩码提升AI生成质量

动态适配的无分类器引导:用低置信度掩码提升AI生成质量

这项由香港理工大学和复旦大学联合领导的研究提出了"自适应无分类器引导"(A-CFG)技术,用于改进AI文本生成。传统CFG使用静态无条件输入,而A-CFG能识别模型在生成过程中最不确定的部分,动态地重新掩码这些低置信度标记,创建针对性的无条件输入。实验表明,A-CFG在多种基准测试中显著优于标准CFG,如在GPQA上提升3.9点,在数独任务上提升8.0点,证明了在迭代生成中动态响应模型不确定性的价值。

VF-EVAL:评测多模态大语言模型为AI生成视频提供反馈的能力

VF-EVAL:评测多模态大语言模型为AI生成视频提供反馈的能力

这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL,一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务:连贯性验证、错误感知、错误类型检测和推理评估,全面测试模型理解合成视频的能力。研究发现即使是最先进的GPT-4.1模型也难以在所有任务上保持良好表现,表明AI对生成视频的理解仍有巨大提升空间。研究还通过REPROMPT实验证明,将大模型反馈与人类偏好更好地对齐可以显著提升视频生成质量。

安全科学家:打造风险感知型AI科学家,引领安全的LLM智能发现之路

安全科学家:打造风险感知型AI科学家,引领安全的LLM智能发现之路

伊利诺伊大学香槟分校研究团队开发了SafeScientist,一个安全优先的AI科学家框架,能主动拒绝不道德或高风险任务,并在整个研究过程中确保安全。该框架整合了四层防御机制:提示监控、智能体协作监督、工具使用控制和伦理审查。团队还创建了SciSafetyBench基准测试集,包含240个高风险科学任务和120个工具相关风险场景,用于评估AI科学家的安全性。实验表明,SafeScientist比传统框架提高了35%的安全性能,同时不影响科学输出质量,为AI驱动的科学探索提供了安全与创新并重的新范式。

不信任也不冤枉:如何判断视觉-语言模型预测是否可靠

不信任也不冤枉:如何判断视觉-语言模型预测是否可靠

ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。

个性化安全:从一刀切到个性定制,华盛顿大学研究团队提出针对大语言模型的个性化安全评估与改进方法

个性化安全:从一刀切到个性定制,华盛顿大学研究团队提出针对大语言模型的个性化安全评估与改进方法

这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。

转弯级助攻:明尼苏达大学团队用回合级信誉分配增强大语言模型智能体的多回合推理能力

转弯级助攻:明尼苏达大学团队用回合级信誉分配增强大语言模型智能体的多回合推理能力

明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。

精准的记忆手术:研究人员开发PISCES技术,在不影响其他能力的情况下从大语言模型中精确“抹除“概念

精准的记忆手术:研究人员开发PISCES技术,在不影响其他能力的情况下从大语言模型中精确“抹除“概念

这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测试表明,该方法不仅有效降低了目标概念的准确率(低至7.7%),还保持了模型在无关领域的高性能,并显著提高了对"重新学习"的抵抗力。这一突破为AI系统的安全部署和合规使用提供了新的可能性。