这项研究首次从图论视角探索大语言模型的知识结构模式,揭示了模型知识的三峰分布特性、节点度数与知识水平的正相关关系,以及知识同质性现象——拓扑位置相近的实体往往具有相似的知识水平。基于这些发现,研究团队开发了图神经网络模型来预测实体知识水平,并证明了这种方法在选择高价值三元组进行模型微调时的有效性,特别是在专业领域知识方面取得了显著提升。
本文评测了 Google 最新 AI 视频生成工具 Veo 3,从音频生成、功能局限、等待时长及费用限制等方面展示其优劣,适合 AI 爱好者体验,但专业创作者可能会感到不便。
首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。
SridBench是首个评估人工智能模型科研插图绘制能力的基准测试,由中国科学技术大学等机构研究团队创建。该测试包含1,120个来自自然科学和计算机科学13个学科的高质量样本,并设计了六维评估标准。实验结果显示,即使是目前表现最佳的GPT-4o-image模型也仅达到基本合格水平,文本信息缺失、视觉元素不完整和科学错误是主要瓶颈。这项研究揭示了AI科研绘图能力的现状,为未来技术发展提供了方向。
ChartLens是马里兰大学与Adobe研究院合作开发的创新技术,专门解决多模态大型语言模型在图表理解中的"幻觉"问题。这项研究提出了"后验细粒度视觉归因"方法,能够将AI对图表的分析结果与图表中的具体视觉元素(如特定柱形或数据点)精确关联起来,使AI的回答变得可验证。研究团队还创建了ChartVA-Eval基准测试集,并证明他们的方法比现有技术提高了26-66%的归因准确率,为金融分析、政策制定和科学研究等领域提供了更可靠的图表理解工具。
这篇论文介绍了一个名为"CrEval"的创新框架,用于跨领域评估文本创造力。研究团队构建了"CreataSet"数据集,包含超过10万条人类水平和100多万条合成创意文本,涵盖87个领域。基于此训练的CrEval评估器在与人类判断的一致性上显著优于现有方法,包括GPT-4o。研究发现,结合人类创建的数据和合成数据对训练有效评估器至关重要,且CrEval不仅能评估创造力,还能提升AI模型生成更有创意内容的能力,为创造力评估和提升开辟了新方向。
这项研究由清华大学和新加坡国立大学团队完成,系统探讨了大推理模型在事实查询任务中的幻觉问题。研究发现,仅通过单一训练阶段(仅SFT或仅RL)开发的推理模型更容易产生幻觉,而完整SFT+RL流程训练的模型幻觉较少。研究者识别出两种导致幻觉的关键认知行为:"错误重复"和"思考-答案不匹配",并从模型不确定性校准角度揭示了幻觉产生的内在机制,为开发更可靠的推理模型提供了重要指导。
这项由香港理工大学和复旦大学联合领导的研究提出了"自适应无分类器引导"(A-CFG)技术,用于改进AI文本生成。传统CFG使用静态无条件输入,而A-CFG能识别模型在生成过程中最不确定的部分,动态地重新掩码这些低置信度标记,创建针对性的无条件输入。实验表明,A-CFG在多种基准测试中显著优于标准CFG,如在GPQA上提升3.9点,在数独任务上提升8.0点,证明了在迭代生成中动态响应模型不确定性的价值。
这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL,一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务:连贯性验证、错误感知、错误类型检测和推理评估,全面测试模型理解合成视频的能力。研究发现即使是最先进的GPT-4.1模型也难以在所有任务上保持良好表现,表明AI对生成视频的理解仍有巨大提升空间。研究还通过REPROMPT实验证明,将大模型反馈与人类偏好更好地对齐可以显著提升视频生成质量。
伊利诺伊大学香槟分校研究团队开发了SafeScientist,一个安全优先的AI科学家框架,能主动拒绝不道德或高风险任务,并在整个研究过程中确保安全。该框架整合了四层防御机制:提示监控、智能体协作监督、工具使用控制和伦理审查。团队还创建了SciSafetyBench基准测试集,包含240个高风险科学任务和120个工具相关风险场景,用于评估AI科学家的安全性。实验表明,SafeScientist比传统框架提高了35%的安全性能,同时不影响科学输出质量,为AI驱动的科学探索提供了安全与创新并重的新范式。
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测试表明,该方法不仅有效降低了目标概念的准确率(低至7.7%),还保持了模型在无关领域的高性能,并显著提高了对"重新学习"的抵抗力。这一突破为AI系统的安全部署和合规使用提供了新的可能性。
这项研究探究大语言模型从真实文本中推断因果关系的能力,创建了首个真实世界基准数据集ReCAST。研究发现,即使最先进模型在此任务上表现也不佳,最高F1分数仅为0.477。模型尤其难以处理隐含因果关系、区分关键因素与背景信息,以及整合长文本中分散的信息。这揭示了当前语言模型在真实世界因果推理方面的重大局限,为未来研究指明了方向。
Atos 正在重组,法国政府已确认以4.1亿欧元收购其 Eviden 子公司先进计算业务(不含 Vision AI 部分),该业务涵盖 HPC、量子计算及 AI 部门,预计2025年营收约8亿欧元,此举将为 Atos 提供急需流动资金。
文章讨论了 GPU 服务器如何利用并行处理支持 AI 运算,比较了其与传统 CPU 服务器在扩展性、功耗与散热等方面的区别,并指出数据中心须相应升级供电与冷却设施。
IBM 周一宣布收购 AI 数据分析平台 Seek AI,并在纽约启动 Watsonx AI Labs 加速器,以利用自然语言处理技术支持企业数据查询,扩展 AI 解决方案和人才培养。
Bing 视频生成器利用 OpenAI 的 Sora 模型,通过文字提示生成视频。登录微软账户的用户可免费生成10个视频,之后需消耗微软奖励积分。目前仅支持竖屏9:16比例,未来将增加横屏选项。