最新文章
Micro-Act:用自主推理解决问答中的知识冲突

Micro-Act:用自主推理解决问答中的知识冲突

这篇研究介绍了Micro-Act,一种创新框架,旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度,并将知识源分解成一系列细粒度比较,有效克服了传统方法在处理复杂冲突时的局限性。实验表明,Micro-Act在五个基准数据集上显著超越了现有技术,并在无冲突场景中保持稳健性能,为构建更可靠的检索增强生成系统提供了新思路。

评估真相大揭秘:DeepSeek推理模型在基准测试中的浮动陷阱

评估真相大揭秘:DeepSeek推理模型在基准测试中的浮动陷阱

这项研究揭示了评估大语言模型推理能力时的一个重要问题:微小的评估条件变化可能导致基准测试结果大幅波动。研究者发现,DeepSeek-R1-Distill系列等模型的评估结果极易受到种子初始化方法、数据集版本等因素影响,波动幅度甚至超过模型训练带来的性能提升。研究团队提出了一个基于透明性和稳定性原则的严格评估范式,建议使用统计学方法确定适当的测试次数,并详细披露所有评估条件,以提高评估的公平性和可靠性。

什么是 Agentic AI?关于人工智能代理的一切须知

什么是 Agentic AI?关于人工智能代理的一切须知

本文介绍了 Agentic AI 的概念、特点及应用,强调其自主决策、分解任务与执行复杂目标的能力,并探讨了应用场景与潜在风险。

人工智能是关于关系的吗?

人工智能是关于关系的吗?

本篇文章以 Navin Chaddha 的采访为主线,阐述了 AI 技术背后人际伙伴关系和早期合作的重要性,以及“协同智能即服务”的理念,强调未来创新依旧由人类主导,技术只是辅助工具。

CapSpeech:开创风格提示语音合成的下游应用新纪元

CapSpeech:开创风格提示语音合成的下游应用新纪元

CapSpeech是约翰·霍普金斯大学等机构联合提出的风格描述文本转语音合成基准,包含超过1000万机器标注和36万人工标注的语音-描述配对。它支持五大下游任务:基础风格描述、带音效的语音合成、口音控制、情感表达和表现力丰富的虚拟代理。研究团队开发了自回归和非自回归两种模型,并通过客观和主观评估证明了该基准的有效性。CapSpeech不仅丰富了语音合成的表现力和可控性,还为实际应用如有声读物、对话代理和跨文化语音合成铺平了道路。

引领AI安全新时代 Accelerate 2025北亚巡展·北京站成功举办

6月5日,"Accelerate 2025北亚巡展·北京站"圆满落幕!来自智库、产业界、Fortinet管理层及技术团队的权威专家,与来自各行业的企业客户代表齐聚一堂,围绕"AI智御全球·引领安全新时代"主题,就AI技术驱动的安全防御体系重构、网络与安全的原生融合实践、全球化场景下的SASE技术落地三大核心议题展开深入研讨。

桑迪亚启用类脑无存储超算

桑迪亚启用类脑无存储超算

Sandia国家实验室与SpiNNcloud合作推出的SpiNNaker2类脑超级计算机,依靠48芯片高并行架构及高速SRAM/DRAM通信,无需GPU或内置存储,适用于国防及前沿计算任务。

2025 年将成为 Meta 增强与虚拟现实的关键之年,CTO 表示

2025 年将成为 Meta 增强与虚拟现实的关键之年,CTO 表示

Meta首席技术官博兹预测2025年将成为Reality Labs转折点,Ray-Ban AI眼镜的突破和激烈市场竞争将决定未来成败。

AI电影节与多元宇宙引擎

AI电影节与多元宇宙引擎

第三届Runway AI电影节展示了利用Runway、Midjourney等AI工具生成全新视听作品,颠覆传统电影制作,赋能无限创意。

基于代理的计算正在超越我们所认知的互联网

基于代理的计算正在超越我们所认知的互联网

文章探讨了互联网从以人为核心向为AI代理优化转型,未来网络将以高速、透明、可验证的机器接口为主。

像人类一样,AI 迫使各机构重新思考其使命

像人类一样,AI 迫使各机构重新思考其使命

文章剖析了在AI浪潮中,传统机构如何应对认知迁移的挑战,通过重构结构与人机协同,探索全新使命定位。

位置专家模型:为推测性解码打造更优质草稿的突破技术——华盛顿大学和卡内基梅隆大学联手研发

位置专家模型:为推测性解码打造更优质草稿的突破技术——华盛顿大学和卡内基梅隆大学联手研发

华盛顿大学和卡内基梅隆大学的研究团队开发了"位置专家"(PosS)技术,解决了推测性解码中的关键挑战。传统方法使用单一草稿模型预测多个位置的词汇,导致预测质量随位置深入而急剧下降。PosS创新性地引入多个专业化层,每层负责特定位置的预测,有效缓解了特征偏差累积问题。实验表明,在Llama系列模型上,PosS比基线方法提高了接受长度达4.5%,加速比提升最多5.7%,而仅带来微小的计算开销。这一技术为大型语言模型的高效推理提供了新思路。

分段优化:让大语言模型通过段级信用分配更高效地学习推理能力

分段优化:让大语言模型通过段级信用分配更高效地学习推理能力

这篇研究论文《段级策略优化》提出了一种介于词元级和轨迹级之间的新型强化学习框架SPO,用于提升大语言模型的推理能力。研究者将生成序列划分为连续段落,并在段级粒度上估计优势,实现了更精确的信用分配和更准确的优势估计。SPO框架包含灵活段落划分、基于蒙特卡洛的段落优势估计和段落优势策略优化三个核心组件。研究团队基于此框架设计了SPO-chain和SPO-tree两个特定实例,分别针对短链思维和长链思维场景。

小语言模型将成为AI智能代理的未来:NVIDIA研究团队揭示更高效的AI架构

小语言模型将成为AI智能代理的未来:NVIDIA研究团队揭示更高效的AI架构

NVIDIA研究团队在最新研究中指出,小语言模型(SLM)将成为AI智能代理的未来。他们论证了SLM不仅足够强大,还在操作上更适合且经济性更高。研究显示现代SLM已可媲美更大模型的性能,同时推理成本降低10-30倍,微调更快捷。论文提出了从大型模型向小型模型转换的算法,并通过案例研究证明在实际智能代理中40-70%的LLM调用可被SLM替代。这一转变将大幅降低AI运营成本,推动更可持续的AI发展。

RiOSWorld:突破性评测揭示多模态电脑使用代理的安全风险隐患

RiOSWorld:突破性评测揭示多模态电脑使用代理的安全风险隐患

RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环境源和用户源两大类,通过风险目标意图和完成两个维度进行评估。对十个代表性MLLM代理的测试结果表明,当前代理在风险目标意图上的不安全率高达84.93%,在风险目标完成上达59.64%,揭示了AI代理在计算机使用安全性方面存在的严重隐患,为未来可信AI系统的开发提供了重要参考。

IllumiCraft:牛津大学联合研究团队打造融合几何与光照的视频生成新技术,让视频重光照变得触手可及

IllumiCraft:牛津大学联合研究团队打造融合几何与光照的视频生成新技术,让视频重光照变得触手可及

牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连贯视频。研究团队还构建了包含20,170个视频对的高质量数据集,实验表明IllumiCraft在视觉质量、提示对齐和时间一致性方面显著优于现有方法,开创了可控视频生成的新可能。

人工智能推动高温超导材料研究:中国人民大学物理学院开发HTSC-2025基准数据集,为AI预测超导临界温度铺平道路

人工智能推动高温超导材料研究:中国人民大学物理学院开发HTSC-2025基准数据集,为AI预测超导临界温度铺平道路

中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160K。研究不仅提供了公开的评估框架,还总结了提高超导温度的物理策略,如空穴掺杂和轻元素引入。该基准已在GitHub开源,为AI驱动的超导材料发现提供了重要支持。

FinChain:金融领域首个可验证的符号化思维链推理基准测试

FinChain:金融领域首个可验证的符号化思维链推理基准测试

MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出了ChainEval评估指标,同时评估最终答案正确性和中间推理步骤一致性。对30个大语言模型的测试表明,即使最先进模型在处理复杂金融推理时仍有很大提升空间,且模型规模是决定推理能力的关键因素。

视频技能思维链:用领域自适应的技能链实现视频推理突破

视频技能思维链:用领域自适应的技能链实现视频推理突破

这项研究提出了VIDEO-SKILL-COT(别名VIDEO-SKOT),一种新型视频理解框架,能自动构建和利用技能感知的思维链进行领域自适应视频推理。北卡罗来纳大学教堂山分校的研究人员首先从训练问题中提取领域相关推理技能并聚类成共享技能分类法,然后为每个视频-问题对创建定制的多步骤思维链。接着,他们开发了技能专家学习框架,每个专家模块专注于特定推理技能集。在三个不同的视频理解基准测试上,该方法一致优于现有系统,显示了其出色的领域适应能力。

AmbiK:探索厨房环境中的歧义任务,MIPT和AIRI共同打造智能机器人交流新标准

AmbiK:探索厨房环境中的歧义任务,MIPT和AIRI共同打造智能机器人交流新标准

莫斯科物理技术学院和人工智能研究所共同开发的AmbiK数据集,专门用于评估大型语言模型处理厨房环境中歧义指令的能力。该数据集包含1000对任务,按照偏好类、常识知识类和安全类三种歧义类型分类,每对包含歧义和无歧义指令、环境描述、澄清问题和答案等完整信息。研究表明,现有最先进的方法在AmbiK上仍面临重大挑战,为相关研究提供了新的发展方向。