最新文章
开场序幕:AWE 2025 让 XR 跨入主流

开场序幕:AWE 2025 让 XR 跨入主流

AWE 2025将于2025年6月10日至12日在长滩举行,预计吸引5000余人、250家展商参与。会议聚焦XR与AI的深度融合,展示沉浸式技术如何走向大众市场。

深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

这项研究揭示了大语言模型中存在"空域"——在推理过程中几乎不活跃的神经网络层。研究者开发了L2自适应计算方法,无需额外训练即可准确识别这些空域。惊人的是,在Qwen2.5-7B模型上,跳过70%的层后性能反而从69.24%提升到71.29%;Mistral-7B在GPQA测试中跳过约30%的层后,准确率提高了4.48%。这表明不同模型层的贡献极不均衡,有选择地跳过"懒惰层"不仅能保持性能,有时甚至能提升结果,为未来模型优化提供了新思路。

Vox-Profile:USC和约翰霍普金斯大学联合打造的全面语音特征分析基准测试

Vox-Profile:USC和约翰霍普金斯大学联合打造的全面语音特征分析基准测试

Vox-Profile是南加州大学和约翰霍普金斯大学联合开发的语音特征全面分析基准测试系统,能从语音中识别说话者的静态特征(如年龄、性别、口音)和动态特征(如情绪、语流)。研究团队使用15个以上的公开语音数据集和多种语音基础模型进行测试,发现在多数任务中参数量更大的模型表现更佳。该系统展示了三种主要应用:分析语音识别系统性能差异、评估语音生成系统质量,以及自动生成说话风格描述。人类评估结果表明,Vox-Profile生成的描述与人工标注相当,为语音技术研究提供了新的方向和工具。

揭秘"隐形推理令牌":马里兰大学研究团队开发CoIn系统,为大模型API计费提供透明保障

揭秘"隐形推理令牌":马里兰大学研究团队开发CoIn系统,为大模型API计费提供透明保障

CoIn是马里兰大学研究团队开发的创新框架,旨在解决大型语言模型商业API不透明计费问题。这些API隐藏推理过程只显示最终答案,却仍对所有"看不见"的令牌收费。CoIn通过令牌数量验证和语义有效性验证两大组件,使用户能够审计隐藏令牌而不暴露专有内容。实验表明,即使面对复杂攻击,CoIn的检测成功率高达94.7%,为商业AI服务提供了前所未有的计费透明度。

为何 Intempus 认为机器人应具备人类生理状态

为何 Intempus 认为机器人应具备人类生理状态

Teddy Warner 创办 Intempus,致力于为现有机器人赋予类似人类情感的生理状态,通过运动表现情绪,优化人机交互和 AI 模型训练。

事实证明,全程充分利用 AI 大脑并非运行模型的最高效方式

事实证明,全程充分利用 AI 大脑并非运行模型的最高效方式

本文讨论了基于 MoE(混合专家)架构与压缩技术优化大语言模型性能和成本的方案,包括内存带宽、量化及剪枝等关键技术,展示了不同硬件平台对模型运行的影响。

获得大科技公司支持的核裂变初创企业

获得大科技公司支持的核裂变初创企业

受AI推动用电需求激增,大科技公司纷纷投资核裂变初创企业,通过小型模块化反应堆及创新设计保障数据中心全天候稳定供电。

看电影学音频高亮:让你的视频声音更符合画面重点

看电影学音频高亮:让你的视频声音更符合画面重点

近年来,视频内容创作与消费显著增长,而协调视听元素对于打造优质内容至关重要。罗切斯特大学的Chao Huang及合作者开发了视觉引导的声音高亮(visually-guided acoustic highlighting)技术,解决了视觉与声音不协调的常见问题。研究团队洞察到电影中的精心制作音频可作为"免费监督信号",创建了THE MUDDY MIX DATASET数据集,并设计了基于Transformer的VisAH模型,在所有评估指标上显著超越基线方法,实现了更加和谐的视听体验。

重新思考验证粒度:打造高效大型语言模型测试时扩展的新方案

重新思考验证粒度:打造高效大型语言模型测试时扩展的新方案

这篇研究首次系统探索了验证粒度对大型语言模型测试时扩展的影响。研究团队通过提出可变粒度搜索(VG-Search)算法,挑战了传统的固定验证频率范式。实验表明,根据任务难度和计算预算动态调整验证粒度,可以在减少超过52%计算量的同时,将准确率提高3.6%。这一发现为优化大模型的推理效率提供了全新思路,特别适用于计算资源受限的场景。

AI会撒谎救助病童吗?探索人工智能价值观排序的LITMUSVALUES框架

AI会撒谎救助病童吗?探索人工智能价值观排序的LITMUSVALUES框架

这项研究开发了LITMUSVALUES框架,通过道德困境测试揭示AI模型的价值观优先排序,并证明这些排序能预测风险行为。研究发现所有旗舰模型都高度重视隐私,但在关怀等其他价值观上存在分歧;同时发现诚实、尊重和自由能降低多种风险,而创造力和关怀可能增加某些风险。该框架不仅能识别已知风险,还能预测未观察到的潜在风险,为AI安全提供了基于价值观的全新评估方法。

让机器人理解他人视角:意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

让机器人理解他人视角:意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

意大利理工学院与英国阿伯丁大学联合研究团队发布了一项突破性研究,提出通过合成数据训练视觉语言模型实现机器人的视觉视角采纳能力。研究团队创建了一个包含RGB图像、语言描述和精确空间变换矩阵的合成数据集,使机器人能够理解物体在不同视角下的空间关系。这一基础工作为实现能在人机交互中理解空间关系的具身AI系统铺平了道路,有望显著提升未来机器人与人类协作的自然度和直观性。

"干扰效应":理解RAG系统中的不相关段落如何影响AI决策

"干扰效应":理解RAG系统中的不相关段落如何影响AI决策

这篇研究揭示了检索增强生成(RAG)系统中的"干扰效应"问题:当检索到的段落虽与查询相关但不包含正确答案时,会误导语言模型生成错误回答。研究团队提出了量化段落干扰效应的方法,并发现这种效应在不同模型间具有高相关性。他们开发了多种获取干扰段落的方法,包括标准检索、答案偏斜检索和基于生成的方法。实验表明,利用这些干扰段落进行微调可显著提高模型抵抗干扰的能力,在多个测试集上准确率提升高达7.5%。

参加完这场阿里云中企出海大会,我脑海中浮现出三个类比
2025-05-26

参加完这场阿里云中企出海大会,我脑海中浮现出三个类比

人与人之间的交流,有时距离会产生美,但对做生意而言,距离往往只能产生更高的成本。

超越单一模型 AI:架构设计如何驱动可靠的多代理编排

超越单一模型 AI:架构设计如何驱动可靠的多代理编排

本文探讨了AI从单个模型向多专长代理协作转变,通过健壮架构应对通信、状态同步与容错挑战,以构建弹性企业AI系统。

神经符号扩散模型:突破性整合神经感知与符号推理的新框架

神经符号扩散模型:突破性整合神经感知与符号推理的新框架

这项研究介绍了神经符号扩散模型(NESYDMs),一种创新融合神经网络感知与符号推理的框架,克服了传统神经符号系统中概念独立性假设的局限。通过离散扩散技术建模概念间依赖关系,该模型在高维视觉路径规划和自动驾驶等任务上展现出卓越性能,同时维持较好的校准性,能够意识到"推理捷径"问题。这一突破为构建既可靠又可解释的AI系统提供了新方向,特别适用于安全关键的应用场景。

两位专家足矣:在无需额外训练的情况下提升MoE推理模型的认知努力

两位专家足矣:在无需额外训练的情况下提升MoE推理模型的认知努力

腾讯和浙江大学研究团队提出了"认知专家增强"(RICE)方法,无需额外训练即可提升MoE推理模型性能。通过归一化点态互信息识别关键认知专家后,仅增强两个专家的权重就能显著提高模型在数学和科学推理任务上的准确率,同时减少计算量。这种轻量级方法展现出良好的跨领域泛化能力,为高效AI推理开辟新路径。

突破大脑密码:中国科学院研究团队为人工智能注入"逆效能"机制,让多模态融合更高效,成本降低达50%!

突破大脑密码:中国科学院研究团队为人工智能注入"逆效能"机制,让多模态融合更高效,成本降低达50%!

这篇研究介绍了一种新型"逆效能驱动多模态融合"(IEMF)技术,灵感来自大脑处理多感官信息的方式。当单一感觉信号较弱时,大脑会增强多感官整合效果;信号强时则降低融合依赖。中国科学院研究团队将这一机制应用于AI系统,使其能够动态调整多模态信息融合强度,不仅提高了模型在视听分类、持续学习和问答任务上的性能,还将计算成本最高降低了50%。这种方法在不同网络架构中都表现出色,为构建更高效、更接近人类感知方式的人工智能系统开辟了新途径。

掀开面纱:爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

掀开面纱:爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

这项由爱丁堡大学和华为研究团队完成的研究探究了大语言模型在多跳问题答案任务中如何处理上下文排列。研究发现:编码器-解码器模型(如Flan-T5)在未微调时表现优于更大规模的因果解码器模型;改变黄金文档顺序揭示了前向排列(符合推理链)带来最佳性能;为因果解码器模型添加双向注意力机制显著提升性能并增强对文档排序变化的鲁棒性;文档间距离越大性能越差;模型在回答正确时往往对关键文档分配更高注意力权重。这些发现为优化检索增强生成系统提供了重要指导。

KERL:当大语言模型邂逅知识图谱,个性化美食推荐迎来革命

KERL:当大语言模型邂逅知识图谱,个性化美食推荐迎来革命

KERL是一个创新的食谱推荐系统,由伦斯勒理工学院研究者开发,将食品知识图谱与大语言模型相结合,提供个性化推荐并生成食谱步骤和营养信息。系统包含三个模块:KERL-Recom(负责推荐菜品)、KERL-Recipe(生成烹饪步骤)和KERL-Nutri(提供营养分析)。研究团队创建了全新基准数据集评估系统性能,实验表明KERL在所有任务上均显著优于现有方法,为用户提供了考虑个人喜好、饮食限制和健康指南的完整食谱推荐解决方案。

Dynadiff: 元开创性单阶段解码技术,让我们直接从脑部活动中"读取"图像

Dynadiff: 元开创性单阶段解码技术,让我们直接从脑部活动中"读取"图像

Meta公司研究团队开发的Dynadiff技术实现了单阶段从脑部fMRI信号直接解码图像的突破,解决了现有方法复杂多阶段和忽略时间维度的问题。通过创新的"大脑模块"设计和扩散模型整合,Dynadiff在高级语义图像重建方面超越现有技术,同时能精确追踪大脑中图像表征的时间演变。研究表明,大脑中的神经模式随时间持续变化,允许连续图像的同时解码,为时间分辨率大脑解码开辟了新方向,但仍面临数据需求高和跨受试者泛化能力有限等挑战。