最新文章
拆解断点思维链:大模型推理效率革命 - 阿姆斯特丹大学与Salesforce AI联合研究

拆解断点思维链:大模型推理效率革命 - 阿姆斯特丹大学与Salesforce AI联合研究

这项研究提出了一种名为"断点思维链推理"的创新方法,颠覆了大语言模型中"完整思考过程必不可少"的传统观念。研究表明,在思考链中途截断并直接生成答案竟能达到甚至超过完整推理的准确率,同时显著节省计算资源。基于此,研究者开发了"断点采样"框架,在思考轨迹数量、每轨迹解答数量和思考截断深度三个维度上灵活分配资源。在多个复杂推理基准测试中,断点采样实现了更优的准确率与计算成本平衡,为资源受限环境下的AI部署提供了实用解决方案。

VisionReasoner:中国香港中文大学与智谱研究院联合打造的一体化视觉感知推理系统

VisionReasoner:中国香港中文大学与智谱研究院联合打造的一体化视觉感知推理系统

香港中文大学与智谱研究院的研究团队提出了VisionReasoner,一个基于强化学习的统一视觉感知与推理框架。该模型能够同时处理检测、分割和计数三类视觉任务,通过结构化推理过程分析图像内容。实验显示,与Qwen2.5VL相比,该模型在COCO检测、ReasonSeg分割和CountBench计数任务上分别提升了29.1%、22.1%和15.3%,同时保持了出色的视觉问答能力,证明了统一视觉框架的可行性和高效性。

神经符号查询编译器:让搜索意图识别更精准更高效

神经符号查询编译器:让搜索意图识别更精准更高效

这项研究提出了QCompiler,一个神经符号框架,旨在提升检索增强生成系统中的搜索意图识别精确度。研究团队设计了最小且充分的BNF语法来形式化复杂查询,并开发了包含查询表达式翻译器、词法语法分析器和递归下降处理器的编译系统,将查询编译为抽象语法树。叶节点子查询的原子性确保了更精确的文档检索和回答生成,显著提升了处理复杂查询的能力。实验证明该方法在多个基准测试中表现优异,尤其在处理依赖型查询时优势明显。

加速TarFlow采样:GS-Jacobi迭代法让AI图像生成提速5倍

加速TarFlow采样:GS-Jacobi迭代法让AI图像生成提速5倍

这项研究提出了一种加速TarFlow图像生成模型采样过程的方法。研究人员发现TarFlow中的块具有不同重要性:少数块在图像生成中起主要作用,而其他块贡献较小;有些块对初始值敏感,其他块则相对稳健。基于此,他们提出了收敛排名指标(CRM)和初始猜测指标(IGM),并开发了高斯-赛德尔-雅可比迭代方法。实验表明,该方法在四种TarFlow模型上实现了2.51-5.32倍的加速,同时保持图像质量。这一技术为高效AI图像生成提供了重要解决方案。

当"AI助手"失灵:SPOT—一个用于科学论文自动化验证的全新基准测试

当"AI助手"失灵:SPOT—一个用于科学论文自动化验证的全新基准测试

SPOT是一项开创性研究,揭示了大型语言模型在科学论文错误检测方面的严重不足。研究团队创建了包含83篇跨10个学科领域的论文基准,每篇均包含导致勘误或撤回的已验证错误。最先进的AI模型在此任务上表现惊人地差,最佳模型o3的召回率仅为21.1%,精确率仅为6.1%。案例研究显示,这些模型在长尾知识和复杂推理方面存在根本性缺陷,犯下类似学生的基础错误。这一发现对依赖AI辅助科研的趋势敲响了警钟,强调了当前AI能力与可靠科学验证要求之间的巨大差距。

图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试,专门评估大型视觉-语言模型理解图表的能力。研究表明,即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率,但最佳模型Gemini-2.5-Pro仅达到63%,开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%,并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战,为未来模型改进提供了明确方向。

物理驱动的精细人体动作生成:西北工业大学推出FinePhys框架,让AI生成的体操动作更加真实

物理驱动的精细人体动作生成:西北工业大学推出FinePhys框架,让AI生成的体操动作更加真实

西北工业大学研究团队开发了FinePhys框架,解决了AI生成的人体动作不符合物理规律的问题。该系统通过在线估计2D姿态并转换为3D骨架,再利用欧拉-拉格朗日方程进行物理重估计,最终生成物理上合理的精细人体动作视频。在体操动作数据集上的实验显示,FinePhys生成的视频明显优于现有方法,特别是在保持生物力学结构和动作自然度方面。这一突破为影视特效、游戏开发和虚拟现实等领域带来新可能。

Red Hat Linux 获得生成式 AI 升级及其它管理利好

Red Hat Linux 获得生成式 AI 升级及其它管理利好

Red Hat 子公司推出的全新 RHEL 10 聚焦混合云及 AI 工作负载,通过生成式 AI 助手 Lightspeed 简化 Linux 管理,同时集成量子抗性加密和容器原生 OS 管理,实现 IT 运维一体化。

昇腾AI开发者峰会

昇腾AI开发者峰会

2025年5月23日 14:00-16:00

鲲鹏开发者峰会

鲲鹏开发者峰会

2025年5月23日 10:00-12:00

2025-05-21

MCP引领Agent互联网新时代暨物理AI模型新篇章,2025年第二届AIGC上海开发者大会即将在模力社区举办

MCP引领Agent互联网新时代暨物理AI模型新篇章,2025年第二届AIGC上海开发者大会即将在模力社区举办

DigiCert 与 Panasonic 携手加速 Matter 智能家居设备普及

DigiCert 与 Panasonic 携手加速 Matter 智能家居设备普及

Panasonic Industry Europe 与 DigiCert 合作,将 DigiCert Device Trust Manager 集成至 PAN-MaX 服务,实现 Matter 设备自动认证,加速智能家居产品安全、合规生产,助力制造商抢占市场先机。

戴尔科技全球峰会|戴尔科技:以软件驱动的解耦架构创新重塑数据中心运营
2025-05-21

戴尔科技全球峰会|戴尔科技:以软件驱动的解耦架构创新重塑数据中心运营

戴尔科技的存储和网络弹性更新以更强性能和更高效率帮助客户存储并保护关键数据

人工智能正在重写我们的现实:你的自由是在扩展还是在缩减?

人工智能正在重写我们的现实:你的自由是在扩展还是在缩减?

本文探讨了人工智能如何通过重构内在情感、认知和外部社交、社会结构,既可能扩展也可能限制我们的自由,呼吁以人为本、主动掌控AI未来。

LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

Dell更新PowerScale,ObjectScale以加速 AI Factory 推出

Dell更新PowerScale,ObjectScale以加速 AI Factory 推出

戴尔在 Dell Technologies World 会议上宣布更新 PowerScale 和 ObjectScale 存储系统,并推出多项 AI 工厂创新,与 Nvidia 深度协同,加速企业级 AI 部署与数据处理。

微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

Dell 推出分解式基础设施策略

Dell 推出分解式基础设施策略

戴尔技术推出新解耦模式,融合传统三层架构灵活性与超融合便捷性,通过Dell Private Cloud等产品优化数据中心管理,加速云服务及AI应用转型。

用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。