这篇论文介绍了一种名为LATENTSEEK的创新框架,它通过在潜在空间进行测试时实例级政策梯度优化,显著提升了大型语言模型的推理能力。研究团队在GSM8K、MATH-500和AIME2024等基准测试上评估了该方法,结果显示LATENTSEEK比思维链方法平均提升了10.75%的准确率。该方法无需更新模型参数,计算高效,平均只需1-2次迭代即可收敛,同时证明了潜在空间中的测试时扩展可行性。
圣地亚哥大学团队提出的VSA(视频稀疏注意力)机制,通过巧妙的两阶段设计解决了视频生成模型的计算瓶颈。它首先将视频分割成小立方体,在粗粒度层面快速识别重要区域,再只在这些区域内进行精细计算。实验表明,VSA能在不损失生成质量的情况下将训练计算量减少2.53倍,将推理时间从31秒缩短至18秒。这一可训练的稀疏注意力机制为大规模视频生成模型的进一步发展铺平了道路。
这项研究首次提出了ViPlan基准测试,系统评估视觉语言模型在视觉规划任务中的表现。研究对比了"VLM作为规划器"和"VLM作为接地器"两种方法,发现在抽象的积木世界中接地器方法更优,而在模拟家庭环境中规划器方法表现更佳。研究还发现链式思考提示对大多数模型并无显著改善效果,表明当前视觉语言模型在视觉推理方面仍存在局限性。
MTVCrafter是一项开创性研究,首次通过4D运动令牌化直接建模原始3D运动序列,而非传统的2D姿势图像,实现了高质量人物动画。由中国科学院深圳先进技术研究院团队开发的这一框架,结合了4D运动令牌化器(4DMoT)和运动感知视频扩散Transformer(MV-DiT),可以将任意视频中的动作精准转移到多种风格的静态角色上。实验显示,MTVCrafter在TikTok基准测试中FID-VID指标达6.98,比现有最佳方法提高65%,展现出优异的开放世界泛化能力,为数字人类创建开辟了新范式。
这项由新加坡和英国研究机构联合进行的研究,使用多智能体强化学习探索了语言起源问题。研究团队设计了"觅食游戏"环境,让智能体在部分可观察的世界中协作完成任务。结果表明,智能体自发发展出具有人类语言五大特性的通信系统:任意性、互换性、位移性、文化传播和组合性。研究提供了关于语言如何在合作环境中自然演化的新见解,证明语言是从社会互动和共享目标中浮现的工具,而非孤立系统。
QVGen是一项突破性研究,致力于解决视频扩散模型在低比特量化时的性能挑战。研究团队通过理论分析发现,降低梯度范数是改善量化感知训练收敛性的关键,因此引入了辅助模块来减轻量化误差。为消除这些模块在推理阶段的开销,他们创新性地提出了秩衰减策略,通过奇异值分解和基于秩的正则化逐步移除低影响组件。实验证明,QVGen是首个在4比特设置下达到与全精度相当性能的量化方法,其3比特实现也显著优于现有技术。这一成果为高效视频生成在普通设备上的应用铺平了道路。
Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
TECHNIQUERAG是一种新型检索增强生成框架,专为网络安全领域的对抗性技术识别而设计。卡塔尔计算研究所的研究团队创新性地整合了现成检索器、LLM重排序和有限的文本-技术配对数据,有效解决了数据稀缺性和领域专业性挑战。实验表明,该方法在多个安全基准上实现了最先进的性能,无需大量标记数据或特定任务优化。TECHNIQUERAG通过零样本LLM重排序增强了检索质量,使防御者能更准确地从威胁情报文本中识别MITRE ATT&CK技术,为网络安全分析提供了强大工具。
Mistral 与 All Hands AI 合作推出了一款专注编程的 AI 模型 Devstral,通过 Apache 2.0 许可证开放使用,在代码浏览、多文件编辑及自动化测试等任务中表现优异,可在 RTX 4090 或高配 Mac 上运行,定价亲民。
亚马逊在购物 App 中测试一项新功能,通过“大语言模型”从用户评价和网络信息中提炼出产品关键特性,并以对话形式生成简短音频摘要,帮助消费者更便捷地做出购买决策。目前该功能先在部分美国商品上试用,未来将逐步推广。
Extreme Networks 通过 Platform One 平台将会话、多模态及代理 AI 融入企业网络管理,显著提升可视化、自动化和安全性能。
OpenAI 今天推出新版 Responses API 更新,新增远程 MCP、原生图像生成、代码解释器和改进的文件搜索能力,帮助企业构建智能自动化代理,同时维持原有定价。
法国 Mistral AI 携手 All Hands AI 推出 Devstral——一款拥有240亿参数的开源语言模型,专为软件工程代理开发设计,能跨文件理解代码、执行多步骤任务,并在 SWE-Bench 测试中表现出色,以 Apache 2.0 许可证开放供开发者与企业灵活使用。
F5报告强调了企业如何在运营复杂性中推进人工智能(AI)驱动的转型。报告指出,96%受访 IT决策者表示已部署AI模型,这一比例相较 2023年提升四分之一。
本文报道 Klarna 采用 CEO 的 AI 化身发布财报,展示 AI 在提升效率和盈利中的作用,并探讨 AI 替代高管的可能性。
Gartner 2025大中华区高管交流大会于近日盛大召开, Gartner 发布最新研究,阐释生成式人工智能(GenAI)如何改变行业实践,推动企业软件从“辅助工具”迈向“智能代理”的根本性转变。GenAI将彻底重塑企业应用的目的、功能以及人机交互方式。
本文探讨了人工智能驱动的数据中心建设变革,涵盖半导体进步、高密度供电、先进冷却及模块化设计,揭示未来数据中心的高效、灵活与可持续发展趋势。
报告通过实测与专家访谈,分析各型AI模型(如 Llama 3.1 8B 与 405B)的能量消耗,指出文本与视频生成的耗能差异,呼吁提高对AI能耗透明度。