最新文章
Meta新增650兆瓦太阳能 助力其AI战略推进

Meta新增650兆瓦太阳能 助力其AI战略推进

Meta近期与AES签订协议,在德州和堪萨斯州共部署650兆瓦太阳能,用以为不断扩展的AI数据中心供电,此举彰显太阳能低成本快速布局优势。

百度的 AI 云业务腾飞——但风险在累积

百度的 AI 云业务腾飞——但风险在累积

百度虽凭借 AI 云实现高速发展,但广告收入下滑、国内降价竞争和国际贸易风险等因素不断叠加,前景充满不确定性。

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

本文介绍OpenAI将ChatGPT Pro内Operator工具升级为o3模型,新系统提升了网页任务执行的准确性与安全防护,为企业自动化操作带来显著优势,同时相较于Google服务更具价格吸引力。

AGI 可能会继承当今 AI 已展示的勒索和敲诈技能

AGI 可能会继承当今 AI 已展示的勒索和敲诈技能

文章讨论现有 AI 可能实施勒索敲诈,并预示未来 AGI 会继承这种行为,其破坏性可能会在全球范围内放大。

Microsoft Notepad 的最新 AI 技能为您生成定制文本

Microsoft Notepad 的最新 AI 技能为您生成定制文本

新版 Notepad 借助 Copilot AI 可根据提示生成定制文本,并支持后续调整;同时,Paint 和 Snipping Tool 也获得 AI 升级,实现贴纸制作与自动截图裁剪。

ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

ByteDance Seed团队发布的BAGEL是一个突破性开源基础模型,采用混合变换器专家架构,能同时执行多模态理解和生成任务。研究显示,随着训练数据和模型规模增加,BAGEL展现"涌现能力"—从基础理解和生成,到复杂编辑和自由形式视觉操作,再到长上下文推理,呈现能力阶梯式提升。模型在标准基准测试中超越现有开源统一模型,并显示出强大的世界建模能力,如世界导航和视频生成。研究团队开源了代码和模型检查点,为多模态AI研究开辟新方向。

推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

这项研究证明推理模型(使用链式思考的大语言模型)不仅在解决问题上表现优异,还能更准确地表达其确信度。研究人员在六个数据集上评估了六种推理模型,发现它们在33/36种测试设置中比非推理模型表现更好。深入分析揭示这一优势来源于"慢思考"行为,如探索替代方案和回溯,使模型能够在推理过程中动态调整确信度。有趣的是,非推理模型在通过少样本学习引导进行慢思考时也能获得类似改进,证明这一能力源于思考方式而非模型结构。

突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制,提出了"General-Reasoner"训练方法,使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集,并开发了基于生成式模型的答案验证器,取代传统规则验证方法。实验证明,该方法在MMLU-Pro等12个基准测试中表现优异,成功实现了全领域的推理能力提升,同时保持了在数学任务上的卓越表现。

解码混合语言对话:CS-Sum基准测试揭示大型语言模型的理解局限

解码混合语言对话:CS-Sum基准测试揭示大型语言模型的理解局限

这篇研究来自新加坡南洋理工大学,首次建立了覆盖英语-汉语、英语-泰米尔语和英语-马来语的代码切换对话摘要基准测试CS-Sum。研究评估了10个大型语言模型,发现即使最先进的模型在处理混合语言时也存在严重局限,主要表现为忽略非英语内容、翻译不当和说话者错误归属三类问题。研究揭示仅靠模型扩大或微调无法解决这一问题,强调需要在预训练阶段就加入充分的代码切换数据。

揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

这项研究揭示了现有长视频理解评估基准的严重缺陷:过度依赖多选题导致结果膨胀,且许多问题存在先验偏好使模型无需真正理解视频就能作答。针对这些问题,多伦多大学团队开发了VIDEOEVAL-PRO基准,采用开放式短答案形式,真正要求理解整个视频。通过评估21个专有和开源模型,研究发现:视频模型在开放式问题上的表现比多选题下降超过25%,且多选题高分并不意味着开放式题高分。与其他基准不同,VIDEOEVAL-PRO随输入帧数增加持续提升性能,提供了更可靠的长视频理解能力评估方法。

隐私保护的大模型压缩新思路:香港大学等机构推出FedPrLLM联邦修剪框架

隐私保护的大模型压缩新思路:香港大学等机构推出FedPrLLM联邦修剪框架

这项由香港大学等机构合作开发的FedPrLLM框架,首次将联邦学习与大语言模型修剪技术结合,解决了隐私敏感领域无法共享数据进行模型压缩的难题。研究表明,采用层比较的一次性修剪策略且不进行权重缩放,可以在保护数据隐私的同时高效压缩大型语言模型,为医疗、金融等对隐私保护要求高的行业部署轻量级大语言模型提供了新思路。

SSR:通过推理引导式空间理解增强视觉语言模型的深度感知能力

SSR:通过推理引导式空间理解增强视觉语言模型的深度感知能力

SSR是西湖大学研究团队开发的创新框架,通过引入深度感知增强视觉语言模型的空间理解能力。该方法将原始深度数据转换为结构化的推理语言,作为中间表示,显著提升空间推理能力。研究团队还创建了包含超过百万级的SSR-COT数据集和SSRBENCH评估基准。实验表明,SSR无需重新训练现有模型即可提供显著性能提升,在空间任务上最高改进22.5个百分点,为机器人和计算机视觉领域开创了新的可能性。

别只在需要时思考,这些混合推理大模型让思维更高效

别只在需要时思考,这些混合推理大模型让思维更高效

微软研究院与北京大学的团队开发出全新的大型混合推理模型(LHRMs),解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样,根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法,包括混合微调和混合群体策略优化,使模型学会智能切换思考模式。实验证明,LHRMs不仅在数学、编程等推理任务上表现出色,还避免了对简单问题的过度思考,大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

这篇研究探讨了大语言模型知识蒸馏过程中教师模型选择的重要性。北科a-m-team团队从三个顶级模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)收集了189万个问题的推理答案,分析发现AM-Thinking-v1生成的数据表现出更多样的令牌长度分布和更低的困惑度。使用这些数据训练的学生模型在AIME2024(84.3分)、AIME2025(72.2分)、MATH500(98.4分)和LiveCodeBench(65.9分)等基准测试中,AM蒸馏模型始终表现最佳,并展现出根据任务难度动态调整输出长度的能力。

MigrationBench:AWS AI Labs打造的Java代码迁移基准测试平台,让AI助力软件升级

MigrationBench:AWS AI Labs打造的Java代码迁移基准测试平台,让AI助力软件升级

AWS AI Labs团队开发了MigrationBench,这是首个针对Java代码从版本8迁移到17/21的大型基准测试平台。研究包含5,102个完整项目和300个精选挑战性项目,解决了代码迁移评估的难题。实验表明,结合SD-Feedback方法的Claude-3.5-Sonnet-v2模型在精选数据集上实现了62.33%的最小迁移成功率和27.33%的最大迁移成功率,证明AI能有效执行复杂的仓库级代码迁移任务,为软件工程提供了新工具。

研究推理的奖励模型:微软提出新方法让AI评判能力更上一层楼

研究推理的奖励模型:微软提出新方法让AI评判能力更上一层楼

微软研究院新提出的"奖励推理模型"(RRM)为大型语言模型开创了全新评估方式。传统奖励模型对所有问题使用统一计算资源,而RRM能像人类一样先进行推理思考再做判断,对复杂问题投入更多思考资源。研究团队通过强化学习框架训练模型自主发展推理能力,无需显式示例。实验证明RRM在多个基准测试上表现优异,能自适应扩展计算资源提升判断准确性。该研究为AI评估系统带来范式转变,使人工智能判断更接近人类思考过程。

CompeteSMoE:通过竞争机制实现统计保证的混合专家模型训练

CompeteSMoE:通过竞争机制实现统计保证的混合专家模型训练

这项研究提出了CompeteSMoE,一种创新的稀疏混合专家(SMoE)训练方法,通过引入竞争机制来优化大型语言模型。传统SMoE依赖独立路由器分配任务,而CompeteSMoE让所有专家直接处理输入并选择反应最强的进行计算。理论分析证明该方法比传统softmax路由具有更好的样本效率,实验显示在视觉指令调整和语言预训练任务上均优于现有方法。该研究为高效训练大型AI模型提供了新思路,特别是在改善专家选择和提高训练效率方面具有重要价值。

思考快与慢的大融合:香港中文大学团队打造高效推理验证框架,让AI灵活验证自身思维过程

思考快与慢的大融合:香港中文大学团队打造高效推理验证框架,让AI灵活验证自身思维过程

这篇论文介绍了香港中文大学研究团队开发的创新框架"Solve-Detect-Verify"和灵活验证器"FlexiVe"。该系统模拟人类"快思考"和"慢思考"的双重认知模式,能根据问题复杂度智能调配计算资源。验证器首先采用轻量级"快思考"并行评估整个推理过程,仅在结果不确定时才启动详细的"慢思考"分析。结合主动识别解决方案完成点的机制,该系统在AIME和CNMO等数学推理基准测试中表现出色,使用约四分之一的计算资源即可达到甚至超越传统方法的准确率,为AI推理效率与准确性的平衡提供了新范式。

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

这项由不列颠哥伦比亚大学张翔和曹俊泰领衔的研究,揭示了大语言模型中一个被忽视的关键限制:分词系统对符号和算术推理能力的影响。研究团队发现,即使使用思维链提示技术,模型的推理能力仍受制于分词格式。通过将原子符号(如字母)明确分割的输入格式,可使模型在计数、排序和反转等任务上的准确率提升高达80%。实验证明,在优化分词条件下,较小模型甚至能超越更大模型的表现。这一发现颠覆了传统认知,提示我们分词设计对模型能力的重要性不亚于模型架构本身。

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

首尔国立大学和成均馆大学的研究者提出了"推理路径压缩"(RPC)技术,一种无需训练的方法,能够对大语言模型在推理过程中生成的冗余内容进行压缩。研究发现推理路径存在"语义稀疏性"——大量重复或多余的内容。RPC通过定期评估词元重要性并保留最关键部分,将QwQ-32B模型的推理吞吐量提高了1.60倍,同时准确率仅下降1.2%,并显著减少了内存消耗,解决了长序列生成的内存溢出问题。