人工智能 关键字列表
从颠覆到再造:知识工作者如何在 AI 后时代蓬勃发展

从颠覆到再造:知识工作者如何在 AI 后时代蓬勃发展

文章探讨了人工智能如何瓦解知识工作者的传统职业与身份,促使他们重新定义自我、发掘机器难以替代的人文优势。

报告:Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

报告:Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

英伟达为应对出口限制,正在研发基于 Blackwell 架构但规格较低、成本较低的新型 AI 芯片,计划6月开始量产,抢占中国市场。

BANDITSPEC:用赌博机算法提升AI模型推理速度的创新突破

BANDITSPEC:用赌博机算法提升AI模型推理速度的创新突破

BANDITSPEC是一项创新研究,将多臂赌博机算法应用于大型语言模型的推测解码过程,实现了无需训练的自适应超参数选择。研究团队通过理论分析和实验证明,该方法能在各种基准测试中显著提升模型推理速度,比现有方法快13-19%,并能适应不同类型的输入提示。这一技术为提高AI系统效率开辟了新路径,使未来的AI助手能更智能地适应各种任务需求。

MIT和IBM联手创新:TANGO框架通过互促进方式强化大语言模型的推理能力

MIT和IBM联手创新:TANGO框架通过互促进方式强化大语言模型的推理能力

麻省理工学院与IBM研究团队共同开发的TANGO框架通过强化学习同时训练大语言模型的生成器和验证器,实现双向互促进的能力提升。不同于传统方法使用固定验证器,TANGO的验证器随生成器共同演进,提供精确的步骤级反馈。实验证明,这种"探戈式"协作方式使模型在数学竞赛问题上平均提升25.5%,特别是在最具挑战性的AIME 2025竞赛上准确率翻倍。TANGO还将训练效率提高3.3倍,验证器在无需步骤级标注的情况下也达到了业界领先水平,为大语言模型的推理能力增强开辟了新思路。

预提示工程:为强化微调注入不同行为模式的全新方法

预提示工程:为强化微调注入不同行为模式的全新方法

这项研究探索了预提示工程(pPE)在强化微调(RFT)中的作用,证明不同类型的预提示可以引导语言模型习得不同行为模式。研究者将五种推理时提示策略转化为训练时预提示,发现所有pPE训练的模型都优于仅用推理时提示的基线,其中零示例型pPE意外地取得最高平均性能提升。此外,不同pPE方法引导模型表现出各自独特的行为特征,表明pPE是RFT中一个被低估但强大的训练维度,可用于培养多样化的AI思维模式。

推理引导+强化学习:清华&阿里巴巴推出UniVG-R1,让AI读懂复杂视觉指令的全新突破

推理引导+强化学习:清华&阿里巴巴推出UniVG-R1,让AI读懂复杂视觉指令的全新突破

清华大学深圳国际研究生院与阿里巴巴AMAP团队合作开发了UniVG-R1,这是一种基于推理引导的通用视觉定位模型。研究者通过构建高质量思维链数据集和应用强化学习技术,显著增强了模型处理多图像复杂指令的能力。实验表明,UniVG-R1在MIG-Bench上比现有技术提升9.1%,并在四个零样本测试基准上平均提高23.4%的性能,展现出卓越的推理能力和泛化性。

AutoMat:清华大学与上海AI实验室联合打造的"智能显微镜"——从电镜图像自动重建晶体结构的革命性工具

AutoMat:清华大学与上海AI实验室联合打造的"智能显微镜"——从电镜图像自动重建晶体结构的革命性工具

清华大学和上海人工智能实验室联合开发的AutoMat是一个突破性工具,能自动将电子显微镜图像转换为精确的晶体结构模型并预测材料性质。系统整合了模式自适应降噪、物理引导模板匹配、对称感知结构重建和机器学习性质预测四大模块,由大语言模型代理协调运行。在自创的STEM2Mat-Bench基准测试中,AutoMat远超现有多模态大语言模型,为桥接显微镜成像与原子模拟提供了自动化解决方案,显著加速了材料科学研究流程。

惊人发现!伊利诺伊大学揭示最简单的方法让AI变得更聪明:减少不确定性胜过复杂训练

惊人发现!伊利诺伊大学揭示最简单的方法让AI变得更聪明:减少不确定性胜过复杂训练

这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习(EM-RL)和推理时优化(EM-INF)。实验表明,这些方法在某些任务上甚至超过需要大量标记数据的先进技术,证明许多预训练模型已具备被低估的推理能力,只需简单的熵最小化即可激发。

BLEUBERI:当BLEU不再只是一个简单指标,而成为指导大语言模型的强力工具

BLEUBERI:当BLEU不再只是一个简单指标,而成为指导大语言模型的强力工具

这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。

小说竞技场:当AI作家与网文达人同台竞技 - WebNovelBench将大模型小说家放在网文分布图上

小说竞技场:当AI作家与网文达人同台竞技 - WebNovelBench将大模型小说家放在网文分布图上

WebNovelBench研究为评估AI的长篇故事创作能力提供了突破性方法,利用4000多部中国网络小说建立基准,将AI小说家与人类作品进行直接比较。研究者设计了"摘要转小说"任务,通过八个叙事维度进行评估,发现顶级AI模型如Qwen3-235B-A22B已接近高质量人类创作水平。研究揭示了开源模型正快速追赶专有模型,并为AI创意写作评估提供了可靠标准。这项工作不仅展示了AI在叙事创作领域的进步,也为理解人工智能与人类创造力的关系提供了新视角。

HumaniBench:一个从人性角度评估大型多模态模型的全新框架——Vector研究院和中佛罗里达大学联合打造的人机协作评测体系

HumaniBench:一个从人性角度评估大型多模态模型的全新框架——Vector研究院和中佛罗里达大学联合打造的人机协作评测体系

HumaniBench是由Vector研究院和中佛罗里达大学联合开发的首个以人为中心的大型多模态模型评测框架,包含约3.2万对真实世界图像-问题对。与传统仅关注准确率的评测不同,它从公平性、伦理性、理解能力、推理能力、语言包容性、共情能力和鲁棒性七个维度全面评估模型的"人性化"程度。研究对15个顶尖多模态模型的测试显示,闭源商业模型总体领先,但在视觉定位和抗干扰性上存在短板;开源模型在特定能力上表现出色,但在平衡准确率与人性化原则方面面临更大挑战。

思考到什么时候为好?美团AI研究团队提出自适应思考模式切换方法,让大型推理模型更高效

思考到什么时候为好?美团AI研究团队提出自适应思考模式切换方法,让大型推理模型更高效

这篇论文介绍了美团研究团队开发的"自适应自恢复推理"(ASRR)框架,解决了大型推理模型在简单问题上过度思考的效率问题。研究发现模型具有"内部自恢复机制",能在生成答案时隐式补充推理。ASRR通过无思考模式抑制不必要推理,并引入基于准确率阈值的动态长度惩罚,使模型根据问题难度自适应分配推理资源。实验表明,ASRR在保持高准确率的同时,大幅减少了推理长度(最高减少32.5%),并显著提升了安全性(无害率提高21.7%)。

破解大模型量化训练之谜:香港大学与字节跳动的量化缩放定律研究

破解大模型量化训练之谜:香港大学与字节跳动的量化缩放定律研究

这项研究首次提出了一个统一的量化感知训练(QAT)缩放定律,通过268组实验揭示了模型大小、训练数据量和量化粒度对4位量化误差的影响规律。研究发现量化误差随模型增大而减少,随训练数据增加和量化粒度变粗而增加。通过分解分析,研究确定了FC2层输入的激活量化是主要瓶颈,使用8位精度处理该层可显著提升性能。这些发现为设计更高效的量化策略提供了理论指导,对推动大型语言模型的实际部署具有重要意义。

仅需312个电脑操作轨迹,GAIR团队打造超高效电脑操作AI助手:数据质量胜过数据量

仅需312个电脑操作轨迹,GAIR团队打造超高效电脑操作AI助手:数据质量胜过数据量

上海交通大学与GAIR实验室研究团队开发了PC Agent-E,一种高效的计算机操作AI代理训练框架。通过仅使用312个人类操作轨迹并利用Claude 3.7 Sonnet进行数据增强,该模型在WindowsAgentArena-V2基准测试上取得了36.0%的成功率,超越了同样强大的Claude 3.7 Sonnet(35.4%)。研究证明高质量数据比大量数据更重要,PC Agent-E通过改进长期规划能力实现了突破性进展,同时展示了跨平台泛化能力。所有代码、数据和模型已开源,为计算机操作AI代理研究提供了宝贵资源。

对比扩散与自回归语言模型:从文本嵌入角度的深度分析

对比扩散与自回归语言模型:从文本嵌入角度的深度分析

这项研究比较了扩散与自回归语言模型在文本嵌入领域的表现差异。研究团队提出,自回归语言模型由于单向注意力机制而难以捕捉全局语境,而扩散语言模型的双向注意力架构天然更适合文本嵌入任务。他们开发的DIFFEMBED模型在长文档检索、推理密集型检索和指令遵循检索等任务上显著优于传统LLM嵌入模型,在长文档检索提升20%,推理密集型检索提升8%。研究还创建了REASONAUG数据集,包含近11,000对逻辑相关样本。实验证明双向注意力是处理长文本和复杂内容的关键因素。

游戏测试揭秘:大语言模型玩游戏到底有多厉害?——加州大学圣地亚哥分校研究团队带你了解LMGAME-BENCH

游戏测试揭秘:大语言模型玩游戏到底有多厉害?——加州大学圣地亚哥分校研究团队带你了解LMGAME-BENCH

LMGAME-BENCH是一项创新研究,通过六款经典游戏评估大语言模型的游戏能力。研究发现直接让模型玩游戏效果不佳,因此团队设计了感知、记忆和推理支架来解决视觉识别弱、提示敏感和数据污染等问题。测试13款顶级模型显示,o3和o1表现最佳,且不同游戏考验不同能力组合。有趣的是,在某一游戏上训练模型不仅提升该游戏表现,还能增强其在规划和决策任务上的能力,证明游戏环境既是有效的评估工具,也是有价值的训练场景。

软思维:让大型语言模型在连续概念空间中释放推理潜力

软思维:让大型语言模型在连续概念空间中释放推理潜力

软思维是一种创新方法,让AI能在连续概念空间而非离散语言中思考。通过保留词汇表的完整概率分布而非选择单个词,这种无需训练的技术让大型语言模型能同时考虑多种推理路径。实验表明,软思维在数学和编程任务上提高了准确率(最多2.48%),同时减少了生成长度(最多22.4%)。这一研究打破了AI推理的传统限制,展示了更接近人类抽象思维的推理方式。

原理流:利用多智能体协同实现原理驱动的科学发现

原理流:利用多智能体协同实现原理驱动的科学发现

西湖大学和浙江大学研究团队提出PiFlow,一种原理驱动的科学发现框架,通过多智能体协作解决现有方法中的无方向假设和证据脱节问题。PiFlow将科学发现视为结构化的不确定性降低问题,使用最小-最大优化策略平衡探索与利用。实验表明,PiFlow在纳米材料、生物分子和超导体发现中显著提升了探索效率(AUC提高73.55%)和解决方案质量(提高94.06%)。作为即插即用模块,PiFlow为高效自动化科学发现建立了新范式,加速了AI驱动研究进程。

MMaDA:一个跨越边界的多模态扩散语言模型,来自普林斯顿和北京大学的革命性研究

MMaDA:一个跨越边界的多模态扩散语言模型,来自普林斯顿和北京大学的革命性研究

MMaDA是由普林斯顿大学和北京大学研究团队开发的革命性多模态AI模型,它通过统一的扩散架构、混合长思考链训练和创新的UniGRPO强化学习算法,成功实现了文本推理、多模态理解和图像生成三大核心能力的高效整合。实验表明,这个8B参数的模型在多项任务上超越了专业单模态模型,展现了真正的多模态AI潜力,为未来通用人工智能发展提供了新方向。

从视频到世界:如何将视频扩散模型转变为交互式世界模型 - 清华大学与重庆大学联合研究

从视频到世界:如何将视频扩散模型转变为交互式世界模型 - 清华大学与重庆大学联合研究

清华大学与重庆大学研究团队提出Vid2World方法,成功将预训练视频扩散模型转变为交互式世界模型。该方法通过视频扩散因果化和因果动作引导两大创新,使模型能够进行自回归生成并响应动作条件。在机器人操作和游戏模拟领域的实验显示,Vid2World明显优于现有方法,为机器人控制、游戏AI等领域提供了高保真度的预测能力,展示了视频扩散模型作为交互式世界模型的巨大潜力。