最新文章
大模型预测未来的评估陷阱:评估语言模型预测能力的困境与误区

大模型预测未来的评估陷阱:评估语言模型预测能力的困境与误区

这项由ETH苏黎世、ELLIS图宾根研究所和MPI图宾根的研究者合作完成的论文,揭示了评估大型语言模型预测能力时的关键陷阱。研究发现两类主要问题:数据时间泄露导致评估结果不可信,以及基准测试表现难以外推到实际预测能力。通过系统分析,研究者展示了这些问题如何可能导致对语言模型预测能力的过度乐观评估,并提出了更严格的评估方法建议,以帮助科研社区更准确地判断大模型的真实预测能力。

CityLens:清华等机构研发城市图像分析基准,评估大型语言-视觉模型的城市社会经济感知能力

CityLens:清华等机构研发城市图像分析基准,评估大型语言-视觉模型的城市社会经济感知能力

CityLens是清华大学和北京交通大学联合开发的基准测试系统,旨在评估大型语言-视觉模型通过城市图像预测社会经济指标的能力。研究团队构建了一个覆盖17个全球城市的多模态数据集,包含经济、教育、犯罪、交通、健康和环境六大领域的11项指标。通过直接指标预测、归一化指标估计和基于特征的回归三种评估方法,他们测试了17种最先进的大型语言-视觉模型。结果表明,虽然这些模型展示了有希望的感知和推理能力,但在准确预测城市社会经济指标方面仍有明显局限。

Snapchat 全球推出 Apple Watch 应用

Snapchat 全球推出 Apple Watch 应用

Snapchat 推出全新 watchOS 应用,支持 Apple Watch 用户预览及通过键盘、手写、语音或表情快速回复消息,打造便捷的多平台通讯体验。

中国光网络研讨会“卫星光通信与智能组网技术”首届专项研讨会召开
2025-06-06

中国光网络研讨会“卫星光通信与智能组网技术”首届专项研讨会召开

6月5日,由中国移动研究院与中国光网络研讨会(OptiNet China)联合主办的首届“卫星光通信与智能组网技术”专项研讨会在北京召开。

亚马逊神秘研发实验室开发集成agentic AI软件的机器人

亚马逊神秘研发实验室开发集成agentic AI软件的机器人

Amazon旗下秘密研发机构Lab126新成立团队,专注在机器人上嵌入自主代理AI,实现通过自然语言完成复杂任务,从而提升仓储物流与配送效率,同时开发高精度地图技术。

数据中心的绿色存储

数据中心的绿色存储

本文指出数据中心因 AI 应用激增而面临巨大电力需求压力,绿色 IT 能降低能耗与运营成本。 Infinidat 提出以安全存储系统为基础的解决方案,实现高投资回报与显著运营开支降低,同时兼顾环保与经济效益。

别再猜测为什么你的大语言模型出错: Anthropic 的新工具能准确显示问题所在

别再猜测为什么你的大语言模型出错: Anthropic 的新工具能准确显示问题所在

本文介绍了 Anthropic 开源的电路追踪工具,通过生成归因图和介入实验全面揭示大语言模型内部机制,助力企业高效调试和优化。

Samsung 联手 Glance 利用你的面容实现 AI 生成锁屏广告

Samsung 联手 Glance 利用你的面容实现 AI 生成锁屏广告

三星与 Glance 合作推出 AI 购物体验,通过自拍生成个性化时尚广告,并在三星手机上陆续推出,用户可自主选择接入,但涉及位置追踪及数据存储问题。

未来预测:逐年推进 AI 迈向 2040 年实现 AGI 的路径

未来预测:逐年推进 AI 迈向 2040 年实现 AGI 的路径

本文探讨了达成人工通用智能(AGI)七大路线中的线性进阶路径,预测了从2025年至2040年 AI 技术与社会效应的关键年度节点。

用多模态扩散模型实现离散-连续量子电路的合成:让AI助力量子计算变得更轻松

用多模态扩散模型实现离散-连续量子电路的合成:让AI助力量子计算变得更轻松

这项研究介绍了一种新型多模态扩散模型,能够同时生成量子电路的离散结构和连续参数。由因斯布鲁克大学和NVIDIA公司研究人员开发,该模型利用两个独立但协同工作的扩散过程处理门类型选择和参数预测,克服了传统量子电路编译方法的效率瓶颈。研究证明了该模型在不同量子比特数量、电路深度和参数化门比例下的有效性,并通过快速电路生成创建了数据集,从中提取出有价值的结构见解,为量子电路合成提供了新方向。

SenseFlow:香港科技大学团队突破性提升大规模文本生成图像模型的高效蒸馏技术

SenseFlow:香港科技大学团队突破性提升大规模文本生成图像模型的高效蒸馏技术

SenseFlow是香港科技大学等机构联合开发的文本到图像蒸馏技术,解决了大型流匹配模型蒸馏的三大难题。研究团队提出隐式分布对齐(IDA)稳定训练过程,段内引导(ISG)优化时间步重要性分配,并设计基于视觉基础模型的判别器提升生成质量。实验表明,SenseFlow能将SD 3.5和FLUX等12B参数级模型成功蒸馏为仅需4步生成的高效版本,同时保持甚至超越原模型在多项指标上的表现,代表了AI图像生成效率提升的重要突破。

MASKSEARCH:通过通用预训练框架,让你的AI更会搜索与思考

MASKSEARCH:通过通用预训练框架,让你的AI更会搜索与思考

MASKSEARCH是阿里巴巴集团同义实验室开发的新型预训练框架,通过创新的"检索增强掩码预测"任务,训练大型语言模型像人类一样主动使用搜索工具获取信息。这项框架包含两个阶段:首先在掩码预测任务上预训练,然后在下游任务上微调,大幅提升模型在开放域问答中的表现。研究采用监督微调和强化学习两种方法,结合多代理系统和课程学习策略,使AI能够自主分解问题、使用搜索工具并基于搜索结果进行推理。

SmolVLA:为低成本高效机器人打造的视觉-语言-动作模型

SmolVLA:为低成本高效机器人打造的视觉-语言-动作模型

SmolVLA是由Hugging Face、巴黎索邦大学等机构联合开发的小型视觉-语言-动作模型,专为低成本机器人设计。与现有模型相比,它仅有4.5亿参数(小10倍),却能达到相当性能。SmolVLA采用精巧架构设计,可在单GPU训练、CPU部署,并使用社区收集的数据集训练。研究还引入异步推理策略,提高了机器人的响应速度和适应性。实验证明,它在模拟和真实环境中的表现均超越许多资源密集型模型,为机器人技术的普及开辟了新途径。

AREAL:突破传统,完全异步强化学习如何让大语言模型的推理能力飞跃

AREAL:突破传统,完全异步强化学习如何让大语言模型的推理能力飞跃

AREAL是一个由清华大学和蚂蚁研究院开发的全新异步强化学习系统,专为提升大语言模型的推理能力而设计。与传统同步系统不同,AREAL完全解耦了生成和训练过程,推理工作器持续生成新输出,训练工作器则在收集到足够数据时更新模型。通过创新的过时性感知训练和解耦PPO目标函数,AREAL成功解决了异步训练中的数据过时和策略不一致问题。实验表明,AREAL在数学和代码推理任务上实现了高达2.57倍的训练加速,同时保持或提高了模型性能。

EarthMind:基于大型多模态模型的多尺度多传感器地球观测系统

EarthMind:基于大型多模态模型的多尺度多传感器地球观测系统

EarthMind是一个创新的视觉-语言框架,专为解决地球观测领域的多尺度和多传感器理解挑战而设计。由多所国际知名大学联合开发的这一系统引入了两项关键技术:空间注意力提示(SAP)机制重新分配大型语言模型内部的注意力,增强像素级理解;跨模态融合机制则将异构模态如光学和雷达数据对齐并智能融合。

CodeV-R1:让推理增强型Verilog生成变得简单高效,中科院计算所团队带来硬件描述语言自动生成的突破性进展

CodeV-R1:让推理增强型Verilog生成变得简单高效,中科院计算所团队带来硬件描述语言自动生成的突破性进展

CodeV-R1是中科院计算所团队开发的专用于Verilog硬件描述语言自动生成的推理增强型大语言模型框架。该研究克服了三大关键挑战:缺乏自动化验证环境、高质量数据稀缺和计算成本高昂。研究团队通过开发自动测试台生成框架、设计往返数据合成方法和实施两阶段训练流程解决了这些问题。基于此框架训练的CodeV-R1-7B模型在VerilogEval v2和RTLLM基准测试上取得了68.6%和72.9%的pass@1成绩,超越同类模型12~20%,甚至在某些指标上超过了671B参数的DeepSeek-R1。

强化学习存在推理效率问题,阿里千问团队发明推理二八法则,解决AI选择困难症
2025-06-05

强化学习存在推理效率问题,阿里千问团队发明推理二八法则,解决AI选择困难症

强化学习存在推理效率问题,阿里千问团队发明推理二八法则,解决AI选择困难症

zip2zip:通过令牌压缩实现大语言模型的推理时自适应词汇表

zip2zip:通过令牌压缩实现大语言模型的推理时自适应词汇表

zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。

LLM循环助力:创建PARADEHATE数据集实现仇恨言论无毒化

LLM循环助力:创建PARADEHATE数据集实现仇恨言论无毒化

这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。

Pro3D-Editor:一种实现3D模型一致精准编辑的渐进式视角方法

Pro3D-Editor:一种实现3D模型一致精准编辑的渐进式视角方法

这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。