人工智能 关键字列表
当善良声音变身恶意武器:AIM Intelligence团队揭秘音频AI的隐藏危机

当善良声音变身恶意武器:AIM Intelligence团队揭秘音频AI的隐藏危机

AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。

新加坡国立大学团队揭示:让AI既能看又能做的视觉强化学习新突破

新加坡国立大学团队揭示:让AI既能看又能做的视觉强化学习新突破

新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。

浙大团队揭秘:为什么AI机器人在现实世界中总是"掉链子"?OmniEAR基准测试暴露惊人真相

浙大团队揭秘:为什么AI机器人在现实世界中总是"掉链子"?OmniEAR基准测试暴露惊人真相

浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。

AI模型训练中藏着的秘密巨人:纽约大学和Aimpoint Digital Labs发现Transformer里的"超级激活"如何悄悄控制整个模型

AI模型训练中藏着的秘密巨人:纽约大学和Aimpoint Digital Labs发现Transformer里的"超级激活"如何悄悄控制整个模型

纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。

浙江大学团队发布OS Agents全景调研:让AI助手像钢铁侠贾维斯一样操控电脑手机

浙江大学团队发布OS Agents全景调研:让AI助手像钢铁侠贾维斯一样操控电脑手机

这项由浙江大学等多家机构联合完成的大规模调研首次系统性梳理了操作系统智能体这一前沿领域,全面分析了基于多模态大语言模型的AI助手如何像人类一样操作电脑手机。研究涵盖了技术架构、训练方法、评估体系和发展挑战,为实现类似贾维斯的智能数字助手提供了完整的技术路线图。

Google Photos经典搜索功能快速恢复方法:替代Ask Photos生成式AI搜索

Google Photos经典搜索功能快速恢复方法:替代Ask Photos生成式AI搜索

Google Photos推出快速修复方案,允许用户重新启用经典搜索功能,替代此前推出的"Ask Photos" Gemini AI搜索工具。这一调整回应了用户对传统搜索方式的需求,为那些更偏好直接关键词搜索而非AI对话式查询的用户提供了选择。

让机器学会记忆:浙江大学团队打造智能体的"程序性记忆"大脑

让机器学会记忆:浙江大学团队打造智能体的"程序性记忆"大脑

浙江大学和阿里巴巴团队开发Memp框架,为智能体构建程序性记忆能力。该系统通过构建、检索、更新三个模块,让智能体从过往经验中学习,显著提升任务成功率50%,执行效率提升一半。更重要的是,强模型的记忆可传递给弱模型,实现经验共享。这项研究为构建具有持续学习能力的智能系统开辟新路径。

清华大学和智谱AI联手打造355B参数超级AI大脑:GLM-4.5如何在推理、编程和智能代理三个关键领域同时称王

清华大学和智谱AI联手打造355B参数超级AI大脑:GLM-4.5如何在推理、编程和智能代理三个关键领域同时称王

清华大学和智谱AI联合发布GLM-4.5系列模型,这是首个在推理、编程和智能代理三大核心领域同时达到顶尖水平的开源AI模型。GLM-4.5拥有355B参数但仅激活32B,创新的混合推理模式能根据任务复杂度自动选择思考深度。该模型在12项基准测试中排名第三,智能代理任务排名第二,已完全开源供研究使用。

浙大团队开创GUI智能助手新方法:让AI精准识别屏幕元素如探案高手

浙大团队开创GUI智能助手新方法:让AI精准识别屏幕元素如探案高手

浙江大学联合多家机构提出AEPO方法,通过多答案生成和自适应探索奖励机制,显著提升AI在图形界面中的元素识别准确性。该技术让AI能同时考虑多个候选答案并科学评估,解决了传统方法容易陷入错误自信的问题,在五个基准测试中均达到业界领先水平,为智能GUI助手的实际应用奠定了重要基础。

编程大模型也能瘦身成功:上海交通大学团队让AI推理快43.5%的秘密武器

编程大模型也能瘦身成功:上海交通大学团队让AI推理快43.5%的秘密武器

上海交通大学团队开发的ASAP方法通过"锚点引导"和"首词惊喜度"两阶段技术,成功解决了AI推理模型内容冗长问题。该方法在保持准确性的同时,将推理速度提升43.5%,生成内容减少23.5%,为AI推理优化开辟了新方向,代表了从追求模型规模向追求效率质量平衡的重要转变。

厦门大学最新突破:让AI学会像人类一样操作电脑界面的神奇方法

厦门大学最新突破:让AI学会像人类一样操作电脑界面的神奇方法

厦门大学研究团队开发出UI-AGILE框架,通过"简单思考"策略、连续评分奖励和分解定位技术,让人工智能学会像人类一样精准操作电脑界面。该方法在专业测试中将定位准确率提升23%,仅需9000个样本就能高效训练。这项突破性技术具有强通用性,可直接提升现有AI系统性能,将很快应用于智能助手、自动化工具等日常软件中,为用户带来更便捷的人机交互体验。

北京航空航天大学团队打造AI助手:用聊天方式理解和创建3D模型

北京航空航天大学团队打造AI助手:用聊天方式理解和创建3D模型

北京航空航天大学团队开发的MeshLLM系统实现了大语言模型与3D建模的创新融合,用户可通过自然对话创建和理解3D模型。该系统采用原始网格分解策略,将训练数据扩展至150万样本,比传统方法增加近50倍。通过渐进式训练和多任务学习,MeshLLM在生成质量和理解能力上显著超越现有方法,为3D内容创作和人机交互开辟了新途径。

Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

Meta FAIR实验室研究团队发现推理型AI模型虽然逻辑能力强,但在事实表达上容易产生幻觉。他们创新性地设计了包含准确性、详细性、相关性三维评价的训练体系,通过在线强化学习让AI模型既会深度思考又能准确表达事实。实验显示新方法将事实准确率提升23个百分点,同时增加23%的信息详细度,为构建更可信赖的AI系统提供了切实可行的解决方案。

东华师范大学团队突破:34M轻量级模型挑战632M巨型AI,在图像分割任务中实现逆袭

东华师范大学团队突破:34M轻量级模型挑战632M巨型AI,在图像分割任务中实现逆袭

东华师范大学团队提出MLLMSeg框架,仅用34M参数的轻量级模型在图像分割任务中超越了632M参数的传统SAM模型。该方法通过创新的DSFF特征融合模块,充分挖掘多模态大语言模型视觉编码器的潜力,将细节特征与语义特征完美结合,在RefCOCO等标准数据集上取得领先性能,为移动设备部署和实际应用提供了高效解决方案。

InfiX.ai发布InfiAlign:用12%训练数据追平顶级AI模型,让机器"小体量大智慧"的数据精选秘籍

InfiX.ai发布InfiAlign:用12%训练数据追平顶级AI模型,让机器"小体量大智慧"的数据精选秘籍

InfiX.ai和香港理工大学联合发布的InfiAlign框架,通过多维数据筛选和两阶段课程学习,仅用12%训练数据就达到顶级模型性能。该框架发现回答长度与问题难度正相关,创新性地用长度作为难度指标,结合多样性采样和质量过滤,实现了数据效率的巨大提升。在数学推理等任务中表现优异,为资源有限的机构提供了经济高效的AI模型训练方案。

南加州大学和Salesforce联手推出CoAct-1:让电脑助手不再只会点击鼠标,还能写代码干活

南加州大学和Salesforce联手推出CoAct-1:让电脑助手不再只会点击鼠标,还能写代码干活

南加州大学和Salesforce联合推出CoAct-1多智能体系统,通过结合传统界面操作与代码执行能力,实现了计算机任务自动化的重大突破。该系统在OSWorld基准测试中达到60.76%的成功率,平均完成任务步数减少至10.15步,显著优于现有方法,为人机交互带来新范式。

华东理工大学团队突破AI智能体识别难题:多轮对话让机器像人一样"边看边想"

华东理工大学团队突破AI智能体识别难题:多轮对话让机器像人一样"边看边想"

华东理工大学团队提出I2CR框架,通过"文字优先、视觉辅助"的多轮反思机制解决多模态实体链接难题。该框架模仿人类认知过程,先用文字信息判断,再通过内部一致性检查和跨模态验证,必要时引入OCR、图像描述等视觉线索进行迭代优化。在三大数据集上准确率分别提升3.2%、5.1%、1.6%,达到业界最佳性能。

SiMa.ai发布新一代物理AI系统级芯片正式投产

SiMa.ai发布新一代物理AI系统级芯片正式投产

人工智能芯片初创公司SiMa Technologies宣布其第二代系统级芯片平台MLSoC Modalix正式出货,专为多模态物理AI工作负载设计。该芯片可嵌入机器人、工业设备和车辆等设备中,支持运行大语言模型、卷积神经网络等多种AI算法。芯片采用低功耗设计,能在边缘设备上直接处理传感器数据并运行AI模型,无需依赖云端处理,有效降低延迟。

Ai2发布开源AI模型,让机器人在3D空间"规划"动作

Ai2发布开源AI模型,让机器人在3D空间"规划"动作

西雅图AI研究机构Ai2发布MolmoAct 7B,这是首个动作推理模型,能让机器人在执行任务前进行"思考"和规划。该模型可将自然语言指令转化为3D空间中的运动轨迹,通过1800万样本在256个H100芯片上训练完成。在SimPLER基准测试中达到72.1%的任务成功率,超越了谷歌、微软等公司的同类模型。

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

曾经的小型研究实验室如何助力英伟达成为万亿美元公司

2009年,比尔·戴利加入英伟达研究实验室时,该实验室仅有约12名员工,专注于计算机图形学中的光线追踪技术。如今这个实验室已发展至400多人,帮助英伟达从90年代的游戏GPU初创公司转型为价值4万亿美元的AI巨头。目前实验室重点开发机器人和AI技术,部分研究成果已应用于产品中。英伟达在周一发布了面向机器人开发者的新AI模型、库和基础设施,展现了从物理AI到机器人领域的技术进展。