人工智能 关键字列表
中科院团队打造史上首个1比特机器人"保姆":只用29.8%内存就能干活,让家用机器人成为可能!

中科院团队打造史上首个1比特机器人"保姆":只用29.8%内存就能干活,让家用机器人成为可能!

中科院团队首次开发出1比特视觉-语言-动作模型BitVLA,实现机器人智能操作的革命性突破。该模型将每个参数限制为{-1,0,1}三值表示,通过创新的蒸馏感知训练策略,在仅使用29.8%内存的情况下达到与先进模型相当的性能。在LIBERO机器人基准测试中表现优异,为智能机器人在资源受限设备上的部署开辟了新路径,让家用机器人成为可能。

南洋理工大学团队重大突破:让AI像人类一样"会反思"的GUI自动化智能体

南洋理工大学团队重大突破:让AI像人类一样"会反思"的GUI自动化智能体

这项来自南洋理工大学和商汤科技的开创性研究,首次系统性地为GUI自动化AI赋予了人类般的自我反思和错误纠正能力。通过创新的三阶段训练框架和自动化数据生成技术,成功让AI学会了识别错误、撤销操作和从失败中学习,在复杂任务上的成功率提升了138%。这一突破不仅推动了GUI自动化技术的发展,更为构建真正智能的AI系统提供了新的范式。

斯坦福大学团队打造医学AI"超级图书管理员":580万问答对让人工智能看病更靠谱

斯坦福大学团队打造医学AI"超级图书管理员":580万问答对让人工智能看病更靠谱

斯坦福大学等机构研究团队创建了MIRIAD医学问答数据库,包含582万对基于权威医学文献的结构化问答。该系统通过多层质量控制确保准确性,在医学AI问答任务中将准确率提升6.7%,在检测医学错误信息方面提升22.5%-37%。研究还开发了交互式可视化平台MIRIAD-Atlas,让用户能够直观探索医学知识结构,为医学AI的安全可靠部署提供了重要资源。

给AI"投喂"高质量数据:如何让机器像人类一样看懂世界?

这项研究创建了包含10,610张高质量摄影图片的DSD数据集,每张图片都配有三层人工标注和精确分割。通过对比实验证明,使用高质量数据训练的AI视觉模型在图像理解和描述能力上显著优于传统方法,其中LLAVA-NEXT模型性能提升达24%,验证了"数据为王"的AI发展新范式。

斯坦福大学新发现:AI竟然能像人类一样"边玩边学",彻底改变机器学习方式

斯坦福大学新发现:AI竟然能像人类一样"边玩边学",彻底改变机器学习方式

斯坦福大学人工智能实验室开发出革命性的"好奇心驱动"AI学习系统,让机器能够像人类一样通过主动探索来学习复杂技能。该技术通过内在动机机制,使AI学习效率提升十倍,并能够发现创新解决方案,在机器人导航、医疗诊断、自动驾驶等领域展现巨大应用潜力,为实现更智能、更自然的人机交互奠定基础。

当大模型开始"看错字":复旦等多校联合破解AI视觉幻觉难题

当大模型开始"看错字":复旦等多校联合破解AI视觉幻觉难题

这项由复旦、港科大等多校联合完成的研究首次系统性地解决了大型AI模型在识别场景文字时产生"语义幻觉"的问题。研究团队发现AI模型常将视觉上模糊的文字"脑补"成有意义但错误的词汇,并开发了包含ZoomText定位策略和接地层修正机制的训练无关解决方案,在多个基准测试中实现显著性能提升,为提高AI视觉系统可靠性提供了重要突破。

KAIST团队巧妙"瘦身"让AI模型跑得更快更聪明——像高速公路一样的神奇架构

KAIST团队巧妙"瘦身"让AI模型跑得更快更聪明——像高速公路一样的神奇架构

韩国科学技术院研究团队开发出Simba方法,通过层次化稀疏化技术对状态空间模型进行"瘦身",在保持性能的同时显著提升计算效率。该方法采用类似高速公路的架构设计,让AI模型的上层只处理最重要的信息,实现了最高80%的速度提升和更好的长序列处理能力。这项即插即用的技术为AI模型优化提供了新思路。

清华等顶尖高校发现:AI越聪明,人类越糊涂?首个大规模研究揭示人机协作的隐秘真相

清华等顶尖高校发现:AI越聪明,人类越糊涂?首个大规模研究揭示人机协作的隐秘真相

这是首个大规模研究AI知识传授能力的实验,涉及118名参与者与8个顶级AI模型的协作。研究发现AI的智能水平与教学效果并非正比关系,一些高性能AI反而在协作中表现不佳。通过分析数千条对话记录,研究揭示了影响人机协作成功的关键因素,包括表达方式匹配、自适应引导和避免过度依赖。研究警示:随着AI能力提升,可能出现"知识传授鸿沟",需要专门优化AI的可理解性。

Cisco 推出数据中心解决方案 助力 AI

Cisco 推出数据中心解决方案 助力 AI

思科发布全新硬件、网络及安全方案,包括 AI Canvas 和统一 Nexus Dashboard,通过整合计算、网络与安全能力,全面提升 AI 基础设施效能。

OpenAI 发布 o3-pro:升级版 o3 AI 推理模型

OpenAI 发布 o3-pro:升级版 o3 AI 推理模型

OpenAI 推出 o3-pro,它采用分步推理技术提升在物理、数学和编程等领域的表现,支持网页搜索、文件分析、视觉推理及 Python 应用。该模型相比旧版本响应稍慢,但在多项评测中全面超越竞争对手。

高通分享其内置生成式 AI 的智能眼镜未来愿景

高通分享其内置生成式 AI 的智能眼镜未来愿景

文章概述了高通在 AWE 展会现场展示了一次全新演示,利用搭载 Snapdragon AR1+ Gen 1 处理器的智能眼镜直接在设备上运行生成式 AI,无需手机或云端支持,从而预示 XR 设备的全新发展方向。

AlphaSense 推出全新 Deep Research:面向互联网和企业文件的深度研究为何如此重要

AlphaSense 推出全新 Deep Research:面向互联网和企业文件的深度研究为何如此重要

AlphaSense 推出的“深度研究” AI 代理可自动整合公开网络、专有数据及企业内部内容,快速高效生成详实报告,助力决策。

Vanta 的 AI 代理想要运行您的合规计划 —— 事实可能如此

Vanta 的 AI 代理想要运行您的合规计划 —— 事实可能如此

Vanta 推出全新 AI 合规代理,自动处理安全与合规工作流,从策略映射到证据审核,有效降低人工失误并提升运营效率。该产品已启动私测,七月全面上线在即,开启企业风险管理新时代。

电子科大团队最新发现:用不到10%的数据就能让AI更聪明,训练时间还能缩短一半!

电子科大团队最新发现:用不到10%的数据就能让AI更聪明,训练时间还能缩短一半!

电子科技大学研究团队突破性发现:仅使用不到10%的精选训练数据,就能让多模态AI的推理能力超越传统全数据训练方法,同时缩短40%训练时间。他们开发的RAP数据选择框架通过因果差异分析和注意力评估,精准识别能激发AI真正多模态推理的"认知样本",颠覆了"大数据必然更好"的传统观念,为AI训练开辟了质量优先的新路径。

大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

Skoltech等机构联合开发了首个多语言"常青问题"识别系统EverGreenQA,能准确区分问题答案的时效性。研究创建了包含7种语言4757个问题的数据集,训练的EG-E5分类器准确率达90.6%,超越现有大型语言模型。该技术可改善AI自我认知、优化数据集质量,并能预测GPT-4o的检索行为,为构建更可信的AI问答系统提供重要突破。

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

西安交通大学与昆明理工大学研究团队开发了一种基于集成学习的婴幼儿语音情感识别方法,能有效分辨饥饿、困倦、不舒服和高兴四种情绪状态。研究采用三层分类器架构,整合SVM、随机森林和KNN算法,达到85.82%的准确率,显著优于单一分类器。这项技术有望应用于智能婴儿监护和早期疾病筛查,为理解婴幼儿非语言表达开辟了新途径。

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

这项来自普渡大学和微软的研究探索如何让AI助手更好地保护用户隐私。研究团队通过让大型语言模型在回答前先思考"语境完整性"(即在特定场景下什么信息适合分享),并结合强化学习技术进行训练,成功降低了隐私信息泄露风险高达40%,同时保持了任务完成能力。研究仅使用约700个合成数据样本进行训练,却在真实场景测试中展现出色效果,为构建更隐私友好的AI助手提供了实用方法。

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队利用扩散模型革新自动驾驶3D感知技术,通过生成式建模取代传统判别式方法,让AI系统具备类人想象推理能力。该方法在遮挡区域预测准确率提升15%,并显著改善下游规划任务性能,为自动驾驶向更智能安全方向发展提供重要技术突破。

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company研究团队开发了开源网页操作AI系统Surfer-H,配备专门训练的Holo1视觉语言模型。该系统在WebVoyager基准测试中达到92.2%的成功率,媲美GPT-4性能但成本仅为其四分之一。研究团队还发布了专门的网页定位测试集WebClick,并完全开源模型权重,为AI技术民主化做出重要贡献。