最新文章
全新软件与模型优化为 NVIDIA DGX Spark 注入强大动力
2026-01-07

全新软件与模型优化为 NVIDIA DGX Spark 注入强大动力

在 CES 2026 上,全新的 DGX Spark 软件版本结合新的模型更新和开源库,为 DGX Spark 以及基于 GB10 的 OEM 系统带来了显著的性能提升。

哈佛大学学者发明"思维压缩器" 让AI推理速度飞跃5倍

哈佛大学学者发明"思维压缩器" 让AI推理速度飞跃5倍

哈佛大学等机构研发的ORION模型通过"心智语言"技术,让AI推理效率提升5倍、成本降低9倍,同时保持90-98%的准确率。该技术模仿人类简洁思维模式,用符号化表达替代冗长推理,在数学问题求解中实现了4-16倍的文字压缩,为AI实用化部署开辟新路径。

当机器人长出"第三只手":帝国理工学院的仿人机器人平衡术革命

当机器人长出"第三只手":帝国理工学院的仿人机器人平衡术革命

帝国理工学院研究团队开发出突破性分层控制系统,解决装备额外机械臂的仿人机器人行走稳定性难题。通过"分工合作"策略,低层控制器负责基础行走,高层控制器指挥机械臂动态平衡,实验显示机器人行走模式与正常状态相似度提高47%,为多功能机器人应用奠定技术基础。

UCSB研究团队推出革命性视频理解系统:一个点击就能构建完整场景关系图

UCSB研究团队推出革命性视频理解系统:一个点击就能构建完整场景关系图

这是一项关于用户引导视频场景理解的突破性研究。加州大学圣巴巴拉分校团队开发了Click2Graph系统,用户只需在视频中点击一次,系统就能自动追踪目标对象,发现相关互动物体,并预测它们之间的关系,生成完整场景图谱。该系统创新性地结合了交互式分割和语义推理,为机器人、自动驾驶等领域提供了可控制、可解释的视频理解解决方案。

中国团队打造音乐MV制作新利器:让任何人都能拍出专业级音乐视频

中国团队打造音乐MV制作新利器:让任何人都能拍出专业级音乐视频

这项由中国上海巨人网络AI实验室完成的研究,开发了名为YingVideo-MV的AI系统,能够仅凭一张人物照片、一段音乐和简单文字描述,自动生成专业水准的音乐视频。系统首次实现了音频分析、人物动画和摄像机运动的统一控制,通过智能导演模块进行全局规划,采用分阶段制作流程确保质量。测试结果显示,生成视频在口型同步、视觉质量和用户满意度方面都达到了接近专业制作的水平,为音乐视频制作的民主化开辟了新道路。

NVIDIA DGX Spark 为桌面端最新开源与前沿AI模型提供强大算力支持
2026-01-07

NVIDIA DGX Spark 为桌面端最新开源与前沿AI模型提供强大算力支持

NVIDIA 于1月6日在 CES 2026 展示了 DGX Spark 桌面级AI 超级计算机如何让开发者在本地桌面级系统上使用最新的开源与前沿 AI 模型。

阿里巴巴团队突破分钟级视频生成:BlockVid让AI拍出连贯长片不再是梦

阿里巴巴团队突破分钟级视频生成:BlockVid让AI拍出连贯长片不再是梦

阿里巴巴达摩院团队开发的BlockVid系统突破了AI视频生成的技术瓶颈,首次实现了分钟级连贯视频的高质量生成。该系统通过语义稀疏KV缓存、块强制训练策略和分块噪声调度等创新技术,有效解决了长视频生成中的累积误差问题。在专门构建的LV-Bench评估基准上,BlockVid在主体一致性和画面清晰度等关键指标上分别提升了22.2%和19.4%,显著超越现有技术,为AI视频生成领域带来重要突破。

斯坦福等顶尖院校联手破解手机电脑界面导航难题:AI智能体如何像人类一样熟练操作屏幕

斯坦福等顶尖院校联手破解手机电脑界面导航难题:AI智能体如何像人类一样熟练操作屏幕

北京邮电大学等机构联合发布的GUI智能体研究突破了传统界面导航技术瓶颈。通过创新的GE-Lab模拟环境和三阶段渐进训练方法,成功让AI获得类人的界面操作能力,在复杂导航任务中表现出色,为智能助手和数字化辅助技术发展奠定重要基础。

视频AI学会了空间思维:Netflix的新模型让机器拥有真正的方向感

视频AI学会了空间思维:Netflix的新模型让机器拥有真正的方向感

Netflix联合多所大学开发的VIDEO4SPATIAL系统实现了视频AI的重大突破,让机器首次具备真正的空间理解能力。该系统仅通过普通视频就能理解三维空间结构,实现物体寻找和场景导航两大功能,在室内外环境都表现出色,为VR内容制作、机器人导航、建筑设计等领域带来新的应用前景。

人大+字节跳动联合研究:短链条思维训练,让AI视觉推理能力"四两拨千斤"

人大+字节跳动联合研究:短链条思维训练,让AI视觉推理能力"四两拨千斤"

中国人民大学与字节跳动联合研究发现,在训练AI进行视觉推理时,简洁的"最少定位信息"方法比详细的思维链条更有效。研究通过迷宫导航实验比较了三种训练方式,发现"短而精"的训练不仅收敛更快,泛化能力也最强。这一"短即是长"效应在多种视觉任务中得到验证,为降低AI训练成本、提升模型性能提供了新思路,在自动驾驶和机器人导航等领域具有重要应用价值。

机器人也能像人类一样"察言观色"?GigaAI团队让小机器人变身空间感知专家

机器人也能像人类一样"察言观色"?GigaAI团队让小机器人变身空间感知专家

SwiftVLA是GigaAI等机构联合开发的轻量化机器人视觉-语言-动作模型。该系统通过4D时空理解、融合令牌和掩码重建等创新技术,让4.5亿参数的小型模型实现了媲美35亿参数大型系统的性能。在边缘设备上运行速度提升18倍、内存减少12倍,在多项机器人操作任务中成功率达到80%以上,为实用化机器人部署提供了新方案。

香港大学团队让AI模型自学表格识别,无需人工标注也能超越最强AI

香港大学团队让AI模型自学表格识别,无需人工标注也能超越最强AI

香港大学等机构联合开发TRivia框架,首次实现AI模型在无人工标注情况下自主学习表格识别。通过问答验证机制和智能样本筛选,TRivia-3B模型在标准测试中超越Gemini 2.5 Pro等强劲对手,同时体积小巧可离线部署,为隐私敏感场景提供了理想解决方案。

佐治亚理工学院团队打造物理AI测试标准:让AI真正理解现实世界的物理规律

佐治亚理工学院团队打造物理AI测试标准:让AI真正理解现实世界的物理规律

佐治亚理工学院研究团队开发了PAI-Bench测试框架,首次系统评估AI在物理世界中的理解和预测能力。通过2808个真实案例的测试发现,当前AI模型虽然视觉效果出色,但在物理合理性方面表现不佳,人类准确率93.2%而最佳AI仅64.7%。研究为AI发展提供了现实路线图。

只用一张图片就能让AI画画提速5倍:武汉大学团队创造扩散模型新纪录

只用一张图片就能让AI画画提速5倍:武汉大学团队创造扩散模型新纪录

武汉大学团队开发的Glance技术实现了AI画画的重大突破,仅用1张图片1小时训练就能让扩散模型速度提升5倍。该技术采用"慢快搭配"策略,通过两个专门的LoRA适配器分别处理早期语义构建和后期细节完善,在保持图像质量的同时大幅提升生成效率,为AI图像生成的民主化应用开辟了新道路。

多镜头视频制作不再是电影制片厂的专利——大连理工大学联合快手科技推出革命性AI视频生成框架

多镜头视频制作不再是电影制片厂的专利——大连理工大学联合快手科技推出革命性AI视频生成框架

大连理工大学联合快手科技推出革命性AI视频生成框架MultiShotMaster,首次实现可控制的多镜头视频创作。该技术通过创新的位置编码方法解决了AI无法生成连贯多镜头视频的难题,支持精确控制镜头切换、人物运动和场景变化,为AI视频生成领域带来重大突破。

北大与清华联手突破机器人"笨拙"难题:让机器人像专业大厨一样精准操作

北大与清华联手突破机器人"笨拙"难题:让机器人像专业大厨一样精准操作

北京大学与清华大学联合研究团队提出DiG-Flow方法,通过几何对齐机制解决视觉-语言-动作模型在环境变化时性能下降问题。该方法使用Wasserstein距离测量观察与行动特征的几何关系,通过门控机制调节学习权重,显著提升机器人在复杂任务中的稳健性,在多个测试中实现4-11%的性能提升。

机器人动作也有"近视眼"和"远视眼"问题?中科大团队突破性解决视觉语言动作模型的视野局限

机器人动作也有"近视眼"和"远视眼"问题?中科大团队突破性解决视觉语言动作模型的视野局限

这项由中国人民大学等机构联合开展的研究首次解决了视觉语言动作模型中的"动作视野"问题。研究发现机器人在预测动作时面临"近视眼"与"远视眼"的矛盾,提出创新的"视野混合策略",让机器人同时具备短期精确控制和长期规划能力。该方法在多个基准测试中创下新纪录,仅用2000个参数就显著提升了机器人性能,为智能机器人发展提供了重要突破。

香港科技大学团队突破!让AI摄像师精准控制视角,深度信息成为关键武器

香港科技大学团队突破!让AI摄像师精准控制视角,深度信息成为关键武器

香港科技大学研究团队开发的DualCamCtrl系统通过创新的双分支架构,让AI能够精确控制视频生成中的摄像机轨迹。该系统引入深度信息作为几何理解的关键,采用SIGMA协调机制让RGB和深度分支协同工作,实现了摄像机运动误差降低40%以上的突破性改进,为AI视频生成技术的实用化奠定了重要基础。

北京大学研究团队:让AI听见声音就能更好地看懂世界——音视频联合训练如何改写视频生成技术

北京大学研究团队:让AI听见声音就能更好地看懂世界——音视频联合训练如何改写视频生成技术

北京大学研究团队首次系统性验证音频能显著提升AI视频生成质量。他们开发的AVFullDiT架构通过音视频联合训练,让AI同时"听见"和"看见",从而生成更符合物理规律的真实视频。实验证明这种方法在物理常识和动作自然度方面都有显著改进,为未来多模态AI发展指明新方向。

AI让电影音效如此逼真:浙江大学等机构联合开发ViSAudio,让无声视频秒变立体声大片

AI让电影音效如此逼真:浙江大学等机构联合开发ViSAudio,让无声视频秒变立体声大片

浙江大学等机构联合开发的ViSAudio技术实现了从无声视频直接生成双耳立体声音频的突破,采用端到端处理避免传统两阶段方法的累积误差。该技术基于9.7万对样本的BiAudio数据集,使用双分支生成架构和条件时空模块,能准确模拟声源空间位置变化。实验表明其在音频质量、空间一致性等指标上显著优于现有方法,为影视制作、VR应用等领域带来新机遇。