在 CES 2026 上,全新的 DGX Spark 软件版本结合新的模型更新和开源库,为 DGX Spark 以及基于 GB10 的 OEM 系统带来了显著的性能提升。
哈佛大学等机构研发的ORION模型通过"心智语言"技术,让AI推理效率提升5倍、成本降低9倍,同时保持90-98%的准确率。该技术模仿人类简洁思维模式,用符号化表达替代冗长推理,在数学问题求解中实现了4-16倍的文字压缩,为AI实用化部署开辟新路径。
帝国理工学院研究团队开发出突破性分层控制系统,解决装备额外机械臂的仿人机器人行走稳定性难题。通过"分工合作"策略,低层控制器负责基础行走,高层控制器指挥机械臂动态平衡,实验显示机器人行走模式与正常状态相似度提高47%,为多功能机器人应用奠定技术基础。
这是一项关于用户引导视频场景理解的突破性研究。加州大学圣巴巴拉分校团队开发了Click2Graph系统,用户只需在视频中点击一次,系统就能自动追踪目标对象,发现相关互动物体,并预测它们之间的关系,生成完整场景图谱。该系统创新性地结合了交互式分割和语义推理,为机器人、自动驾驶等领域提供了可控制、可解释的视频理解解决方案。
这项由中国上海巨人网络AI实验室完成的研究,开发了名为YingVideo-MV的AI系统,能够仅凭一张人物照片、一段音乐和简单文字描述,自动生成专业水准的音乐视频。系统首次实现了音频分析、人物动画和摄像机运动的统一控制,通过智能导演模块进行全局规划,采用分阶段制作流程确保质量。测试结果显示,生成视频在口型同步、视觉质量和用户满意度方面都达到了接近专业制作的水平,为音乐视频制作的民主化开辟了新道路。
NVIDIA 于1月6日在 CES 2026 展示了 DGX Spark 桌面级AI 超级计算机如何让开发者在本地桌面级系统上使用最新的开源与前沿 AI 模型。
阿里巴巴达摩院团队开发的BlockVid系统突破了AI视频生成的技术瓶颈,首次实现了分钟级连贯视频的高质量生成。该系统通过语义稀疏KV缓存、块强制训练策略和分块噪声调度等创新技术,有效解决了长视频生成中的累积误差问题。在专门构建的LV-Bench评估基准上,BlockVid在主体一致性和画面清晰度等关键指标上分别提升了22.2%和19.4%,显著超越现有技术,为AI视频生成领域带来重要突破。
北京邮电大学等机构联合发布的GUI智能体研究突破了传统界面导航技术瓶颈。通过创新的GE-Lab模拟环境和三阶段渐进训练方法,成功让AI获得类人的界面操作能力,在复杂导航任务中表现出色,为智能助手和数字化辅助技术发展奠定重要基础。
Netflix联合多所大学开发的VIDEO4SPATIAL系统实现了视频AI的重大突破,让机器首次具备真正的空间理解能力。该系统仅通过普通视频就能理解三维空间结构,实现物体寻找和场景导航两大功能,在室内外环境都表现出色,为VR内容制作、机器人导航、建筑设计等领域带来新的应用前景。
中国人民大学与字节跳动联合研究发现,在训练AI进行视觉推理时,简洁的"最少定位信息"方法比详细的思维链条更有效。研究通过迷宫导航实验比较了三种训练方式,发现"短而精"的训练不仅收敛更快,泛化能力也最强。这一"短即是长"效应在多种视觉任务中得到验证,为降低AI训练成本、提升模型性能提供了新思路,在自动驾驶和机器人导航等领域具有重要应用价值。
SwiftVLA是GigaAI等机构联合开发的轻量化机器人视觉-语言-动作模型。该系统通过4D时空理解、融合令牌和掩码重建等创新技术,让4.5亿参数的小型模型实现了媲美35亿参数大型系统的性能。在边缘设备上运行速度提升18倍、内存减少12倍,在多项机器人操作任务中成功率达到80%以上,为实用化机器人部署提供了新方案。
香港大学等机构联合开发TRivia框架,首次实现AI模型在无人工标注情况下自主学习表格识别。通过问答验证机制和智能样本筛选,TRivia-3B模型在标准测试中超越Gemini 2.5 Pro等强劲对手,同时体积小巧可离线部署,为隐私敏感场景提供了理想解决方案。
佐治亚理工学院研究团队开发了PAI-Bench测试框架,首次系统评估AI在物理世界中的理解和预测能力。通过2808个真实案例的测试发现,当前AI模型虽然视觉效果出色,但在物理合理性方面表现不佳,人类准确率93.2%而最佳AI仅64.7%。研究为AI发展提供了现实路线图。
武汉大学团队开发的Glance技术实现了AI画画的重大突破,仅用1张图片1小时训练就能让扩散模型速度提升5倍。该技术采用"慢快搭配"策略,通过两个专门的LoRA适配器分别处理早期语义构建和后期细节完善,在保持图像质量的同时大幅提升生成效率,为AI图像生成的民主化应用开辟了新道路。
大连理工大学联合快手科技推出革命性AI视频生成框架MultiShotMaster,首次实现可控制的多镜头视频创作。该技术通过创新的位置编码方法解决了AI无法生成连贯多镜头视频的难题,支持精确控制镜头切换、人物运动和场景变化,为AI视频生成领域带来重大突破。
北京大学与清华大学联合研究团队提出DiG-Flow方法,通过几何对齐机制解决视觉-语言-动作模型在环境变化时性能下降问题。该方法使用Wasserstein距离测量观察与行动特征的几何关系,通过门控机制调节学习权重,显著提升机器人在复杂任务中的稳健性,在多个测试中实现4-11%的性能提升。
这项由中国人民大学等机构联合开展的研究首次解决了视觉语言动作模型中的"动作视野"问题。研究发现机器人在预测动作时面临"近视眼"与"远视眼"的矛盾,提出创新的"视野混合策略",让机器人同时具备短期精确控制和长期规划能力。该方法在多个基准测试中创下新纪录,仅用2000个参数就显著提升了机器人性能,为智能机器人发展提供了重要突破。
香港科技大学研究团队开发的DualCamCtrl系统通过创新的双分支架构,让AI能够精确控制视频生成中的摄像机轨迹。该系统引入深度信息作为几何理解的关键,采用SIGMA协调机制让RGB和深度分支协同工作,实现了摄像机运动误差降低40%以上的突破性改进,为AI视频生成技术的实用化奠定了重要基础。
北京大学研究团队首次系统性验证音频能显著提升AI视频生成质量。他们开发的AVFullDiT架构通过音视频联合训练,让AI同时"听见"和"看见",从而生成更符合物理规律的真实视频。实验证明这种方法在物理常识和动作自然度方面都有显著改进,为未来多模态AI发展指明新方向。
浙江大学等机构联合开发的ViSAudio技术实现了从无声视频直接生成双耳立体声音频的突破,采用端到端处理避免传统两阶段方法的累积误差。该技术基于9.7万对样本的BiAudio数据集,使用双分支生成架构和条件时空模块,能准确模拟声源空间位置变化。实验表明其在音频质量、空间一致性等指标上显著优于现有方法,为影视制作、VR应用等领域带来新机遇。