艾伦人工智能研究所推出Molmo 2多模态模型系列,在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体:8B、4B和2-O 7B模型,分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模,8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能,为物理AI、自动驾驶、机器人等领域提供重要技术支撑。
数源AI推荐的论文'VideoMamba: State Space Model for Efficient Video Understanding'介绍了VideoMamba模型,它通过线性复杂度运算符实现高效长视频理解。该模型克服了3D CNN和视频变换器的局限,具备可扩展性、敏感性、优越性和兼容性。