谷歌推出全新模型Gemini Omni,支持图像、音频、视频和文本的多模态输入,并可生成高质量视频。用户可通过自然语言对话编辑视频,保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库,实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放,并将逐步向开发者和企业客户提供API接入。
北大和Rabbitpre AI发起的Open-Sora Plan项目致力于复现OpenAI的视频生成模型Sora。项目包括Video VQ-VAE压缩视频至潜在维度,Denoising Diffusion Transformer去噪,以及Condition Encoder支持多条件输入。特色在于支持可变长宽比、分辨率和时长,通过动态掩蔽策略、位置插值等技术实现高效训练和生成不同规格的视频。