视觉模型 关键字列表
SAM+多模态大模型实现开集分割!清华联合美团提出LaSagnA!

SAM+多模态大模型实现开集分割!清华联合美团提出LaSagnA!

最近进展使大型视觉语言模型 (Large Language Models for Vision,vLLMs) 能够生成详细的感知输出,包 括边界框和掩码。然而,限制这些 vLLMs 进一步应 用的两个约束是:每个查询无法处理多个目标,以及 无法识别图像中查询对象不存在。