PoseTalk

PoseTalk 是一个“单张人像图+音频+文本提示”驱动的说话头像生成系统,核心目标是生成口型同步、头部动作可控的 talking head 视频。论文写明,它把文本用于描述长期头部动作语义,把音频用于提供节奏和短时变化,并用 Pose Latent Diffusion 与两级生成网络完成视频合成。

  • 使用上,官方项目页给出的输入包括:一张源人脸图、驱动音频、驱动姿态。驱动姿态有三种来源:直接固定为原图姿态、从别的说话视频提取参考姿态,或由文本+音频自动生成姿态。系统随后生成头部运动,再细化嘴唇区域,以提升唇形同步质量。

  • 适用场景主要是数字人、虚拟助手、口播头像、虚拟会议和可控视频内容生成。论文与项目页都强调它适合需要“边说边动头”、且头部动作风格可编辑的场景;同时论文也提到,面对极端头部姿态时仍有局限,更适合常规说话视频制作。

适配机型:

Dell Pro Max Tower T2 塔式工作站

Dell Pro Max 18 Plus 移动工作站

Dell Pro Max 16 Premium 移动工作站

  • 短信登录
©北京第二十六维信息技术有限公司版权所有.
京ICP备15039648号-7 京ICP证161336号 京公网安备 11010802021500号