
PoseTalk 是一个“单张人像图+音频+文本提示”驱动的说话头像生成系统,核心目标是生成口型同步、头部动作可控的 talking head 视频。论文写明,它把文本用于描述长期头部动作语义,把音频用于提供节奏和短时变化,并用 Pose Latent Diffusion 与两级生成网络完成视频合成。
使用上,官方项目页给出的输入包括:一张源人脸图、驱动音频、驱动姿态。驱动姿态有三种来源:直接固定为原图姿态、从别的说话视频提取参考姿态,或由文本+音频自动生成姿态。系统随后生成头部运动,再细化嘴唇区域,以提升唇形同步质量。
适用场景主要是数字人、虚拟助手、口播头像、虚拟会议和可控视频内容生成。论文与项目页都强调它适合需要“边说边动头”、且头部动作风格可编辑的场景;同时论文也提到,面对极端头部姿态时仍有局限,更适合常规说话视频制作。
适配机型: