PoseTalk - AIGC 工具箱

PoseTalk 是一个“单张人像图+音频+文本提示”驱动的说话头像生成系统，核心目标是生成口型同步、头部动作可控的 talking head 视频。论文写明，它把文本用于描述长期头部动作语义，把音频用于提供节奏和短时变化，并用 Pose Latent Diffusion 与两级生成网络完成视频合成。

使用上，官方项目页给出的输入包括：一张源人脸图、驱动音频、驱动姿态。驱动姿态有三种来源：直接固定为原图姿态、从别的说话视频提取参考姿态，或由文本+音频自动生成姿态。系统随后生成头部运动，再细化嘴唇区域，以提升唇形同步质量。
适用场景主要是数字人、虚拟助手、口播头像、虚拟会议和可控视频内容生成。论文与项目页都强调它适合需要“边说边动头”、且头部动作风格可编辑的场景；同时论文也提到，面对极端头部姿态时仍有局限，更适合常规说话视频制作。

适配机型：

Dell Pro Max 18 Plus 移动工作站

Dell Pro Max 16 Premium 移动工作站

Dell Pro Max Tower T2 塔式工作站