DreamActor-H1

DreamActor-H1 将单张人物图像和产品照片转化为高保真、运动丰富的演示视频。由运动设计的扩散变换器驱动。

生成结果

重新定义电子商务视频

生成逼真的人与产品交互视频一直是一个挑战。传统方法通常会扭曲人脸或产品标志。

DreamActor-H1 通过集成 扩散变换器 (DiT) 和新颖的参考注入机制解决了这个问题。这确保了您的产品纹理和模型的身份在整个视频中保持完美一致,同时执行自然、符合物理规律的手势。

  • 高保真度身份保持
  • 精准的手与产品对齐
  • 强大的 3D 一致性
与 SOTA 模型的比较

技术揭秘

结合了 VLM 描述符、3D 姿势估计和 DiT 视频生成的混合架构。

技术揭秘 diagram

1. 输入分析

视觉-语言模型描述场景,而姿势估计提取运动骨架和边界框。

2. 参考注入

人物和产品图像通过 VAE 编码,并使用掩码交叉注意力注入到 DiT 中。

3. DiT 生成

扩散变换器逐帧合成视频,确保时间一致性和真实感。

多功能生成

适用于各种产品类别和人物主体。

showcase.videoTitles['02.mp4']
showcase.videoTitles['05.mp4']
showcase.videoTitles['35.mp4']
showcase.videoTitles['06.mp4']
showcase.videoTitles['08.mp4']
showcase.videoTitles['14.mp4']

更多示例

滑动查看不同身份和动作。

消融实验

展示我们的文本输入模块和对象注意力机制的必要性。没有这些组件,模型难以保持产品保真度。