DreamActor-H1

DreamActor-H1 将单张人物图像和产品照片转化为高保真、运动丰富的演示视频。由运动设计的扩散变换器驱动。

生成结果

重新定义电子商务视频

生成逼真的人与产品交互视频一直是一个挑战。传统方法通常会扭曲人脸或产品标志。

DreamActor-H1 通过集成 扩散变换器 (DiT) 和新颖的参考注入机制解决了这个问题。这确保了您的产品纹理和模型的身份在整个视频中保持完美一致，同时执行自然、符合物理规律的手势。

与 SOTA 模型的比较

结合了 VLM 描述符、3D 姿势估计和 DiT 视频生成的混合架构。

视觉-语言模型描述场景，而姿势估计提取运动骨架和边界框。

人物和产品图像通过 VAE 编码，并使用掩码交叉注意力注入到 DiT 中。

扩散变换器逐帧合成视频，确保时间一致性和真实感。

适用于各种产品类别和人物主体。

showcase.videoTitles['02.mp4']

showcase.videoTitles['05.mp4']

showcase.videoTitles['35.mp4']

showcase.videoTitles['06.mp4']

showcase.videoTitles['08.mp4']

showcase.videoTitles['14.mp4']

展示我们的文本输入模块和对象注意力机制的必要性。没有这些组件，模型难以保持产品保真度。