OmniHuman-1.5

通过认知模拟为虚拟形象注入主动思维

双系统虚拟形象技术

OmniHuman-1.5 是一个开创性的虚拟人物生成框架，通过单张图像和音频轨道创建富有表现力的角色动画。该技术受人类“系统 1 和系统 2”认知理论启发，将多模态大语言模型与扩散变换器相结合，模拟两种截然不同的思维模式：缓慢、审慎的规划和快速、直观的反应。这种创新组合允许生成具有高度动态动作、连续镜头运动和复杂多角色交互的视频，所有这些都与音频精确同步。

节奏与表演

该框架的多功能性使其能够轻松处理音乐场景。只需一张图片和一首歌曲，它就可以创建一个情感丰富的数字歌手。该模型捕捉了音乐中从唇形同步到自然停顿和节奏变化的全方位表达，灵活地适应从独唱民谣到快节奏音乐会等各种风格。

电影级情感表演

仅使用单张图像和音频，该框架即可将数字演员带入屏幕。通过分析音频中的情感潜台词，无需文本提示，它可以生成引人入胜的电影级表演，具有从爆发性的愤怒到衷心的告白等完整的戏剧范围。

上下文感知的音频驱动动画

通过解释音频的语义上下文，该模型超越了简单的唇形同步和重复动作，允许角色表现出真正的情感转变，并使手势与他们的言语匹配，仿佛由自己的意志驱动。

文本引导的多模态动画

该框架接受文本提示，并展示出卓越的提示跟随能力，能够精确控制对象生成、摄像机运动和特定动作，同时保持完美的音频同步。

随着男人转身面向镜头并向前走，他欣喜若狂地唱歌。有时他双手触摸衣领；有时他张开双臂，抬起头，沉浸在狂喜中。

提示：摄像机快速拉近特写女人的鞋子，然后缓慢向上摇摄到她的脸部。美丽的女孩迷人地摇摆着身体。

男人陶醉地唱着歌。他先是瞥了一眼窗外，然后将左手放在胸前，仿佛在狂喜之中。接着，他站起来沿着火车过道向前走，再次将左手放在胸前。

提示：手持摄像机。一个女人眺望远方。背景中有烟花。风吹动着她的头发和衣服。具有艺术电影的感觉，孤独的氛围，并以胶片拍摄。

提示：摄像机向右环绕。当摄像机聚焦在男人的脸上时，保持静止，营造低沉、忧郁的情绪。

提示：角色的脸向前移动，他们看着摄像机，然后伸出手戳摄像机镜头。之后，摄像机向后移动，角色交叉双臂并开始说话。

提示：男人拿出香烟，看着镜头，说话。

提示：一只企鹅在跳舞。一双手给它戴上了一副酷酷的太阳镜。一支乐队正在演奏，观众正在欢呼。

提示：一只戴着太阳镜的小鸡，拿着两把枪，正在说话，带着邪恶的氛围。

多人物场景表演

该框架还扩展到复杂的多人场景。它可以通过将单独的音轨路由到单个画面中的正确角色来生成动态的群组对话和合奏表演。

多样性与鲁棒性

该模型通过跨越令人难以置信的多样化主体（包括真实的动物、拟人化角色和程式化卡通）生成高质量、同步的视频，展示了真正的鲁棒性。