🎙️

SoulX-Podcast

逼真播客的多说话人语音生成系统

SoulX-Podcast 是 Soul AI Lab 推出的创新语音合成模型,专为播客场景设计。它可以生成长篇、自然、情感丰富的多说话人对话语音,真实还原人类对话的语调、停顿和方言特征。

🌟 核心功能

🎧

长篇多轮对话生成

SoulX-Podcast 可生成超过 90 分钟的高质量语音内容,完美支持多说话人播客、虚拟采访、对话小说等场景。

🌍

跨方言语音克隆

支持普通话、英语和多种中文方言(四川话、河南话、粤语等)。无需训练,即可实现 零样本语音克隆,赋予每个角色独特的嗓音和口音。

🎭

副语言控制

内置丰富的 副语言控制——自然地为语音添加笑声、叹息、语调变化等细节,使合成语音更具感染力与人情味。

🚀 最新动态

2025-10-29

最新模型 SoulX-Podcast-1.7B 发布

最新模型现已在 Hugging Face 上发布,具有更高的性能和能力。

2025-10-28

研究论文发表

项目论文正式发表在 arXiv 上。 查看论文 →

🧩 快速开始

1

克隆仓库

git clone https://github.com/Soul-AILab/SoulX-Podcast.git
2

下载模型

huggingface-cli download Soul-AILab/SoulX-Podcast-1.7B
3

运行推理

bash example/infer_dialogue.sh

💡 应用场景

📻

播客与采访自动化

播客和采访内容的自动化生成

🤖

虚拟角色与 AI 主持人

创建虚拟角色和 AI 广播员

🗣️

多方言语音研究

多方言语音研究与教育

📚

有声小说与广播剧创作

创作有声小说和广播剧

⚖️ 开源与合规

SoulX-Podcast 采用 Apache 2.0 开源许可,可免费用于研究和教育项目。

请遵守伦理指南,避免将其用于任何未经授权的语音克隆或欺诈活动。