SoulX-Podcast 可生成超过 90 分钟的高质量语音内容,完美支持多说话人播客、虚拟采访、对话小说等场景。
支持普通话、英语和多种中文方言(四川话、河南话、粤语等)。无需训练,即可实现 零样本语音克隆,赋予每个角色独特的嗓音和口音。
内置丰富的 副语言控制——自然地为语音添加笑声、叹息、语调变化等细节,使合成语音更具感染力与人情味。
最新模型现已在 Hugging Face 上发布,具有更高的性能和能力。
项目论文正式发表在 arXiv 上。 查看论文 →
git clone https://github.com/Soul-AILab/SoulX-Podcast.githuggingface-cli download Soul-AILab/SoulX-Podcast-1.7Bbash example/infer_dialogue.sh播客和采访内容的自动化生成
创建虚拟角色和 AI 广播员
多方言语音研究与教育
创作有声小说和广播剧
SoulX-Podcast 采用 Apache 2.0 开源许可,可免费用于研究和教育项目。
请遵守伦理指南,避免将其用于任何未经授权的语音克隆或欺诈活动。