🎙️

SoulX-Podcast

逼真播客的多说话人语音生成系统

SoulX-Podcast 是 Soul AI Lab 推出的创新语音合成模型，专为播客场景设计。它可以生成长篇、自然、情感丰富的多说话人对话语音，真实还原人类对话的语调、停顿和方言特征。

快速开始查看论文 →

🌟 核心功能

🎧

长篇多轮对话生成

SoulX-Podcast 可生成超过 90 分钟的高质量语音内容，完美支持多说话人播客、虚拟采访、对话小说等场景。

🌍

跨方言语音克隆

支持普通话、英语和多种中文方言（四川话、河南话、粤语等）。无需训练，即可实现零样本语音克隆，赋予每个角色独特的嗓音和口音。

🎭

副语言控制

内置丰富的副语言控制——自然地为语音添加笑声、叹息、语调变化等细节，使合成语音更具感染力与人情味。

🚀 最新动态

2025-10-29

研究论文发表

项目论文正式发表在 arXiv 上。查看论文 →

🧩 快速开始

克隆仓库

git clone https://github.com/Soul-AILab/SoulX-Podcast.git

下载模型

huggingface-cli download Soul-AILab/SoulX-Podcast-1.7B

运行推理

bash example/infer_dialogue.sh

💡 应用场景

📻

播客与采访自动化

播客和采访内容的自动化生成

🤖

虚拟角色与 AI 主持人

创建虚拟角色和 AI 广播员

🗣️

多方言语音研究

多方言语音研究与教育

📚

有声小说与广播剧创作

创作有声小说和广播剧

⚖️ 开源与合规

SoulX-Podcast 采用 Apache 2.0 开源许可，可免费用于研究和教育项目。

请遵守伦理指南，避免将其用于任何未经授权的语音克隆或欺诈活动。