IndexTTS2: 智能语音合成,精准情感和时长控制
核心特性与优势
IndexTTS2 是一个革命性的零样本文本转语音 (TTS) 模型,旨在克服传统自回归系统在 时长控制方面面临的挑战。它首次实现了对合成语音时长的 精准控制,使其特别适用于对同步有严格要求的视频配音等应用。
该模型创新性地 解耦了情感表达和说话人身份,允许用户独立控制音色和情感。无论是重现提示音频中的原生情感,还是通过独立的情感提示(可以来自不同的说话人)进行定制,IndexTTS2 都能提供准确的结果。
为了增强强情感表达时的语音清晰度,IndexTTS2 集成了 GPT 潜在表示。它还引入了基于文本描述的 软指令机制,通过 Qwen3 进行微调,显著简化了情感控制。用户可以通过自然语言输入引导期望的情感倾向。
实验结果表明,IndexTTS2 在 词错误率、说话人相似度和情感保真度 方面均超越了现有的最先进零样本 TTS 模型。我们将发布模型权重和推理代码,以促进进一步的研究和行业应用。
功能演示
IndexTTS2: 受控情感语音生成用于音视频配音 – 经典电影《让子弹飞》场景案例分析
IndexTTS2: 受控情感语音生成用于音视频配音 – 经典电视剧《甄嬛传》场景案例分析(一)
IndexTTS2: 受控情感语音生成用于音视频配音 – 经典电视剧《甄嬛传》场景案例分析(二)
目录
1. 可控性:零样本 TTS 与可调节的语音时长
IndexTTS2 首次实现了对自回归 TTS 模型中语音时长的精准控制。 本节演示了模型在时长控制合成方面的能力,其中为每个测试案例指定了三种不同的目标时长。由于缺乏具有可比时长控制能力的现有自回归 TTS 模型,我们在本部分采用了非自回归模型作为基线。
| 提示音频 | 文本 | 原始语音 | 模型 | 音频 (时长 0.75x) | 音频 (时长 1.0x) | 音频 (时长 1.25x) |
|---|---|---|---|---|---|---|
| The equipment needed to do this includes rock saws and polishers。 | IndexTTS2 | |||||
| MaskGCT | ||||||
| F5-TTS | ||||||
| There is no wine in this country, the young man said。 | IndexTTS2 | |||||
| MaskGCT | ||||||
| F5-TTS | ||||||
| 只有当科技为本地社群创造价值的时候,才真正有意义。 | IndexTTS2 | |||||
| MaskGCT | ||||||
| F5-TTS | ||||||
| 类推可用于颠覆惯性思维,以便为新的创意开路。 | IndexTTS2 | |||||
| MaskGCT | ||||||
| F5-TTS |
2. 可控性:零样本 TTS 与富有情感的语音表达
IndexTTS2 能够准确重构提示音频中存在的情感内容。 由于模型有效解耦了情感属性与说话人相关特征,用户可以通过提供额外的情感音频提示来显式控制目标情感,从而合成具有指定情感表达的语音。此外,我们的框架很好地集成了自然语言驱动的情感调节机制,实现了精确且语义有意义的情感定制。
2.1 使用相同的提示音频
我们在所有输入条件下使用相同的音频提示,这意味着音色和情感的参考都基于完全相同的音频内容。这种设计确保了生成的语音中的任何变化仅来自于目标情感或音色,消除了使用来自其他音色的不同情感提示所引入的混杂因素。
| 情感 | 提示音频 | 文本 | IndexTTS2 | emotionControl.identicalPrompt.tableHeader.modelOthers[0] | emotionControl.identicalPrompt.tableHeader.modelOthers[1] | emotionControl.identicalPrompt.tableHeader.modelOthers[2] | emotionControl.identicalPrompt.tableHeader.modelOthers[3] | emotionControl.identicalPrompt.tableHeader.modelOthers[4] | emotionControl.identicalPrompt.tableHeader.modelOthers[5] | emotionControl.identicalPrompt.tableHeader.modelOthers[6] |
|---|---|---|---|---|---|---|---|---|---|---|
| 愤怒 (Angry) | 你在我们屋子里走路的时候,发现路程遥远,这是不足为怪的。 | |||||||||
| 似乎科琳完成的这身午夜蓝套,裙与旧时代的职业女性并无分别。 | ||||||||||
| 哭泣 (Cry) | 共同建设面向未来的交通,和出行服务新生态 | |||||||||
| 汤姆,我真愿意信你的话,这样可以一肥遮百丑。 | ||||||||||
| 恐惧 (Fear) | 但到投票前日,内菲斯竟以黑马之姿冲过席尔瓦,日渐下降的支持率。 | |||||||||
| 过了一会一切都结束了,这座山在月光下显得幽静而静谧。 | ||||||||||
| 低落 (Depressed) | 基本上隔一天,小如便会因为不听话而挨揍。 | |||||||||
| 狗狗阿黄同志,当森林学校的门卫有五年啦,工作尽职尽责。 | ||||||||||
| 开心 (Happy) | 更傻眼的是过了没多久,银行就开始催款了。 | |||||||||
| 其中一只正又两条前肢,抓住一只有自己身体五倍大的死蜘蛛。 | ||||||||||
| 惊喜 (Surprise) | 他希望能看到灯笼闪一下光,这虽然让他害怕。 | |||||||||
| 比如有的业主,贪便宜找马路上的游击队来装修。 | ||||||||||
| 平静 (Calm) | 攀爬上官场高位后,开始给家里的各种亲戚安排工作。 | |||||||||
| 近日,除了葛洲坝股价下跌外,其余三家均有不同程度的上涨。 |
2.2 使用不同的提示音频
我们采用不同的音频提示分别作为音色和情感表达的参考,从而使说话人相关的音色特征和情感相关的韵律、语调特征来源于独立的音频源。这项消融研究能够更有效地验证情感调节机制,消除音色变化引起的混杂效应。
| 音色提示音频 | 情感提示音频 | 文本 | 情感权重: 0 | 情感权重: 0.6 | 情感权重: 1.0 | 情感权重: 1.4 |
|---|---|---|---|---|---|---|
| 这一天,天上的乌云又多又厚又沉,整个森林暗得就像黑夜一样。 | ||||||
| 这他妈就是你给的解决方案?老子连续加班三个月,就换来一沓废纸!现在、立刻、马上给我滚出! | ||||||
| 我站在人海中,却感觉比任何时候都要孤独。 | ||||||
| 尾号四四九幺的乘客刚夸了你,厉害了我的师傅,你真是个活地图。 | ||||||
| 有些人走了就再也没有回来过,所以等待和犹豫是这个世界上最无情的杀手。 | ||||||
| 做一个温暖的人,将岁月里的凝重、安暖,写意成简单,将过往的风景,安放在清浅的时光中。 |
2.3 使用文本描述
在这种替代方法中,我们用描述性的文本提示取代了情感音频参考,同时保持音色参考音频不变。这允许模型仅根据基于文本的情感线索而不是音频信号来调节情感表达。这种设置有助于研究模型在语言描述指导下生成情感表达语音的能力,为不依赖情感音频提示的文本驱动情感控制的有效性提供见解。
| 音色提示音频 | 情感描述 | 文本 | 音频 |
|---|---|---|---|
| I feel really down | 这究竟是我的福,还是我的孽?岂止是皇上错了,我更是错了!这几年的情爱与时光,究竟是错付了! | ||
| 有点快乐,哈哈 | |||
| 巨巨巨巨巨巨巨巨难过 | |||
| I feel really down | Was this my blessing, or my curse? It’s not just the Emperor who was wrong — I was even more mistaken! All these years of love and devotion… in the end, were they nothing but a wasted heart? | ||
| 有点快乐,哈哈 | |||
| 巨巨巨巨巨巨巨巨难过 | |||
| 书桓走的第一天,想他,想他,想他。 | emotionControl.textualDescription.textualZh2 | ||
| On the first day that Shuhan left, all I did was miss him. Miss him. Miss him. | |||
| 书桓走的第二天,想他,想他,想他。 | emotionControl.textualDescription.textualZh2 | ||
| The second day Shuhan is gone, and still — I miss him. Miss him. Miss him. | |||
| 书桓走了第三天了,想他,想他,想他,发疯一样的想他。 | emotionControl.textualDescription.textualZh2 | ||
| The third day Shuhan has been gone… and I still miss him. Miss him. Miss him. I miss him like I've lost my mind. | |||
| 超级无敌爆炸angry的情感,就像刚中了彩票被人偷拿了 | 你问他为什么我没谈恋爱,我就失恋了,你问他,为什么这么对我,我以为我会问,可是我见到他之后,我就不想问了,因为人家根本就不想说,人家甚至都不想见到你,我为什么在那儿犯贱呢,所以我不是放过他,我是想放过我自己,人家不联系你怎么了,不回你微信怎么了,伤害你又怎么了,你算他谁啊? | ||
| 又生气又委屈 | 我为什么非得知道发生了什么呢,我不就是想给自己找一个原因嘛,我只是想找一个原因,我原谅他,可是我为什么非得原谅他呢,我干嘛把自己搞得这么卑微啊? | ||
| 我们正在做一些神奇的事情,给我来一种又fear,但是又有点开心的情感。 | 这游戏太刺激了,心跳都快停了...但我们又能感受到那种挑战未知的兴奋和快乐。说真的,我现在是又害怕又期待,紧张得手心都在冒汗! |
3. Zero-Shot TTS Comparison With Other Open-Source Models
3.1 Monolingual Speech Synthesis
| 提示音频 | 文本 | 原始语音 | 模型 | 音频 (时长 0.75x) | 音频 (时长 1.0x) | 音频 (时长 1.25x) |
|---|---|---|---|---|---|---|
| 家居养娃的李娜又重新出现在媒体大众的面前 | IndexTTS2 | |||||
| These are two of only three known formations to have dinosaur fossils in Antarctica. | IndexTTS2 | |||||
| The man looked at him without responding. | IndexTTS2 | |||||
| 胡萝卜凉拌或炒鸡蛋味道都是棒极的,胡萝卜骄傲地说。 | IndexTTS2 | |||||
| rodolfo arrived at his own house without any impediment and leocadia's parents reached theirs heart broken and despairing | IndexTTS2 | |||||
| 那些袖珍衣服挂在架子上,远远看上去就像一幅画,可漂亮了。 | IndexTTS2 |