SoulX播客 - AnyForever

SoulX播客
SoulX-Podcast官方推理代码
：迈向具有方言和副语言多样性的现实长篇播客

SoulX播客标志

版本 HF模型技术报告高频演示 Apache-2.0

SoulX播客：迈向具有方言和副语言多样性的现实型长篇播客

概述
SoulX-Podcast 专为播客风格的多轮、多说话人对话语音生成而设计，同时在传统的独白 TTS 任务中也取得了优异的性能。

为了满足多轮口语对话对自然度的更高要求，SoulX-Podcast 集成了一系列副语言控制功能，支持普通话和英语，以及四川话、河南话、粤语等多种中文方言，从而能够生成更加个性化的播客风格语音。

主要特点 🔥
长篇、多轮、多说话人对话语音生成：SoulX-Podcast 擅长为多轮、多说话人场景生成高质量、听起来自然的对话语音。

跨方言、零样本语音克隆：SoulX-Podcast 支持跨不同中文方言的零样本语音克隆，能够以任何支持的方言生成高质量的个性化语音。

副语言控制：SoulX-Podcast 支持各种副语言事件，例如笑声和叹息，以增强合成结果的真实性。

副语言标签：<|笑声|>、<|叹气|>、<|呼吸|>、<|咳嗽|>、<|清嗓|>。

演示示例
零风险播客世代

podcast-mandarin.mp4
跨方言零风险播客世代

🎙️ 以下各代所使用的所有提示音频样本均为普通话。

🎙️以下音频生成采用的参考音频全部为普通话。

河南.mp4
四川.mp4
悦.mp4
更多示例请参见演示页面。

🚀 新闻
[2025-11-03]支持使用 Docker 的 vllm。

[2025-10-30]添加独白 TTS 的示例脚本，并支持 WebUI 以便于推理。

[2025-10-29]我们很高兴地宣布，最新的 SoulX-Podcast 节目现已在 Hugging Face 上线！您可以直接通过SoulX-Podcast-hugging-face访问。