SoulX-Podcast 是由 Soul AI 实验室开发的开源推理代码库,专为播客风格的多轮、多说话人对话语音生成而设计
SoulX播客
SoulX-Podcast官方推理代码
:迈向具有方言和副语言多样性的现实长篇播客
SoulX播客标志
版本 HF模型 技术报告 高频演示 Apache-2.0
SoulX播客:迈向具有方言和副语言多样性的现实型长篇播客
概述
SoulX-Podcast 专为播客风格的多轮、多说话人对话语音生成而设计,同时在传统的独白 TTS 任务中也取得了优异的性能。
为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast 集成了一系列副语言控制功能,支持普通话和英语,以及四川话、河南话、粤语等多种中文方言,从而能够生成更加个性化的播客风格语音。
主要特点 🔥
长篇、多轮、多说话人对话语音生成:SoulX-Podcast 擅长为多轮、多说话人场景生成高质量、听起来自然的对话语音。
跨方言、零样本语音克隆:SoulX-Podcast 支持跨不同中文方言的零样本语音克隆,能够以任何支持的方言生成高质量的个性化语音。
副语言控制:SoulX-Podcast 支持各种副语言事件,例如笑声和叹息,以增强合成结果的真实性。
副语言标签:<|笑声|>、<|叹气|>、<|呼吸|>、<|咳嗽|>、<|清嗓|>。
演示示例
零风险播客世代
podcast-mandarin.mp4
跨方言零风险播客世代
🎙️ 以下各代所使用的所有提示音频样本均为普通话。
🎙️以下音频生成采用的参考音频全部为普通话。
河南.mp4
四川.mp4
悦.mp4
更多示例请参见演示页面。
🚀 新闻
[2025-11-03]支持使用 Docker 的 vllm。
[2025-10-31]在Hugging Face Spaces上部署在线演示。
[2025-10-30]添加独白 TTS 的示例脚本,并支持 WebUI 以便于推理。
[2025-10-29]我们很高兴地宣布,最新的 SoulX-Podcast 节目现已在 Hugging Face 上线!您可以直接通过SoulX-Podcast-hugging-face访问。