SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

原创发布日期：2025-11-01

一、SoulX-Podcast是什么？

SoulX-Podcast是Soul-AILab（Soul人工智能实验室）开源的一款播客风格语音生成工具，核心定位是解决“传统TTS难以满足多角色、多轮对话式语音场景需求”的问题。与侧重单角色、短文本的传统文本到语音（TTS）工具不同，它以“还原真实播客交互感”为目标，整合了多说话人切换、长文本连贯生成、方言自适应等能力，同时保留传统TTS的高音质输出特性。

从项目背景来看，随着播客、音频访谈、多角色智能交互（如虚拟客服、数字人对话）等场景的普及，单一角色、无情感波动的语音已无法满足用户对“真实感”的需求——例如制作一档双人访谈播客，传统TTS需要分别生成两个角色的语音再手动拼接，且难以保证对话间的自然衔接；而SoulX-Podcast可直接根据多轮对话文本，自动匹配不同说话人特征，生成连贯、有互动感的完整音频。

此外，项目特别关注“方言语音生成”这一细分需求。当前多数TTS工具以普通话和主流外语为主，方言语音资源稀缺，且方言克隆需大量标注数据；SoulX-Podcast通过“零样本克隆”技术，仅需少量参考音频（如3-5秒），即可生成目标说话人在不同方言下的语音，为方言文化保护、地方特色内容创作提供了技术支持。

二、SoulX-Podcast的核心功能特色

SoulX-Podcast的功能设计围绕“播客场景实用性”和“语音真实感”展开，区别于传统TTS的核心亮点可概括为四大方向，且每个功能均对应明确的用户需求痛点：

1. 多轮多说话人对话语音生成：还原播客交互感

传统TTS仅支持单角色语音生成，若需多角色对话，需手动拆分文本、切换模型、拼接音频，不仅效率低，还易出现语气断裂、节奏不匹配的问题。SoulX-Podcast针对这一痛点，实现了端到端的多轮多说话人语音生成：

支持在同一文本输入中，通过标签指定不同说话人（如<speaker1>“今天我们来聊AI语音”<speaker2>“对，现在的TTS技术进步特别快”），工具可自动识别标签并切换说话人特征；
优化长文本处理逻辑，可支持5000字以上的多轮对话文本，生成过程中不会出现语义断裂或音质下降，满足完整播客、访谈节目的制作需求；
说话人特征一致性强，同一标签对应的说话人音色、语调、语速可保持稳定，避免出现“同一角色前后声音不一”的问题。

2. 跨方言零样本语音克隆：降低方言使用门槛

“方言语音生成”的核心痛点在于“数据稀缺”和“克隆成本高”——多数方言缺乏大规模标注语音数据，且传统克隆技术需为每个方言单独训练模型，或收集目标说话人的方言数据。SoulX-Podcast的“跨方言零样本克隆”技术彻底解决了这一问题：

“零样本”指无需目标说话人的方言数据，仅需提供其普通话（或其他已知语言）参考音频，即可生成该说话人在目标方言下的语音；
支持多方言覆盖，目前已适配四川话、河南话、粤语、东北话等8类汉语方言（具体覆盖范围见表1），且可通过扩展方言模型库新增方言类型；
克隆音质高，生成的方言语音既保留目标说话人的音色特征，又符合方言的发音规则（如粤语的声调、四川话的儿化音），避免出现“普通话音色+方言词汇”的违和感。

3. 副语言控制：提升语音真实感

“副语言”指语言之外的声音元素，如笑声、叹息、停顿、语气词（“嗯”“哦”），这些元素是真实对话中不可或缺的部分，但传统TTS往往忽略此类细节，导致生成语音“过于机械”。SoulX-Podcast通过副语言事件建模，实现了对这些元素的精准控制：

支持在文本中插入副语言标签（如<laugh>“这个功能确实很实用”<sigh>“不过之前调试的时候也遇到了不少问题”），工具可自动在指定位置插入自然的副语言声音；
副语言类型丰富，目前已支持笑声（自然笑、轻笑）、叹息、停顿、语气词等6类常见副语言事件，且可通过调整参数控制副语言的强度（如笑声的大小、停顿的时长）；
副语言与主语音融合自然，不会出现“副语言与文本内容脱节”的情况（如不会在严肃内容中插入突兀的笑声），符合真实对话中的语境逻辑。

4. 多语言与方言覆盖：满足多样化场景需求

除方言外，SoulX-Podcast还支持多语言语音生成，覆盖主流使用场景，具体支持范围如下表所示：

表1：SoulX-Podcast支持的语言与方言清单

类别	具体类型	应用场景举例
通用语言	普通话（标准）、英语（美式/英式）	国际播客、双语教学音频
汉语方言	四川话（成都话）、河南话（郑州话）、粤语（广府话）、东北话（沈阳话）、上海话、陕西话、湖南话、山东话	地方特色播客、方言有声书、方言客服
备注	方言模型需单独下载（见“四、使用方法”部分），且可通过社区贡献扩展新方言	-

三、SoulX-Podcast的技术细节

作为一款聚焦播客场景的语音生成工具，SoulX-Podcast的技术核心围绕“多说话人建模”“方言自适应”“长文本处理”展开，其技术架构和创新点可从以下三方面拆解：

1. 模型整体架构

SoulX-Podcast的模型基于Transformer编码器-解码器架构，并在传统TTS基础上新增了“说话人编码模块”“方言自适应模块”“副语言事件预测模块”，形成四阶段处理流程：

文本预处理阶段：对输入文本进行分词、拼音转换（针对汉语）、情感与副语言标签解析，将文本转化为模型可识别的向量表示；
特征编码阶段：通过Transformer编码器处理文本向量，同时接入“说话人编码模块”（提取参考音频的说话人特征）和“方言自适应模块”（加载目标方言的发音规则参数），生成融合“文本语义+说话人特征+方言规则”的混合特征；
副语言事件融合阶段：副语言事件预测模块根据文本内容和标签，生成副语言特征向量（如笑声的频率、停顿的时长），并与混合特征融合，确保副语言与主语音的衔接自然；
声学模型与声码器阶段：融合特征输入声学模型（生成梅尔频谱），再通过声码器（如HiFi-GAN）将频谱转换为最终的语音波形，输出音频文件（支持WAV、MP3格式）。

2. 核心技术创新点

SoulX-Podcast的技术优势主要来自三大创新，这些创新也是其区别于其他开源TTS项目（如Coqui TTS、CosyVoice）的关键：

说话人-方言特征解耦技术：传统方言克隆技术中，说话人特征与方言特征高度绑定，导致换方言后说话人音色易失真。该项目通过“解耦网络”将两者分离，说话人特征负责保留音色，方言特征负责控制发音规则，从而实现“同一说话人，多方言切换”且音色稳定；
零样本方言迁移算法：基于“预训练-微调”思路，先在大规模普通话+多方言数据上预训练基础模型，使其掌握不同方言的发音差异；再通过“少量参考音频+方言规则模板”进行微调，无需目标说话人的方言数据即可实现克隆，大幅降低数据依赖；
长文本注意力机制优化：传统Transformer处理长文本时易出现“注意力分散”问题，导致前后语义衔接断裂。该项目采用“分段注意力+语义缓存”策略，将长文本分段处理，同时缓存前一段的语义信息，确保分段生成的语音在节奏、语气上保持连贯。

3. 关键技术指标

为直观体现项目的技术性能，下表整理了SoulX-Podcast的核心技术指标（数据来源于项目官方技术报告[arXiv:2510.23541]）：

表2：SoulX-Podcast核心技术指标

指标类别	具体指标	说明
音质评价	普通话MOS分（Mean Opinion Score）：4.6/5.0；方言MOS分：4.3-4.5/5.0	MOS分是语音音质的主观评价指标，4.5以上为高音质，接近人类自然语音
生成效率	单轮1000字文本生成时间：约8-12秒（GPU：NVIDIA RTX 3090）	支持批量生成，批量处理10条文本的效率比单条处理提升30%
克隆性能	参考音频长度：3-5秒；克隆相似度：主观评价相似度≥85%	参考音频需清晰（无噪音），支持从现有音频文件中截取参考片段
文本支持	最大文本长度：≥5000字；支持标点符号、表情符号（如“😊”）解析	表情符号会转化为对应的语气调整（如“😊”对应更轻快的语调）
音频输出	采样率：22050Hz/44100Hz；比特率：16bit；支持格式：WAV、MP3	44100Hz采样率适合高质量音频场景（如专业播客），22050Hz适合轻量化场景

四、SoulX-Podcast的应用场景

基于“多轮多说话人”“方言克隆”“副语言控制”三大核心能力，SoulX-Podcast可覆盖多个行业的语音生成需求，以下是典型应用场景的详细拆解：

1. 播客与音频节目制作

这是项目最核心的应用场景，尤其适合个人创作者、小型工作室等“低成本制作”需求：

双人/多人访谈播客：创作者仅需撰写对话脚本，通过<speaker1>``<speaker2>标签指定角色，即可生成完整的多角色对话音频，无需邀请真人嘉宾录制，也无需后期拼接；
方言播客：针对地方文化类播客（如四川话的“龙门阵”播客、粤语的“街坊故事”播客），可直接生成方言语音，且支持克隆主持人的音色，保持节目风格统一；
自动化更新：结合AI文本生成工具（如ChatGPT、文心一言），可实现“文本生成→语音合成→节目发布”的自动化流程，例如每日新闻播客、知识科普播客的批量产出。

2. 智能语音交互系统

在需要多角色交互的智能系统中，SoulX-Podcast可提升用户体验，典型场景包括：

多角色虚拟客服：如银行客服系统中，<speaker1>（智能客服）解答问题，<speaker2>（虚拟专员）补充细节，避免单一客服语音的枯燥感；
家庭智能助手：支持“家长-孩子”“夫妻”等多角色语音交互，例如孩子问问题时，助手生成“家长音色”的回答，提升亲切感；
数字人对话：为元宇宙、虚拟直播中的数字人提供语音驱动，支持多数字人实时对话，且语音与数字人的表情、动作可通过副语言标签同步（如<laugh>标签触发数字人微笑动作）。

3. 方言文化保护与传承

方言是文化的重要载体，但当前多数方言面临“传承断层”问题，SoulX-Podcast可通过技术助力方言保护：

方言有声资源建设：生成方言版的民间故事、童谣、历史文献音频，丰富方言资源库，例如将《论语》转化为粤语、四川话等多方言有声书；
方言教学工具：为方言学习者提供“标准方言语音+克隆自己音色的方言语音”，帮助学习者对比发音差异，提升学习效率；
方言内容创作：鼓励创作者制作方言短视频、方言广播剧，降低方言内容的制作门槛，推动方言在年轻群体中的传播。

4. 教育与培训领域

在教育场景中，多角色、有情感的语音可提升学习效果，典型应用包括：

多角色教学音频：如英语对话课中，生成<teacher>（老师）和<student>（学生）的对话语音，帮助学生理解真实语境下的语言使用；
方言教学音频：针对少数民族地区或方言地区的教育，生成方言版的教学内容（如河南话的数学课堂音频），降低学生的理解门槛；
培训模拟音频：如销售培训中，生成“销售-客户”的对话音频，模拟不同客户的语气（如质疑、满意），帮助销售人员提升应对能力。

5. 自媒体与内容创作

自媒体创作者常面临“配音耗时”“音色单一”的问题，SoulX-Podcast可提供高效解决方案：

短视频配音：为抖音、B站等平台的短视频生成多角色配音，例如剧情类短视频中，<actor1>（主角）、<actor2>（配角）的对话配音，无需真人录制；
有声书制作：生成多角色有声书，如小说中“主角”“反派”“旁白”的语音切换，提升有声书的代入感；
广告与营销音频：为广告片生成“主持人”“消费者”的对话语音，例如<host>“这款产品真好用”<customer>“我用了之后效果很明显”，增强广告的说服力。

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

五、SoulX-Podcast的使用方法

SoulX-Podcast提供了完整的开源工具链，用户可通过“环境配置→模型下载→推理生成”三步完成语音合成，以下是详细步骤（基于Windows/Linux系统，GPU环境为例）：

1. 环境准备

1.1 系统与硬件要求

操作系统：Windows 10/11、Ubuntu 20.04/22.04、CentOS 8+；
硬件要求：建议使用GPU（NVIDIA显卡，显存≥8GB，支持CUDA 11.6+），CPU也可运行但生成速度较慢；
依赖工具：Git、Conda（Python包管理工具）、FFmpeg（音频处理工具）。

1.2 安装步骤

克隆项目仓库：打开终端，执行以下命令克隆GitHub仓库到本地：

git clone https://github.com/Soul-AILab/SoulX-Podcast.git
cd SoulX-Podcast # 进入项目根目录

创建并激活Conda环境：项目推荐使用Python 3.11，执行以下命令创建环境：

# 创建名为soulx_env的环境，Python版本3.11
conda create -n soulx_env -y python=3.11
# 激活环境（Windows系统：conda activate soulx_env；Linux系统：source activate soulx_env）
conda activate soulx_env

安装依赖包：项目提供requirements.txt文件，包含所有依赖，执行以下命令安装（国内用户建议使用阿里云镜像加速）：

# 国内用户（推荐）：使用阿里云镜像
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
# 国外用户：直接安装
pip install -r requirements.txt

安装FFmpeg：用于音频格式转换，Windows用户需下载FFmpeg压缩包（官网：https://ffmpeg.org/），解压后将`bin`目录添加到系统环境变量；Linux用户执行`sudo apt install ffmpeg`即可。

2. 模型下载

SoulX-Podcast的模型分为“基础模型”和“方言模型”，基础模型支持普通话、英语，方言模型需额外下载，目前模型托管在Hugging Face Hub，提供三种下载方式：

2.1 方式1：通过huggingface_hub下载（推荐）

项目提供download_model.py脚本，可自动下载模型到指定目录，执行以下命令：

# 下载基础模型（支持普通话、英语）到pretrained_models目录
python download_model.py --model_name Soul-AILab/SoulX-Podcast-1.7B --save_dir pretrained_models/

# 下载方言模型（支持8类汉语方言）到pretrained_models目录
python download_model.py --model_name Soul-AILab/SoulX-Podcast-1.7B-dialect --save_dir pretrained_models/

2.2 方式2：通过Git LFS下载

若已安装Git LFS（需先执行git lfs install初始化），可直接克隆Hugging Face仓库：

# 创建模型保存目录
mkdir -p pretrained_models
# 下载基础模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B
# 下载方言模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect

2.3 方式3：手动下载

访问Hugging Face模型页面（基础模型：https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B；方言模型：https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect），手动下载所有文件，解压后放入`pretrained_models`目录。

3. 推理生成示例

项目提供inference.py脚本，支持单轮独白、多轮多说话人、方言克隆三种常见场景，以下是具体示例：

3.1 场景1：单轮普通话独白

生成一段单人普通话语音，命令如下：

python inference.py \
 --model_path pretrained_models/SoulX-Podcast-1.7B \ # 基础模型路径
 --text "大家好，欢迎了解SoulX-Podcast，这是一款开源的播客式语音生成工具。" \ # 输入文本
 --speaker_ref audio_ref/default_speaker.wav \ # 说话人参考音频（项目提供默认音频）
 --output_audio output/mono_speech.wav \ # 输出音频路径
 --sample_rate 44100 # 采样率（44100Hz为高质量）

3.2 场景2：多轮多说话人对话

生成双人对话语音，通过<speaker1>``<speaker2>标签指定角色，命令如下：

python inference.py \
 --model_path pretrained_models/SoulX-Podcast-1.7B \
 --text "<speaker1>你觉得SoulX-Podcast的多说话人功能好用吗？<speaker2>很好用啊，之前做播客要手动拼接，现在直接生成完整音频，省了很多时间。<speaker1>对，而且它还支持方言，我打算试试四川话版本。" \
 --speaker_ref1 audio_ref/speaker1.wav \ # speaker1的参考音频
 --speaker_ref2 audio_ref/speaker2.wav \ # speaker2的参考音频
 --output_audio output/multi_speaker_dialog.wav \
 --sample_rate 44100

3.3 场景3：方言克隆（如四川话）

基于普通话参考音频，生成四川话语音，需加载方言模型，命令如下：

python inference.py \
 --model_path pretrained_models/SoulX-Podcast-1.7B \
 --dialect_model_path pretrained_models/SoulX-Podcast-1.7B-dialect \ # 方言模型路径
 --text "今天天气真好，我们去公园散步吧。" \ # 普通话文本（自动转换为方言语音）
 --speaker_ref audio_ref/my_voice.wav \ # 自己的普通话参考音频（3-5秒）
 --dialect_type sichuan \ # 方言类型（可选：sichuan/henan/cantonese等，见Table 1）
 --output_audio output/dialect_clone.wav \
 --sample_rate 44100

3.4 常用参数说明

为方便用户调整生成效果，下表整理了inference.py的常用参数：

参数名	作用	取值范围/示例
`--text`	输入文本	支持中文、英文，可含<speaker>``<laugh>等标签
`--speaker_ref`	单说话人参考音频路径	需为WAV格式，3-5秒，无噪音
`--dialect_type`	方言类型	sichuan（四川话）、henan（河南话）、cantonese（粤语）等
`--speed`	语速调整	0.8-1.2（默认1.0，0.8为变慢，1.2为变快）
`--volume`	音量调整	0.5-2.0（默认1.0，0.5为变小，2.0为变大）
`--sample_rate`	输出音频采样率	22050/44100（默认22050）

六、常见问题解答（FAQ）

Q1：执行pip install -r requirements.txt时，出现“torch安装失败”怎么办？

A1：torch是项目核心依赖，需与CUDA版本匹配。若自动安装失败，建议手动安装对应版本的torch：

查看CUDA版本：执行nvcc --version（若未安装CUDA，需先安装CUDA 11.6+）；
手动安装torch：例如CUDA 11.8，执行pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118（国内用户可使用阿里云镜像：-i https://mirrors.aliyun.com/pypi/simple/）；
若无GPU，安装CPU版本torch：pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu。

Q2：激活Conda环境时，提示“conda: command not found”怎么办？

A2：这是Conda未添加到系统环境变量导致的：

Windows用户：打开“此电脑→属性→高级系统设置→环境变量”，在“系统变量→Path”中添加Conda的Scripts目录（如D:\Anaconda3\Scripts），重启终端即可；
Linux用户：执行echo 'export PATH="$HOME/anaconda3/bin:$PATH"' >> ~/.bashrc，再执行source ~/.bashrc。

Q3：通过Git LFS下载模型时，出现“error: RPC failed; curl 56 OpenSSL SSL_read: Connection was reset”怎么办？

A3：这是网络不稳定导致的，可尝试以下解决方案：

增大Git缓存：执行git config --global http.postBuffer 524288000（设置为500MB）；
切换网络：使用手机热点或更稳定的网络；
改用download_model.py脚本下载：该脚本支持断点续传，网络中断后重新执行即可继续下载。

Q4：下载的模型文件损坏，执行推理时提示“model file not found”怎么办？

A4：首先检查模型文件是否完整：

基础模型目录（SoulX-Podcast-1.7B）应包含config.json、pytorch_model.bin、vocab.json等文件；
若文件缺失，删除现有目录，重新下载；
若下载后pytorch_model.bin大小为0KB，说明下载中断，需重新执行下载命令。

Q5：生成的语音音色与参考音频差异大，怎么办？

A5：可能的原因及解决方案：

参考音频质量差：确保参考音频无噪音、无背景音乐，仅含目标说话人的声音，时长3-5秒；
参考音频与文本语言不一致：例如用英语参考音频生成普通话语音，会导致音色失真，需确保参考音频语言与生成语言一致；
调整--speaker_weight参数（隐藏参数，需在inference.py中设置）：增大该参数（如1.2）可增强说话人特征的权重，提升相似度。

Q6：生成的方言语音发音不标准，怎么办？

A6：可尝试以下方法：

确认--dialect_type参数是否正确：例如四川话需指定sichuan，而非sichuanhua；
优化输入文本：避免使用生僻词、网络用语，方言模型对标准书面语的适配更好；
更新方言模型：项目会定期更新方言模型，可关注Hugging Face仓库，下载最新版本的方言模型。

Q7：生成长文本时，出现语音卡顿或语义断裂，怎么办？

A7：这是长文本处理的常见问题，解决方案：

降低--max_segment_length参数（默认500字）：在inference.py中设置更小的值（如300字），减少每段处理的文本长度；
确保GPU显存充足：长文本生成需更多显存，若显存不足，可改用CPU推理（速度较慢，但更稳定），或分多次生成短文本后手动拼接。

Q8：SoulX-Podcast的开源许可证是什么？可以商用吗？

A8：项目采用Apache 2.0许可证，允许商用，但需遵守以下条款：

保留版权声明和许可证声明：在商用产品中注明“SoulX-Podcast (c) Soul-AILab, licensed under Apache 2.0”；
不承担 Liability：项目不对商用过程中出现的问题（如语音质量、法律纠纷）承担责任；
专利授权：若项目包含专利技术，许可证授予用户免费使用这些专利的权利。

Q9：使用SoulX-Podcast生成的语音，是否需要获得Soul-AILab的授权？

A9：不需要额外授权。根据Apache 2.0许可证，用户可自由使用、修改、分发项目的代码和生成的语音，无需提前获得Soul-AILab的许可，但需遵守许可证的其他条款（如保留声明）。

七、相关链接

GitHub仓库：https://github.com/Soul-AILab/SoulX-Podcast
Hugging Face模型库：

基础模型：https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B
方言模型：https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect

技术报告：https://arxiv.org/abs/2510.23541

八、总结

SoulX-Podcast作为Soul-AILab开源的播客风格语音生成工具，通过“多轮多说话人对话生成”“跨方言零样本克隆”“副语言控制”三大核心能力，填补了传统TTS在播客、多角色交互等场景的空白。其技术上创新的“说话人-方言特征解耦”“零样本方言迁移”算法，不仅降低了方言语音生成的数据依赖，还确保了语音的真实感和稳定性；同时，项目提供了完整的环境配置、模型下载和推理教程，即使是非专业开发者也能快速上手。在应用层面，它可覆盖播客制作、智能交互、方言保护、教育培训等多个领域，为用户提供低成本、高灵活度的语音生成解决方案。作为一款Apache 2.0许可的开源项目，SoulX-Podcast既支持研究者进行语音生成技术的二次创新，也允许企业将其应用于商用产品，具有较高的技术价值和实用价值。

AI语音生成 TTS 语音克隆开源项目

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/soulx-podcast.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

文章目录

一、SoulX-Podcast是什么？

二、SoulX-Podcast的核心功能特色

1. 多轮多说话人对话语音生成：还原播客交互感

2. 跨方言零样本语音克隆：降低方言使用门槛

3. 副语言控制：提升语音真实感

4. 多语言与方言覆盖：满足多样化场景需求

三、SoulX-Podcast的技术细节

1. 模型整体架构

2. 核心技术创新点

3. 关键技术指标

四、SoulX-Podcast的应用场景

1. 播客与音频节目制作

2. 智能语音交互系统

3. 方言文化保护与传承

4. 教育与培训领域

5. 自媒体与内容创作

五、SoulX-Podcast的使用方法

1. 环境准备

1.1 系统与硬件要求

1.2 安装步骤

2. 模型下载

2.1 方式1：通过huggingface_hub下载（推荐）

2.2 方式2：通过Git LFS下载

2.3 方式3：手动下载

3. 推理生成示例

3.1 场景1：单轮普通话独白

3.2 场景2：多轮多说话人对话

3.3 场景3：方言克隆（如四川话）

3.4 常用参数说明

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章