Releases: RapidAI/RapidTTS
Releases · RapidAI/RapidTTS
Release v1.3.1
Bug Fixes
-
修复
RapidTTS初始化 Kokoro ONNX 和 MeloTTS ONNX 后端时的参数兼容问题。RapidTTS会统一向后端传入engine_cfg_defaults。- Kokoro ONNX 和 MeloTTS ONNX 后端现已接收该参数,避免出现
unexpected keyword argument 'engine_cfg_defaults'。
-
修复后端默认扩展参数字段不一致导致的初始化/推理失败。
- 默认配置统一使用
extra_params。 - Kokoro ONNX、MeloTTS ONNX 和 MOSS Nano ONNX 会将
extra_params注入到运行时SynthesisRequest.extras。 - 修复 Kokoro ONNX 读取默认
max_phoneme_length时可能出现的KeyError: 'extra_params'。
- 默认配置统一使用
Tests
-
新增真实推理 smoke test,覆盖:
- Kokoro ONNX
- MeloTTS ONNX
- MOSS Nano ONNX
-
新测试只在默认模型目录中的模型文件存在且校验通过时运行真实
RapidTTS(...).synthesize(...);模型文件不存在或校验不通过时自动跳过,避免 CI 或干净环境触发模型下载。
Validation
- 全量测试通过:
158 passed, 1 skipped - 本机默认模型目录存在时,3 个模型真实推理 smoke test 均通过。
- Wheel 构建验证通过,包内版本为
1.3.1,配置文件已包含extra_params。
Release v1.3.0
新增
- 新增
moss_nano_onnx后端,支持 MOSS Nano ONNX 本地推理。 - 新增 MOSS Nano 内置音色合成,默认音色为
Junhao。 - 新增 MOSS Nano 参考音频克隆能力,可通过
SynthesisRequest.extras["prompt_audio_path"]传入参考音频。 - 新增 MOSS Nano 模型资产配置,基础模型文件和
prompt_audio_encoder可选文件组均支持 SHA256 校验。 - 新增
rapidtts[moss_nano]extra,按需安装librosa和sentencepiece。 - 新增通用 ONNX Runtime 推理封装,支持从
engine_config.yaml读取 session options 和 provider 配置。 - 新增音频保存后端抽象,支持
soundfile和 Python 标准库wave写入。 - 新增 post-TN 文本清洗器,提升复杂符号、Markdown, URL、文件名和中英混排文本进入 TTS 前的鲁棒性。
- 新增在线 Demo, Star history 和
git-cliffchangelog 模板。
改进
RapidTTS现在可以通过TTSModel.MOSS_NANO_ONNX创建 MOSS Nano 后端。rapidtts download和rapidtts check新增--group、--no-base-files参数,用于下载或检查可选模型文件组。- MOSS Nano 在使用参考音频时会按需下载
prompt_audio_encoder,只使用内置音色时无需下载该可选文件组。 - 模型配置中的后端扩展参数统一收敛到
request.extras。 SynthesisResponse.save()现在返回保存路径,并按响应指定的音频保存后端写入文件。get_capability()和get_voices()文档与 CLI 示例更新,覆盖 MOSS Nano, Kokoro 和 MeloTTS 后端。- 示例脚本更新为 MOSS Nano 参考音频克隆示例。
文档
- 更新 README,补充 MOSS Nano 安装、Python API, CLI 示例和内置音色说明。
- 更新安装文档,补充
rapidtts[moss_nano]和prompt_audio_encoder可选模型文件组说明。 - 更新模型文档,补充 MOSS Nano 模型大小、默认采样率、默认音色、内置音色列表和参考音频克隆用法。
- 更新 Python API 文档,补充
TTSModel.MOSS_NANO_ONNX、voice、prompt_audio_path、自定义模型目录等示例。 - 更新 CLI 文档,补充 MOSS Nano 的
text、info、voices、download、check用法。
测试
- 新增 MOSS Nano 参考音频处理、内置音色、能力查询和可选模型文件组相关单元测试。
- 扩展 CLI 测试,覆盖可选模型文件组下载、检查和依赖提示。
- 扩展 setup 依赖测试,确保
moss_nanoextra 与默认依赖隔离。
说明
- MOSS Nano 当前按模型输出返回 48000 Hz 音频,后处理不做语速变换。
- MOSS Nano 参考音频克隆需额外使用
prompt_audio_encoder可选模型文件组;内置音色合成不需要该文件组。 - MOSS Nano 内置音色名称来自模型 manifest,仅作为音色 ID 使用,官方论文和 README 未披露这些预设音色的具体来源。
Full Changelog: https://github.com/RapidAI/RapidTTS/compare/v1.2.0..v1.3.0
Release v1.2.0
主要更新日志:
- 新增 Kokoro ONNX 后端支持,作为当前默认 TTS 模型。
- 支持通过 CLI 和 Python API 查询模型能力,包括语言、默认音色和可用音色列表。
- CLI
rapidtts text支持通过--voice指定音色。 - Python API 统一通过
SynthesisRequest.voice指定音色。 - 优化模型下载、校验和安装检查流程,模型文件支持自动下载并进行 SHA256 校验。
- 重构文档结构,补充安装、CLI、Python API、模型信息和开发说明。
Release v1.1.0
- 文本归一化能力明显扩展:日期、金额、百分比、车牌、订单号、房号、状态码、A股、GB、英文百分比等。
- 预处理链路有行为变化:MeloONNXPreprocessor.run() 先整体 normalize,再避免二次 normalize。
- 中英混合 G2P 对大写字母的处理也变了。
- 新增了规则模块、风险检测模块、golden corpus 和测试体系。
Release v1.0.1
Full Changelog: v1.0.0...v1.0.1
Release v1.0.0
Full Changelog: v0.0.2...v1.0.0
Release v0.0.2
Full Changelog: v0.0.1...v0.0.2
Release v0.0.1
说明
- 该版本基于PaddleSpeech中TTS项目转换而来,支持的场景比较有限,作为备份,发版