Releases · RapidAI/RapidTTS · GitHub

29 May 09:45

SWHL

Release v1.3.1 Latest

Latest

Bug Fixes

修复 RapidTTS 初始化 Kokoro ONNX 和 MeloTTS ONNX 后端时的参数兼容问题。
- RapidTTS 会统一向后端传入 engine_cfg_defaults。
- Kokoro ONNX 和 MeloTTS ONNX 后端现已接收该参数，避免出现 unexpected keyword argument 'engine_cfg_defaults'。
修复后端默认扩展参数字段不一致导致的初始化/推理失败。
- 默认配置统一使用 extra_params。
- Kokoro ONNX、MeloTTS ONNX 和 MOSS Nano ONNX 会将 extra_params 注入到运行时 SynthesisRequest.extras。
- 修复 Kokoro ONNX 读取默认 max_phoneme_length 时可能出现的 KeyError: 'extra_params'。

Tests

新增真实推理 smoke test，覆盖：
- Kokoro ONNX
- MeloTTS ONNX
- MOSS Nano ONNX
新测试只在默认模型目录中的模型文件存在且校验通过时运行真实 RapidTTS(...).synthesize(...)；模型文件不存在或校验不通过时自动跳过，避免 CI 或干净环境触发模型下载。

Validation

全量测试通过：158 passed, 1 skipped
本机默认模型目录存在时，3 个模型真实推理 smoke test 均通过。
Wheel 构建验证通过，包内版本为 1.3.1，配置文件已包含 extra_params。

Assets 2

29 May 08:56

SWHL

Release v1.3.0

新增

新增 moss_nano_onnx 后端，支持 MOSS Nano ONNX 本地推理。
新增 MOSS Nano 内置音色合成，默认音色为 Junhao。
新增 MOSS Nano 参考音频克隆能力，可通过 SynthesisRequest.extras["prompt_audio_path"] 传入参考音频。
新增 MOSS Nano 模型资产配置，基础模型文件和 prompt_audio_encoder 可选文件组均支持 SHA256 校验。
新增 rapidtts[moss_nano] extra，按需安装 librosa 和 sentencepiece。
新增通用 ONNX Runtime 推理封装，支持从 engine_config.yaml 读取 session options 和 provider 配置。
新增音频保存后端抽象，支持 soundfile 和 Python 标准库 wave 写入。
新增 post-TN 文本清洗器，提升复杂符号、Markdown, URL、文件名和中英混排文本进入 TTS 前的鲁棒性。
新增在线 Demo, Star history 和 git-cliff changelog 模板。

改进

RapidTTS 现在可以通过 TTSModel.MOSS_NANO_ONNX 创建 MOSS Nano 后端。
rapidtts download 和 rapidtts check 新增 --group、--no-base-files 参数，用于下载或检查可选模型文件组。
MOSS Nano 在使用参考音频时会按需下载 prompt_audio_encoder，只使用内置音色时无需下载该可选文件组。
模型配置中的后端扩展参数统一收敛到 request.extras。
SynthesisResponse.save() 现在返回保存路径，并按响应指定的音频保存后端写入文件。
get_capability() 和 get_voices() 文档与 CLI 示例更新，覆盖 MOSS Nano, Kokoro 和 MeloTTS 后端。
示例脚本更新为 MOSS Nano 参考音频克隆示例。

文档

更新 README，补充 MOSS Nano 安装、Python API, CLI 示例和内置音色说明。
更新安装文档，补充 rapidtts[moss_nano] 和 prompt_audio_encoder 可选模型文件组说明。
更新模型文档，补充 MOSS Nano 模型大小、默认采样率、默认音色、内置音色列表和参考音频克隆用法。
更新 Python API 文档，补充 TTSModel.MOSS_NANO_ONNX、voice、prompt_audio_path、自定义模型目录等示例。
更新 CLI 文档，补充 MOSS Nano 的 text、info、voices、download、check 用法。

测试

新增 MOSS Nano 参考音频处理、内置音色、能力查询和可选模型文件组相关单元测试。
扩展 CLI 测试，覆盖可选模型文件组下载、检查和依赖提示。
扩展 setup 依赖测试，确保 moss_nano extra 与默认依赖隔离。

说明

MOSS Nano 当前按模型输出返回 48000 Hz 音频，后处理不做语速变换。
MOSS Nano 参考音频克隆需额外使用 prompt_audio_encoder 可选模型文件组；内置音色合成不需要该文件组。
MOSS Nano 内置音色名称来自模型 manifest，仅作为音色 ID 使用，官方论文和 README 未披露这些预设音色的具体来源。

Full Changelog: https://github.com/RapidAI/RapidTTS/compare/v1.2.0..v1.3.0

Assets 2

12 May 03:34

SWHL

Release v1.2.0

主要更新日志：

新增 Kokoro ONNX 后端支持，作为当前默认 TTS 模型。
支持通过 CLI 和 Python API 查询模型能力，包括语言、默认音色和可用音色列表。
CLI rapidtts text 支持通过 --voice 指定音色。
Python API 统一通过 SynthesisRequest.voice 指定音色。
优化模型下载、校验和安装检查流程，模型文件支持自动下载并进行 SHA256 校验。
重构文档结构，补充安装、CLI、Python API、模型信息和开发说明。

Assets 3

09 May 10:32

SWHL

Release v1.1.0

文本归一化能力明显扩展：日期、金额、百分比、车牌、订单号、房号、状态码、A股、GB、英文百分比等。
预处理链路有行为变化：MeloONNXPreprocessor.run() 先整体 normalize，再避免二次 normalize。
中英混合 G2P 对大写字母的处理也变了。
新增了规则模块、风险检测模块、golden corpus 和测试体系。

Assets 2

07 May 10:36

SWHL

Release v1.0.1

Full Changelog: v1.0.0...v1.0.1

Assets 3

07 May 08:53

SWHL

Release v1.0.0

Full Changelog: v0.0.2...v1.0.0

Assets 2

30 Apr 01:26

SWHL

Release v0.0.2

Full Changelog: v0.0.1...v0.0.2

Assets 2

10 May 00:38

SWHL

Release v0.0.1

说明

该版本基于PaddleSpeech中TTS项目转换而来，支持的场景比较有限，作为备份，发版

Assets 2