Skip to content

Releases: RapidAI/RapidTTS

Release v1.3.1

29 May 09:45
7f28806

Choose a tag to compare

Bug Fixes

  • 修复 RapidTTS 初始化 Kokoro ONNX 和 MeloTTS ONNX 后端时的参数兼容问题。

    • RapidTTS 会统一向后端传入 engine_cfg_defaults
    • Kokoro ONNX 和 MeloTTS ONNX 后端现已接收该参数,避免出现 unexpected keyword argument 'engine_cfg_defaults'
  • 修复后端默认扩展参数字段不一致导致的初始化/推理失败。

    • 默认配置统一使用 extra_params
    • Kokoro ONNX、MeloTTS ONNX 和 MOSS Nano ONNX 会将 extra_params 注入到运行时 SynthesisRequest.extras
    • 修复 Kokoro ONNX 读取默认 max_phoneme_length 时可能出现的 KeyError: 'extra_params'

Tests

  • 新增真实推理 smoke test,覆盖:

    • Kokoro ONNX
    • MeloTTS ONNX
    • MOSS Nano ONNX
  • 新测试只在默认模型目录中的模型文件存在且校验通过时运行真实 RapidTTS(...).synthesize(...);模型文件不存在或校验不通过时自动跳过,避免 CI 或干净环境触发模型下载。

Validation

  • 全量测试通过:158 passed, 1 skipped
  • 本机默认模型目录存在时,3 个模型真实推理 smoke test 均通过。
  • Wheel 构建验证通过,包内版本为 1.3.1,配置文件已包含 extra_params

Release v1.3.0

29 May 08:56
d378f75

Choose a tag to compare

新增

  • 新增 moss_nano_onnx 后端,支持 MOSS Nano ONNX 本地推理。
  • 新增 MOSS Nano 内置音色合成,默认音色为 Junhao
  • 新增 MOSS Nano 参考音频克隆能力,可通过 SynthesisRequest.extras["prompt_audio_path"] 传入参考音频。
  • 新增 MOSS Nano 模型资产配置,基础模型文件和 prompt_audio_encoder 可选文件组均支持 SHA256 校验。
  • 新增 rapidtts[moss_nano] extra,按需安装 librosasentencepiece
  • 新增通用 ONNX Runtime 推理封装,支持从 engine_config.yaml 读取 session options 和 provider 配置。
  • 新增音频保存后端抽象,支持 soundfile 和 Python 标准库 wave 写入。
  • 新增 post-TN 文本清洗器,提升复杂符号、Markdown, URL、文件名和中英混排文本进入 TTS 前的鲁棒性。
  • 新增在线 Demo, Star history 和 git-cliff changelog 模板。

改进

  • RapidTTS 现在可以通过 TTSModel.MOSS_NANO_ONNX 创建 MOSS Nano 后端。
  • rapidtts downloadrapidtts check 新增 --group--no-base-files 参数,用于下载或检查可选模型文件组。
  • MOSS Nano 在使用参考音频时会按需下载 prompt_audio_encoder,只使用内置音色时无需下载该可选文件组。
  • 模型配置中的后端扩展参数统一收敛到 request.extras
  • SynthesisResponse.save() 现在返回保存路径,并按响应指定的音频保存后端写入文件。
  • get_capability()get_voices() 文档与 CLI 示例更新,覆盖 MOSS Nano, Kokoro 和 MeloTTS 后端。
  • 示例脚本更新为 MOSS Nano 参考音频克隆示例。

文档

  • 更新 README,补充 MOSS Nano 安装、Python API, CLI 示例和内置音色说明。
  • 更新安装文档,补充 rapidtts[moss_nano]prompt_audio_encoder 可选模型文件组说明。
  • 更新模型文档,补充 MOSS Nano 模型大小、默认采样率、默认音色、内置音色列表和参考音频克隆用法。
  • 更新 Python API 文档,补充 TTSModel.MOSS_NANO_ONNXvoiceprompt_audio_path、自定义模型目录等示例。
  • 更新 CLI 文档,补充 MOSS Nano 的 textinfovoicesdownloadcheck 用法。

测试

  • 新增 MOSS Nano 参考音频处理、内置音色、能力查询和可选模型文件组相关单元测试。
  • 扩展 CLI 测试,覆盖可选模型文件组下载、检查和依赖提示。
  • 扩展 setup 依赖测试,确保 moss_nano extra 与默认依赖隔离。

说明

  • MOSS Nano 当前按模型输出返回 48000 Hz 音频,后处理不做语速变换。
  • MOSS Nano 参考音频克隆需额外使用 prompt_audio_encoder 可选模型文件组;内置音色合成不需要该文件组。
  • MOSS Nano 内置音色名称来自模型 manifest,仅作为音色 ID 使用,官方论文和 README 未披露这些预设音色的具体来源。

Full Changelog: https://github.com/RapidAI/RapidTTS/compare/v1.2.0..v1.3.0

Release v1.2.0

12 May 03:34
2013524

Choose a tag to compare

主要更新日志:

  • 新增 Kokoro ONNX 后端支持,作为当前默认 TTS 模型。
  • 支持通过 CLI 和 Python API 查询模型能力,包括语言、默认音色和可用音色列表。
  • CLI rapidtts text 支持通过 --voice 指定音色。
  • Python API 统一通过 SynthesisRequest.voice 指定音色。
  • 优化模型下载、校验和安装检查流程,模型文件支持自动下载并进行 SHA256 校验。
  • 重构文档结构,补充安装、CLI、Python API、模型信息和开发说明。

Release v1.1.0

09 May 10:32
5835b88

Choose a tag to compare

  • 文本归一化能力明显扩展:日期、金额、百分比、车牌、订单号、房号、状态码、A股、GB、英文百分比等。
  • 预处理链路有行为变化:MeloONNXPreprocessor.run() 先整体 normalize,再避免二次 normalize。
  • 中英混合 G2P 对大写字母的处理也变了。
  • 新增了规则模块、风险检测模块、golden corpus 和测试体系。

Release v1.0.1

07 May 10:36
62bb012

Choose a tag to compare

Release v1.0.0

07 May 08:53
7ef3492

Choose a tag to compare

Release v0.0.2

30 Apr 01:26
e2b308a

Choose a tag to compare

Release v0.0.1

10 May 00:38

Choose a tag to compare

说明

  • 该版本基于PaddleSpeech中TTS项目转换而来,支持的场景比较有限,作为备份,发版