一个基于Indextts的 AI 有声书制作工具。利用 LLM 自动拆解剧本与识别情绪,集成多角色 TTS 语音合成,支持音效(SFX)、背景音乐(BGM)混音及实时台词音频滤波器的自动插入和匹配,可直接在浏览器导出 mp3 成品,本工具本体无需配置环境即可跨平台在浏览器使用。
先看使用教程:https://www.bilibili.com/video/BV1KSzWByEy7
界面简洁,使用简单,能够一键生成,用户可以对生成的音频内容进行微调。
b站生成效果演示视频:
https://www.bilibili.com/video/BV1AkzLB7E8M
https://www.bilibili.com/video/BV1v2kjB5EKV
https://www.bilibili.com/video/BV1jYkGBqEkL
https://sdsds222.github.io/Unitale/
现已支持台词剪辑和优化编辑器保存功能。
https://cnb.cool/ConyStudio/index-tts-v2
Fork云原生仓库后,即可点击按钮在线启动部署,启动后,在前端TTS配置界面输入云原生项目的port里面的Ip地址即可调用。
IndexTTS的api接口务必使用 https://cnb.cool/ConyStudio/index-tts-v2 的api.py写的接口定义规范,不然不能正常调用。
LLM支持使用各种支持OpenAI通用接口的大模型。
本人测试使用的是Gemini的Openai通用接口。输入Base URL:https://generativelanguage.googleapis.com/v1beta/openai 以及你的APIKEY即可设置完成。
可以在编辑界面点击保存工程按钮,能够保存音色、音效、BGM、滤波器和脚本编辑工作台的所有信息,一定要记得经常保存,页面清空后可以用存档文件恢复所有工作状态。
新手可以先使用制作好的初始工程整合包,里面提供了基础的音色、音效、BGM供使用,在本项目目录里,Unitale工程文件.json
一个自制的 AI 有声故事生成工作台。利用 LLM 深度理解小说文本,实现了音效自动插入、BGM 自动切换、场景滤波器自动设置以及多角色情绪自动演绎的完整自动化编排,在浏览器中一键生成有声音频作品。
AI 自动音效编排:系统能够深度理解文本中的动作描写与环境氛围,自动从本地素材库中检索匹配的音效,并精确计算其在台词念白过程中的插入时间点,无需人工手动对轨。
AI 动态配乐系统:AI 实时分析剧情的情绪起伏与转折,自动判断背景音乐的切入、停止与无缝切换时机,实现配乐与剧情发展的同步。
AI 场景感知滤波器:系统自动检测特殊的对话场景(如“电话通话中”、“内心独白”、“水下对话”、“广播通知”),并自动为对应台词挂载实时音频滤波器,还原真实的物理声场听感。
深度情绪与角色演绎:自动拆分小说段落,精准区分旁白与不同角色,并根据上下文推断角色的情绪强度,产生情绪描述提示词,指导 TTS 生成有感染力的语音表演。
音频资源库默认为空,可以导入项目文件夹里面的json工程存档获取音频资源库,或者按照下面截图的配置进行手动填写:
SFX场景音效资源库:
BGM背景音乐资源库:
支持导出/导入工程文件 (.json),保存所有编辑状态。
高度可配置: 自定义 Prompt 模板、情绪预设、音色库和音效素材库。






