PaddleSpeech
docker run -it -p 8880-8889:8880-8889 --gpus all initialencounter/paddlespeech:ttsfinetune-latest /bin/bash
镜像集成了 jupyterlab,进入容器后,可通过以下命令开启服务。
jupyter lab --ip=0.0.0.0 --port=8880 --allow-root --notebook-dir=/home/aistudio
Finetune 教程
- 1.将你的语音文件放到 work/init 目录下
可通过 docker cp 或者 scp 将你的语音文件放到这个目录 语音文件要求
- 2.开始训练
- 对于萌新
直接运行
python main.py
- 有一定深度学习经验的朋友
可以编辑 main.py 里的代码 根据自己的 需要来微调模型
- 对于萌新
同时支持将微调后的模型部署为 FastAPI
- 修改 app.py 文件
cd /home/aistudio/initialencunter/PaddleSpeech
# 将 model 替换为你的exp_name
am_inference_dir = os.path.abspath("/home/aistudio/inferrence/init")
# 如果你的 exp_name 为 "demo"
# 则将代码修改为
am_inference_dir = os.path.abspath("/home/aistudio/inferrence/demo")
- 启动接口
python app.py
问题反馈
-
QQ 群:399899914
-
小伙伴如果遇到问题或者有新的想法,欢迎到这里反馈哦~
语音文件要求
对于语音合成任务,对数据是有 一定要求的,尽可能上传干净的人声数据,比如像示例中的人声数据,在安静环境下录制,录制设备无论是手机,电脑,还是别的设备都可以,注意一定要控制噪音,或者提前使用音频剪辑软件进行降噪。(一定要是中文数据,这个项目目前只支持中文数据!!其它语言预标注环节会出错!)
- 1.音频不要太长,也不要太短,2s~10s 之间,音频太长会报错!
- 2.音频尽量是干净人声,不要有 BGM,不要有比较大的杂音,不要有一些奇奇怪怪的声效,比如回声等
- 3.声音的情绪尽量稳定,以说话的语料为主,不要是『嗯』『啊』『哈』之类的语气词
- 4.音频数量大于 5 条!!否则会报错!! 关于录音工具的选择: 你可以使用一些在线运行的录音工具或者 【Adobe Audition】,【Cool Edit Pro】, 【Audacity】 等录音软件录制音频,保存为 24000 采样率的 Wav 格式 也可以通过手机录音后,使用格式工厂等格式转换软件,将手机录音转换成 Wav 格式后上传到这个项目中。