GPT-SoVits:语音克隆,语音融合

img

首发网站 https://tianfeng.space

前言

  • 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  • 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  • 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
  • WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

使用

安装

https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

img

同时下载权重文件放入相应文件夹img

img

如果网速不好,怕麻烦,百度网盘:

链接: https://pan.baidu.com/s/1jeub2AzO6SeGge_YTimirQ 提取码: 2qkp

准备数据

虽然几分钟即可训练,但是声音数据半个小时到一个小时更好,吐字清晰,格式最好WAV

解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI

img

来到页面,勾选开启UVR5,自动跳转webui(如果你的数据有杂音和伴奏)

img

去伴奏

填入你音频文件路径或拖拽你的文件,HP2伴奏分离,然后依次是人声与伴奏声保存路径,导出格式WAV

img

然后文件就在改路径下vocal(人声)

img

去混响延时

输入去玩伴奏的人声音频路径,输出依然是哪个文件夹下带vocal(人声)

img

xiaoqi_train.wav我改名的去伴奏去混响最终文件

img

分割音频

关闭UVR5,切分音频,填入文件路径,其他默认

img

降噪

输入切分的文件夹路径

img

ASR

输入降噪后音频文件,中文选达摩,英文whisper

img

数据清洗

勾选webui,输入ASR输出文件路径

img

主要这几个就够用了,修改文字对应音频,删除一些杂乱语音,合并一些过短语音,最后保存退出

img

训练集格式化

填入实验名和路径,其他默认

img

点击一键三连,一次全部运行(E:\BaiduNetdiskDownload\GPT-SoVITS-beta0306fix2\logs\xiaoqi生成五个文件)img

微调训练

8G显存,按照我这个设置,时长几分钟,SOVITS训练轮数25以下够了,时长抄半小时,语音吐字清晰,训练轮数100,200都可以,学习率权重适当降低,否则默认,显卡大于8G,batch size可以加大,GPT训练25轮一般效果不错

img

训练上线无法超过25问题解决,编辑器打开webui.py

img

大概830行左右,修改200即可

img

模型路径

img

推理

勾选TTS webui

img

来到

img

GPT25轮效果不错,SOVITS选择轮数最高的,因为我音频大概35分钟,训练久点效果更好

如果参考音频选择训练音频则推理出的声音更符合训练集音色,如果看看音频为非训练集音频,则为音频融合(音色融合),切分方式我感觉凑四句一切效果较好

还可以输入日文转英语,有那味了,

其他更多有待自己尝试了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/689581.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

去哪里找高清视频素材?推荐几个短视频素材免费网站

在数字时代,视频内容的质量直接影响观众的吸引力和留存率。尤其是高清、4K视频素材和可商用素材,它们在提升视觉质量和叙事深度方面起到了至关重要的作用。以下是一些国内外的顶级视频素材网站,它们提供的资源将为您的创作提供极大的支持和灵…

OGG几何内核开发-BRepAlgoAPI_Fuse与BRep_Builder.MakeCompound比较

最近在与同事讨论BRepAlgoAPI_Fuse与BRep_Builder.MakeCompound有什么区别。 一、从直觉上来说,BRepAlgoAPI_Fuse会对两个实体相交处理,相交的部分会重新的生成相关的曲面。而BRep_Builder.MakeCompound仅仅是把两个实体组合成一个新的实体,…

VTK官方示例

VTK官方示例 -vtk字體 #!/usr/bin/env python# noinspection PyUnresolvedReferences import vtkmodules.vtkInteractionStyle # noinspection PyUnresolvedReferences import vtkmodules.vtkRenderingFreeType # noinspection PyUnresolvedReferences import vtkmodules.vtk…

matlab的imclose()详解

J imclose(I,SE) J imclose(I,nhood) 说明 J imclose(I,SE) 使用结构元素 SE 对灰度或二值图像 I 执行形态学闭运算。形态学闭运算是先膨胀后腐蚀,这两种运算使用相同的结构元素。 J imclose(I,nhood) 对图像 I 执行闭运算,其中 nhood 是由指定结…

配置Docker对象与管理守护进程

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 本章节的快速目录导航: 一、配置Docker对象 1.1、Docker对象的标记 1.2、格式化命令和日志的输出 二、示例: 2.1、管理…

Android 13 系统自定义安全水印

效果 源码实现 frameworks/base/services/core/java/com/android/server/am/ActivityManagerService.java public final void showSafeModeOverlay() {View v = LayoutInflater.from(mContext).inflate(com.android.internal.R.layout.safe_mode, null);WindowManager.LayoutP…

【GESP】2023年12月图形化二级 -- 小杨报数

小杨报数 【题目描述】 小杨需要从 1 1 1到 N N N报数。在报数过程中,小杨希望跳过 M M M的倍数。例如,如果 N 5 N5 N5, M 2 M2 M2,那么小杨就需要依次报出 1 1 1, 3 3 3, 5 5 5。 默认小猫角色和白色背…

土地档案管理关系参考论文(论文 + 源码)

【免费】javaEE土地档案管理系统.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89296786 土地档案管理关系 摘 要 研究土地档案管理关系即为实现一个土地档案管理系统。土地档案管理系统是将现有的历史纸质档案资料进行数字化加工处理,建成标准化的…

LeetCode 106.从中序与后序遍历序列构造二叉树

LeetCode 106.从中序与后序遍历序列构造二叉树 1、题目 题目链接:106. 从中序与后序遍历序列构造二叉树 给定两个整数数组 inorder 和 postorder ,其中 inorder 是二叉树的中序遍历, postorder 是同一棵树的后序遍历,请你构造并…

uniapp管理后台编写,基于uniadmin和vue3实现uniapp小程序的管理后台

一,创建uniAdmin项目 打开开发者工具Hbuilder,然后点击左上角的文件,点新建,点项目。如下图。 选择uniadmin,编写项目名,然后使用vue3 记得选用阿里云服务器,因为最便宜 点击创建,等待项目创…

【Rollup】用rollup从0到1开发一个js插件并发布到npm

Rollup 是一个 JavaScript 模块打包器,专注于打包 ES6 模块将其编译回多种模块化格式,尤其适合打包库和框架,因为它可以生成更小、更高效的代码,并且特别适合将代码打包成可在浏览器中使用的库。 从0到1开发js插件 1.创建文件夹…

【打工日常】云原生之搭建一款轻量级的开源Markdown笔记工具

一、flatnotes介绍 1.flatnotes简介 一个自托管的,无数据库的笔记网络应用程序,利用平面文件夹的markdown文件进行存储。 2.项目特点 A.干净简单的用户界面B.响应式移动端界面C.原生/所见即所得Markdown编辑模式D.高级搜索功能E.笔记“标签”功能F.…