AI 语音 - 人物音色训练

前情提要

2023-07-02 周日 杭州 阴晴不定

AI 入门三大项,AI 绘画基础学习,AI 语音合成,AI 智能对话训练,进入 AI 语音合成阶段了,搓搓小手很激动的,对于一个五音不全的我来说,这个简直了(摆脱了低级趣味,保留点好色就够了);

** 时间线 **
a. 2021 年函数计算编程大赛;
b. 2022 年东数西算架构设计;
c. 2023 年人工智能创纪元;

实践手册

1. 安装 UVR_v5.5.0

2. 人声提取

2.a 混音分离

2.b 干声提取

2.c 提取自己声音

吐槽: bilibili 太不是人了,上传的视频居然不能下载,只能用其他工具才能搞下来,还好只是要用视频提取语音,浪费时间的行为真的烦。

B站视频解析: https://bilibili.iiilab.com/

** 准备自己的语音和视频资源 **
时长: 10-30min
片段: 3-10
备注: 没有去录音棚特意录制音频,最后的效果应该会差强人意吧,但是只能苦哈哈了,还好之前存了些视频资源,不然这次真的就难过了。

2.d 音频切片

备注: 音频文件重命名(同理 BAT)

3. 人声训练

3.a 人声训练集

3.b 启动 so-vits-svc

双击启动webui.bat

3.c 数据预处理

说明: 数据预处理的话,需要小心爆显存的问题,可以通过预测器的切换进行数据预处理,这个一般的配置也是 8G 显存起步才可以,否则的话,数据预处理就无法通过的;

处理办法: 删除音频时间超过 20S 或者小于 10s 的音频,数据预处理完成以后继续下一步训练过程,正常结束应该如下图所示:

3.d 音色训练

说明: 训练过程需要持续 1-7d 左右,主要是因为自己的算力一般,也不能说电脑算力太差,只是 AI 就是吃算力的,还好训练好音色模型以后就可以往任何的歌曲上嵌套,因此音色训练的时间至少需要持续1周左右,此过程电脑最好不要关闭,及时关闭,训练也要基于上次进行;

4. 训练监控

打开监控面板:

总结

太多坑了,一不小心就会栽进去的,这东西没办法高谈阔论的,必须事必躬亲,不过一般完整走一遍流程基本就掌握了,我现在还没有那么想熟悉代码,gpu 碎片回收机制,代码优化还有很多可以做的,不过这次倒不急,及也急不来的。对于学习人工智能的小朋友们,虽说研究生阶段一般实验室会配备算力设备并且可以报销,但是自己的电脑性能最好还是要跟上才可以的,AI 真的不是穷人的游戏,配置在2万左右的游戏本也不过是入门级别的配置,不过该花的钱还是要花的,不然设备差一个级别,那么你可能落后别人一年甚至数年。少拿天赋说事,不在同一个环境你连参与竞争的机会都没有的。

附录

开源 mp3 下载地址: https://tonzhon.com/playlists/6442733bc6d7bdf6d5155629
视频转音频: https://www.aigei.com/tool/video/audio
音频转换: https://app.xunjieshipin.com/mp3-to-wav/
B站解码器: https://bilibili.iiilab.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/8141.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring容器获取Bean的9种方式 | 京东云技术团队

1 前言 随着SpringBoot的普及,Spring的使用也越来越广,在某些场景下,我们无法通过注解或配置的形式直接获取到某个Bean。比如,在某一些工具类、设计模式实现中需要使用到Spring容器管理的Bean,此时就需要直接获取到对…

4.设计模式之后七种模式后11种模式命令访问者迭代器发布订阅中介者忘备录解释器状态策略职责链和空模式

1.命令(command)模式 不知道命令接收者(对象)是谁,支持撤销 (接受者 间接调用执行 的具体行为) 命令调用者和接收者解耦 //只要实现命令接口即可 (就是客户端给个命令,然后命令类传给接收类执行) 优点和缺点 容易撤销操作 命令队列可以多线程操作 增加过多的命令类 空命令也是一…

Devops之制品库平台实践-nexus

Devops之制品库平台实践-nexus 目录 本节实践 实战名称💘 实践:配置Maven代理仓库(测试成功)-2022.6.7💘 实践:创建Maven本地仓库(依赖)-2022.6.10(测试成功)💘 实践:创建Raw本地仓…

SpringCloudAlibaba实战入门之RocketMQ消息发送(六)

本篇文章是承接上一篇文章《SpringCloudAlibaba实战入门之RocketMQ下载配置和启动(五)》,如果没有看过上一篇文章并按照指导配置和启动Rocket MQ的网友,请先阅读该篇文章以后再阅读本篇 一、创建spring-cloud-rocketmq项目 1、复制之前的项目模块新建一个项目模块,修改新…

自定义MVC引用XML配置文件实现

目录 前言 自定义MVC实现 1. 导入XML配置文件 2. 导入XML解析建模 3. 优化中央控制器 3.1 修改DisPathServlet中init初始化方法 3.2 修改ActionServlet逻辑处理流程 3.3 通过反射机制实例化子控制器类 3.4 中央控制器将请求委托给子控制器处理 3.5 根据请求结果码跳…

electron报错Error: Object has been destroyed

问题描述 在 Electron 中,当一个窗口被销毁后,与该窗口相关联的 JavaScript 对象也会被销毁,再次访问已被销毁的窗口对象时,会导致 Error: Object has been destroyed 错误。 例如之前在写多窗口pinia状态同步 / 多窗口样式同步的…

【PHP语言-PDO接口】PDO接口执行脚本操作数据库

目录 前言: 一、 PDO简介 二、 PDO对象方法 前言: PDO:数据库抽象层 简介:PDO扩展为PHP访问数据库定义了一个轻量级的、一致性的接口,PDO解决了数据库连接不统一的问题。 一、 PDO简介 1、PDO简介 (1…

趣谈MySQL 多个%等模糊查询

一、建表并插入数据 1、创建一个people表 DROP TABLE IF EXISTS people; CREATE TABLE people (id int NOT NULL COMMENT 主键,name varchar(45) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL COMMENT 姓名,sex tinyint NOT NULL COMMENT 性别,age int NOT N…

matlab——制作箱线图

在数据分析中,如果不知道数据分布的情况下很难判断中位数是否有效或者存在离群点。 离群点指偏离大多数点规律的点。 为了更有效对整体数据进行划分,提出四分位点的概念。即选取概念下界、0.25位点、0.75位点、概念上界。 有一种专门表现四分位点的图像叫…

2023年7月2日leetcode每日一题打卡——125.验证回文串

一、题目描述与要求 125. 验证回文串 - 力扣(LeetCode) 题目描述 如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后,短语正着读和反着读都一样。则可以认为该短语是一个 回文串 。 字母和数字都属于字母数字字符。 给…

Android仿淘宝、京东、拼多多搜索历史

详情见代码 :https://github.com/yixiaolunhui/FSearchHistory

ECShop 权限管理

如何增加一个新的权限 1、配置菜单所对应的权限code admin/includes/inc_priv.php $purview[02_cost_list] cost_list; 2、配置菜单的语言 languages/zh_cn/admincommon.php $_LANG[02_cost_list] 成本明细; 3、配置权限code的语言 languages/zh_cn/admin/priv_action.p…