ViSQOL、PESQ、mosnet等mos分打分工具和Polqa语音感知音质打分测评

原创:转载需附链接:
https://blog.csdn.net/qq_37100442/article/details/132057139?spm=1001.2014.3001.5502

一、背景

Mos分评价音质重要指标,最近也有很多机构和公司在研究适合自己的评价体系。目前Mos分主要分为主观评测和客观感知评价。其中客观感知评价由于方便和节省人力,被大众研究。本文章以标准polqa的mos分为可信前提,验证visqol、pesq、mosnet与polqa的一致性,以及visqol的可信度验证;主要用于 编解码、 降噪、回声消除等算法的感知效果进行打分,从而促进算法的迭代和可信度;

二、评价方式综述

       1、主观评价

               1) 优点主观测试是音频评价的黄金准则,最符合人的实际听感。

               2) 缺点主观评测费时费力,测试者太少、测试者不规范等都会带来测试误差;

               3) 常用方法:AB-TEST, MUSHAR

        2、客观打分

                1) 缺点:不能够完全符合人的听觉感知,存在听感好打分低的情况;

                2) 优点:方便测试和开发人员,快速验证语音的相对质量,方便日常工作,提升开发                         和测试效率;

                3) 常用方案:有参考(POLQA, PESQ, VISQOL)和无参考(ITU-TP.1201传统方法                          和  MOSNET的AI打分)

二、打分维度和一致性对比

         1、打分维度:

           结论:Visqol支持对时间帧和频率轴的各个频带进行打分(如下图所示),并且支持16khz和48khz;pesq只有最后的评分结果,拿不到时间和频率的细节打分,并且仅支持8kh和16khz打分;Mosnet为无参考打分;

2、一致性对比:

         结论:visqol和polqa的一致性更高, pesq颗粒度不够, mosnet(AI无参考模型)表现最差;

注:SMD48和SMD49,SMD50和SMD51,SMD271和SMD272这三对音频各对的音源相同,并且每对的后者都针对前者做了过认证优化。

三、visqol可信度测评

        从一些常见维度对语音进行损伤,测试visqol是否符合听感判断。

1、音量的影响:

        结论:音量差异影响不大,但是当降低-18db开始分数降低;

​​​​2、混响的影响:

        结论:混响音响较大,加入混响分数就开始降低,但是混响大小影响有规律

3、噪音的影响:

      结论:噪音影响很大,加入噪音分数就明显降低,但是不同信噪比变化有规律

4、频带缺失的影响

        结论:频带缺失影响打分较大,但是不同的频带模型还是能够匹配降低不同的分值;

四、总结

        visqol和polqa有较高的一致性(可能有幸存者偏差,但是拿到的数据是我们过认证的随机音频),visqol也存在和听感不符合的打分,例如加入轻微混响和噪音都会对打分有影响;但是混响和噪音的影响随着RT60和SNR的变化是有规律的,如果在降噪和混响模型的测试,也具相对意义,可以进行研发的自测;

参考文献:

       1、 https://github.com/google/visqol

       2、Objective Measure of Perceptual Audio Quality

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/56627.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【项目多人协作的困扰】git-cli 解决 git merge 合并时 lock 文件变化,忘记重新安装依赖的问题

项目多人协作的困扰 相信大家多多少少都遇到过,当主线分支的代码,合入到自己的分支的时候,如果这时候,主线中有一些依赖的更新或者添加或者删除,如果合入之后,没有及时的install的话,项目启动的…

从零构建深度学习推理框架-6 构建计算图

PNNX PNNX项目 PyTorch Neural Network eXchange(PNNX)是PyTorch模型互操作性的开放标准。PNNX为PyTorch提供了一种开源的模型格式,它定义了与Pytorch相匹配的数据流图和运算图,我们的框架在PNNX之上封装了一层更加易用和简单的计…

[Flask]SSTI1

根据题目提示,这关应该是基于Python flask的模版注入,进入靶场环境后就是一段字符串,而且没有任何提示,有点难受,主要是没有提示注入点 随机尝试一下咯,首先尝试一下guest,GET传参 但是没有反应…

Docker制作SpringBoot镜像

Dcokerfile目录 编写Dockerfile FROM openjdk:8 #发布到网上时只会把jar包和Dockerfile发布上去RUN mkdir -p /opt/javaCOPY app.jar /opt/java/app.jar #地址映射 #CMD ["--server.port8080"] #对外暴露端口(可以任意修改) EXPOSE 15009 #执行命令 #ENTRYPOINT [&q…

【SOP】最佳实践之 TiDB 业务写变慢分析

作者: 李文杰_Jellybean 原文来源: https://tidb.net/blog/d3d4465f 前言 在日常业务使用或运维管理 TiDB 的过程中,每个开发人员或数据库管理员都或多或少遇到过 SQL 变慢的问题。这类问题大部分情况下都具有一定的规律可循,…

Python Opencv实践 - 基本图像IO操作

import numpy as np import cv2 as cv import matplotlib.pyplot as plt#读取图像 #cv2.IMREAD_COLOR: 读取彩色图像,忽略alpha通道,也可以直接写1 #cv2.IMREAD_GRAYSCALE: 读取灰度图,也可以直接写0 #cv2.IMREAD_UNCHANGED: 读取…

2023中国数字人力峰会|用「消失的Ta」解读数字化人效管理

7月28日,DHR公会主办的「2023中国数字人力峰会」在北京顺利举办。盖雅工场联合创始人兼CEO章新波带来主题为「消失的它」的精彩分享。以下为分享内容: 近期,大家都在讨论消失的Ta,我也想借此话题举几个例子,聊聊对于企…

(论文复现)DeepAnt模型复现及应用

DeepAnt论文如下,其主要是用于时间序列的无监督粗差探测。 其提出的模型架构如下: 该文提出了一个无监督的时间序列粗差探测模型,其主要有预测模块和探测模块组成,其中预测模块的网络结构如下。 预测结构是将时间序列数据组…

SQL Server数据库 -- 索引与视图

文章目录 一、索引 聚集索引非聚集索引二、视图三、自定义函数 标量函数表值函数四、游标五、总结 前言 在学习完创建库表、查询等知识点后,为了更加方便优化数据库的存储和内容,我们需要学习一系列的方法例如索引与视图等等,从而使我们更加…

IDEA中Git面板操作介绍 变基、合并、提取、拉取、签出

IDEA中Git面板操作介绍 变基、合并、提取、拉取、签出 面板介绍 变基、合并 提取、拉取 签出、Checkout 面板介绍 如图,在IDEA的Git面板中,仓库会分为本地仓库和远程仓库,代码仓库里面放的是各个分支。 分支前面的书签🔖标志…

Linux常用命令学习总结

Linux命令分类 1. Linux目录操作命令2. Linux文件名称3. Linux磁盘命令4. Linux进程与防火墙5. Linux用户与组的关系6. Linux权限操作(chmod命令)7. Linux中的文件类型文件的寻找 最近系统地学习下Linux命令的使用,因此作如下记录,以便随时复习和翻阅。 …

微信小程序(van-tabs) 去除横向滚动条样式(附加源码解决方案+报错图)

问题描述 今天第一次接触vant组件库。 ant官网地址适用于Vue3 支持Vue2、Vue3、微信小程序等 我在使用van-tabs组件时遇到了一个问题,如下图所示: 从图片上可以看到有个灰色的横向滚动条,一开始领导给我说这个问题,我反反复复都…