Paper Reading: Random Balance ensembles for multiclass imbalance learning

news/2024/10/29 18:26:56/文章来源:https://www.cnblogs.com/linfangnan/p/18513391

目录
  • 研究动机
  • 文章贡献
  • 多分类的随机平衡集成
    • 二分类 Random Balance
    • MultiRandBal
    • OVO-RandBal 和 OVA-RandBal
  • 实验结果
    • 数据集和实验设置
    • 对比实验
    • MAUC 的分解
    • 多样性
    • 运行时间
  • 优点和创新点

Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Random Balance ensembles for multiclass imbalance learning》
作者 Juan J. Rodríguez, José-Francisco Díez-Pastor, Álvar Arnaiz-González, Ludmila I. Kuncheva
发表期刊 Knowledge-based systems
发表年份 2020
期刊等级 中科院 SCI 期刊分区(2022年12月最新升级版)1 区,CCF-C
论文代码 文中未公开

作者单位:

  1. Universidad de Burgos, Escuela Politécnica Superior, Avda. Cantabria s/n, 09006 Burgos, Spain
  2. Bangor University, Dean Street, Bangor Gwynedd, LL57 1UT, United Kingdom

研究动机

在不平衡的数据集中,当少数类的样本被忽略时模型可以获得很好的精度。但是许多问题中,如诊断、故障检测、欺诈检测,正确预测少数类样本尤为重要。因此很多分类方法没有考虑到数据的不平衡情况,在处理这类数据时可能会遇到困难。目前已经提出了许多处理不平衡数据集的方法,这些方法主要集中在二分类问题上,对多分类的情况关注较少。
随机平衡(Random Balance, RandBal)是一种数据预处理集成策略,每个分类器的分类比例是随机选择的。这种方法不适用于独立的分类器,但对于作为集成的一部分的分类器非常有用,例如 RandBalBoost 是 RandBal 与 AdaBoost 相结合的一种混合方法。

文章贡献

本文将 RandBal 方法从二分类扩展到多分类,提出了两种集成策略。第一种方法称为多重随机平衡 MultiRandBal,该方法同时处理所有类,每个基分类器的训练数据都是随机抽样的。第二种方法是将多分类问题按照 OVO 或 OVA 的分解为两分类问题,并构建 RandBal 集成学习器,这两个版本分别称为 OVO-RandBal 和 OVA-RandBal。通过 52 个多分类数据集进行了实验,结果表明 MultiRandBal 和 OVO/OVA-RandBal 都是原始二分类 RandBal 的可行扩展,在多分类不平衡问题上的表现优于其他对比方法。

多分类的随机平衡集成

二分类 Random Balance

对于二分类 Random Balance 集成方法中每个分类器,无论原始训练数据中的不平衡比是多少,类的比例都是随机分配的。给定一个有 n 个样本的数据集,Random Balance 变换后的数据集也包括 n 个实例,其中一个类的实例数是从区间 [2, n−2] 中抽取的随机整数 k,剩下的 n−k 个实例来自另一个类。设 C1 为样本中需要 k 个实例的类,n1=|C1| 为 C1 的可用样本数。如果 k<n1,则 k 个样本由欠采样得到,反之使用过采样进行处理。欠采样方法使用的是随机欠采样,过采样方法使用 SMOTE。

MultiRandBal

本文将 RandBal 扩展到多分类的情况,多分类 RandBal 的流程如下伪代码所示。在区间 [0,1] 内从均匀分布中随机抽取一个权重给每个类,并对权重进行归一化,表示转换后的数据集中每个类需要采样的样本比例。

如下伪代码给出了多分类随机平衡集成方法 MultiRandBal 的流程,该方法简单地用随机平衡构造的数据集构建每个基分类器。

MultiRandBal 的唯一参数是基学习器的数量,为了调整特定数据集的性能可以引入一些参数,例如欠采样的最大不平衡比、错误分类的代价等。同时 MultiRandBal 也可以与任何集成方法相结合,例如在 Bagging 和 AdaBoost 中使用 MultiRandBal 对数据集进行变换。

OVO-RandBal 和 OVA-RandBal

通过使用 OVO 或 OVA 也可以将 RandBal 扩展到多分类。OVO 中所有的类别会两两组合,并为每对类别组合构建一个分类器,集成学习器由 c(c−1)/2 个分类器组成。OVA 将枚举全部类别作为正类,将其余类别作为负类,由 c 个分类器组成集成学习器。

实验结果

数据集和实验设置

实验室用的数据集来自 KEEL、PWR、USC,很多数据集都来自 UCI 数据集,基本信息如下表所示。实验指标使用 Accuracy、Kappa、G-mean、average-Accuracy、F-measure、MAUC,结果通过 25×2 折分层交叉验证获得。

对比算法包括 9 种不平衡学习模型,以及这些方法的 OVA、OVO 版本,如下表所示。

对比实验

下图展示了在有随机平衡和没有随机平衡的情况下的平均排名的可视化结果,使用集成方法排名的堆叠条形图呈现。左侧子图中的柱状图明显低于右侧子图中的柱状图,表明使用 Random Balance 的集成方法的总体排名较为靠前。

下图以箱形图的形式展示了这些排名,基于随机平衡方法的箱线图用灰色表示,可见随机平衡方法相比其他方法具有优势。

数据集在 6 个评估指标上的散点图如下图所示,点的 x 轴是所有不使用 Random Balance 的方法对应数据集的平均值,y 轴是使用 Random Balance 的方法的平均值。如果使用和不使用随机平衡的方法对给定数据集给出相同的预测,则该点将位于图中所示的对角线上。因此从实验结果可见,所有测量都明显倾向于使用随机平衡的集合方法。

下表对不同的集成方法的多分类分解进行比较,实验表明在一般情况下 OVA 策略优于 OVO 策略。

MAUC 的分解

MAUC 为所有类对的平均 AUC,一对类可以分为三组:两个类都是多数类、两个类都是少数类、一个类是多数类另一个是少数类,下表展示了这些不同版本的 MAUC 的平均排名。

多样性

Kappa 是一种度量多样性的指标,它会将预测的类与实际的类进行比较。总体多样性度量是所有对 Kappa 的成对值的平均值,Kappa 值越小表明基分类器的多样性越强。下表展示了多样性的平均排名,通常 Boosting 比 Bagging 更加多样化,使用 RandBalBoost 的三种方法比使用 BagRandBal 的三种方法具有更大的多样性。

运行时间

下表总结了算法的运行时间,使用随机平衡和多分类分解的方法是最慢的,对于没有多分类分解的 Random Balance 时间更具优势。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 本文将 Random Balance 策略从二分类扩展到多分类,分别提出了基于多类别重采样的 MultiRandBal 和将多分类拆解到二分类的 OVO/OVA-RandBal;
  2. 实验环节的结果丰富且充分,各个环节均进行了大量的实验,说服力强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/823794.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

银行信贷风控专题:Python、R 语言机器学习数据挖掘应用实例合集:xgboost、决策树、随机森林、贝叶斯等

全文链接:https://tecdat.cn/?p=38026 原文出处:拓端数据部落公众号 分析师:Fanghui Shao在当今金融领域,风险管控至关重要。无论是汽车贷款违约预测、银行挖掘潜在贷款客户,还是信贷风控模型的构建,以及基于决策树的银行信贷风险预警,都是金融机构面临的关键挑战。本银…

什么是上电复位

上电复位是电子设备和系统中的重要概念,它通过在设备通电时确保设备可靠启动,并保护设备免受潜在风险,提高了系统的稳定性和可靠性。无论是嵌入式系统、计算机、通信设备还是工业控制系统,上电复位都发挥着关键的作用,保障了设备和系统的正常运行。一、定义和原理 上电复位…

VSFTP

StorageSrv 配置1 服务​ 禁止使用不安全的FTP,请使用“CSK Global Root CA”证书颁发机构,颁发的证书,启用FTPS服务; ​ 用户webadmin,登录ftp服务器,根目录为/webdata/; ​ 登录后限制在自己的根目录; ​ 允许WEB管理员上传和下载文件,但是禁止上传后缀名为.doc .doc…

layui下拉框xm-select自定义搜索使用方法

xm-select介绍 始于Layui, 下拉选择框的多选解决方案 git地址:https://gitee.com/maplemei/xm-select 文档说明:https://codecp.tech/static/xm-select/#/component/options 什么情况下使用下拉框的数据量比较大 需要支持下拉框的搜索如何使用自定义搜索引用xm-select,使用最…

KingbaseES V8R6集群部署案例之---install.conf配置错误

KingbaseES、repmgr案例说明: KingbaseES V8R6集群在通过脚本部署时,提示节点无法通过securcmdd连接,部署失败。 适用版本:KingbaseES V8R6 一、问题现象 如下所示,在执行脚本部署时,提示无法和集群节点通过8890端口建立连接:二、问题分析 1、测试节点securecmdd互信连接…

AtCoder Beginner Contest 366 - VP记录

A - Election 2 高桥日常出镜,kkk 好好学学。点击查看代码 #include<cstdio> using namespace std;int main() {int n,t,a;scanf("%d%d%d",&n,&t,&a);if(t>n-t||a>n-a) printf("Yes\n");else printf("No\n");return 0;…

如果想用ECS实现技能系统有什么好的思路

1)如果想用ECS实现技能系统有什么好的思路2)在使用Recast Navigation时遇到的两个问题3)通过摇杆控制角色移动时,怎么获取要移动方向上的坐标4)有判断一个点是否在NavMesh上的接口吗这是第406篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等…