ConcurrentModificationException日志关键字报警引发的思考

本文将记录和分析日志中的ConcurrentModificationException关键字报警,还有一些我的思考,希望对大家有帮助。

一、背景

近期,在日常的日志关键字报警分析时,发现我负责的一个电商核心系统在某时段存在较多ConcurrentModificationException异常日志,遂进行分析和改进,下面是我的一些思考。

1.1 系统架构

一直以来,无状态的服务都被当作分布式服务设计的最佳实践。因为无状态的服务对于扩展性和运维方面有着得天独厚的优势,可以随意地增加和减少节点。本系统的整体架构可以认为是由一个MQ应用、一个RPC应用底层存储组成。

RPC应用是无状态服务,对外提供常用的查询和操作接口;采用双机房部署,每个机房10*8C16G;

MQ应用是无状态服务,负责消费MQ消息,在消费过程中会调用该RPC应用提供方法;采用双机房部署,每个机房5*8C16G;

底层存储用的是数据库集群和缓存集群,大概如图所示:

异常日志-架构图.jpg

1.2 关键代码

MyRpcService 对外提供RPC服务,getList 方法可以根据入参中的状态进行查询,由于业务需要,需要对入参的状态进行排序,实现部分关键代码如下:

public class MyRpcServiceImpl implements MyRpcService{@Overridepublic BaseResult getList(ListParam listParam) {BaseResult baseResult = new BaseResult();List<Integer> states = listParam.getStateList();// 省略大段代码KeyUtil.getKeyString(states);// 省略大段代码baseResult.setSuccess(true);return baseResult;}}

KeyUtil 是一个工具类,getKeyString 方法对入参的itemList进行排序使用的是Java集合框架内置的sort 方法,代码如下:

public class KeyUtil {public static String getKeyString(List<Integer> itemList) {String result = "";//省略代码Collections.sort(itemList);//省略代码return result;}}

MyMqConsumer是MQ消费者,负责监听消息进行消费。在消费逻辑中,会调用MyRpcServicegetList() 方法进行状态查询,因为查询的状态是固定的,所以在Consumer类中定义了static final 类型的stateList ,关键代码如下:

public class MyMqConsumer implements MessageListener{public static final List<Integer> stateList = Stream.of(1).collect(Collectors.toList());@Resourceprivate MyRpcService myRpcService;@Overridepublic void onMessage(List<Message> messageList) {// 省略代码for (Message message : messageList) {// 省略其他代码ListParam listParam = new ListParam();listParam.setStateList(stateList);BaseResult result = myRpcService.getList(listParam);// 省略其他代码}}}

二、 原因分析

看了上面的系统架构和关键代码,不知道你有没有发现问题?可以先抛开设计和代码实现方面的问题不谈,只看这样的代码能不能正常执行,得到正确的业务结果。

既然这么问了,当然会有问题:在高并发环境下,MQ应用在消费消息时,调用RPC服务查询时可能会抛出异常,从而触发MQ异常重试,至于对业务有没有影响,得具体问题具体分析了。

ERROR 执行流程时出错
java.util.ConcurrentModificationException:null
at java.util.ArrayList.forEach(ArrayList.java:1260)~[:?1.8.0_192]
at com.shangguan.test.util.KeyUtil.getKeyString(KeyUtil.java:10)
...

2.1 分析1-ArrayList源码

从日志中可以看到,ConcurrentModificationExceptionjava.util.ArrayList类里面的forEach方法抛出来的,源码如下:

    @Overridepublic void forEach(Consumer<? super E> action) {Objects.requireNonNull(action);final int expectedModCount = modCount;@SuppressWarnings("unchecked")final E[] elementData = (E[]) this.elementData;final int size = this.size;for (int i=0; modCount == expectedModCount && i < size; i++) {action.accept(elementData[i]);}if (modCount != expectedModCount) {throw new ConcurrentModificationException();}}

在该方法中,内部会维护一个expectedModCount变量,赋值为modCount,在每次迭代过程中,迭代器会检查expectedModCount是否等于当前的modCount。如果不等,说明在迭代过程中ArrayList的结构发生了修改,迭代器会抛出ConcurrentModificationException异常。这种设计可以确保在多线程环境下,当一个线程修改ArrayList时,其他线程在迭代过程中可以立即发现这种修改,从而避免潜在的数据不一致问题。

再可以看下源码中modCount的注释,大意是:

modCount表示ArrayList自从创建以来结构上发生的修改次数。结构修改是指改变列表大小的修改,或者以其他方式扰乱列表,使正在进行的迭代可能产生不正确的结果。

modCount字段用于iteratorlistIterator方法返回的迭代器(或列表迭代器)。如果这个字段的值在迭代过程中发生意外的变化,迭代器(或列表迭代器)将在next、remove、previous、set或add操作时抛出ConcurrentModificationException异常。这提供了fail-fast(快速失败)行为,而不是在迭代过程中遇到并发修改时具有不确定性。

子类可以选择使用这个字段。如果子类希望提供fail-fast迭代器(和列表迭代器),那么它只需在其add(int, E)remove(int)方法(以及覆盖的任何其他导致列表结构修改的方法)中递增此字段。单次调用add(int, E)remove(int)应该在此字段上增加不超过1次,否则迭代器(和列表迭代器)将抛出虚假的ConcurrentModificationException。如果实现不希望提供fail-fast迭代器,可以忽略此字段。

2.2 分析2-线程安全问题

有个有趣的现象是,这个异常日志仅存在MQ应用中,这是为什么呢?

这其实是一个多线程问题。我们知道,static对象是在类加载时创建的全局对象,它们的生命周期与类的生命周期相同。static对象在程序启动时创建,在程序结束时销毁。这意味着static对象在多个线程之间共享的,可能存在线程安全问题。

翻回去仔细看下代码,可以看到MyMqConsumer定义的stateList是static类型的,是否是否存在线程安全问题呢?

异常日志-线程.jpg

在流量较低的情况下,多个消息不在同一时刻到达,每个线程处理消息将不会争夺static对象,所以不会有问题;

当流量较大情况下,有多个消息可能在同一时刻到达,每个线程处理过程中都会对stateList进行赋值,调用远程RPC接口,它们之间将会争夺static对象,可能存在问题。例如上图中右半部分,线程1还没有处理完消息1时,线程2就开始争抢,那么就可能使ArrayList中modCount != expectedModCount条件满足,从而抛出异常。

三、改进思考

3.1 本问题的优化

经过上述分析,已经清楚问题的产生原因了。对于本问题的优化,其实也比较简单。有如下两种方式可供选择:

  1. MyMqConsumer调用RPC查询的入参,使用new List来替代原来的类中定义好的static对象;

  2. 修改KeyUtil代码,浅拷贝传入的itemList,再进行排序

3.2 类似问题的发现和改进

本问题已经修复,那类似的问题是否可以避免或者减少,将是接下来值得思考的一个问题。为了减少这类问题发生,我结合平时工作过程中的几个阶段,认为可以从以下几个方面进行改进:

  • 开发

开发过程中,开发人员需要提升认知和水平,注意代码中可能存在的线程问题;注意编写单元测试,可以通过模拟多线程环境来检测潜在的问题。

  • 代码评审

开发完成的代码一定需要进行代码评审,评审过程中架构师需要发挥自己丰富的开发经验和较强的代码直觉,“火眼金睛”,发现代码中的漏洞;当然这对评审人员的要求很高,因为仅通过改动的几行代码发现问题确实是一件很有挑战的事情。如果要有一些自动化工具或者插件,则可以起到事半功倍的效果。这里其实我还没有调研相关的工具,如果有大佬有相关经验欢迎评论交流。

  • 测试

测试阶段除了验证正常的业务功能,还需要进行集成测试和性能测试。在集成测试中,将多个模块组合在一起,测试整个系统在多线程环境中的行为,有助于发现模块之间的交互问题。除了继承测试,有时还需要性能测试,性能测试可以发现潜在的竞争条件、死锁、资源争用等多线程问题。

四、小结

最后,我简单总结一下本文内容。本文主要记录和分析日志中的ConcurrentModificationException关键字报警,首先介绍了系统整体架构和关键代码;然后从ArrayList源码和线程安全两个方面分析问题产生原因,最后我提出了修复该问题的方案和类似问题的思考,希望对大家有帮助。

异常日志-小结.jpg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/264615.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AttributeError: module ‘lib‘ has no attribute ‘X509_V_FLAG_CB_ISSUER_CHECK‘解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

C# WPF上位机开发(通讯协议的编写)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 作为上位机&#xff0c;它很重要的一个部分就是需要和外面的设备进行数据沟通的。很多时候&#xff0c;也就是在这个沟通的过程当中&#xff0c;上…

使用python绘制现有彩票记录走势图

在数据分析和可视化的领域中&#xff0c;彩票走势图是一个经典的例子&#xff0c;它可以展示彩票数字随时间的出现频率和趋势。这里使用英国使用EuroMillions彩票的历史数据作为示例&#xff0c;使用Python和Matplotlib库来创建一个简单的走势图。可以在以下网站搜索.csv文件。…

dell r720远程网络安装ubuntu20.04(无U盘)

登陆后界面&#xff0c;在主界面上&#xff0c;我们就可以看到各个硬件组件的状态。在快速启动任务栏中&#xff0c;可以对系统电源进行操作&#xff0c;如开机、关机等。安装操作系统&#xff0c;在虚拟控制台预览处点击>启动 按照浏览器出现的提示确定安装控件等&#x…

实现加盐加密方法以及java nio中基于MappedByteBuffer操作大文件

自己实现 传统MD5可通过彩虹表暴力破解&#xff0c; 加盐加密算法是一种常用的密码保护方法&#xff0c;它将一个随机字符串&#xff08;盐&#xff09;添加到原始密码中&#xff0c;然后再进行加密处理。 1. 每次调用方法产生一个唯一盐值&#xff08;UUID &#xff09;密码…

uc_16_UDP协议_HTTP协议

1 UDP协议 适合游戏、视频等情景&#xff0c;安全性要求不高&#xff0c;效率要求高。 1&#xff09;UDP不提供客户机与服务器的链接&#xff1a; UDP的客户机与服务器不必存在长期关系。一个UDP的客户机在通过一个套接字向一个UDP服务器发送了一个数据报之后&#xff0c;马上…

VOL-vue 框架 文件上传控件关于大文件上传等待的修改

我的项目在测试voltable列表组件中对阿里云OSS做附件上传时&#xff0c;几十M的文件可能就会需要一段时间来上传&#xff0c;才能有OSS的状态和链接返回。 但是控件VolUpload.vue并没有去在这方面做任何交互体验上的控制&#xff0c;而且VolUpload.vue本身写的几个上传函数都是…

MyBatis 四大核心组件之 Executor 源码解析

&#x1f680; 作者主页&#xff1a; 有来技术 &#x1f525; 开源项目&#xff1a; youlai-mall &#x1f343; vue3-element-admin &#x1f343; youlai-boot &#x1f33a; 仓库主页&#xff1a; Gitee &#x1f4ab; Github &#x1f4ab; GitCode &#x1f496; 欢迎点赞…

【计算机网络】滑动窗口 流量控制 拥塞控制 概念概述

参考资料&#xff1a;计算机网络第八版-视频课程

【大数据】Hudi 核心知识点详解(二)

&#x1f60a; 如果您觉得这篇文章有用 ✔️ 的话&#xff0c;请给博主一个一键三连 &#x1f680;&#x1f680;&#x1f680; 吧 &#xff08;点赞 &#x1f9e1;、关注 &#x1f49b;、收藏 &#x1f49a;&#xff09;&#xff01;&#xff01;&#xff01;您的支持 &#x…

docker-centos中基于keepalived+niginx模拟主从热备完整过程

文章目录 一、环境准备二、主机1、环境搭建1.1 镜像拉取1.2 创建网桥1.3 启动容器1.4 配置镜像源1.5 下载工具包1.6 下载keepalived1.7 下载nginx 2、配置2.1 配置keepalived2.2 配置nginx2.2.1 查看nginx.conf2.2.2 修改index.html 3、启动3.1 启动nginx3.2 启动keepalived 4、…

【小白专用】php执行sql脚本 更新23.12.10

可以使用 PHP 的 mysqli 扩展来执行 SQL 脚本。具体步骤如下&#xff1a; 连接到数据库&#xff1b;打开 SQL 脚本文件并读取其中的 SQL 语句&#xff1b;逐条执行 SQL 语句&#xff1b;关闭 SQL 脚本文件&#xff1b;关闭数据库连接。 以下是通过 mysqli 执行 SQL 脚本的示例…