超全性能调优标准制定指南,你一定不能错过!

news/2025/1/3 22:51:57/文章来源:https://www.cnblogs.com/JavaEdge/p/18646146

0 前言

我有个朋友说他们国企的系统从未性能调优,功能测试完就上线,线上也没性能问题,何必还做性能调优?

本文搞清:

  • 为什么要做性能调优?
  • 啥时开始做?
  • 做性能调优是不是有标准?

1 为啥做性能调优?

  • 有些性能问题是慢慢产生,到了时间就自爆
  • 更多性能问题是由访问量波动导致,如活动或公司产品用户量上升
  • 也可能一款产品上线后就半死不活,一直没有大访问量,所以还没有引发这颗定时炸弹

现在假设你的系统要做一次活动,老板告诉你预计几十万的用户访问量,询问系统能否承受得住这次活动的压力。如果你不清楚自己系统的性能情况,也只能战战兢兢地回答老板,可能没问题吧。

要不要做性能调优

所有的系统开发完都有性能问题,先把问题暴露,如压测、模拟可能操作,再性能调优去解决。

  • 如用某款 App 查询某条信息,需等待十几s
  • 抢购活动中,无法进入活动页面
  • ...

系统响应就是体现系统性能最直接的一个参考因素。若系统在线上没出现响应问题,就不用做性能优化了?有位大神在公司一年只做一件事:把服务器数量缩减到原来一半,系统性能指标,还提升了。

好的系统性能调优不仅可提高系统性能,还能为公司节省资源。这也是性能调优的最直接目的。

2 啥时调优?

项目初期

没必要性能优化,这反让我们疲于性能优化,不仅不能性能提升,还影响进度,甚至给系统带新问题。

只需代码层保证有效编码,如减少磁盘 I/O 操作、降低竞争锁使用及使用高效算法等。遇到复杂业务,充分利用设计模式优化业务代码。如设计商品价格,有很多折扣活动,可用装饰模式去设计这个业务。

系统编码完成

就可对系统进行性能测试。这时,产品经理一般提供线上预期数据,我们在提供的参考平台上进行压测,通过性能分析、统计工具统计各项性能指标,看是否在预期范围内。

项目成功上线

还要根据线上实际情况,依照日志监控及性能统计日志,观测系统性能问题,发现问题,就日志分析并及时修复。

3 啥能体现系统性能?

性能指标到底有啥?

3.0 计算机资源

得先知啥计算机资源会成为系统性能瓶颈。

CPU:有的应用需要大量计算,他们会长时间、不间断地占用 CPU 资源,导致其他资源无法争夺到 CPU 而响应缓慢,从而带来系统性能问题。例如,代码递归导致的无限循环,正则表达式引起的回溯,JVM 频繁的 FULL GC,以及多线程编程造成的大量上下文切换等,这些都有可能导致 CPU 资源繁忙。

内存:Java 程序一般通过 JVM 对内存进行分配管理,主要是用 JVM 中的堆内存来存储 Java 创建的对象。系统堆内存的读写速度非常快,所以基本不存在读写性能瓶颈。但是由于内存成本要比磁盘高,相比磁盘,内存的存储空间又非常有限。所以当内存空间被占满,对象无法回收时,就会导致内存溢出、内存泄露等问题。

磁盘 I/O:磁盘相比内存来说,存储空间要大很多,但磁盘 I/O 读写的速度要比内存慢,虽然目前引入的 SSD 固态硬盘已经有所优化,但仍然无法与内存的读写速度相提并论。

网络:网络对于系统性能来说,也起着至关重要的作用。如果你购买过云服务,一定经历过,选择网络带宽大小这一环节。带宽过低的话,对于传输数据比较大,或者是并发量比较大的系统,网络就很容易成为性能瓶颈。

异常:Java 应用中,抛出异常需要构建异常栈,对异常进行捕获和处理,这个过程非常消耗系统性能。如果在高并发的情况下引发异常,持续地进行异常处理,那么系统的性能就会明显地受到影响。

数据库:大部分系统都会用到数据库,而数据库的操作往往是涉及到磁盘 I/O 的读写。大量的数据库读写操作,会导致磁盘 I/O 性能瓶颈,进而导致数据库操作的延迟性。对于有大量数据库读写操作的系统来说,数据库的性能优化是整个系统的核心。

锁竞争:在并发编程中,我们经常会需要多个线程,共享读写操作同一个资源,这个时候为了保持数据的原子性(即保证这个共享资源在一个线程写的时候,不被另一个线程修改),我们就会用到锁。锁的使用可能会带来上下文切换,从而给系统带来性能开销。JDK1.6 之后,Java 为了降低锁竞争带来的上下文切换,对 JVM 内部锁已经做了多次优化,例如,新增了偏向锁、自旋锁、轻量级锁、锁粗化、锁消除等。而如何合理地使用锁资源,优化锁资源,就需要你了解更多的操作系统知识、Java 多线程编程基础,积累项目经验,并结合实际场景去处理相关问题。

这样,便可得到如下指标衡量系统性能。

3.1 响应时间

响应时间是衡量系统性能的重要指标之一,响应时间越短,性能越好,一般一个接口的响应时间是在毫秒级。在系统中,我们可以把响应时间自下而上细分为以下几种:

  • 数据库响应时间:数据库操作所消耗的时间,往往是整个请求链中最耗时的;
  • 服务端响应时间:服务端包括 Nginx 分发的请求所消耗的时间以及服务端程序执行所消耗的时间;
  • 网络响应时间:这是网络传输时,网络硬件需要对传输的请求进行解析等操作所消耗的时间;
  • 客户端响应时间:对于普通的 Web、App 客户端来说,消耗时间是可以忽略不计的,但如果你的客户端嵌入了大量的逻辑处理,消耗的时间就有可能变长,从而成为系统的瓶颈。

3.2 吞吐量

在测试中,我们往往会比较注重系统接口的 TPS(每秒事务处理量),因为 TPS 体现了接口的性能,TPS 越大,性能越好。在系统中,我们也可以把吞吐量自下而上地分为两种:磁盘吞吐量和网络吞吐量。

我们先来看磁盘吞吐量,磁盘性能有两个关键衡量指标。

一种是 IOPS(Input/Output Per Second),即每秒的输入输出量(或读写次数),这种是指单位时间内系统能处理的 I/O 请求数量,I/O 请求通常为读或写数据操作请求,关注的是随机读写性能。适应于随机读写频繁的应用,如小文件存储(图片)、OLTP 数据库、邮件服务器。

另一种是数据吞吐量,这种是指单位时间内可以成功传输的数据量。对于大量顺序读写频繁的应用,传输大量连续数据,例如,电视台的视频编辑、视频点播 VOD(Video On Demand),数据吞吐量则是关键衡量指标。

接下来看网络吞吐量,这个是指网络传输时没有帧丢失的情况下,设备能够接受的最大数据速率。网络吞吐量不仅仅跟带宽有关系,还跟 CPU 的处理能力、网卡、防火墙、外部接口以及 I/O 等紧密关联。而吞吐量的大小主要由网卡的处理能力、内部程序算法以及带宽大小决定。

3.3 计算机资源分配使用率

通常由 CPU 占用率、内存使用率、磁盘 I/O、网络 I/O 来表示资源使用率。这几个参数好比一个木桶,如果其中任何一块木板出现短板,任何一项分配不合理,对整个系统性能的影响都是毁灭性的。

3.4 负载承受能力

当系统压力上升时,你可以观察,系统响应时间的上升曲线是否平缓。这项指标能直观地反馈给你,系统所能承受的负载压力极限。例如,当你对系统进行压测时,系统的响应时间会随着系统并发数的增加而延长,直到系统无法处理这么多请求,抛出大量错误时,就到了极限。

4 总结

性能调优可使系统稳定,用户体验更佳,甚至在较大系统,还能帮公司节约资源。

但项目初期,没必要过早介入性能优化,只需编码时保证其优秀、高效及良好程序设计。

完成项目后,就可系统测试,可将以下性能指标,作为性能调优的标准:响应时间、吞吐量、计算机资源分配使用率、负载承受能力。

电商系统、支付系统及游戏充值计费系统,都是千万级用户,且要承受各种大型抢购活动,所以我对系统性能要求苛刻。

大家还可将迭代之前版本的系统性能指标作为参考标准,通过自动化性能测试,校验迭代发版之后的系统性能是否出现异常,这里就不仅仅是比较吞吐量、响应时间、负载能力等直接指标了,还需要比较系统资源的 CPU 占用率、内存使用率、磁盘 I/O、网络 I/O 等几项间接指标的变化。

其它性能指标

除本文常见性能参考指标,还有啥可衡量系统性能的指标?

1. 错误率(Error Rate)

  • 含义:指系统请求中出现错误的比例。通常用百分比表示。
  • 应用:错误率过高可能暗示系统存在严重问题,如代码逻辑错误、资源配置不足或外部服务不可用。
  • 示例:HTTP 状态码 5xx、数据库超时错误等。

2. 并发用户数(Concurrent Users)

  • 含义:在同一时间内,使用系统的用户数量。
  • 应用:并发用户数越多,对系统的压力越大。需要结合响应时间和吞吐量综合分析系统性能。
  • 示例:电商大促期间同时下单的用户数。

3. 延迟(Latency)

  • 含义:指网络请求从发出到收到响应的总时间,包括客户端到服务器、服务器到客户端的时间。
  • 应用:延迟直接影响用户体验,尤其是实时性要求较高的应用,如直播、游戏等。
  • 示例:在游戏中,玩家的动作延迟超过 100ms,体验可能大幅下降。

4. 队列长度(Queue Length)

  • 含义:指等待处理的请求数量。
  • 应用:队列过长通常意味着系统的处理能力不足,可能需要扩容或优化。
  • 示例:高并发情况下,消息队列中未处理的任务数。

5. 连接数(Connections)

  • 含义:指系统当前保持的 TCP/IP 连接数。
  • 应用:对于高并发系统,连接数的管理尤为关键,过多的连接可能导致系统资源耗尽。
  • 示例:WebSocket 长连接数量。

6. 垃圾回收(GC)频率与时间

  • 含义:JVM 管理内存时,垃圾回收操作会暂停其他线程,影响系统性能。
  • 应用:高频或长时间的垃圾回收可能导致系统响应时间变长。
  • 示例:Full GC 导致服务响应时间超过 1 秒。

7. 事务完成率(Transaction Completion Rate)

  • 含义:在一定时间内成功完成的事务比例。
  • 应用:衡量系统处理请求的成功率和稳定性。
  • 示例:支付系统中,完成支付的交易占总交易数的百分比。

8. 线程池状态

  • 含义:包括活跃线程数、队列任务数和线程池容量。
  • 应用:线程池配置不当可能导致任务堆积或线程资源浪费。
  • 示例:线程池满时,新任务无法执行。

9. 系统高峰负载情况(Peak Load Handling)

  • 含义:系统在短时间内处理突发高负载的能力。
  • 应用:用于评估系统弹性和扩展能力。
  • 示例:秒杀活动瞬间访问量暴增时系统的表现。

10. 可用性(Availability)

  • 含义:系统在规定时间内能够正常提供服务的时间占比。
  • 应用:高可用性是系统稳定性的重要体现。
  • 示例:全年系统可用性达到 99.99%(每年允许停机 52 分钟以内)。

11. 冷启动时间(Cold Start Time)

  • 含义:系统从启动到完全提供服务所需的时间。
  • 应用:对于容器化或 Serverless 系统,冷启动时间是关键性能指标。
  • 示例:某云函数冷启动时间为 300ms。

12. 服务级别目标(SLO)达成率

  • 含义:实际服务性能达到预定义服务目标(如响应时间、可用性等)的比例。
  • 应用:SLO 达成率直接影响服务的用户满意度。
  • 示例:API 响应时间低于 200ms 的请求比例为 98%。

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都架构师,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化
  • 活动&券等营销中台建设
  • 交易平台及数据中台等架构和开发设计
  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化
  • LLM Agent应用开发
  • 区块链应用开发
  • 大数据开发挖掘经验
  • 推荐系统项目

目前主攻市级软件项目设计、构建服务全社会的应用系统。

参考:

  • 编程严选网

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/862365.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第16章 网络

第16章 网络 纲要 .NET Framework 在 System.Net.*命名空间中包含了支持各种网络标准的类,支持的标准包括 HTTP、TCP/IP 以及 FTP 等。以下列出了其中的主要组件:​Webclient​ 类 支持通过 HTTP 或者 FTP 执行简单的下载/上传操作。​WebRequest​ 和 WebResponse​ 类 可以…

第13章 诊断

第13章 诊断 13.1 条件编译 预编译的指令见 4.16 预处理指令,我们这里的条件编译用到的指令有:​#if​​、#else​​、#endif​​、#elif​​ 条件编译指令可以进行 与 ​&&​ ​、 或 ​||​ ​、 非 ​!​ 运算。预定义指令可以通过三种方式定义:在文件中通…

第14章 并发与异步

第14章 并发与异步 14.2 线程 进 程提供了程序执行的独立环境, 进 程持有 线 程,且至少持有一个 线 程。这些 线 程共享 进 程提供的执行环境。 14.2.1 创建线程 创建线程的步骤为:实例化 ​Thread​ ​ 对象,通过构造函数传入 ​ThreadStart​ ​ 委托。 调用 ​Thread…

Sqlserver With as 实现循环递归

一、脚本示例declare @Separator varchar(10), @str varchar(100) declare @l int, @i int select @Separator=,,@str=111,22,777,99,666 select @i = len(@Separator), @l = len(@str); with cte7 as ( select 0 a, 1 b union all select b, charindex(@Separator, @str, b)+@…

JAVA 分布式锁

分布式锁 JVM 自带的 synchronized 及 ReentrantLock 锁都是单进程内的,不能跨进程,如下,同时来个两个请求被分配到不同的tomcat,这种锁将失效:REDIS 实现分布式锁 可以借助 REDIS 的setnx 命令实现: https://blog.csdn.net/T_Y_F_/article/details/144238022 注:redis …

java8--类Scanner--文件内容输入--windows路径分隔符转义

try { Scanner in = new Scanner(Paths.get("C:\Users\Administrator\IdeaProjects\untitled2\src\test\myfile.txt"),"UTF-8"); } catch (IOException ioException) { ioException.printStackTrace(); }ps: 1.打印当前工…

[Windows] 启动 Windows Update 服务失败,报:Windows 无法启动 Windows Update 服务(位于 本地计算机 上) 错误 126:找不到指定的模块

1 问题描述现象1:Windows 10 家庭版-服务(services.msc)-启动 Windows Update 服务失败,报:"Windows 无法启动 Windows Update 服务(位于 本地计算机 上) 错误 126:找不到指定的模块"注: C:\Windows\System32\wuaueng.dll 文件存在注:注册表regedit:计算机\HKEY_L…

共享ubuntu系统宿主机的部分文件到win虚拟机--通过ISO文件挂载

安装genisoimage sudo apt-get update sudo apt-get install genisoimage将需要共享的文件放入指定文件夹 cp /path/to/your/file ~/iso_work/使用genisoimage生成新镜像 genisoimage -o /path/to/new.iso -J -R -V "NEW_ISO_LABEL" ~/iso_work/其中new.iso就是新镜像…

Luogu P9646 SNCPC2019 Paper-cutting 题解 [ 紫 ] [ manacher ] [ 贪心 ] [ 哈希 ] [ BFS ]

manacher 与贪心的好题。Paper-cutting:思维很好,但代码很构式的 manacher 题。 蒟蒻 2025 年切的第一道题,是个紫,并且基本独立想出的,特此纪念。 判断能否折叠 我们先考虑一部分能折叠需要满足什么条件。显然,这一部分需要是一个长度为偶数的回文串。 那么横向和纵向会…

深度学习基础理论————分布式训练(模型并行/数据并行/流水线并行/张量并行)

主要介绍Pytorch分布式训练代码以及原理以及一些简易的Demo代码 模型并行 是指将一个模型的不同部分(如层或子模块)分配到不同的设备上运行。它通常用于非常大的模型,这些模型无法完整地放入单个设备的内存中。在模型并行中,数据会顺序通过各个层,即一层处理完所有数据之后…

overleaf-Latex教程

1.领取免费服务器,推荐免费服务器(SanFengYun)见下图。2.安装宝塔面板,配置内网为127.0.0.1,访问外网地址。 3.可以在宝塔面板一键部署网站,输入自己的域名即可。 4.关键:安装docker,安装yum,设置github可以访问。 5.更换docker镜像,自带镜像无法访问 6.按照overleaf…

Sola的2024年度总结

前言 2024 这一年对我来说确实意义非凡,很想写点东西来记录一下这一年我的经历,算是第一次写年度总结了。 简短的记录一下我这一年。 现在?未来? 回忆起大一下最后一节体育课,体育老师让每个人想一个词来描述这个上半年,我给出的答案是 : 迷茫 。 现在来看,这个答案贯穿…