避免 OOMKilled:在 Kubernetes 环境中优化 Java 进程的内存配置

news/2025/1/18 6:58:43/文章来源:https://www.cnblogs.com/cheyunhua/p/18240450

避免 OOMKilled:在 Kubernetes 环境中优化 Java 进程的内存配置

DevOps云学堂译 奇妙的Linux世界 2024-06-10 09:53 重庆 听全文
公众号关注 「奇妙的 Linux 世界」
设为「星标」,每天带你玩转 Linux !
图片

 

管理 Kubernetes Pod 中运行的 Java 进程的内存使用情况比人们想象的更具挑战性。即使使用正确的 JVM 内存配置,仍然可能会出现OOMKilled问题,您想知道为什么吗?

奇妙的Linux世界
Linux 爱好者聚集地,各种硬核干货文章和新奇内容推荐,定期发放福利红包。快加入我们,一起愉快玩耍!
229篇原创内容

长话短说

由于 JVM 仅考虑大小限制,因此无法保证 Java 进程的完整heap内存边界(堆内存);不是non-heap 内存(非堆内存),这取决于多种因素。从堆内存非堆内存的比例为 75% 开始,并密切关注内存的行为。如果事情失控,您可以调整 pod 的内存限制调整heap-to-non-heap比率来避免 OOMKilled 事故。

Context语境

我们在 Kubernetes 中运行的生产 Java 应用程序反复遇到 OOMKilled 和重启问题。尽管在 pod 和 JVM 级别都定义了内存设置,但 pod 的总内存使用量波动导致频繁重启

  • Pod 级别配置:我们最初将 Pod 的内存限制设置为 2Gi,使用以下设置:
resources:
  requests:
    memory: "2Gi"
    cpu: "4"
  limits:
    memory: "2Gi"
    cpu: "4"
  • JVM 级别配置:我们指定了 JVM 应使用的系统内存百分比,以允许 JVM 适应其环境。
-XX:MaxRAMPercentage=80.0

需要注意的是,这MaxRAMPercentage并不限制 Java 进程可以使用的总内存大小。它特指 JVMheap大小,因为堆是应用程序可访问和使用的唯一内存。通过这些设置,Pod 拥有2Gi系统内存,其中的系统内存1.6Gi被分配给堆并且0.4Gi可供非堆内存使用。(请记住,2Gi等于2 * 1024 * 1024 * 1024 = 2.15GB,因为监控指标用作GB仪表板上的内存单位。)

解决该问题的初步尝试

为了缓解OOMKilled问题,我们将 pod 的内存限制从 2Gi增加4Gi, 这确实有助于减少问题。然而,仍然存在一些问题:

  1. 为什么container_memory_working_setcontainer_memory_rss接近 100%,而 JVM 堆和非堆使用率却显着降低?

图片
2. 鉴于 Java 进程是 pod 中运行的唯一进程,为什么工作集大小 (WSS)/驻留集大小 (RSS) 内存使用量超过 JVM 总内存?
图片
3. 为什么进程内存使用率仍然接近100%,几乎达到Pod内存限制?
图片

 

分析

为什么Java总内存使用量远低于系统内存使用量?

图片
我们注意到,一旦提交的堆内存达到最大堆大小container_memory_working_setcontainer_memory_rss 就会停止增加。
图片
➊提交的 JVM Heap 一旦达到heap限制就停止增加❷ ❸当提交的内存达到限制时,WSS/RSS 的系统内存停止heap增加。根据MemoryUsage类的 Java 文档,这些指标来自:

public long getCommited()
返回提交供Java 虚拟机使用的内存量(以字节为单位)。这个内存量是保证Java虚拟机使用的。

提交的内存表示 JVM 从操作系统预先分配的内存。因此,从容器/Pod 的角度来看,WSS/RSS 使用率显得很高,而在 JVM 内,堆内存和非堆内存使用率仍然很低。
这也解释了为什么在 pod 被OOMKilled之前没有发生 OutOfMemory 异常,因为堆内存和非堆内存都没有达到 JVM 的限制。相反,JVM 会从操作系统中预先分配和保留内存,而不会轻易释放它。OpenJDK规范解释道:

G1 仅在 Full GC 或并发周期期间从 Java 堆返回内存。由于 G1 尽力完全避免 Full GC,并且仅根据 Java 堆占用和分配活动触发并发周期,因此它不会返回 Java 堆在许多情况下,除非从外部强制这样做,否则都会有内存。这种行为在资源按使用付费的容器环境中尤其不利。即使在 VM 由于不活动而仅使用其分配的内存资源的一小部分的阶段,G1 也将保留所有 Java 堆。--https://openjdk.org/jeps/346

因此,虽然Java进程的实际内存使用量可能很低,但JVM预分配的提交内存可能会高得多,并且不会立即返回给系统。

图片

为什么 WSS/RSS 内存使用量超过 JVM 总内存?

在检查了系统内存的来源和 JVM 指标后,这对我来说仍然是一个谜。

图片
系统内存 RSS 与 JVM 总提交内存之间的差距
➊系统内存 WSS 为 3.8GB
❷ JVMheap提交的内存为 3.22GB
❸ JVM 总提交的内存为 3.42GB
Pod 中运行的 JVM 的本机内存跟踪 (NMT) 报告为我们提供了 Java 进程中内存使用情况的详细细分,尤其是内存non-heap。结果与JVM Heap和JVM Total指标一致。

Native Memory Tracking:
  
  Total: reserved=5066125KB, committed=3585293KB
  -                 Java Heap (reserved=3145728KB, committed=3145728KB)
                              (mmap: reserved=3145728KB, committed=3145728KB) 
  -                     Class (reserved=1150387KB, committed=113419KB)
  -                    Thread (reserved=297402KB, committed=32854KB)
  -                      Code (reserved=253098KB, committed=73782KB)
  -                        GC (reserved=174867KB, committed=174867KB)
  -                  Compiler (reserved=2156KB, committed=2156KB)
  -                  Internal (reserved=11591KB, committed=11591KB)
  -                     Other (reserved=2690KB, committed=2690KB)
  -                    Symbol (reserved=21454KB, committed=21454KB)
  -    Native Memory Tracking (reserved=6275KB, committed=6275KB)
  -               Arena Chunk (reserved=195KB, committed=195KB)
  -                   Logging (reserved=4KB, committed=4KB)
  -                 Arguments (reserved=29KB, committed=29KB)
  -                    Module (reserved=249KB, committed=249KB)

系统内存使用 WSS/RSS已通过 Pod 中运行命令的RES内存(进程使用的常驻内存量)来确认。topJava 进程是 pod 中唯一运行的进程。

USER   PID    %CPU %MEM  VSZ      RSS      TTY  STAT START TIME   COMMAND
xxx-+      1  7.7  0.4   24751760 3818536  ?    Ssl  Jul28 340:41 /usr/java/jdk-11.0.17/bin/java -XX:MaxRAMPercentage=75.0 -XshowSettings:vm -classpath ...
xxx-+  80559  0.0  0.0   50548    3936     ?    Rs   07:02 0:00   ps -aux

因此,这两个指标都是值得信赖的,但它们之间仍然存在 300MB 左右的差距。

为什么增加 Pod 内存限制后系统内存使用率仍然接近 100%?

首先,它是resources.limits.memory确定系统内存大小而不是resources.requests.memory. 后者只是让 Kubernetes 集群找到与请求的内存匹配的节点来在其上运行 pod。
其次,如前所述,heapJVM 只能指定并严格控制内存的大小,而不能指定non/off-heap内存。因此,即使系统内存增加,non/off-heap内存使用量也可能成比例增加。
为了缓解这种情况,减少内存百分比heap可以提供更多空间non/off-heap。所以这是我们尝试的下一个选项:MaxRAMPercentage从减少80%到75%并按预期工作:WSS/RSS 下降。

图片
减少堆百分比之前:➊❷ WSS/RSS 仍接近 Pod 内存限制 (4.29GB)

图片
减少堆百分比后 ➊❷ WSS/RSS 稳定在 3.6GB,并且与 pod 内存限制 (4.29GB) 有安全余量

结论

可以使用以下方法来解决 Java 进程内存使用的不确定性并消除 pod OOMKilled问题:

  1. 从一个合理的值开始MaxRAMPercentage,这75%通常是一个很好的起点。
  2. 随着时间的推移监控heap使用情况和系统内存WSS/RSS。
  • 如果您的最大heap使用率很高(即保持在>90% 范围内),则这是增加 pod 内存限制的信号 ( resources.limits.memory)。您heap需要更多空间。
  • 如果最大heap使用率正常(即保持远低于<90%),但WSS/RSS较高且接近进程限制,请考虑减少MaxRAMPercentage为空间分配更多内存non/off-heap。
  • 监控最大值WSS/RSS以确保 Pod 内存限制始终有 5% 到 10% 的安全裕度。不要飞得太靠近太阳!

文章翻译 https://medium.com/@karthik.jeyapal/memory-settings-for-java-process-running-in-kubernetes-pod-6d0a2e092ce5

本文转载自:「 云原生百宝箱」,原文:https://url.hi-linux.com/tXoNb,版权归原作者所有。欢迎投稿,投稿邮箱: editor@hi-linux.com。

图片

最近,我们建立了一个技术交流微信群。目前群里已加入了不少行业内的大神,有兴趣的同学可以加入和我们一起交流技术,在 「奇妙的 Linux 世界」 公众号直接回复 「加群」 邀请你入群。

图片

你可能还喜欢

点击下方图片即可阅读

图片

GitHub 星标 10.3K:一个更适合新手的 Curl 替代工具

图片
点击上方图片,『美团|饿了么』外卖红包天天免费领

图片

更多有趣的互联网新鲜事,关注「奇妙的互联网」视频号全了解!

云计算 · 目录
上一篇Kubernetes 十周年
阅读 128
 
写留言
 
 
 
 
 
 
 
 
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/722542.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手绘二维码

从头把一个字符串变成二维码看到二维码,很容易猜到黑白相间的小方格就是二进制比特。那么这些比特是怎么得到的?小方格又是按照什么规则排布的?今天咱们就从零开始将一个 url 画成二维码。 考虑到大多数人可能不太了解二维码,所以先讲下基础概念。你也可以先看看左耳朵耗子…

1.Mybatis概述

1. Mybatis历史 MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下, iBatis3.x正式更名为MyBatis。代码于2013年11月迁移到Github。iBatis一词来源于“internet”和“abatis”的…

计算机基础知识之浮点数的表示

目录定点数表示浮点数表示习题浮点数的规格化例题习题计算机基础知识之原码、补码、反码和移码:https://www.cnblogs.com/kohler21/p/18233912定点数表示 定点小数(纯小数)在计算机中的表示形式:注:在计算机中,定点小数主要用于表示浮点数的尾数,并没有高级语言数据类型与…

WCP知识协作平台V5.1.7版更新(智能助手)

WCP知识协作平台V5.1.7版更新智能助手集成:侧边栏智能助手的加入,利用先进的人工智能技术,提供了涵盖名词解释、翻译、答案生成、知识摘要、知识问答以及知识图谱生成的多功能服务。这一集成不仅丰富了用户的交互体验,还显著增强了知识获取与处理的能力。 名词解释:在阅读…

【PB案例学习笔记】-04文件浏览器

写在前面 这是PB案例学习笔记系列文章的第4篇,该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习,提高编程技巧,以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码,小凡都上传到了gitee代码仓库https://gitee.com/xiezhr/pb-project…

PingCastle 3.2.0.1 - Active Directory 安全检测和评估

PingCastle 3.2.0.1 - Active Directory 安全检测和评估PingCastle 3.2.0.1 - Active Directory 安全检测和评估 活动目录域安全分析工具 请访问原文链接:https://sysin.org/blog/pingcastle/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org在 20% 的时间内获得…

SQL Server Management Studio (SSMS) 20.1 - 微软数据库管理工具

SQL Server Management Studio (SSMS) 20.1 - 微软数据库管理工具SQL Server Management Studio (SSMS) 20.1 - 微软数据库管理工具 请访问原文链接:https://sysin.org/blog/ssms/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org笔者注:SQL Server 2014 及之前…

SQL Server 2022 RTM 最新累积更新:Cumulative Update #13 for SQL Server 2022 RTM

SQL Server 2022 RTM (最新累积更新) - Cumulative Update #13 for SQL Server 2022 RTMSQL Server 2022 RTM (最新累积更新) - 基于 Azure 的持续性能和安全创新 Cumulative Update #13 for SQL Server 2022 RTM 请访问原文链接:https://sysin.org/blog/sql-server-2022/,查…

Kali Linux 2024.2 发布 (t64, GNOME 46 Community Packages) - 领先的渗透测试发行版

Kali Linux 2024.2 发布 (t64, GNOME 46 & Community Packages) - 领先的渗透测试发行版Kali Linux 2024.2 发布 (t64, GNOME 46 & Community Packages) - 领先的渗透测试发行版 The most advanced Penetration Testing Distribution 请访问原文链接:https://sysin.or…

运筹学练习Python精解——网络计划技术

练习1 某新产品研制项目的各项工序、所需时间及相互关系如下表所示,试画出该项目的网络图,分别用和双代号、单代号方法以及表上计算法计算事项时间参数,并求出关键路线。工序 工序代号 所需时间 紧后工序产品及工艺设计 A 60 B, C, D, E外购配套件 B 45 K下料、锻件 C 10 F工…

树状数组

树状数组(Binary Indexed Tree,BIT)是一种用于维护 \(n\) 个元素的前缀信息的数据结构。 以前缀和为例,对于数列 \(a\),可以将其存储为前缀和数组 \(s\) 的形式,其中 \(s_i = \sum \limits_{j=1}^i a_j\)。那么通过前缀和数组,就可以快速求出原数组中给定区间中数字的和…

树上前缀和与差分

树上前缀和 设 \(sum_i\) 表示根节点到节点 \(i\) 的权值总和。 则有:对于点权,\(x,y\) 路径上的和为 \(sum_x + sum_y - sum_{lca} - sum_{fa_{lca}}\)。 对于边权,\(x,y\) 路径上的和为 \(sum_x + sum_y - 2 \times sum_{lca}\)。习题:P4427 [BJOI2018] 求和解题思路 预处…