故障现象
服务器异常宕机或重启后无法进入系统,打印信息:echo 0 > /proc/sys/kernel/hung_task_timeout_secs,如图所示
故障原因
默认情况下, Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的。
将缓存写入磁盘时,有一个默认120秒的超时时间。 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘。
IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应。
“hung_task_timeout_secs”
,这是linux kernel的一个已知bug。
解决方法
缩小文件系统缓存大小
#vim /etc/sysctl.conf vm.dirty_background_ratio = 5 vm.dirty_ratio = 10#sysctl -p
说明:
vm.dirty_background_ratio:这个参数指定了当文件系统缓存脏页数量达到系统内存百分之多少时(如5%)就会触发pdflush/flush/kdmflush等后台回写进程运行,将一定缓存的脏页异步地刷入外存;
vm.dirty_ratio:而这个参数则指定了当文件系统缓存脏页数量达到系统内存百分之多少时(如10%),系统不得不开始处理缓存脏页(因为此时脏页数量已经比较多,为了避免数据丢失需要将一定脏页刷入外存);在此过程中很多应用进程可能会因为系统转而处理文件IO而阻塞。
注意:
如果启动时无法进入系统,此时也可以先将服务器的网线拔出后重新尝试启动。