金融行业现场故障处理实录

  1. KL银行现场服务记录—HA故障

服务时间

2019年9月10日星期二 14:40 到2019年9月11日星期三 0:30

服务内容

  • 排查redhat RHEL 6.4 一个节点cman启动故障。

(1)、查看系统日志;

(2)、查看ha日志,/etc/cluster下各日志文件;

(3)、clustat查看集群状态,提示cman未运行;

(4)、查看集群配置文件/etc/cluster.conf;

(5)、对比另一个正常运行节点的状态及日志输出;

(6)、运行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟踪文件;

strace –f –o /tmp/cman.log /etc/init.d/cman status

由于当前不能执行cman启动操作,故障暂时不能排除。

  • 新的华为服务器,由于使用了UEFI代替老旧的bios进行引导管理,客户在安装redhat RHEL6.4时进行 不下去,顺便协助他正确完成安装。
  • Ha挂接的共享盘报“no clean”,预判文件系统存在问题,准备服务停止后,卸载挂接,然后修复(fsck)。

  1. MS银行(顺义)现场服务记录--kdump故障

问题描述

某Redhat RHEL 6.X系统部署应用以后,运行一段时间,可能会出现系统挂起现象,挂起时间不确定。相关人员怀疑是应用所引起的,为了弄清事实真相,需要在系统挂起前导出core文件。

系统已经配置好kdump,但在启动kdump服务时,无法成功。因此现场服务的主要任务时排查kdump启动故障。

排查过程

  • 检查相关的软件包是否正确安装:rpm-qa|grep kexec-tool ,已经被正确的安装。
  • 检查kdump.conf配置文件,为发现异常;
  • 检查系统日志/var/log/messages,未发现有价值信息;
  • 试着启动服务 service kdump start ,输出提示”找不到内核文件 kernel-15…”。初步判断问题出现在这里。这个数字15是哪里来的呢?
  • 打开文件/etc/sysconfig/kdump,发现其有效行的第一行有异常

通过对比其他正常系统的配置,其值默认为空,不为“15”。在征得同意以后,对其修改,并启动kdump服务。

处理结果

故障排除,完成服务。

  1. TK保险服务器重启排查记录

主要现象

近期以来,每隔2天左右会自动重启,并且重启时间不固定。

主要信息收集

  • 硬件信息:4颗物理cpu,总核数96,总线程数192;内存1T;磁盘多路径连接,划分多个逻辑卷。

  • 操作系统为redhat RHEL 7.4,内核版本3.10.0-693.未进行过版本更新。
  • 应用为db2数据库。

排查过程

  • 查看系统日志,dmesg及打开文件/var/log/messages,并用关键字error、fatal、warning等进行过滤。

egrep –i “error|fatal|warning” /var/log/messages

egrep –i “error|fatal|warning” /var/log/messages

未发现有价值信息。

  • 查看系统用户,存在多个普通用户,并拥有shell(bash)。
  • 查看用户授权,主要是/etc/suders,使用的命令 visudo 。虽然授权指令较多,但未发现有reboot指令的权限授予。
  • 排查用户的计划任务,因为用户较多,使用如下脚本进行查找。
for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

发现db2数据库启动账号有个重启脚本,设定的时间是每天早上8点。搜索此脚本及所在路径,不存在,建议注释掉此条。

  • 用户反馈,说二线技术支持曾经远程配置了kdump,模拟系统崩溃能生成vmcore文件,但昨天早上(6:00多钟)系统崩溃发生重启,却没有生成转储文件。查看文件/etc/default/grub及/boot/grub2/grub.cfg,其中 crashkernel=786M@0M。鉴于此,把crashkernel的值改成786M,去掉了后边的偏移量。再修改文件/etc/kdump.conf,启用压缩功能。

core_collector makedumpfile -c --message-level 1 -d 31

core_collector makedumpfile -c --message-level 1 -d 31

增加一個选项“-c”,表示启用压缩。

grub2-mkconfig -o /boot/grub2/grub.cfg  

grub2-mkconfig -o /boot/grub2/grub.cfg  

重新生成grub配置,需要重启才能生效。

  • 查看系统参数kernel.sysrq,其值为16,手动方式修改文件 /etc/sysctl.conf,显示指定

Kernel.sysrq=1

修改完执行 sysctl –p 使其生效。

  • 执行下列指令,模拟故障发生。

echo c > /proc/sysrq-trigger

重启完成后,在目录/var/crash确实生成了大文件,大小为4G。

服务建议

等下一次重启,如果生成了vmcore文件,把此文件传到case附件里边,有后台技术对其进行分析。

  1. TK人寿系统修复操作记录

问题及成因

一虚拟机系统, 不能正常引导,但还能进入单用户模式。此虚拟机没有对镜像进行备份,因此无法还原。系统中有用户的数据,因此不能通过重新安装系统来进行有效恢复。

通过沟通,了解到是用户自己在远程执行一個ssh脚本,此脚本有一行”chmod –R 777”的指令,本意是共享一個nfs服务目录,但因为为对目录是否存在进行判断,因此一执行完脚本,所有的目录文件的权限都变成777了。

处理过程

找一台运行正常的,版本一致的系统,对比/etc目录里各种权限与验证有关的目录和权限,如 passwd、shadow、ssh等。用chmod指令逐一进行修改,修改一些权限以后,重启系统,直到能正常运行,并且能用ssh远程登录。

处理结果及建议

交付给用户,然后建议重装系统。但用户自己认为没啥问题,以后再说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/437839.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.ui文件相关

目录 ui类生成过程: 提问: 等以后自己熟练了用代码写这些样式内容,尽量用代码写,原因很简单: 用代码写的可以直接修改代码,但是在设计界面修改的东西,电脑没有QC这玩意,还真不好改…

每日一题 力扣514自由之路

514. 自由之路 题目描述: 电子游戏“辐射4”中,任务 “通向自由” 要求玩家到达名为 “Freedom Trail Ring” 的金属表盘,并使用表盘拼写特定关键词才能开门。 给定一个字符串 ring ,表示刻在外环上的编码;给定另一…

PHP语法

#本来是在学命令执行,所以学了学,后来发现,PHP语法和命令执行的关系好像没有那么大,不如直接学php的一些命令执行函数了。# #但是还是更一下,毕竟还是很多地方都要求掌握php作为脚本语言,所以就学了前面的…

【AI视野·今日Sound 声学论文速览 第四十七期】Fri, 12 Jan 2024

AI视野今日CS.Sound 声学论文速览 Fri, 12 Jan 2024 Totally 10 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers Contrastive Loss Based Frame-wise Feature disentanglement for Polyphonic Sound Event Detection Authors Yadong Guan, Jiqing Han,…

八种Flink任务监控告警方式

目录 一、Flink应用分析 1.1 Flink任务生命周期 1.2 Flink应用告警视角分析 二、监控告警方案说明 2.1 监控消息队中间件消费者偏移量 2.2 通过调度系统监控Flink任务运行状态 2.3 引入开源服的SDK工具实现 2.4 调用FlinkRestApi实现任务监控告警 2.5 定时去查询目标库…

Ubuntu 22.04安装Nginx负载均衡

君衍. 一、编译安装Nginx二、轮询算法实现负载均衡三、加权轮询算法实现负载均衡四、ip_hash实现负载均衡 一、编译安装Nginx 这里我们先将环境准备好,我使用的是Ubuntu22.04操作系统: 这个是我刚安装好的,所以首先我们进行保存快照防止安装…

实战教学:用Semantic Kernel框架集成腾讯混元大模型应用

导语 | 众所周知,Semantic Kernel 主要支持国外的两款大模型,但这对于开发者而言,显然是不够的,尤其是当我们希望对接国内的大模型时,我们应该怎么做呢?如何用 Semantic Kernel 通过 oneapi 来集成腾讯混元…

如何对Microsoft 365中Loop文档进行权限划分

Microsoft 365中Loop文档的权限划分为两种:第一种是共享创意页面。第二种是共享特定的Loop组件。 共享创意页面。 进入创意页面后,点击右上角的“共享”-“页面链接”。 如上图所示,页面共享分三种类型。以“你选择的人”为例。添加要共享的…

iOS 文件分割保存加密

demo只是验证想法,没有做很多异常处理 默认文件是大于1KB的,对于小于1KB的没有做异常处理demo中文件只能分割成2个,可以做成可配置的N个文件分割拼接还可以使用固定的二进制数据,拼接文件开头或结尾 不论哪种拼法,目的…

防御保护--NAT策略

目录 NAT策略 NAT类型 server-map表 P2P --- peer to peer 网络类型 ​编辑 目标NAT--服务器映射 双向NAT ​编辑 多出口NAT NAT策略 静态NAT --- 一对一 动态NAT --- 多对多 NAPT --- 一对多的NAPT --- easy ip --- 多对多NAPT 服务器映射 源NAT--基于源IP地址进行转…

GIS应用水平考试一级—2009 年度第二次

全国信息化工程师——GIS应用水平考试 2009 年度第二次全国统一考试一级 试卷说明: 1、本试卷共9页,6个大题,满分150 分,150 分钟完卷。 2、考试方式为闭卷考试。 3、将第一、二、三題的答案用铅笔涂写到(NCIE-GIS)答题卡上。 4、将第四、五、六题的答案填写到主观题答题卡上…

《HTML 简易速速上手小册》第1章:HTML 入门(2024 最新版)

文章目录 1.1 HTML 简介与历史(😉🌐👽踏上神奇的网页编程之旅)1.1.1 从过去到现在的华丽蜕变1.1.2 市场需求 —— HTML的黄金时代1.1.3 企业中的实际应用 —— 不只是个网页1.1.4 职业前景 —— 未来属于你 1.2 基本 H…