开发「定位线上问题」小工具总结

文章目录

    • 1. 写在最前面
      • 1.1 背景
      • 1.2 思路
    • 2. 如何快速解决问题
      • 2.1 分析问题
      • 2.2 补救问题
        • 2.2.1 思路
        • 2.2.2 实现
    • 3. 碎碎念

1. 写在最前面

1.1 背景

同事给处理各种线上问题以及处理紧急要交付的需求版本的我,紧急插入了一个线上的问题:

问题说明:发现从 2023.12.25 号开始,XX 产品上传的计费文件,偶现有超过 12 小时才进入计费存储系统。当前 XX 产品的计费逻辑为「超过 12h」,即忽略计费统计,简而言之,XX 产品已经有接近一个月的计费问题了!

注:XX 产品是一个正在处于打磨期的产品,无计费上报的监控链路、无集中日志存储、无计费服务维护人员,即一个计费「三无」产品

1.2 思路

本着「办法总比困难多的思路」,就算再难解决,作为接锅的人,也得想办法解决。

分析问题三步走:

  • 单个的日志文件可以解析出全局唯一的 id

  • 全局唯一的 id,可以定位出生成该文件的机器 ip

  • 定位问题 — 机器的 ip 中上传日志的服务可以分析,出文件的生成时间和文件的上传时间

修复问题小工具:

  • 批量扫描线上所有机器,然后拉起被丢弃的日志文件,恢复数据。

2. 如何快速解决问题

2.1 分析问题

  • 解析全局唯一的 id

    在这里插入图片描述

    注:开发小心得,为了避免给自己埋坑,在开发需要复杂解析的文件时,建议提供一个解析小工具!

  • 分析 id 所属机器

    在这里插入图片描述

  • 发现计费侧反馈的文件,从 2024.01.11 ~ 2024.01.12 一直断断续续的有上传,并且已经超过了 12h

    在这里插入图片描述

结论:仔细分析了计费的逻辑,发现根因是之前设计的上传触发逻辑有两种,一个当前时间大于文件最后更新时间的 10m ,一个是文件的大小需要大于 1M。而这个产生这个问题的客户使用的方式比较独特,他使计费文件的断断续续的有更新,且总大小仍然小于 1M。

2.2 补救问题

虽然计费出现了小插曲,但是该收的钱还是得收!但是由于野生的计费系统,没有办法查日志,想要分析从 2023.12.15 到 2024.1.17 号那些文件超过 12 小时上报了,这个问题就变成急需解决的问题了?

2.2.1 思路

遇事不要慌,沉着冷静的分析下,是否有什么规律可以看。日志上传成功的格式:

2024-01-12 06:21:19 info billing_u: xxx serives upload file xyz_0_streamSubscription_1_1704991273078

分析如上日志,发现两个有效性

  • 2024-01-12 06:21:19 字段是文件上传的时间,北京时间

  • 1704991273078 字段是文件产生的时间,UTC 时间的时间戳

咦,将两个字段转化到相同的时区,然后比较不就可以得出产生到上传的时间的差值了嘛?这很有道理

2.2.2 实现

在 shell 上我就是个渣渣,不过,我有 chatgpt,快速入门 shell 不是梦。「只要你的问题描述的够精确,chatgpt 可以帮你解决 80% 的问题」

  • 首先,将待分析的文件中关心的日志上传成功的记录转成 csv 格式

    cat billing.log  | grep success > data.csv
    
  • 其次,写一个可以逐行读取 csv 日志的分析脚本

    #!/bin/bashwhile IFS= read -r log_line; dotimestamp=$(echo "$log_line" | awk '{print $1, $2}')number=$(echo "$log_line" | grep -oE '[0-9]+$')generateTime=$(($number / 1000))# 将时间戳转换为Unix时间戳timestamp_unix=$(TZ=UTC date -d "$timestamp" +%s)# 计算时间差time_diff=$((timestamp_unix - generateTime))if [ $time_diff -gt 43200 ]; then# 输出结果# echo $generateTime# echo $timestamp_unixecho $log_line# echo "时间差: $time_diff 秒"fi
    done <data.csv
    

    注:新学的 shell 语法如下,

    TZ=UTC date -d “$timestamp” +%s 将 2024-01-12 06:21:19 转成北京时间转为 UTC 的时间戳

    while IFS= read -r log_line; do

    ·····

    done <data.csv

  • 最后,使用运维执行脚本的工具逐个机器执行如上脚本拉取有问题的文件名。

执行效果如下图所示:

在这里插入图片描述

3. 碎碎念

2023 年忙着救火,再加上工作年限日益增加,开始变得有些倦怠了,希望 2024 能找回自己,积极学习感兴趣的技术,保持空杯的心态。就这样啦,今天又是早下班失败的一天!

  • 买定离手,落子无悔,我在哪里,我的背后就是退路。
  • 人们总是把那条没有选择的路想象得开满鲜花。
  • 能用金解决的事情,就别用人情,能用汗水解决的问题,就别用眼泪。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/413587.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中的System类和一些练习

​​​​​​​ 目录 常用方法&#xff1a; 第一个方法&#xff1a; 第二个方法&#xff1a; 第三个方法&#xff1a; 方法 三 的拓展&#xff1a; System 和 Math 一样&#xff0c;也是一个工具类&#xff0c;提供了一些与系统相关的方法 常用方法&#xff1a; 第一个方…

【机器学习】机器学习变量分析第02课

当我们谈论用机器学习来预测咖啡店的销售额时&#xff0c;我们实际上是在处理一系列与咖啡销售相关的变量。这些变量就像是我们用来理解销售情况的“线索”或“指标”。那么&#xff0c;让我们用通俗易懂的方式来聊聊这些变量是怎么工作的。 特征变量&#xff1a;咖啡店的“档…

分类预测 | Matlab实现ZOA-CNN-MATT-SVM斑马优化卷积神经网络多头注意力机制结合支持向量机的数据分类预测【24年新算法】

分类预测 | Matlab实现ZOA-CNN-MATT-SVM斑马优化卷积神经网络多头注意力机制结合支持向量机的数据分类预测【24年新算法】 目录 分类预测 | Matlab实现ZOA-CNN-MATT-SVM斑马优化卷积神经网络多头注意力机制结合支持向量机的数据分类预测【24年新算法】分类效果基本描述程序设计…

mall整合Redis实现缓存功能

mall整合Redis实现缓存功能 本文主要讲解mall整合Redis的过程&#xff0c;以短信验证码的存储验证为例。 Redis的安装和启动 Redis是用C语言开发的一个高性能键值对数据库&#xff0c;可用于数据缓存&#xff0c;主要用于处理大量数据的高访问负载。 下载Redis,下载地址&…

【HTML】-- 02 HTML进阶

2.HTML进阶 2.1 块元素和行内元素 块元素 无论内容多少&#xff0c;该元素独占一行(p段落标签、h1-h6标题标签…) 行内元素 内容撑开宽度&#xff0c;左右都是行内元素的可以排在一行(a链接标签 . strong粗体 . em斜体 …) 2.2 列表标签 列表就是信息资源的一种展示形式。…

VUE组件--动态组件、组件保持存活、异步组件

动态组件 有些场景可能会需要在多个组件之间进行来回切换&#xff0c;在vue中则使用<component :is"..."> 来实现组件间的来回切换 // App.vue <template><component :is"tabComponent"></component><button click"change…

SMART PLC 模拟量批量转换功能块“Multi_ITR“

模拟量输入转换功能块S_ITR详细公式和代码介绍请查看下面文章链接: https://rxxw-control.blog.csdn.net/article/details/121347697https://rxxw-control.blog.csdn.net/article/details/121347697Smart PLC指针和FOR循环组合应用 https://rxxw-control.blog.csdn.net/arti…

Docker上安装Elasticsearch、Kibana 和IK分词器

Docker上安装Elasticsearch、Kibana 和IK分词器 随着大数据和日志管理的兴起&#xff0c;Elasticsearch和Kibana成为了许多开发者和系统管理员首选的工具&#xff0c;我接下来使用的版本是 8.11.0 &#xff0c;我实测测试过都能成功安装的版本有&#xff1a;7.6.2、8.1.0、8.6…

接口自动化测试框架设计

文章目录 接口测试的定义接口测试的意义接口测试的测试用例设计接口测试的测试用例设计方法postman主要功能请求体分类JSON数据类型postman内置参数postman变量全局变量环境变量 postman断言JSON提取器正则表达式提取器Cookie提取器postman加密接口签名 接口自动化测试基础getp…

AJAX和Axios异步框架

AJAX&#xff1a;Asynchronous JavaScript And XML 异步的JavaScript和XML 作用&#xff1a;1、与服务器进行数据交换&#xff0c;通过AJAX可以给服务器发送请求&#xff0c;并获取服务器响应数据。使用了AJAX和服务器进行通信&#xff0c;就可以使用ajax和html来代替jsp页面了…

图形化编程:开启无代码时代的编程之旅

在当今数字化时代&#xff0c;编程已经成为一项重要的技能。然而&#xff0c;对于许多初学者和非专业人士来说&#xff0c;传统的文本编程语言往往显得复杂和难以理解。图形化编程&#xff0c;作为一种新兴的编程范式&#xff0c;正逐渐改变这一现状&#xff0c;为更多人打开了…

【51单片机】数码管的静态与动态显示(含消影)

数码管在现实生活里是非常常见的设备&#xff0c;例如 这些数字的显示都是数码管的应用。 目录 静态数码管&#xff1a;器件介绍&#xff1a;数码管的使用&#xff1a;译码器的使用&#xff1a;缓冲器&#xff1a; 实现原理&#xff1a;完整代码&#xff1a; 动态数码管&#…