Java应用在线debug--bistoury介绍

Bistoury介绍

Bistoury 是去哪儿网开源的一个对应用透明,无侵入的java应用诊断工具,用于提升开发人员的诊断效率和能力,可以让开发人员无需登录机器或修改系统,就可以从日志、内存、线程、类信息、调试、机器和系统属性等各个方面对应用进行诊断,提升开发人员诊断问题的效率和能力。

Bistoury 集成了Alibaba开源的arthas和唯品会开源的vjtools,因此arthas和vjtools相关功能都可以在Bistoury中使用。
Arthas和vjtools通过命令行或类似的方式使用,Bistoury在保留命令行界面的基础上,还对很多命令提供了图形化界面,方面用户使用。

Bistoury 英文解释是外科手术刀,含义也就不言而喻了。

通过命令行界面查看日志,使用arthas和vjtools的各项功能

在这里插入图片描述

在线debug,在线应用调试神器

在这里插入图片描述

线程级cpu监控,帮助你掌握线程级cpu使用率

在这里插入图片描述

在web界面查看JVM运行信息,以及各种其它信息

在这里插入图片描述

动态给方法添加监控

在这里插入图片描述

线程dump

在这里插入图片描述

Bistoury架构分析

Bistoury核心组件包含agent,proxy,ui:

  • agent : 与需要诊断的应用部署到一起,负责具体的诊断命令执行,通过域名连接proxy
  • proxy:agent的代理,agent启动时会通过ws和proxy连接注册,proxy可以部署多个,推荐使用域名负载
  • ui:ui提供图形化和命令行界面,接收从用户传来的命令,传递命令给proxy,接收从proxy传来的结果并展示给用户。

在这里插入图片描述

一次命令执行的数据流向为 ui -> proxy -> agent -> proxy -> ui

具体分析一下:

  • proxy 先启动,将自己地址注册到zk
  • agent通过域名访问proxy,随机分配到一个proxy,在proxy注册自己
  • UI 访问一个具体的应用时,通过zk拿到所有的proxy,然后依次检查app对应的agent是否在该proxy,如果在,web网页连接这个proxy
  • web上输入一个命令:web->proxy->agent->proxy->ui

具体参见 bistoury/design.md at master · qunarcorp/bistoury · GitHub

bistoury原理分析: https://www.jianshu.com/p/f7202e490156

总结下就是使用类似skywalking那样的agent技术,来监测和协助运行在JVM上的程序。

Bistoury快速开始

准备

  • 目前仅支持linux环境,所以需要一个linux环境
  • 本机已安装jdk1.8+,并且设置了JAVA_HOME环境变量,如果没有设置也可以在启动脚本中传递参数,详情建下文
  • 本机9090,9091,9880,9881端口未被占用,这些端口会被Bistoury使用,如果已占用需要进行配置,详情见下文
  • 本机已经启动一个待诊断java应用,如果是spring web应用不需要做处理,非spring web应用需要配置启动脚本的-c参数,详情见下文

获取快速部署包

官方有一个快速开始文档: bistoury/quick_start.md at master · qunarcorp/bistoury · GitHub

可以下载release包快速启动,就可以体验了。

首先我们将快速启动包 bistoury-quick-start.tar.gz 拷贝到想要安装的位置。

然后解压启动包:

tar -zxvf bistoury-quick-start.tar.gz
cd bistoury

最后是启动 Bistoury,因为 Bistoury 会用到 jstack 等操作,为了保证所有功能可用,需要使用和待诊断 JAVA 应用相同的用户启动。

假设应用进程 id 为 1024

  • 如果应用以本人用户启动,可以直接运行
./quick_start.sh -p 1024 start
  • 如果应用以其它帐号启动,比如 tom,需要指定一下用户然后运行
sudo -u tom ./quick_start.sh -p 1024 start
  • 停止运行
./quick_start.sh stop

访问

可以通过http://ip:9091来对ui进行访问,比如部署的机器ip为127.0.0.1,则可以通过http://127.0.0.1:9091/访问,初始化用户名密码均为admin

在线debug使用说明

Bistoury实现了在线Debug功能,它模拟了ide的调试体验,可以直接在代码上添加断点,甚至还支持条件断点。

  • 在线debug在使用,功能上和远程调试,或者说你在ide上debug本地代码几乎一致。你在代码某一行打一个断点,断点触发就能看到本地变量、成员变量、静态变量以及调用栈
  • 远程调试需要系统启动时就带上调试相关参数,线上应用启动时不可能默认打开调试功能,不说去加上参数然后重启系统的麻烦,重启后你想找的问题可能已经没法复现了;而在线debug不需要应用做任何操作
  • 远程调试的断点触发后整个系统会暂停,线上应用这么操作很可能会导致故障;在线debug触发断点后只打印快照信息,打印完后继续执行代码逻辑,不影响系统的运行

使用步骤

  • 进入在线debug页面,初次使用时请先点击下方链接设置gitlab private token,若不设置,则添加断点时的代码将会通过反编译产生。目前仅支持gitlab,点击输入框下方对应链接获取,然后点击保存设置private token
    在这里插入图片描述

  • 选择需要调试的应用名,再选择需要调试的机器,然后点击【debug】按钮,进入已加载类列表。

在这里插入图片描述

  • 找到需要调试的类(支持搜索),点击【调试】按钮进入调试页面。类列表是在attach时获取的应用已加载的类。
  • 如果在attach之后有新的类加载(有时在列表中找不到自己想要的类,可能就是你要的类是在attach之后再加载的),可以通过点击【重新加载】加载按钮对列表进行重新加载。刷新按钮只会重新请求列表,不会重新加载
  • 选择“只加载新加载的类”只会加载应用中新加载的类;
  • 选择“全部加载”会把整个列表重新加载一遍。
  • 找到需要调试的那行代码,点击前方的行号标记设置断点

在这里插入图片描述

线程级cpu监控

在系统的日常运维中,我们有时会碰到cpu使用率突然飙高的情况。这个时候我们会登录机器,top查看进程id,top -h查看消耗cpu的线程id,然后jstack看看对应的线程是哪一个,最后再进行具体分析。 暂且不考虑这一系列操作需要的时间,我们收到报警的时候可能正在公司外吃饭,或是正在睡觉,而等我们做好准备登录上机器时问题已经结束了,现场没了,我们还能做的就只是看着机器的cpu监控图一脸茫然…

当遇到这些情况时,你会发现你需要的是线程级cpu使用率监控帮你指出问题线程,而不是传统的机器cpu使用率监控让你只能看着监控图一脸懵逼。

Bistoury就是你需要的那一个!我们提供了线程级的cpu使用率监控,它在本地保存了最近三天的线程级监控数据,还对每个线程每一分钟提供一个瞬时的线程调用栈。

使用

  • 进入主机信息页面
  • 选择需要查看的应用、机器
  • 点击 【线程级cpu监控】

线程级cpu监控主要分为两个区域,区域一是线程数量和cpu占比的折线图,区域二是线程完整信息。

区域一

可以单独查看某一线程的cpu占比,也可以查看不同时间的cpu占比(支持最近三天),点击某一时间对应的点,可以在区域二展示具体的线程信息。

区域二

可以按照线程名、线程调用栈、线程状态对线程进行筛选,其中每分钟cpu占用率是该分钟内cpu使用占比,瞬时cpu使用占比,是指抓取数据时cpu瞬时cpu使用率占比。

动态监控

有时候我们需要对系统的某个方法添加一个监控看看系统运行情况,但经历一次修改代码、qa检查、重新发布的流程又感觉不划算,这就是动态监控大显身手的时候了。 动态监控类似于Arthas的monitor方法,会对方法的执行时间、调用次数、失败次数进行监控,不同之处在于会生成对应的监控图,保留最近几天的数据,并且提供了web界面,通过类似添加断点的方式来添加监控。

注意: 监控会使用部分应用程序内存,建议内存较小的应用不要添加过多的动态监控。

监控生命周期

动态监控添加的指标生命周期与应用的的生命周期基本一致,从添加开始一直到应用停止,监控回一直采集监控数据。并存储最近三天的历史数据。

使用

  • 进入动态监控页面,初次使用时请先点击下方链接设置gitlab private token,若不设置,则添加断点时的代码将会通过反编译产生。目前仅支持gitlab,点击输入框下方对应链接获取,然后点击保存设置private token。

在这里插入图片描述

  • 选择需要添加监控的应用名,再选择需要在哪台机器上添加监控,然后点击【选择】按钮,进入已加载类列表
  • 找到需要添加的类(支持搜索),点击【监控】按钮进入监控页面。类列表是在attach时获取的应用已加载的类。
  • 如果在attach之后有新的类加载(有时在列表中找不到自己想要的类,可能就是你要的类是在attach之后再加载的),可以通过点击【重新加载】加载按钮对列表进行重新加载。刷新按钮只会重新请求列表,不会重新加载。
  • 选择“只加载新加载的类”只会加载应用中新加载的类;
  • 选择“全部加载”会把整个列表重新加载一遍。
  • 找到需要添加监控的方法,在其中任意语句添加标记,点击前方的行号标记所在行。

在这里插入图片描述

  • 在监控首页可以选择应用及机器后可以查看监控数据

应用中心

在前面说过,Bistoury不仅仅可以从机器的维度,还可以从应用的维度对系统进行诊断。

应用是什么

我们知道,在线系统往往部署在多台机器上,应用就是与系统相关的这些机器以及所使用到的资源的一个集合。

应用中心就是用来管理应用信息的一个东西,而Bistoury需要从应用中心获取应用与机器、应用与人等各种信息。

Bistoury在ui内部集成了一个简单的应用中心,如果公司内部有自己的应用中心,应该实现bistoury-application-api模块中的接口接入自己的应用中心。

功能说明

应用中心主要职责如下:

  • 人/应用/服务器之间的关系
  • 应用/服务器的信息

使用说明

  • 点击【应用中心】进入应用中心页面,这里会展示当前登录用户的所有应用
  • 点击【新增】可以新增一个应用,新增应用时会默认将当前登录用户添加到应用负责人中.
  • 点击【管理】可以对应用信息进行管理,可以修改应用信息
  • 点击【服务器管理】tab也可以对当前应用的服务器信息进行管理,点击列表中的开关可以对线程级cpu监控等功能进行管理
  • 点击新增按钮可以新增服务器,管理按钮可以对服务器信息进行管理。其中端口号用于agent与应用进行连接,日志目录用于查看日志

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/4151.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

采用Prometheus+Grafana+Altermanager搭建部署K8S集群节点可视化监控告警平台

文章目录 1. 实验节点规划表2. 安装Prometheus3. 安装node_exporter4. 配置prometheus.yml文件5. 安装Grafana6. 安装Altermanager监控告警 采用 "PrometheusGrafana"的开源监控系统,安装部署K8S集群监控平台。 并使用Altermanager告警插件,配…

CentOS Linux的替代品(四)_openEuler 22.03-LTS基础安装教程

文章目录 1 openEuler 22.03-LTS简介1.1 系统安装1.1.1 发布件1.1.2 最小硬件要求1.1.3 硬件兼容性 1.2 关键特性1.2.1 openEuler 22.03-LTS基于 Linux Kernel 5.10内核构建, 在进程调度、内存管理等方面带来10余处创新1.2.2 新介质文件系统1.2.3 内存分级扩展1.2.4 用户态协议…

LLM - 第2版 ChatGLM2-6B (General Language Model) 的工程配置

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131445696 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优…

Scrapy框架之下载中间件(详解)

目录 Scrapy中下载中间件 概念 方法 process_request(self, request, spider) 参数: process_response(self, request, response, spider) 参数 基本步骤 示例代码 注意 Scrapy 中 Downloader 设置UA 开发UserAgent下载中间件 代码 三方模块 配置模块到Settin…

GeneGPT:用领域工具增强大型语言模型,以改善对生物医学信息的访问

文章目录 一、论文关键信息二、主要内容1. Motivations2. 解决方案关键3. 实验和结果 三、总结与讨论 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、论文关键信息 论文标题:GeneGPT: Augmenting Large Language Models with Domain …

Python3 标准库概览 | 菜鸟教程(十八)

目录 一、Python3 标准库中的模块 (一)os 模块 (二)sys 模块 (三)time 模块 (四)datetime 模块 (五)random 模块 (六)math 模块…

PostgreSQL13.1

目录 1. PostgreSQL简介1.1 PostgreSQL是什么?1.2 PostgreSQL数据库的优缺点是什么?1.2.1 PostgreSQL的主要优点如下:1.2.2 PostgreSQL的应用劣势如下: 1.3 PostgreSQL不同大版本之间的特性比较1.4OpenGauss与PostgreSQL的对比1.4…

互联网编程之多线程/线程池TCP服务器端程序设计

目录 需求 多线程TCP服务器 线程池TCP服务器 测试 日志模块 需求 多线程TCP服务器(30分): 设计编写一个TCP服务器端程序,需使用多线程处理客户端的连接请求。客户端与服务器端之间的通信内容,以及服务器端的处理…

Linux中创建sftp用户并限制目录权限

注意两点: 一是禁止该用户通过ssh登录,二是不需要创建家目录。家目录简单来说,就是在/home下的用户命令,默认每个用户在/home中都是有与用户名一样的文件夹。 1.创建组 groupadd sftp 2. 创建用户 useradd -g sftp -s /sbin/…

API 网关 vs 负载均衡:选择适合你的网络流量管理组件

由于互联网技术的发展,网络数据的请求数节节攀升,这使得服务器承受的压力越来越大。在早期的系统架构中,通常使用负载均衡来将网络流量平摊到多个服务器中,以此减轻单台服务器的压力。但是现如今,后端服务的种类在不断…

vue进阶-elementPlus

Element Plus官网 Element Plus 基于 Vue 3,面向设计师和开发者的组件库。减少开发者关注css,重心关注业务逻辑。 1. 入门 1.1 安装 npm install element-plus --save1.2 快速开始 1、main.js 引入并 use element-plus import { createApp } from …

Java开发 - Canal的基本用法

前言 今天给大家带来的是Canal的基本用法,Canal在Java中常被我们用来做数据的同步,当然不是MySQL与MySQL,Redis与Redis之间了,如果是他们,那就好办了,我们可以直接通过配置来完成他们之间的主从、主主&…