开源运维监控系统-Nightingale(夜莺)应用实践(未完)

一、前言

  某业务系统因OS改造,原先的Zabbix监控系统推倒后未重建,本来计划用外部企业内其他监控系统接入,后又通知需要自建才能对接,考虑之前zabbix的一些不便,本次计划采用一个类Prometheus的监控系统,镜调研后发现Nightingale兼容Prometheus,又有一些其他功能增强,又在一些大的企业经过较大规模部署实践,故本次采用Nightingale作为监控系统来进行重建。

在这里插入图片描述
  Nightingale(夜莺) 是由滴滴开源,捐赠给中国计算机学会开源发展委员会(CCF ODC)的, 它是在 Open-Falcon 的基础上,结合滴滴内部的最佳实践,在性能、可维护性、易用性方面做了大量的改进,逐渐成熟为滴滴集团统一的监控解决方案,支撑了滴滴内部数十亿监控指标,覆盖了从OS、容器、到应用等各层面的监控需求,周活跃用户数千。(Nightingale)作为一个企业级云原生监控解决方案,旨在满足云原生时代企业级的监控需求,侧重云原生,同上兼顾云原生和裸金属,支持应用监控和系统监控,插件机制灵活,插件丰富完善,具有高度的灵活性和可扩展性。它可满足不同规模用户的场景,小到几台服务,大到数十万都可以完美支撑。官网号称:它具备All-in-One部署和开箱即用特性,集合了 Prometheus 和 Grafana 的优点,集成了数据收集、可视化和监控警报三大主要功能,还可以对分布在多个 Region 的指标、日志、链路追踪数据进行统一的可视化和分析。

通过上述系统,我们需要解决如下问题:

  • 当环境中主机系统出现问题后 , 能及时感知,并告警通知,有方便的告警配置方式和多样的通知方式
  • 可通过历史数据了解当前环境运行趋势,预测未来可能出问题,为服务扩缩容提供数据支撑
  • 配置简单,功能完善,文档丰富,有成熟的结构可参考
  • 支持多种指标检测,尤其可及时感知业务异常,并支持一定的告警自我恢复

相关资源:官网、官方手册、nightingale Gitee、官方文档、社区问答、Bug报告、open-falcon、Netdata、TSDB

二、产品特性及架构

2.1、产品特性

目前官方最新版是6.5.0版本。从 v6 版本开始,夜莺尝试转型为统一可观测性平台,n9e 不再仅支持接入时序数据源(Prometheus、Victoriametrics、M3DB、Thanos),也可以接入日志类数据源(Elasticsearch,Loki【预】),链路追踪数据源(Jaeger)。

1)开箱即用:Nightingale支持Docker、Helm Chart和云服务等多种部署方式,它将数据收集、监控和警报集成到了一个系统中,并配有各种监控面板、快速视图和警报规则模板,这大大降低了云原生监控系统的建设成本、学习成本和使用成本,从 v6 版本开始,支持接入 ElasticSearch、Jaeger 数据源,实现日志、链路、指标多维度的统一可观测,更好的UI界面也让用户使用更简单,更加友好。

2)专业的告警管理:它可提供可视化警报配置和管理,支持各种警报规则,提供配置静默和订阅规则的功能,支持多个警报传递通道(多种告警方式),并具有警报自我修复和事件管理等功能。支持对接 Prometheus、VictoriaMetrics、Thanos、Mimir、M3DB 等多种时序库,可实现统的一告警管理。另外它无缝搭配 Flashduty,实现了告警聚合收敛、认领、升级、排班、IM集成,确保告警处理不遗漏,减少打扰,更好协同。

3)云原生支持:实现了通过“交钥匙”即交付的方式来快速构建企业级云原生监控系统,支持大多常见采集器Categra

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/235644.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三季度利空出尽,金山软件即将“破茧”?

引言:近日,金山软件(以下简称为“金山”)披露了2023Q3 季报,AI业绩首次兑现如约而至,而伴随着全球AI商业化进程加速,作为国产办公软件领军企业的金山软件是否也迎来了新的盈利风口期&#xff1f…

(python)cf火线瞄准红名自动开枪

一. 前言 这个应该cf系列第四篇了,目前已经写了ai瞄准,罗技鼠标宏,这篇功能相比前俩个更简单一些,因为代码不多所以就不写类与功能函数了,直接直捣黄龙,我还写了一些辅助脚本,可以用来获取鼠标当前坐标和颜…

视频剪辑合并:批量处理视频,高效快捷,添加背景音乐更添魅力

随着数字媒体的普及,视频已成为生活中不可或缺的一部分。无论是记录生活、分享经验,还是传递信息,视频都以其独特的魅力占据了重要的地位。而在这个快节奏的时代,如何高效地处理视频,以及如何通过添加背景音乐来提升视…

cesium冷知识——bing底图的key是哪里来的?

问题描述: Cesium.js默认使用的是微软的bing底图 但是bing底图是需要key来进行权限认证 那么key是哪里来的呢?(在源码中并没有写死bing的key) 问题答案: Cesium把自己的key向Cesium ion发送请求 得到了一个包含微…

单片机AVR单片机病房控制系统设计+源程序

一、系统方案 设计一个可容8张床位的病房呼叫系统。要求每个床位都有一个按钮,当患者需要呼叫护士时,按下按钮,此时护士值班室内的呼叫系统板上显示该患者的床位号,并蜂鸣器报警。当护士按下“响应”键时,结束当前呼叫…

filebrat+elk+kafka实现远程收集日志

20.0.0.15 kafka1 20.0.0.30 kafka2 20.0.0.40 kafka3 20.0.0.10 logstashkibana 20.0.0.20 elasticsearch 20.0.0.60 elasticsearch 注意---一个input,output要有一个 filebeat.intput Nginx----kafka.conf httpd.conf 两边同时启动 时间同步

[读论文][跑代码]BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion

github: GitHub - Nota-NetsPresso/BK-SDM: A Compressed Stable Diffusion for Efficient Text-to-Image Generation [ICCV23 Demo] [ICML23 Workshop] ICML 2023 Workshop on ES-FoMo 简化方式 蒸馏方式(训练Task蒸馏outKD-FeatKD) 训练数据集 评测指标…

高级I/O 基础概念

文章目录 什么是高级I/O五种常见高级I/O同步IO和异步IO多路转接是异步IO吗 什么是高级I/O 高级I/O(Advanced I/O)是指在计算机系统中进行输入和输出操作时使用的一种更高级的接口和技术。它提供了比传统的基本I/O操作更丰富和灵活的功能,以满…

flask web开发学习之初识flask(二)

文章目录 一、创建程序实例并注册路由1. 为视图绑定绑定多个URL2. 动态URL 二、启动开发服务器1. 自动发现程序实例2. 管理环境变量3. 使用pycharm运行服务器4. 更多的启动选项5. 设置运行环境6. 调试器7. 重载器 一、创建程序实例并注册路由 app.py # 从flask包中导入flask类…

【Python】手把手教你用tkinter设计图书管理登录界面(上)

tkinter tkinter是Python的标准GUI库之一,它是Python中用于创建图形用户界面(GUI)的一种工具。tkinter是一个开源的软件包,由Tcl(Tool Command Language)编写,可以用于创建各种GUI元素&#xf…

使用python发邮件

使用python发邮件,下面是代码,我使用的是88完美邮箱。 该代码是我程序完成,然后它会自动发一封邮件,并且通过sys.argv将程序相关设置写到邮箱里。 下面代码是88邮箱为例: import sys import smtplib from email.heade…

electron调用dll问题总汇

通过一天的调试安装,electron调用dll成功,先列出当前的环境:node版本: 18.12.0,32位的(因为dll为32位的) VS2019 python node-gyp 1、首先要查看报错原因,通常在某一行会有提示,常…