Flashduty 案例分享 - 途游游戏

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。

本次有幸在邹老板支持下访谈到途游资深运维工程师高工,聊一下“途游游戏”在 Flashduty 的实践经验。另外,也欢迎大家下载途游的游戏放松一下,哈哈。

除了途游,莉莉丝、悠星等游戏用户也是Flashduty的用户,场景大抵是类似的,废话不多说,让我们一起来揭开游戏公司 OnCall 的面纱。

1. 辛苦高工先简要介绍一下您所在的团队以及贵司的业务领域特点。

我们主要是游戏项目平台服务,以非容器环境为主,部分平台类业务有使用K8s; 游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。

2. 在使用 FlashDuty 之前,贵司是通过什么方式发告警的?主要痛点是什么?

我们一直是 Falcon、夜莺系 用户,之前没有 Flashduty 之前,我们通过自研的告警发送代理服务来对接 Falcon、夜莺 进行告警发送,最开始因为无任何收敛处理,有遇到 P0 电话告警把手机打爆只能关机的情况(抖动导致的大面积告警),也有把钉钉机器人发死的情况,短信发的无法正常接收短信,后来经过一些判断收敛处理,有一定的缓解,但自已改造的收敛逻辑仍是无法更高效的收敛,且处理逻辑相对较为复杂,同时也怕逻辑处理 BUG 掩盖掉正常的有效告警;还有一点是我们自己的告警发送服务没有值班机制,所有告警所有运维人接收,对短信、电话成本也是一种浪费,更为严重的问题是全组发送严重干扰大家的休息时间

3. 贵司应该也用了多个监控系统吧,云上的、云下的,现在都对接了 Flashduty 么?效果如何?

现在我们夜莺 V6 通过对接 Flashduty,有效帮助我们落地监控 Oncall 值班机制,同时在告警收敛上,更为便捷有效;同时我们在云平台侧的云告警也对接到 Flashduty 后就也解决了告警无法有效触达以及无法值班处理的机制。

4. 在对接 Flashduty 过程中是否遇到一些问题呢?请问是如何解决的呢?

在对接 Flashduty 的过程倒是很顺利,使用较为便捷,只是告警模板上花了点时间进行定制修改,另外在 Flashduty平 台上的告警统计分析中,我们开始查看不太方便,后来通过告警事件的不同维度聚合(告警级别、告警标题等)展示更方便我们进行值班告警事件回顾闭环,使用起来很方便。

5. 您对 Flashduty 中哪几个功能设计最为认可?哪些功能切实解决了您的痛点?
  1. 多平台对接,把不同平台的告警统一一个地方进行告警发送、OnCall值班,开箱即用;
  2. 告警收敛效果很好,在默认收敛配置下降噪比平均在 80% 以上;
6. 对于未来有计划采用 Flashduty 的客户,您这边有什么实践经验分享么?

利用好值班功能及对应的升级,做好告警的责任分权,谁是第一负责人谁接收谁处理谁跟进,让用户自服务使用监控,运维做好指导培训;

小编注:途游的运维工程师在和研发工程师的协作过程中,扮演的是教练和 Platform 提供方的角色,这应该是一种典型的组织架构,让研发自助服务可以大幅提升人效,当然,前提是得有好 Platform 做支撑。

7. 这段时间下来,你使用 Flashduty 感受如何?对我们是否有一些建议?

当前很好用了,后面可以加一些智能的告警分析,比如哪些告警策略需要什么样的优化,在数据运营层面给我们做一些赋能。

另外目前其实已经能接入事件源,是否能把事件墙功能集成一下在 Flashduty 中,毕竟生产环境的故障 70% 都来自变更,如果能把变更事件统一化到一个地方呈现,对于故障定位是一个极大的助力。

小编注:这个功能其实已经提供了,可能高工不清楚,回头需要单独介绍一下这个功能啦,哈哈。

关于Flashduty

🛎️ Flashduty 中心化告警处理,在正确的时间通知正确的人

20231123151522

20231123151528

💸 每一分钟都很关键,降低故障时间,就是赚钱

20231123151540

20231123151546

20231123151554

🖇️ 您常用的监控系统,我们都可以集成

20231123151607

告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:FlashDuty - 快猫星云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/336238.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式培训机构四个月实训课程笔记(完整版)-Linux系统编程第八天-Linux sqlite3数据库(物联技术666)

更多配套资料CSDN地址:点赞+关注,功德无量。更多配套资料,欢迎私信。 物联技术666_嵌入式C语言开发,嵌入式硬件,嵌入式培训笔记-CSDN博客物联技术666擅长嵌入式C语言开发,嵌入式硬件,嵌入式培训笔记,等方面的知识,物联技术666关注机器学习,arm开发,物联网,嵌入式硬件,单片机…

【刷题日记】青少年CTF-A2 Crypto(全)

Caesar 题目难度:★ 题目描述:凯撒大帝在很早的时候发明了这个,你能解密出来吗?flag格式为:qsnctf{xxx}。 下载附件,题目提示告诉我们是凯撒了,一个简单的移位操作。 使用在线解码网站&#…

生物信息学中的可重复性研究

科学就其本质而言,是累积渐进的。无论你是使用基于网络的还是基于命令行的工具,在进行研究时都应保证该研究可被其他研究人员重复。这有利于你的工作的累积与进展。在生物信息学领域,这意味着如下内容。 工作流应该有据可查。这可能包括在电脑…

Opencv实验合集——实验九:姿势估计

在上一章节(相机校准),你已经找到了相机矩阵,畸变系数等等参数。给出一个图案图像,我们便可以利用上面的信息用于计算其姿势,或者物体在空间中位于何处,比如如何旋转,如何移动等等问题。对于一个平面物体&a…

Android BUG 之 Error: Activity class {} does not exist

项目场景: 更换包名,运行报错 问题描述 原因分析: 在替换包名的时候要确认,配置文件跟build中的保持一致,在更换后还要将旧包的缓存数据清理掉 解决方案: 1 替换后删除 app 下的build 文件夹 2 Rebuild Pr…

k8s的node亲和性和pod亲和性和反亲和性 污点 cordon drain

node亲和性和pod亲和性和反亲和性 污点 cordon drain 集群调度: schedule的调度算法 预算策略 过滤出合适的节点 优先策略 选择部署的节点 nodeName:硬匹配,不走调度策略,node01 nodeSelector:根据节点的标签选择,会走调度的算法 只…

20、Kubernetes核心技术 - 基于Prometheus和Grafana搭建集群监控平台

目录 一、概述 二、监控平台架构图​编辑 三、部署 Prometheus 3.1、Prometheus简介 3.2、部署守护进程node-exporter 3.3、部署rbac 3.4、ConfigMap 3.5、Deployment 3.6、Service 3.7、验证Prometheus 四、部署Grafana 4.1、Deployment 4.2、Service 4.3、Ing…

Python办公自动化 – 操作NoSQL数据库和自动化图像识别

Python办公自动化 – 操作NoSQL数据库和自动化图像识别 以下是往期的文章目录,需要可以查看哦。 Python办公自动化 – Excel和Word的操作运用 Python办公自动化 – Python发送电子邮件和Outlook的集成 Python办公自动化 – 对PDF文档和PPT文档的处理 Python办公自动…

雍禾植发袁宣心中有“术”,雍禾医疗帮用户重启人生

从公立医院烧伤外科来到雍禾,可以说是袁宣职业生涯里最重要的一个决定。据了解,袁宣医生所在的雍禾植发,是国内最大的毛发医疗机构。截至2022年12月31日,雍禾医疗已组建1341人的专业医疗团队,其中毛发医生294人&#x…

Android 13 移除下拉栏中的设置入口

介绍 因为当前项目的设置已被加密,客户不希望通过下拉窗口的设置图标进入设置,决定去掉该图标。 效果展示 分析 这里首先想到在SystemUI寻找这个图标的资源文件,找到资源文件后寻找对应控件调用的地方,根据id寻找控件代码即可。…

FPGA UDP协议栈:基于88E1111,支持RGMII、GMII、SGMII三种模式,提供3套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的以太网方案本协议栈的 1G-UDP版本本协议栈的 10G-UDP版本本协议栈的 25G-UDP版本1G 千兆网 TCP-->服务器 方案1G 千兆网 TCP-->客户端 方案10G 万兆网 TCP-->服务器客户端 方案 3、该UDP协议栈性能4、详细设计方案设…

什么是HTTP协议以及对HTTP协议的见解

目录 HTTP协议 (1)什么是http协议 (2)http协议的特点: (3)http协议请求头 (4)http协议响应头 HTTP协议 (1)什么是http协议 http&#xff0…