【高可用架构】聊聊故障和高可用架构设计

在架构设计中,高性能、高可用、可拓展以及安全等等有多种维度去判断架构的设计纬度,但是一般来说我们需要考虑具体的业务场景,去判断采用那种合适的架构方案,但是对于大多数的设计来说,都需要满足高性能、高可用。所以这一篇主要介绍下如何设计高可用架构。

什么是高可用

说白了就是724小时不间断的提供服务。服务端开发的职责是按照产品文档进行设计和开发出一个功能,但是服务治理需要提供724小时的服务,也就是后续的服务的维护、监控等也是工程师的职责。

对于设计一个可容错的分布式系统架构来说,我们需要有一个准线,也就是如何去界定。
具体公示
Availability=MTTFMTTF+MTTRAvailability=MTTFMTTF+MTTR
MTTF 是 Mean Time To Failure,平均故障前的时间,即系统平均能够正常运行多长时间才发生一次故障。系统的可靠性越高,MTTF 越长。
MTTR 是 Mean Time To Recovery,平均修复时间,即从故障出现到故障修复的这段时间,这段时间越短越好。
在这里插入图片描述
一般来说就是故障的时间,大多数可以做到3个9到4个9之间。即便是互联网应用也很难作答5个9。
所以为了提供可用性,我们要么减少故障的恢复时间,要么提供系统无故障时间。但是对于一个分布式系统来说,不出故障是不可能的,所以,当出现故障的时候我们需要紧急修复,减少故障恢复时间。

故障分类

在这里插入图片描述
一般对于每个公司来说都有自己划分故障的级别,可能有的按照系统的损失金额来划分,有的按照系统影响用户范围来划分。其实对于每个工程师来说遇到的故障越多,经验越丰富。处理起来越从容。所以出现故障的时候要紧急找到问题所在。
在我2年多的工作中也遇到过很多故障,比如因为在业务高峰期批量刷数据,导致主从库数据延迟影响业务。程序代码的逻辑BUG考虑不完善导致业务影响,以及同事遇到的一个慢SQL导致支付系统批扣失败等等。还遇到过三分的网线被挖断,导致服务不可用。

故障原因

影响故障的原因其实很多,但是包括不限于 软件设计、硬件故障、人为故障、自然灾害等。如果具体细分的话,其实一个是无计划,一个是有计划。

无计划故障

在这里插入图片描述

  • 系统级故障,包括主机,操作系统,中间件,数据库,网络,电源以及外围设备
  • 数据和中介的故障,包括人员误操作,硬盘故障,数据乱了
  • 自然灾害,人为破坏,以及供电问题

有计划故障

在这里插入图片描述

  • 日常任务:备份,容量规划,用户和安全管理,后台批处理应用
  • 运维相关:数据库维护,应用维护,中间件维护,操作系统维护,网络维护
  • 升级相关:数据库,应用,中间件,操作系统,网络,包括硬件升级

分类

  • 网络问题:网络连接出现问题,网络带宽出现用赛
  • 性能问题:数据库慢SQL,Java Full GC,磁盘IO过大,CPU飙高,内存不足
  • 安全问题:网络攻击,DDos
  • 运维问题:系统总是在被更新和修改,架构在不断的调整,监控问题
  • 管理问题:没有梳理出关键服务以及服务的依赖关系,运行信息没有和控制系统同步
  • 硬盘问题:硬盘坏,网卡,交换机,机房掉电,挖掘机等
  • 软件设计问题:新上线或者生产上跑的代码 逻辑有BUG导致的。
    总结:其实对于大多数情况下,开发(编码、DB、中间件才是出现问题比较多的时候,针对软件质量其实仅仅只做Code Rewiew、上线管控根本不够)

故障不可避免

对于一个大规模分布式系统来说,出现故障是常态,一旦出先就是多米诺骨牌一样。
在这里插入图片描述
要意识到两个事情

  • 故障是正常的,而且是常见的。
  • 故障是不可预测突发的,而且相当难缠
    不要尝试着去避免故障,而是要把处理故障的代码当成正常的功能做在架构里写在代码里。Design for Failure。
    弹力设计的目的是用尽一切办法降低MTTR,故障的修复时间,
    弹力设计的目的是为来在好的情况下,可以系统自动修复,不需要人工的干预,不好的情况下,自我保护,事态不会变的更糟糕。

常见的高可用方法

架构设计层面
容错能力:服务隔离、异步调用、请求幂等性
可伸缩性:有/无状态的服务
一致性:补偿事务,重试
应对大流量能力:熔断、降级
接口层面:排队、限流

在这里插入图片描述
其他方面
软件工程层面
其实大多数出现故障的时候,除了不可控因素之外,更多的是程序逻辑BUG导致的,所以我们需要在代码上线上做一定的安全防范意识。比如从需求的合理性、以及软件设计上、具体代码实现的层面上,依赖的存储中间件等等,以及测试环节、上线环节,功能验收环节等,都需要从质量上把控。但是如果一味的只关注流程,其实没有办法去避免,所以需要针对每次变动,想好具体的应急方案。比如上线异常可以通过回滚的方式等等。

总结

本篇主要设计了高可用设计架构中,如何判断高可用系统,以及故障出现的类别,最后描述了在高可用设计中常用的设计模式,而后续会接着写完这个系列。隔离&异步设计,幂等&重试&补偿,熔断&降级,限流&排队。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/5051.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1752_使用Perl实现目录遍历

全部学习汇总: GreyZhang/speed_emacs: Try to make a new emacs configuration which is fast even on windows! (github.com) 关于Perl和Python的优劣我不去做什么分析,也不去发表什么深入的见解。我个人的学习过程是先Perl后Python再回到Perl。因为工…

Redis 高可用【主从复制 哨兵 集群】

主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。缺陷:故障恢复无法自动化;写操作无法负载均衡&am…

【深度学习推荐系统 工程篇】二、从TF-Serving看生产环境的模型推理服务

前言 模型训练完成后,到在线部署是其所必须要做的一步,伴随模型结构复杂/算力增加,打造低延时/低资源占用的模型预测服务是模型上线的关键; tensorflow 很早就开源了tf-serving(代码连接:https://github.…

1.1.1 Qt信号槽之connect与disconnect介绍

关于Qt信号槽中connect与disconnect介绍 首先我们要知道,如果想要使用Qt中的信号槽机制, 那么必须继承QObject类,因为QObject类中包含了信号槽的一系列操作,今天我们来讲解的是信号与槽怎么建立连接以及断开连接。 一、connect …

JSP原理以及基本语法

1、JSP原理 什么是JSP? Java Server Pages:Java服务器页面,和Servlet一样是动态Web技术! 和HTML的区别? HTML是静态页面。在JSP页面中可以嵌入Java代码,为用户提供动态的数据。 JSP 和 Servlet 的关系…

前后端分离,通用分页js处理模板

功能 **可实现一个页面多个ajax无刷新分页列表** **可解决页面数量非常多的问题** 效果&#xff1a; 截图&#xff1a; 步骤&#xff1a; 第一步&#xff1a;创建一个index.html引入 <script src"./jquery-3.7.0.js"></script><link rel"st…

华为云GaussDB,能否成为数据库国产化替代的“更优选择”?

没有一个行业比数据库更需要长期主义&#xff0c;而在践行长期主义的道路上&#xff0c;国内数据库厂商中华为是不可忽视的存在。 近日&#xff0c;Gartner Peer Insights《Voice of the Customer for Cloud Database Management Systems&#xff0c;2023》报告发布&#xff0…

JMeter HTTP请求的详细指南,还不知道的快来看

目录 JMeter HTTP请求简介 什么是JMeter HTTP请求&#xff1f; 如何使用JMeter的HTTP请求&#xff1f; JMeter HTTP请求配置 创建JMeter HTTP请求 JMeter HTTP请求实例 结论 JMeter HTTP请求简介 在JMeter中&#xff0c;服务器名称和它的路径对于检查请求是否到达了正确…

10W+前端面试题面试资料八股文

点击下方链接获取全部内容文档题目及其答案: 10W前端面试题&面试资料&八股文题目及其答案 https://m.tb.cn/h.5a7v237?tkQeVPdsoKwr4 CZ3457 部分题目如下&#xff1a; 1. call丶apply丶bind区别及源码实现&#xff08;手写&#xff09; 不同点&#xff1a; call…

(二)线程的六种状态及上下文切换

&#xff08;二&#xff09;线程的六种状态及上下文切换 2.1 操作系统中线程的状态及切换2.2 Java 中线程的六种状态01、NEW&#xff08;线程尚未启动&#xff09;02、RUNNABLE&#xff08;运行中&#xff09;03、BLOCKED&#xff08;阻塞状态&#xff09;04、WAITING&#xff…

Linux--共同访问的公共目录不允许a用户删除b用户目录或文件:粘滞位 -t

情景&#xff1a; ①当多个用户共享同一个目录&#xff0c;需要在该目录下&#xff0c;进行读写、创建文件 ②但是自己只能删除自己的&#xff0c;而不能删除别人的&#xff08;w:可以互删的&#xff0c;但是不满足条件&#xff09; 语法&#xff1a; chmod t 目录名 注意…

Java(六):Eureka项目搭建、数据请求

Eureka项目搭建、数据请求 Eureka简介Eureka项目创建1、新建Maven项目2、只保留Maven项目的依赖文件3、创建子模块&#xff08;Eureka服务模块&#xff09;4、修改pom.xml5、创建并修改配置文件6、添加Eureka注解7、运行8、创建其他服务9、修改pom.xml10、创建并修改配置文件11…