《DevOps 精要:业务视角》- 读书笔记(三)

DevOps 精要:业务视角(三)

    • 第3章 原则
      • 3.1 价值流
      • 3.2 部署流水线
      • 3.3 一切都应存储在版本控制系统中
      • 3.4 自动化配置管理
      • 3.5 完成的定义
      • 3.6 小结

第3章 原则

将原则从实践中分离出来,这是一种很有用的做法。当然了,这两个词分别有着不同的含义,因而需要先对其定义达成一致。说到原则,我们是指DevOps所基于的关键思想,如果未被采纳或应用,DevOps就没有多大的意义。说到实践,我们是指为了取得预期成果而实施的与原则相匹配的活动。原则对任何应用DevOps的组织来说都是不变的,而实践的采纳和调整很可能取决于具体的上下文

“对于方法,数量可能多达成千上万,但原则只有少数几条。把握原则的人,能够成功选择自己的方法。只尝试方法但忽略原则的人,肯定会碰到麻烦。”——哈灵顿·爱默生(Harrington Emerson)

本章将给出全球DevOps专家所描述的核心原则。在第4章中,我们将讨论实践部分。

3.1 价值流

DevOps的关键概念之一是价值流,借自精益生产。这个概念本身已经使用了很长一段时间,但随着实际应用的扩展,出现许多新的出版物从实践角度充分探讨这个话题。

我们可以从创造价值以响应客户请求的角度来考虑组织中的工作。完成请求所需要实施的相关行动,可以按顺序排列起来,这称为“价值流”。通常,组织处理着多样化的不同请求。同时,传统组织多半工作在多个产品或服务上。这样一来,公司中就存在很多个价值流。

价值流可视化的工作,称为“价值流映射”。它开始于对拟分析产品的选择:有时是有着最大优化机会的地方;有时是承诺作出最快速重大改变并为方法的研究提供资源的地方。价值流映射可以通过两个步骤来完成:

  • 首先创建当前(as-is)图景,
  • 然后创建未来(to-be)图景。

研究未来图景之所以也很重要,有两个原因。

  • 第一,它有助于避免局部优化,我们稍晚一些会讨论这一点。
  • 第二,理解目标状态使得我们能够建立一个有清晰(越清晰越好)改进方向的现实改进机制。

实际上,价值流映射的活动很简单,需要识别处理请求的关键步骤,记录每个步骤中实施的工作,将这些步骤组织为一个创造预期结果的活动序列。困难之一是过度细化,这时最终的映射图在一页纸中容纳不下。有些作者建议,图中区块的数量限定在15个以下,使基于这个图的进一步工作更容易开展。第二个困难是对到底有哪些步骤、这些步骤是如何执行及由谁执行达成一致。有些组织对流程并没有共同的理解,这会导致长时间的争论。

一旦价值流图创建出来,就可以往里面填充进一步的重要细节。写上负责的角色或人员名字,比较有用。明确标出待处理队列出现堆积的步骤或者由于等待一个预先计划的事件而产生延迟的步骤(例如,月度CAB会议或者季度预算审批会),也是一个好主意。最终,最有价值的信息是流中每个步骤的3个度量数据,即前置时间(Lead Time,LT)、处理时间(Process Time,PT)及完整度与准确度百分比(the Percent Complete and Accurate,%C/A)。实践中,计算这些度量的数值,对于没有部署相关的工具与实践的组织来说,是一个很大的挑战。进行价值流映射的人,易于低估LT和PT指标的值;有时则相反,人们诉诸极端的案例,如被处理过长时间的请求,这样会过高估计前置时间(Lead Time)的值。对于%C/A情况就更糟,因为每个步骤的这个值人们是经常不知道的,因而只能靠猜测。重要的是记住一点,为了绘制当前价值流图,需要研究真实的实践,而不要指望不同指南中记录的文档信息,这些信息也许只存在于管理者的幻想中,或者仅仅用于极少数特殊的案例。

图3.1是一个价值流图的例子
在这里插入图片描述
我们为什么需要价值流映射?为什么流的概念对DevOps如此重要?

  • 首先,这个活动创建了一个映射,可以帮助了解关键度量指标的当前(as-is)的数值,这使得流程的参与者对此可以有清醒的认知。通常,许多人知道当前的实践在某些地方比较低效,但没有人知道问题的实际影响程度,尤其是无法通过量化的数字来体现。在前面的例子中,花在创造预期成果(价值创造)上的工作时间比例,仅占总开销时间的18%。这个例子中给出的价值分析与现实中差别并不大,在常规IT部门中,类似的占比数字相当普遍。对%C/A指标来说,假如组织习惯于发现任务不完整或偏离原本任务而将其回退到前序步骤中,指标的情况甚至会更糟。
  • 其次,过程的可视化呈现,有助于聚焦到被创造的价值上,而不是被实施的动作上。员工和管理者往往都能很好地理解自己的日常任务(“做什么”)而忽视预期的成果(“为什么”)。
  • 再次,价值流图有助于识别和消除瓶颈,并避免局部优化的陷阱:即把时间和精力花费在根本没有效果甚至带来负面效果的约束消除上。基于高德拉特(Eliyahu Goldratt)提出的约束理论,任何系统,在任何时间点上,有且仅有一个真正的瓶颈,这个瓶颈拖慢了工作,同时,花在除了消除这个瓶颈点之外的任何事情上的精力,都可以说是浪费。因此,把一个价值流视为一个完整的系统,是十分合理的。

在进行价值流映射之后,通常可以提出以下几个问题。

  • 1.[%C/A]:为什么这些工作步骤的%C/A值低于100%?我们如何才能完全杜绝错误从一个步骤被传递到下一个步骤(并因返工而浪费时间和资源)?
  • 2.[LT]:除了生产产品的时间,具体有什么因素导致了前置时间(lead time)增加?我们如何能够大幅降低队列和等待所损耗的时间?
  • 3.[PT]:我们如何改变工作实践来降低每个步骤的处理时长?

值得注意的是,优化工作不应该只限制在分析当前(as-is)价值流图以尝试改进指标。相反,有必要绘制未来(to-be)价值流图,这也许会显然不同于当前工作的实践。这正是DevOps工具和实践能够发挥作用帮助改变IT工作方式的地方。最后,对价值流的了解,有助于实现DevOps的关键思想:构建一个顺畅、一致流经各个步骤的价值流,使得我们能够持续地、有节奏地、没有非必要的延迟并以最优的资源使用方式来交付成果

3.2 部署流水线

理解价值流是通往DevOps的路上必经且重要的一步,但是在”纸上”与价值流一起工作,是不足够的。1.1节中描述的因素可以帮助我们采取接下来的重要步骤:构建部署流水线。构建类似于流水线的需要,可以用下面的例子来清晰阐释:尝试关注应用中一行新代码在生产环境中生效所需的时间。如果这个结果是用天、周或者月来度量,就说明价值流的确需要进行一些优化。部署流水线用以帮助实施这个优化,这意味着,变更尽可能自动化传递流经价值流上的所有步骤,起始于“开发完成”这个结点,然后一直到“完成部署进入运维”。

部署流水线的操作可以通过图3.2来阐释。
在这里插入图片描述
开发人员在版本控制系统中放入新的代码之后,流水线就自动开始运行;同时,变更的信息被记录下来:谁进行变更?什么时候变更?变更什么内容?基于这条新的变更记录,一套所需的临时测试环境就被自动化创建出来,然后预先开发好的测试有序地启动运行。排列测试顺序的逻辑很简单:能侦测到大部分错误的测试,放在流水线的起端;所有需要手工进行(如果有)的测试,放到流水线的末端。未能通过的任何测试,会造成这个变更的流水线中断,并提供反馈给开发人员。要想重启流水线,开发人员必须修复程序代码。除了测试环境外,也可以自动创建流水线所需要的其他环境。这些环境占用的资源,在使用完毕后自动释放掉。当然了,如果测试逻辑允许且没有流水线的前序步骤本可拦截的变更(而导致后续测试资源无效使用),几个测试并行执行也是可能的。

因此,流水线有助于处理几个重要的DevOps任务。

  • 第一,它节约资源,在前序步骤没有完成之前不会启动后续步骤。
  • 第二,流水线确保产品的质量,未按要求实施的变更不会抵达生产环境,系统总是处在可工作的状态中(这一点后面再谈)。这里的质量意味着与功能、性能、可用性、安全等相关的所有方面。
  • 第三,流水线通过最大化各个步骤的自动化程度,加速变更向生产环境的交付。
  • 第四,流水线时常留下审计日志记录,这使得所有进行的变更都能够受监控,并且能够准确地度量流水线中的所有步骤,这提供了可用于优化的非常有价值的数据。

实施部署流水线带来了以下挑战

  • 1.忽视理念(流程、人与文化)对自动化的过度热情,导致创建出数量可观的自动化流水线,但是没有人用它们。解决方案显而易见:DevOps不只是自动化,每一个团队成员都应当理解这一点。
  • 2.在一开始,没有足够的已开发的测试来确保流水线的稳定运行。解决这个问题,除了增加测试的代码覆盖率,也许也没有更好的办法,累积的技术债务迟早都要偿还。
  • 3.在实施后期,有非常多测试在运行,以至于一个变更流经流水线要花过长的时间,并消耗庞大的计算资源,尤其当有大量的微小变更时。经历过这类问题的公司,一般都主动使用被称为“测试影响分析”的方法。在这个略显不准确但已被使用的名称之下,是一些这样的实践:测试系统使用专门的标记或人工智能工具,从大量测试中选出那些与本次发起变更相关的测试,而无需执行余下的测试。

还有三个与部署流水线有关的对DevOps很重要的概念:持续集成、持续交付和持续部署。它们的含义各不相同,下面的描述来自提出这些概念的专家的观点。

很多人认为,“流水线(pipeline)”这个名称是类比自生产线,例如来自汽车制造工厂的装配线。还有些人认为“流水线”这个词引用自流经水管的液体或其他物质,而部署流水线应该是参照了这些类比。这两种观点都不太准确。

作为这个术语的作者,Jez Humble(韩捷)和David Farley(大卫·法利)曾解释,这个想法源自于现代处理器的传输管道,在这里性能改进无法通过单纯的增加时钟频率来做到。被应用的架构解决方案是并行执行原本串行到达的指令。为了做到这一点,处理器必须“猜测”并行流中的处理结果,“假定”它们会在当前的流中按照预期来执行计算。否则,计算的结果会被丢弃。虽然“运气不佳的猜测”会导致时间损失,但由于那些“猜测”正确而获得加速的好处,会获得比损失更多的补偿。

因而,一个被正确实施的部署流水线,允许开发和测试在时间上彼此独立,这假定测试能够成功,并进入下一个批次的处理中。同样的逻辑也被应用到并行测试上。

持续集成通常理解为持续地集成程序代码的过程;持续意味着每当开发人员把变更的内容放到版本控制系统之后,就会触发集成动作。软件开发实践一般涉及许多独立的代码分支,不同的程序员和团队都要工作很长时间(几日、几周或几月)才能创建新的功能。在每一部分开发完成时,甚至在等待工作在同一个产品上的所有团队完成各自的开发后,把所有变更集成到一个构建中的痛苦过程,就开始了。因为有很多程序员,他/她们大体上异步地工作,每个人都长时间工作在一个很大的变更上,集成的过程本身变成一个很消耗时间的任务,也许需要花几个星期。确实,要全盘考虑所有的变更,将它们与其他变更做比对,更新测试以覆盖变更及对比,重写部分或全部早前开发的功能,然后重复以上所有工作,直到新代码被流转进入运维状态。集成是软件开发中的重要环节,并且集成事实上就是最初的测试。进一步的工作,严重依赖于集成是否成功。

持续集成最初的描述,出现在1999年Ken Beck(肯特·贝克)的书《极限编程解析》中。他提出简化集成,并将其变成例行的工作。期望程序员工作在最小数目的分支,理想情况下使用一个共用的统一代码库。这也假设开发人员可以做出最小的改变,将工作分解成小片,每个小片带一点风险,但可以立即启动集成过程;同时,每个程序员至少每日一次将其代码放到版本控制系统中,每次集成自动执行,并允许立即识别与更正错误,这意味着系统总能保持可工作状态。

持续交付,由作者在同名书中进行了详细描述,它扩展了持续集成的想法:每次变更的代码在版本控制系统中的保存动作,将触发集成过程以及整个部署流水线。因此,所有尚未被完整及成功测试的变更,不会被验收通过,并需要立即进行修正。所有没有差错的变更,进入对生产环境部署完全就绪的状态。

持续部署意味着从“当所有变更就绪时,系统随时可以部署”的状态,转化到“任何变更都被立即部署到生产环境”的状态。这个转化需要重新定义“发布”(release)这个术语:它不再是IT的事情,而是一个关于某个特定的新功能何时可用的业务决定。技术上,在部署与测试完成之后,功能已经在生产环境中,但当业务例如市场部门需要时,可以通过额外的程序设置来激活它。这个实践称为“影子发布”(shadow release)或“暗发布”(dark launch)。

在任何一个案例中,所有这些实践都基于上述同样的部署流水线原则。

3.3 一切都应存储在版本控制系统中

现代软件开发人员已经习惯于使用图3.3所示的版本控制系统。最初这种类型的工具出现在20世纪70年代,称为“源码存储系统”。如今,已经很难找到一个不熟悉Git,Subversion或Mercurial的程序员。而且不光只是程序员,有很多的网站不光使用这些系统来存储源代码,也存储生产环境的拷贝,比如解析后的互联网系统或网站。
在这里插入图片描述
DevOps扩展了这些系统的使用,如同它扩展很多其他领域一般。存储的不光是源代码,还有与IT系统有关联的几乎所有一切:测试、创建及修改数据库的脚本、构建脚本、环境创建脚本(包括开发环境)、部署脚本、工件、类库、文档、配置文件、甚至开发工具如编译器与IDE等。在前面列出的所有元素前面加上“所有”两个字,也是合适的:所有测试、所有脚本,等等。唯一的例外是编译后的二进制代码,因为它通常会占用很大的空间(尤其是在每次变更之后重新创建),而且如果其他一切都在存储系统中,就可以重新生成。

这个原则实现了对运行中的系统各组成部分的空前级别的控制,这些组成部分不可以通过其他工具来获取。当然了,这个原则的应用,需要改变如何与信息及配置一起工作的文化。

应用这个原则的一个结果,是有能力确定变更了什么内容、何时变更以及谁做的变更。另外一个重要的特征是有能力将系统重置到过去任何一个时间点,包括以最小的代价回滚出错的系统到一个有保证的工作状态。还有一个涌现出来的不是特别重要的特征,是允许团队的任何成员自由删除不再需要的文件和文档,而无需承担意外损失重要信息或产品的风险。我们都知道,随着产品的不断开发,引入的变更越来越多,伴随的文件数量也不断增长,清理这些碎片的风险很大,除非有能够持续创建的受控的拷贝。

3.4 自动化配置管理

对上述原则进行拓展,DevOps完全重构了对生产环境(以及任何其他环境)的管理。许多组织的传统实践是这样的:通过一个预先定义的镜像,创建出一个新的服务器,然后管理员手工设置、安装及配置附加的软件包,这些软件包既有系统层面的,也有应用层面的。如果需要变更这些软件包或者它们的配置,管理员用自己的账号连接到服务器上,然后手工进行必要的设置。

这样的实践,在DevOps的世界里完全不可能,因为任何环境的任何变更都只能通过存储在版本控制系统里的脚本来实施。例如,如果需要明天在测试环境增加一个新的类库,管理员应该更新创建测试环境的脚本,测试并放到版本控制系统中。当部署流水线运行时,环境的创建就自动完成了。

前面提到的DevOps与日常实践之间的很多差别主要影响到开发和测试,偶尔才会引发运维的兴趣。这个原则需要完全重构IT支持和运维的工作。确实,这个时候管理员再也没有权限用其以往的方式挪动生产环境中的任何东西。

有一个常见的误解是,当开发人员得到生产环境的管理员权限时,DevOps就彻底实现了,这混淆了职责,也削弱了系统的可靠性。

实际上可以认为,就算是管理员,现在也被剥夺了生产环境中的权限,因为从现在开始不再允许他/她们改变任何东西,除非通过完全受控的脚本。

DevOps配置管理提供的收益如同从全面版本控制中获得的收益,只不过主要的受益者运维人员。现在,所有的变更都是受控的,系统可以被快速重置到稳定状态。如果关键成员离开,知识也不会遗失。

有些DevOps信徒狂热地捍卫这个实践,他/她们建议使用全面IT基础设施审计系统来检测在任何地方发生的任何非授权变更,然后立即解雇试图手工配置服务器或网络的员工。假如有几千台服务器和几百个工程师,为了确保可持续性、质量和速度,除了这样做,可能也没有其他更好的选择。

有些团队走得更远,不同环境的管理员密码会定期自动重置,并且不会把新的密码告诉IT员工。这防止了对生产环境的未授权变更,这个实践也应用到所有环境中,包括开发环境、测试环境以及其他环境。

3.5 完成的定义

普通员工对工作的日常态度,可以大致定义为下面两个阶段:我在工作和我完成工作了。的确,员工由于他/她们所完成的工作而获得报酬。分析师定义功能需求就算是工作完成了。开发人员写出程序代码就算是实现了整个业务中其所负责的部分。测试人员进行了测试也完成了其所负责的部分,以此类推。然而,在DevOps中,这一切截然不同。

有一个关键原则,不是说当有人干完了他/她们那个部分的工作,就可以算是“完成”,而是要等到客户接收到或者开始接收其所预期的价值。如图3.4所示,这意味着整个价值流已经被完整地流经,一直到生产环境;只有这时,工作才会被标记为“完成”。
在这里插入图片描述
虽然这个原则看起来显而易见,但对原则的遵循并不会自然发生,而需要一些管理上的努力。这些努力可以获得如下的收益。

  • 1.团队不是聚焦于完成的工作上(我们做什么),而是聚焦在结果即客户价值上(为什么我们要做)。
  • 2.消除掉对具体领域工作的有限的责任(“没有人抱怨这个钮扣?”),取而代之的是对团队整体结果的共有责任(“这套衣服必须合身”)。

有些想法激进的DevOps信徒,坚持一个更加严格的完成定义(Definition of Done)。他/她们建议,只有当应用运行在生产环境上并且所有的集成、测试和部署活动都自动化完成时,新功能的创建才可以被视为“完成”。

3.6 小结

总结这一章,我们先回顾一下本章开始时给出的对原则的定义。我们说过,原则是指DevOps所基于的关键思想,如果未被采纳或应用,DevOps就没有多大的意义。

的确,如果不理解、接受及应用价值流、部署流水线、全面版本控制系统、自动化配置管理以及完成的定义这些重要原则,我们也许仍然可以玩各种DevOps实践,想玩多久就玩多久,但永远无法取得显著的成效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/129150.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络黑皮书】传输层

【事先声明】 这是对于中科大的计算机网络的网课的学习笔记,感谢郑烇老师的无偿分享 书籍是《计算机网络(自顶向下方法 第6版)》 需要的可以私信我,无偿分享,课程简介下也有 课程链接 目录 传输服务与协议网络层与传输…

Vue3实现div拖拽改变宽高

效果图如下&#xff1a; 底部拖拽按钮点击拖拽可自定义父容器的宽高 <template><div id"business_plane"><div class"business_plane" ref"container"><div class"darg_tool"><el-icon class"drag_H…

LeetCode 1277. 统计全为 1 的正方形子矩阵【动态规划】1613

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

JAVA NIO深入剖析

4.1 Java NIO 基本介绍 Java NIO(New IO)也有人称之为 java non-blocking IO是从Java 1.4版本开始引入的一个新的IO API,可以替代标准的Java IO API。NIO与原来的IO有同样的作用和目的,但是使用的方式完全不同,NIO支持面向缓冲区的、基于通道的IO操作。NIO将以更加高效的方…

动态代理IP常见超时原因及解决方法

在使用动态代理IP时&#xff0c;常常会遇到代理超时的问题。网络环境的不稳定性以及代理IP的质量问题&#xff0c;都可能会引起代理超时。这种情况下&#xff0c;代理服务器无法在规定时间内响应我们的请求&#xff0c;导致请求失败。 使用动态代理IP时&#xff0c;哪些原因会引…

基于docker+Keepalived+Haproxy高可用前后的分离技术

基于dockerKeepalivedHaproxy高可用前后端分离技术 架构图 服务名docker-ip地址docker-keepalived-vip-iphaproxy-01docker-ip自动分配 未指定ip192.168.31.252haproxy-02docker-ip自动分配 未指定ip192.168.31.253 安装haproxy 宿主机ip 192.168.31.254 宿主机keepalived虚…

C++中的对象切割(Object slicing)问题

在C中&#xff0c;当我们把派生类对象向上强制转型为基类对象时&#xff0c;会造成对象切割&#xff08;Object slicing&#xff09;问题。  请看下面示例代码&#xff1a; #include <iostream> using namespace std;class CBase { public:virtual ~CBase() default;v…

【python海洋专题十四】读取多个盐度nc数据画盐度季节变化图

本期内容 读取多个盐度文件&#xff1b;拼接数据在画盐度的季节分布图Part01. 使用数据 IAP 网格盐度数据集 数据详细介绍&#xff1a; 见文件附件&#xff1a; pages/file/dl?fid378649712527544320 全球温盐格点数据.pdf IAP_Global_ocean_gridded_product.pdf 全球温…

聊聊僵尸进程

文章目录 1. 前言1.1 什么是僵尸进程1.2 为什么需要关注僵尸进程 2. 僵尸进程的产生2.2 为什么会产生僵尸进程2.3 举个栗子 3. 僵尸进程的影响3.1 僵尸进程为何会占用系统资源3.2 操作系统如何知道哪个资源需要被释放3.3 什么是进程表3.4 什么是PCB 5. 如何处理僵尸进程4.1 识别…

Pytorch笔记之回归

文章目录 前言一、导入库二、数据处理三、构建模型四、迭代训练五、结果预测总结 前言 以线性回归为例&#xff0c;记录Pytorch的基本使用方法。 一、导入库 import numpy as np import matplotlib.pyplot as plt import torch from torch.autograd import Variable # 定义求…

阿里云服务器ECS详细介绍_云主机_服务器托管_弹性计算

阿里云服务器ECS英文全程Elastic Compute Service&#xff0c;云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务&#xff0c;阿里云提供多种云服务器ECS实例规格&#xff0c;如经济型e实例、通用算力型u1、ECS计算型c7、通用型g7、GPU实例等&#xff0c;阿里云服务器网分享阿…

深入了解归并排序:原理、性能分析与 Java 实现

归并排序&#xff08;Merge Sort&#xff09;是一种高效且稳定的排序算法&#xff0c;其优雅的分治策略使它成为排序领域的一颗明珠。它的核心思想是将一个未排序的数组分割成两个子数组&#xff0c;然后递归地对子数组进行排序&#xff0c;最后将这些排好序的子数组合并起来。…