AI - 一文了解AIOps的含义、特点与功用

news/2024/9/21 5:10:39/文章来源:https://www.cnblogs.com/anliven/p/18385619


AIOps定义

AIOps是智能运维(Artificial Intelligence forITOperations)的英文缩写。
当今,专业厂商根据自身理解和商业目的,分别给出了各具特色的AIOps定义。
主要关键字:IT运维、人工智能 (AI)、机器学习(ML)、自然语言处理(NLP)、大数据、数据分析、运营效率等

以下是来自Elastic、IBM、Amazon、RedHat和华为的信息。

### Elastic
AIOps结合大数据和 Machine Learning,将包括异常检测、事件关联以及运营数据采集和处理在内的IT流程实现自动化。
借助AIOps,团队能够大幅减少大规模检测、了解、调查和解决事件所需的时间和精力。
进而,在故障排查期间节省时间便可让IT团队将更多精力投入到更有价值的任务和项目上。### IBM
AIOps是指应用人工智能 (AI) 技术,例如自然语言处理和机器学习模型,自动执行和简化运营工作流程。
具体而言,智能运维AIOps使用大数据、分析技术和机器学习能力执行以下操作:
- 收集并汇总由多个IT基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据
- 智能筛选,从"噪声"中确定"信号",识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断根本原因,并将其报告给IT和DevOps团队,以便他们快速做出响应和采取补救措施,或在某些情况下无需人工干预,可自动解决问题。 
- 通过将多个单独的手动IT运营工具替换为单一的智能自动化IT运营平台,智能运维AIOps使IT运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
智能运维AIOps可以缩小下面两大对立面之间的差距:
一方面是日益多样化、动态且难以监控的IT环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 
大多数专家都认为智能运维AIOps是IT运营管理的未来形式,而且随着企业日益关注数字化转型计划,这种需求会只增不减。### Amazon
AIOps用于IT运维的人工智能(AIOps)是指使用人工智能(AI)技术维护IT基础设施的过程。
可以自动执行关键运维任务,例如性能监控、工作负载调度和数据备份。
AIOps技术使用现代机器学习(ML)、自然语言处理(NLP)和其他高级AI 方法来提高IT运营效率。
AIOps技术可以收集和分析许多不同来源的数据,为IT运维提供主动、个性化和实时的见解。### RedHat
AIOps是用于IT运维的人工智能。
AIOps既是指一种IT运维方法,也是一种集成式软件系统,使用数据科学来增强人工解决问题和通过系统解决问题的能力。
AIOps将大数据与人工智能或机器学习相结合,以增强或部分取代广泛的IT运维流程和任务。### 华为
AIOps是指利用人工智能(AI)等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。
AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。
AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。

AIOps的运作与特点

1 - 集成与适配

AIOps工具集与在用的工具和系统进行全面集成和适配,是收集和分析大量原始可观测性数据的必要基础。
通过部署大数据、机器学习和自动化等组件,可以实时提取、聚合和分析大量信息。

2 - 数据汇集

通常使用可扩展的数据平台从复杂的系统环境中汇集所有类型的IT数据:日志文件、配置数据、指标、事件和告警等。

  • 基础架构和网络:网元信息、互联关系、网络流量等
  • 设备系统:日志、状态等
  • 应用程序:应用日志、业务数据、需求数据、痕迹信息
  • 指标和性能:正常运行时间、停机时间、服务级别指标、并发数、响应时间等
  • 实时事件:错误、身份验证尝试、防火墙警报、工单等
  • 历史数据:性能和事件数据
  • ......

3 - 观察与监测

支持和提高可观测性、APM 等功能,使用服务依赖关系映射功能和分布式跟踪,在基础层面上监测多个不同系统的运行状态。
提供直观的可视化视图来查看基础架构、流程、事务流和依赖关系,能够从宏观角度更好地了解系统的运行状态。

4 - 整合分析

使用可跟踪的指标定义运维健康状况,然后将其作为AIOps系统的基线。
梳理IT运营数据,识别重要告警,将信号(即重要的异常事件警报)与噪声(其他数据)分离。
可以识别业务模式并将日志和性能数据中的事件关联起来,感知应用程序和基础架构级别的状态,分析和确定问题的原因,并提出问题解决的建议。

5 - 自动应对与人工参与

通过AIOps简化了诊断和评估工作,减少对传统IT指标和提示的依赖,部分场景下,AIOps可以自动进行响应和处理。
自动将警报和建议的解决方案传送给相应的IT团队,可以根据问题的性质和解决方案来组建响应团队,甚至是在用户意识到问题之前实时解决问题。
专业人员根据机器学习算法生成的分析结果创建自动响应,部署更智能的系统,从历史事件中吸取经验教训,并使用自动化脚本预先防范类似的问题。
因此,对于复杂和全新的问题场景,仍然需要专业人员的参与,AIOps可以辅助进行验证和确认问题解决方案。

技术特点

以下内容来自IBM:

根据Gartner的定义,AIOps产品或平台主要包括以下5类技术要素:
- 数据源:来自各IT基础设施的底层记录数据。
- 大数据平台:用于处理、分析静态和动态实时数据。
- 计算与分析:数据预处理、数据标准化等清洗工作。
- 算法:用于计算和分析,以产生IT运维场景所需的结果。
- 机器学习:包括无监督、有监督和半监督学习。从整体上看,AIOps的关键能力:基于AI的核心算法、无缝地与IT系统集成、多元数据的整合。
其中,算法是AIOps的核心能力。
当前AIOps算法主要集中在异常检测、预测和根因分析,主要技术趋势如下:
- 异常检测技术:传统领域以有监督算法为主,AIOps领域以有监督和无监督算法结合为主。
- 预测技术:从传统机器学习发展到以LSTM(Long Short Term Memory,长短期记忆)为代表的深度学习。
- 根因分析技术:传统采用关联规则和无监督算法,应用知识图谱算法进行根因分析是新趋势。

AIOps的功用

在人工运维阶段,主要依赖运维专家的工作经验来进行故障分析、定位和排障,整体运维效率不高,且需较长时间的积累。
在自动化运维阶段,运维团队使用脚本、工具等方式执行运维任务,运维效率有了明显提升,但运维团队需要掌握自动化运维工具的开发和迭代,学习难度高。

当今大规模IT系统的运维形势与需求

  • IT系统复杂度和规模不断增长,各种新技术和新架构层出不穷,各类数据爆炸式增长
  • 面对海量数据、不停变化的系统状态、繁多的业务应用和不同的配置参数

在AIOps阶段,通过BigData、ML、AI等技术组件,自动地学习和分析海量运维数据,给出运维决策建议,可增强和部分取代现有运维流程和操作。

  • 缩短故障排查时间:提供事件关联功能,进行根本原因分析,提高服务可用性
  • 打破数据孤岛,提供通用框架聚合多个数据源,提升整体态势感知能力:跨系统、跨团队
  • 自动对事件做出个性化响应:发现和过滤误报,让团队人员更关注于处理关键任务
  • 更积极主动解决IT运营问题:预测可能会出现问题的场景和运维趋势
  • 更妥善地执行IT策略来支持业务决策:不断从数据流中学习和迭代

场景和用例

功能场景

应用程序性能监控(APM)

AIOps作为云基础架构、虚拟化和存储系统的监控工具,大规模收集和编译相关指标,能够报告使用情况、可用性和响应时间等指标。
利用事件关联功能,整合与汇总信息,帮助最终用户更有效地使用信息。

根本原因分析

快速处理大数据,并在多个可能的原因之间建立关联,有效地帮助确定事件的根本原因,而不仅仅是表面症状或提醒。
避免无关和不必要的工作,快速解决核心问题,确定保护措施以防止将来出现类似问题。

异常检测

AIOps工具可以梳理大量历史数据,发现数据集中的非典型数据点,作为感知和预测问题事件的信号
AIOps实时评估和预测偏离监控数据标准分布的异常值,快速检测数据偏差并加快执行纠正措施。
因此,借助AIOps可以减少管理事件期间对系统提醒的依赖,还可以设置基于规则的策略以自动执行补救措施。

云自动化和优化

AIOps可以提供工作负载的透明度、可观测性和自动化,按需预置和扩展计算资源。
通过直观呈现环境中的相互依赖关系,有助于降低云迁移和混合多云环境(私有云、公有云、多个提供商)的运营风险

应用程序开发支持

AIOps工具可以自动地提前进行代码审查,应用编程最佳实践,以及在开发阶段的早期检测错误。
支持DevOps所需的基础架构可视性和自动化功能,而无需完成大量额外的管理工作。

人员用例

AIOps可以帮助团队检测和应对潜在问题,只是让机器完成杂务,而方向盘仍由专业人员操控。
工程师需要具备理解、整合或编写底层AI 脚本能力,能够将事件关联和警报引擎转化为执行引擎。

  • 应用站点可靠性工程师(SRE):定义黄金信号(延迟、错误率、流量和饱和)
  • 开发人员:使用AIOps分析来执行根本原因分析(RCA)
  • 业务负责人:使用AIOps来监控 SRE 所用的黄金信号,从最终用户角度了解应用的性能
  • 运维人员:使用AIOps来监控混合云、多云和基于微服务的IT环境,监控状态,简化运维

概念的区分与联系

AIOps与DevOps

DevOps是一组过程、方法与系统的统称,重视沟通合作的文化、运动或惯例,代表了组织文化的转变。
用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。
精简了开发和运营流程,使得软件生命周期中的构建、测试、发布环节能够更加地快捷、频繁和可靠。
技术上主要通过采用持续集成和持续部署 (CI/CD) 的方式来简化工作,以信息共享弥合开发和支持工作流程之间的差距。

AIOps是一种使用人工智能技术来支持现有IT流程的方法。
AIOps结合了AI 和ML技术来监测和管理各个系统,实现运维过程的智能化,以便更快地解决问题。

DevOps和AIOps都是用于优化软件开发和运维的方法论,都凸显了自动化的益处:消除耗时的人工作业。
DevOps侧重于优化开发和运维之间的协作和自动化,注重软件交付流程的优化,旨在加快软件交付的速度和质量,强调团队合作和持续集成。
AIOps侧重于利用AI和ML等技术来优化运维过程,通过数据分析和推理预测来实现智能化的运维管理,强调实时的故障检测、自动化和智能化的故障处理和资源优化。
通过将AIOps和DevOps结合使用,可让团队查看整个系统的运行情况,而不是专注于特定工具和基础架构层。

  • 持续评估编码质量并缩短软件交付时间
  • 在开发和运维过程中通过将数据分析任务进行自动化来为DevOps流程提供补充
  • 有助于更明智的决策,并主动提醒注意任何问题

AIOps与SRE

站点可靠性工程(SRE)是一种工程团队可用于自动化系统操作和使用软件工具执行检查的方法。
SRE 团队不依赖手动方法,而是通过自动检测和解决问题来改善软件可靠性和客户体验。
AIOps使用业务运营的海量数据和基于机器学习的预测性见解来帮助SRE工程师缩短事件解决时间。

AIOps与MLOps

MLOps框架可帮助软件团队将机器学习模型集成到数字产品中,涉及模型选择和数据准备,包括在生产环境中训练、评估和部署机器学习应用程序的过程。
MLOps的重点是在生产环境中部署、维护和监测模型。这可能包括纳入反馈输入,以重新部署经改进的模型。
AIOps使用ML来提高IT运营的效率,而MLOps则用于实现ML模型部署的标准化。

AIOps与DataOps

借助DataOps计划,组织可优化商业智能应用程序的数据使用情况。
DataOps涉及设置数据管道,数据工程师可以使用这些管道从不同域提取、转换和传输数据,以此支持业务运营。
AIOps使用DataOps提供的信息来检测、分析和解决事件。


总结

AIOps的优势

AIOps面向IT运维,是一个效能性的技术栈和工具集,而非生产性的。
AIOps覆盖了“数据采集 > 数据分析 > 运维决策 > 处理执行 > 异常预测”的运维关键链条,可以帮助运维人员快速发现、精准处理IT系统的异常事件。

  • 更广泛的信息聚合:多信息源、多种类信息
  • 更强的分析:BigData、ML、NLP、AI
  • 更全面的整体维度:对IT环境的全方位了解,跨越系统、部门和团队
  • 更快的反应:缩短MTTR(Mean Time To Repair,平均修复时间)
  • 更主动的行为:主动性运维
  • 更准确的预测:预测性运维
  • 更易理解的展现:统一的信息出口、针对性的信息过滤

AIOps的挑战

没有单一的AIOps工具、AIOps平台或AIOps产品。
因为每个企业和机构的开发和生产环境都有自己的特点和独特之处,构建的任何AIOps解决方案必须能够整合、分析这些各种因素并进行处理。
独立开发和落地能够带来显著效能提升的可用AIOps,需要建立在一定规模和标准的基础之上,并且需要巨大的专业性投入。

  • 专业知识:广泛的数据科学专业知识
  • 基础架构:标准化的平台和功能,针对特定基础架构训练AIOps
  • 价值实现时间:设计、实施、部署和管理的难度大,价值回报周期长
  • 数据:AIOps的结果质量取决于数据源的质量,对运维数据的数量、质量和一致性的要求高
  • 集体协议:为系统健康奠定基础并制定标准运维目标需要多方的广泛支持和共识
  • 环境与范围:涉及因素多,环境变化快,难以建立基线
  • 失败率:AI项目失败率非常高,实现效益难度大

参考信息

  • 什么是AIOps?https://www.elastic.co/cn/what-is/aiops
  • 什么是AIOps? https://aws.amazon.com/cn/what-is/aiops/
  • 什么是AIOps? https://www.redhat.com/zh/topics/ai/what-is-aiops
  • 什么是智能运维AIOps(智能运维平台)?https://www.ibm.com/cn-zh/topics/aiops
  • 什么是AIOps?https://info.support.huawei.com/info-finder/encyclopedia/zh/AIOps.html
  • https://www.purestorage.com/knowledge/what-is-aiops.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/788757.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

两种解决powerdesigner概念模型转物理模型报字段重复错误的方法

问题 使用 powerdesigner 概念模型转物理模型时会报一个不能重复的错误解决方法 一、取消勾选Unique code取消勾选以后保存,再一次生成物理模型。 二、取消勾选Entity Attribute,不对属性进行检查 如果Unique code取消勾选后依旧不行,可以尝试第二种解决办法。取消勾选以后点…

AT cf17 final J Tree MST

AT cf17 final J Tree MST 考场上想出的黑题,然而写挂了…… 思路 考场推出 boruvka 算法,会的直接跳过就好。 结论:一个点向另外一个点连出的最小边,一定在最小生成树上。 证明:参考 Kruskal 生成树的流程,若当前边(最小边)不在最小生成树上,表明边的两端已经在同一个…

EPIC Institute of Technology Round Summer 2024 (Div. 1 + Div. 2) VP记录

EPIC Institute of Technology Round Summer 2024 (Div. 1 + Div. 2) VP记录 A 一眼 \((n - 1) m + 1\)。 B 最后的数列是固定的,每个数与最后数列的数相减后,对差值求和再加上最大值即可。 C 唐诗 C 题,获得 \(3\) 发罚时。 只有一个数右边的数归零了,它才会归零。 右往左…

入职后,我发现工作内容和自己想象中的不太一致。。

2018年6月,大三暑假进行时,实习第二天上班 昨天王工跟我说最好统一开发工具用eclipse,今早我瞄到其实也有同事用idea。 eclipse还得学习,用idea算了,随便上网找个盗版的就好咯,不纠结这么多。 公司被逮到,也是公司的问题,公司没有禁止使用idea,一定就不是我的问题。一…

folium地图绘制库和报错解决

1.资源库导入pip install folium -i https://pypi.tuna.tsinghua.edu.cn/simple 2.使用时报错解决 2.1 导入 使用报错 2.2 问题解决

Java异常详解(全文干货)

介绍Throwable Throwable 是 Java 语言中所有错误与异常的超类。 Throwable 包含两个子类:Error(错误)和 Exception(异常),它们通常用于指示发生了异常情况。 Throwable 包含了其线程创建时线程执行堆栈的快照,它提供了 printStackTrace() 等接口用于获取堆栈跟踪数据等…

《2024 年最新 YouTube 转 MP3 攻略

在当今数字化时代,我们常常会遇到想要将 YouTube 上的精彩视频内容转换为 MP3 音频格式以便于随时随地收听的情况。以下为大家介绍几种最新的实用方法: **方法一:利用在线工具** youtubemp3dl- **youtubemp3dl**:特别适用于 Windows 和 Mac 操作系统,是一款出色的基于互联…

主观与客观,破除DDD凭经验魔咒

本文书接上回《学习真DDD的最佳路径》,关注公众号(老肖想当外语大佬)获取信息:最新文章更新;DDD框架源码(.NET、Java双平台);加群畅聊,建模分析、技术实现交流;视频和直播在B站。神秘的“凭经验” 一千个人眼中有一千个哈姆雷特,每个人的经历不同,认知不同,那么看…

【Linux网络编程】Reactor模式与Proactor模式

【Linux网络编程】Reactor模式与Proactor模式 Reactor模式 Reactor 模式是指主线程即 IO 处理单元只负责监听文件描述符上是否有事件发生,有则立刻将该事件通知给工作线程即逻辑单元,除此之外,主线程不做任何其它实质性的动作。读写数据,接受新的连接,以及处理客户请求均在…

2024, 是时候告别CentOS了

到了2024年, 不管你有多喜欢CentOS, 也到了该告别CentOS的时候了. 那个可能在你职业生涯中陪伴了你非常多年, 一直稳定运行的Linux系统, 在2024年后, 已经不再是你可靠的选择了. 最后一个仍然还在维护中的CentOS 7将于2024年6月底就END OF LIFE了. 这意味着, 如果你仍然继续使用…