数据中心运维管理:从人工到智能需要走几步?

一切的变化来自于数据中心规模、复杂度、设备多样性的挑战,将运维平台的重要性推向历史高点。

此外,基于业务连续性方面的考虑,分布式数据中心成为越来越多客户的选择。

一、数据中心面临的挑战

运维管理分散,缺乏统一的管理

IT 建设“各自为政”,缺乏统一的管理规划,服务器、存储、网络等 IT 资源与虚拟化平台等信息分散,系统无法集中统一管理,无法实现全栈软硬件集中管理和自动维护,运维管理成本高。

告警管理效率低

管理对象和监控指标覆盖不全,告警信息无法统一管理,重要告警易遗漏,告警处理效率低下,系统风险与日俱增。

缺乏全局视图

各设备管理界面分散,缺乏全景视图,难以挖掘优化点,无法有效支撑数据中心运营分析。

故障定位困难

随着数据中心和业务规模扩大,网络复杂度不断增加,一旦出现业务故障,端到端拓扑梳理耗时长,故障定位困难,影响业务系统可用性。

二、数据中心全栈运维功能需求

1、全栈监控

数据中心软硬监控一体化,实现故障快速定界定位。由于不同组织共用底层基础设施, 支持多租实现资源隔离。

2、日常运维

可视化大屏、报表的诉求,日常运维、上层汇报展示、参观展示均为主要使用场景。

日常运维 TOP 需求包括:虚拟机间流量监控、报表大屏、流程平台对接、自动根因分析、故障快速恢复、资源动态调整。

统一监管

数据中心 IT 资源种类繁多,从服务器、集中式存储、分布式存储、 IP 交换机、交换机等硬件基础设施,到虚拟化、容器等资源服务,再到 SDN 等高阶特性,数据中心运维平台需具备软硬件全栈的统一纳管能力,实现全栈资源的统一纳管、统一门户、统一运维、统一运营。

运维可视

数据中心的各种运维数据存储在不同的 IT 系统中,为满足日常运维的一屏统揽、客户或上级的参观展示以及数据中心的运营分析需求,需要将分散的运维数据集中展示,释放数据价值。数据中心运维平台需支持对设备性能指标、告警事件、资产配置等数据的融合关联,通过大屏或报表进行全方位的展示。大屏及报表需预制多种模板,方便运维人员的一键式导出;同时还需支持个性化定制,帮助运维人员随需掌握数据中心状态信息。

智能运维

对于日常运维,传统的运维方式多为被动等待问题出现后定位解决,而结合智能容量预测、智能风险检测等功能,可以提前发现问题风险并将风险消减于萌芽之中。对于故障定位,传统的运维方式需要卷入多设备的运维人员,人工梳理排查网络拓扑,在当下越发庞大和复杂的数据中心中显得效率尤为低下,通过运维平台提供的智能关联分析和智能拓扑梳理,可以快速且自动化地定位到问题关键点,故障定位时间缩短到分钟级。

资源高效发放

数据中心基础设施的计算、存储、网络等资源被不同的部门或用户使用,面对不同用户发起的资源申请需求,运维人员需频繁按照需求为用户发放资源,此时如若运维平台的资源发放过程效率低下、依赖于大量手工步骤,那么对于运维人员的日常工作必然造成困扰。以一个典型的 IOE 架构下的虚拟机发放过程为例,虚拟机的发放需要分别接入存储、网络、虚拟化平台的管理界面执行十数个步骤的手工操作,步骤繁杂且容易出错。

因此,数据中心运维平台需要支持资源的高效发放,从人工执行转变为自动化执行,从十数个步骤转变为一键式自动编排,从而满足日常的业务发放需要。

结合上述关键功能需求,面向全场景的数据中心全栈管理平台需具备融合、智能、开放三大能力:

融合

数据中心全栈软硬件管理:统一监控管理分支 - 中心多 DC 内的服务器、交换机、存储设备、虚拟化等资源, IT 人员通过一个“界面”完成日常运维管理工作,统一体验,提升效率。

统一告警:软硬件告警统一实时监控与通知,帮助运维人员及时发现问题。

智能

智能风险预警:通过 AI 实现智能风险预测,故障提前预知,问题一键闭环。

智能性能关联分析:对虚拟机、虚拟网卡、虚拟磁盘、数据存储等的性能问题智能关联分析,快速定界性能瓶颈。

智能拓扑分析:智能拓扑梳理,图形化辅助根因分析,问题定界定位小时级缩短到分钟级。

开放

开放生态:南北向广泛兼容,北向支持对接三方云管,南向支持多厂商设备管理、异构资源池纳管。

自定义报表:掌控全网资产、资源、业务运行状况,帮助运维决策、定期汇报。

自定义大屏:预置大屏和自定义能力满足日常参观、重点业务监控保障等诉求。

LinkSLA智能运维管家--更好的运维帮手
统一的、全栈的、智能的数据中心运维管理体系已成为当今用户数据中心运维的普遍需求。LinkSLA智能运维管家在全栈统一管理的基础上,结合业务高效发放以及 AI 技术赋予的智能故障定位、提前风险预知等能力,相信数据中心运维平台将快速从人工走向自动,最终走向全场景“自治”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/210753.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杨氏矩阵解法

每日一言 「 人生如逆旅,我亦是行人。 」--临江仙送钱穆父-苏轼题目 杨氏矩阵 有一个数字矩阵,矩阵的每行从左到右是递增的,矩阵从上到下是递增的,请编写程序在这样的矩阵中查找某个数字是否存在。 解法思路 法一:…

【数据结构】深入浅出理解链表中二级指针的应用

🦄个人主页:修修修也 🎏所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 (注:为方便演示本篇使用的x86系统,因此指针的大小为4个字节) 目录 📌形参的改变不影响实参! 1.调用函数更改整型时传值调用与传址调用的区别 🎏传值…

开店必看!又有新变化?一文读懂2024亚马逊卖家入驻要求和流程

亚马逊2024年新卖家入驻正在火热进行中,想加入亚马逊卖家行列的小伙伴们准备好了吗?9月20日,亚马逊官方宣布2024年新卖家入驻正式开启,又一年招商季来临,东哥还了解到2024年亚马逊卖家注册要求有了一点新变化&#xff…

获取ip属地(ip2region本地离线包-超简单)

背景 最近有涉及要显示ip属地,但我想白嫖,结果就是白嫖的api接口太慢了,要延迟3到4秒左右,很影响体验,而且不一定稳定。 结果突然看到了这个【ip2region】开源项目,离线识别ip属地,精度自己测…

5 分钟,开发自己的 AI 文档助手!手把手教程

大家好,我是鱼皮。 几个月前,我自己开发过一个 AI 文档总结助手应用。给大家简单演示一下,首先我上传了一个文档,定义 1 1 等于 3: 然后把文档喂给 AI 文档总结助手,再向它提问,然后 AI 就回答…

邻趣连接力:如何无代码集成CRM、电商平台和营销系统,提升广告推广效率

连接即服务:邻趣无代码集成方法 传统的电商系统集成过程需要大量的时间和资源进行API开发,这不仅耗时耗力,还需要专业的技术团队支持。然而,邻趣通过提供一种无需API开发的连接方法,极大地简化了整个集成过程。商家只…

地埋式积水监测仪厂家直销推荐,致力于积水监测

地埋式积水监测仪是一种高科技设备,能够实时监测地面积水深度,并及时发出预警信息,有效避免因积水而产生的安全隐患。这种智能监测仪可以安装在城市道路、立交桥、地下车库等易积水地势较低的地方,以确保及时监测特殊地段的积水&a…

yoloV5模型中,x,s,n,m,l之间区别

避免误导大家,从小到大顺序为:n,s,m,l,x YOLOv5 的不同变体(如 YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 和 YOLOv5n)表示不同大小和复杂性的模型。这些变体在速度和准确度之间提供了不同的权衡,以适应不同的计算能力和实时性需求。下面简要介绍这些变体的区别: YOLOv5s:这…

3D人脸扫描设备助力企业家数字人复刻,打破商业边界

京都薇薇推出数字人VN,以京都薇薇董事长为原型制作,赋能品牌直播、短片宣传、线上面诊等活动,进一步增强消费者对品牌的交互体验,把元宇宙与品牌相融合,推动品牌线上服务与线下服务实现数字一体化,打造一个…

电动机保护方式

3.3.1、电动机温度保护 温度保护是利用安装在电动机内部的温度继电器或变换器来实现的。当电动机达到一定温度时继电器动作,通过控制电路断开电动机的主电路。对于单相小容量电动机,可以用继电器直接断开动力电路。 根据温度传感器的不同可以分为&…

万宾科技智能井盖传感器效果,特点有哪些?

现在城市发展越来越好,对基础设施的改造越来越多,比如修路搭桥、整改生态等都是为民服务的好工程。平时走在路上我们享受着平整的路面,井然有序的交通也为我们带来很大的方便。但是一个又一个的井盖看起来无关紧要,实际上如果路上…

从制造/金融/教育/医疗行业实战场景里,了解如何基于亚马逊云科技LLM相关工具打造知识库

背景 本篇将为大家阐述亚马逊云科技大语言模型下沉到具体行业进行场景以及实施案例的介绍,是亚马逊云科技官方《基于智能搜索和大模型打造企业下一代知识库》系列的第四篇博客。感兴趣的小伙伴可以进入官网深入了解其核心组件、快速部署指南以及LangChain集成及其在…