数据中心IT设备硬件智能化运维管理探索

工业和信息化部日前出台《新型数据中心发展三年行动计划》,统筹推进新型数据中心发展,构建以新型数据中心为核心的智能算力生态体系,发挥对数字经济的赋能和驱动作用。新型数据中心是以5G、工业互联网、云计算、人工智能等应用需求为牵引,汇聚多元数据资源、运用绿色低碳技术、具备安全可靠能力、提供高效算力服务、赋能千行百业应用的新型基础设施,具有高技术、高算力、高能效、高安全特征。

在当前AI、大数据蓬勃发展的时代,新的业务需求也在推动着数据中心的发展。一般来说,中小型数据中心都有数以万计的IT设备,大型数据中心的IT设备数量甚至超过10万台。面对巨量设备,IT人如何才能实现运维效率的提升。本文从科技手段视角探索数据中心规模化IT设备硬件运维模式。

一、带外管理结合AI机器人实现巡检自动化:

数据中心IT设备通常有服务器、存储、带库、网络等类型,涉及品牌、型号繁杂且数量众多,各厂商建设的五花八门的监控平台无法实现集中统一管理。

IPMI智能平台管理接口是IT设备管理的一项协议标准接口,也是目前业内绝大部分设备遵循的管理标准。以IPMI协议作为依托,结合SNMP等管理协议,建设一套集中化的设备管理平台,通过监测与管理IT设备上的管理口,直接获取硬件相关信息,实现对各类型IT设备的统一管理及自动化巡检。

1672f66e963ac25dc73dc9ee850d544b.png

图一 集中管理平台

而对于无法通过该项标准接口管理的设备(如加密设备等),则通过AI机器人的方式进行巡检管理。

巡检机器人在AI自学习、机器视觉算法的配合下,对每个机柜的指示灯、设备温度、运行噪声等状态进行识别与积累学习。每次巡检时通过摄像头观察机柜状态的变化,一旦捕捉到设备有任何异常,则立即通过短信、语音等方式告警,并能引导工程师到达故障发生位置,减少排查时间。

fa4d35596f137e98c63c15e3fd9a53b3.png

图二 机房巡检机器人

以上两项举措,可以大幅降低数据中心海量设备巡检对于人力的需求。

二、打通最后“一公里”实现报修自动化:

全天候的自动巡检可以及时发现设备故障,发现故障后如何尽快定位并报修也是一道难题。传统的报修模式是设备发生故障后,运维人员通过带外采集设备日志进行报修并提供给厂商,由厂商工程师进行分析定位及维修。由于未与厂商维修流程贯通,此种模式受人工报修、采集设备日志等环节影响,效率并不高。 因此进一步提升效率,打通数据中心内流程与厂商报修流程的系统接口,是关键一步。

建立自动报修系统,依据设备告警分级策略自动报修,打通与厂商技术支撑系统接口,自动采集设备日志并推送厂商,节省中间人工环节,跟踪处理全流程进展直至闭环,实现设备从发现告警到报修处理完成的全流程自动化。

a141d7b91656dba0cee00630ab1a975f.png

图三 打通最后一公里

三、5G+AR打造硬件的可视化运维:

利用5G的大带宽和低延迟特点,通过AR技术及设备实时展示机柜内相关设备硬件信息、CPU使用率、内存使用率、硬盘状态、机体温度等,帮助运维人员及时了解设备状态和历史数据,并在故障发生时给出处理方案,提高运维人员工作效率及准确性。遇到技术难题时,可以基于AR设备实现与后台系统的信息交互获得故障现场视觉,完成现场与后台数据比对,并在实际设备虚拟影像中圈点精确标注出需要更换的配件位置,还可以引入技术专家,实时视觉指导完成处理故障。

1773a0c6d3f3d75158daa08bb63cd754.png

图三AR可视化机房设备管理

四、机房设备资产数字化管理模式

为保证业务连续和稳定,金融业内普遍采用异地多数据中心的灾备架构方式,必然推动IT设备种类、数量呈现规模化增长。海量的设备导致资产管理难度越来越大,而这些设备资产如采用传统人工录入方式,会存在成本高、效率低、易差错等问题;设备变更时还需要主动修改相关信息,时间长也会产生资产信息不准确等问题。引进机柜内U位资产管理模块——以RFID、NFC技术等为依托,完成资产发现、资产记录及计算各类数据,实现U位资产实时定位、自动盘点的功能,实时掌握机房内U位使用情况,真正地做到U位资产和资源管理数字化。

f81aaef4ef7a49360f87185df7431139.png

图四 资产管理模块

未来展望:5G、大数据、人工智能、图像识别等新技术的蓬勃兴起,推动着数据中心管理技术的发展,势必会给数据中心的数字化运维带来质的突变。如何利用新技术促进运维转型,是值得每个运维人思考的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/502931.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EMO在哪体验?阿里对口型视频生成工具EMO下载地址?阿里巴巴新模型EMO的技术原理

这几天,阿里的对口型视频生成工具EMO火了。根据官方宣传,EMO只需要上传一张图片和一段音频就可以一键生成对口型视频,而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为制造虚假…

web学习笔记(二十一)

目录 1.构造函数创建对象 1.1规则 1.2 new关键字调用构造函数时,函数内部做了什么事情? 1.3总结 2.混合模式创建对象 3.JavaScript 继承---借助构造函数 4.原型链 4.1原型链实现方法继承 5.完美的组合继承 6.call方法的使用 1.构造函数创建对象…

端游如何防破解

在2023年这个游戏大年中,诸多热门大作涌现,作为世界级IP哈利哈利波特的衍生游戏——《霍格沃茨之遗》毫无悬念地成为2023年游戏圈的首款爆款作品,斩获了一众玩家的青睐。 在众多光环的加持下,《霍格沃茨之遗》很快被著名游戏破解…

leetcode 热题 100_移动零

题解一: 双指针遍历:将非零的值往数组前端依次放置,将放置之后数组后端多余的位置都置为0,参考下图(来源. - 力扣(LeetCode)) class Solution {public void moveZeroes(int[] nums)…

数据可视化原理-腾讯-热力图

在做数据分析类的产品功能设计时,经常用到可视化方式,挖掘数据价值,表达数据的内在规律与特征展示给客户。 可是作为一个产品经理,(1)如果不能够掌握各类可视化图形的含义,就不知道哪类数据该用…

哪个有名的工具可以安全记事 私密记事本笔记推荐

在这个数字化的时代,我们的生活已经离不开各种记事工具。它们帮助我们记录生活中的点点滴滴,无论是工作上的重要事项,还是个人的私密心情。然而,当我在寻找一个能够安心记录私密事情的工具时,安全性成为了我最关心的因…

CentOs的yum报错: except KeyboardInterrupt, e:

1.报错 File “/bin/yum”, line 30 except KeyboardInterrupt, e: ^^^^^^^^^^^^^^^^^^^^ 2.原因:yum需要用python2编译,如果服务器安装的是python3.6并作为默认编译器的话,就会出现这个错误。 3.解决方法:whereis python 4.修改y…

【测试工具】Fiddler

1.Fiddler简介 Fiddler是位于客户端和服务器端的HTTP代理,能够记录客户端和服务器之间的所有 HTTP请求,是web调试的利器。既然是代理,也就是说:客户端的所有请求都要先经过Fiddler,然后转发到相应的服务器&#xff0c…

JS利用Worker多线程大文件切片上传

在做前端上传时,会遇到上传大文件,大文件就要进行分片上传,我们整理下思路,实现一个分片上传,最终我们要拿到每一个分片的hash值,index 分片索引,以及分片blob,如下: 一…

【Web安全靶场】sqli-labs-master 54-65 Challenges 与62关二分法和like模糊搜索

sqli-labs-master 54-65 Challenges 其他关卡和靶场见专栏… 文章目录 sqli-labs-master 54-65 Challenges第五十四关-联合注入第五十五关-联合注入第五十六关-联合注入第五十七关-联合注入第五十八关-报错注入第五十九关-报错注入第六十关-报错注入第六十一关-报错注入第六十…

【前端素材】推荐优质后台管理系统网页my-Task平台模板(附源码)

一、需求分析 1、系统定义 后台管理系统是一种用于管理网站、应用程序或系统的工具,通常由管理员使用。后台管理系统是一种用于管理和控制网站、应用程序或系统的管理界面。它通常被设计用来让网站或应用程序的管理员或运营人员管理内容、用户、数据以及其他相关功…

深度解读篇章:剖析构建互联网大厦的基石——TCP/IP协议全貌

👀👀👀 引言 今天,我们一同揭幕的是驱动全球互联网脉搏跳动的核心机密——TCP/IP协议体系。没有它,就不会有现今这般高效便捷的网络生活体验,无论在线教育、远程办公,抑或是电子商务、社交媒体…