企业数字化转型以及5G、物联网、云计算、人工智能等新业态带动了数据中心的发展,在国家一体化大数据中心及“东数西算”节点布局的推动下,数据中心机房已成为各大企事业单位维持业务正常运营的重要组成部分,网络设备、系统、业务应用数量与日俱增,规模逐渐扩大,一旦机房内的设备出现故障,将对数据处理、传输、存储及整个业务构成威胁,若机房设备出现故障不能及时被发现、处理,不但会影响整个业务系统的正常运行,甚至可能使系统陷入瘫痪,造成严重后果和无法挽回的损失。
尤其对于银行、税务、证券、电信、电力、大型企业等企事业单位的机房,一旦系统发生故障,造成的损失更是不可估量,因此,数据中心机房实时监控管理显得更为重要。
第1章 IDC机房监控内容
北京智和信通作为自研厂商,核心产品“智和网管平台”,通过实时监控、远程配置等技术实现数据中心机房的自动检测、自动报警、自动修复等功能,从而达到无需人工干预的机房运维状态,减少人为因素对设备运行的干扰,并通过形象化的虚拟场景和真实数据相结合,增强机房设备、设施数据的直观可视性、提高其利用率。
对于机房各项设施的监控是保障数据中心稳定运行的重要环节,其中涉及对机房环境、设备状态、资源使用情况等多方面的实时监测和分析预警。
- 环境系统监控:实时监测机房内的温度、湿度、空气质量、烟雾、水浸等环境参数,确保设备在适宜的环境中运行。
- 动力系统监控:监测机房的动力系统,如UPS、配电柜等的电压、电流、功率、电池状态等参数。
- IT设备监控:对交换机、路由器、服务器、存储、防火墙等设备的运行状态进行实时监测,包括端口流量、CPU、内存等,及时发现设备故障。
- 安防系统监控:集成视频监控、门禁设备等,保障安防设备运行状态,防止非法入侵等安全事件。
第2章 IDC机房监控指标
方案可对IDC机房内环境系统、动力系统、IT设备、安防系统进行实时监控和运维,获取最新运行状态。目前,已适配温湿度、水浸、烟感等传感器和UPS、摄像头、门禁设备等关键装置,并内置多种监控指标。更多监控资源和指标也可通过灵活可配的模型库进一步扩展适配。
方案支持用户自定义扩展监控对象、监控点及监控指标的方式,赋予用户强大的适配能力,可自定义机房内各类子系统和设备的资源、故障监视器、性能监视器、TRAP监视器等,极大地增强了平台的灵活性和适应性,最大限度地实现对IDC机房的管理和维护。
第3章 IDC机房实时监控
方案通过智能算法自动发现IDC机房中的各类设施,自动生成网络拓扑,实时监控各项运行指标,感知机房运作状态,获取潜在威胁。
3.1.智能发现IDC机房中的各类设施
在网络可达范围内,自动获取IDC机房中的各类设施的品牌、型号、监控指标等信息,并获取IT设备间的连接关系。将机房中的IT设备、温湿度、漏水、电源、电流电压、烟雾、红外、UPS、视频监控、精密空调及门禁等在同一平台、同一界面进行监控。
3.2.2.5D机房、机柜拓扑呈现
以2.5D的形式呈现机房内部场景,并以不同颜色图标展现机房内设备的实时状态信息。
真实展示机柜及柜内设备状态,直观呈现机柜总U位数,使用U位数以及剩余U位数。
3.3.实时监控各项设施运行状态
全面采集IT设备、温湿度、漏水、电源、电流电压、烟雾、红外、UPS、视频监控、精密空调及门禁等的使用情况、运行状态等核心指标信息,支持按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示IDC机房整体可用性、机柜容量、机房内设施和IT设备的运行性能等信息。
对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。也可选择机房内多个传感器、IT设备进行同维度性能数据分析,提供可视化性能对比视图。运维人员能随时把握性能变化态势,防患于未然。
3.4.无人值守的自动巡检
根据用户特定需求与场景,定制IDC机房巡检策略,设定巡检频率、时间及范围等参数。平台无需人工干预,即可依据预设策略自动执行巡检操作,对IDC机房整体、环境系统、动力系统、IT设备、安防系统等的实时状态进行巡查,涵盖故障、性能指标,收集信息数据并对其健康情况进行分析,并自动生成详尽的巡检报告。
将以往依赖人工手动操作的日常巡检转变为自动化、定时执行的巡检策略,定期对IDC机房进行全面检查,不仅有助于提前发现潜在问题并采取预防措施,从而保障机房的稳定运行和高效管理,同时也能显著降低人工巡检所耗费的时间与人力成本。
第4章 告警与日志管理
充分利用积累的有效定障、排障经验,打通基础设施监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。
4.1.日志与事件管理
主动接收IDC机房内各类设施生成的事件与日志,诸如服务器宕机、网络设备断链、温度传感器报警、湿度传感器报警、UPS电池耗尽、电源配电柜异常、烟雾探测器报警以及摄像头蓝屏等。通过统一的存储与解析处理机制,将上述事件及日志信息按照统一的标准化格式进行展示。并在检测到关键事件或异常情况时,自动触发告警机制,迅速通知相关人员,及时发现异常并精准定位问题根源。
4.2.智能告警管理
搭载多样化的告警机制,并支持根据实际需求自定义配置告警阈值。用户可根据设备型号、配置以及所承载的业务类型,灵活设置差异化的告警阈值,以满足不同场景下的监控需求。7×24小时不间断监控机房设备,实时监测其性能指标。当设备性能指标达到或超过预设的预警阈值,自动触发告警,提醒运维人员关注设备的运行状态。
提供界面颜色变化、提示声、光效闪烁、信息列表展示、Email、短信、钉钉、企业微信、个人微信等多种通知渠道,告警通知无延迟,告警渠道全覆盖。告警通知实时性强,可实现无延迟送达,同时覆盖所有主流通知渠道,以满足不同用户的多样化需求,保障告警信息的及时传达。
4.3.智能告警降噪
采用多种智能化告警降噪策略,包括自动去重、告警风暴抑制、关联聚合、维护期时间屏蔽以及依赖关系屏蔽等。通过应用AI智能算法,对各类告警信息进行自动化压缩与收敛处理,有效减少无效告警的数量,抑制告警风暴现象的发生。
在此基础上,确保告警机制既能避免误报,也能防止漏报,同时直接定位故障的根本原因,从而提升告警信息的准确性和有效性。
4.4.运维知识库
将各类运维操作实践及故障判断经验整合并转化为平台内部的知识资源,构建团队知识库,涵盖知识的存储、检索、更新、维护及审核等环节,通过分类管理运维工作中所需的文档、操作指南、排障实践、处置流程和配置信息等,实现知识的系统化管理。
第5章 运维数据分析与展示
通过直观的图表和图形化手段清晰有效地将运维数据分析结果进行传达,帮助用户由宏观和微观更快地了解IDC机房运行现状,做出更具时效性的决策。
5.1.统计报表
提供自定义运维数据报表功能,对机房运行数据进行深度挖掘与分析。用户可根据自身需求灵活定义报表内容,实现运维数据的多样化展现与统计分析。
通过生成可视化报告,将复杂数据转化为直观图表和趋势分析,从而提升运维数据的利用效率,为决策提供有力支持。
5.2.运维大屏
提供可视化数据分析能力及实时监控画面,通过大屏实时展示机房内各类设备(包括服务器、存储设备、网络设备、UPS、空调等)、系统(操作系统、数据库、中间件等)以及机房环境(温湿度、电力、水浸等)的运行状态和关键性能指标。
运维人员能够迅速掌握机房的整体运行状况以及各类设备的实时状态。例如,服务器的关键性能指标,包括CPU使用率、内存使用率、磁盘空间剩余量、网络设备的端口流量、机房环境的温湿度等。以动态图表、实时流速图、数字趋势图等形式,为运维人员提供了清晰、实时的数据支持,便于快速识别和处理潜在问题。
第6章 全场景自动化运维
将重复性且逻辑关系明确的运维操作,如变更管理、扩容操作、业务部署、监控配置、故障恢复等,以组件化和策略化的形式托管至平台中进行集中维护与管理。用户可根据实际需求从策略库中选择相应的策略,以可视化拖拽的方式进行编排,快速装配成完整的运维流程。通过触发执行,即可高效完成预期的运维变更任务,实现运维工作的自动化与标准化。
6.1.自动化运维──以故障自愈为例
以服务器实时监控和日志、事件管理为基础,动态发现网络故障,智能判断告警类型及级别,利用自动化故障诊断和修复能力,实现常规故障自动处置,特殊告警触发升级与工单,最终实现故障恢复,减少人工干预,提高运维效率。
下面以服务器磁盘爆满自动清理为例,介绍如何通过智和网管平台实现服务器故障自愈。
效果要求:当服务器磁盘使用率超过90%时,触发自动清理策略,释放磁盘空间。
第一步:将需要管理的服务器纳入平台进行监控,并将监视器设置为磁盘使用率超过90%进行严重级别告警。
第二步:进入安管模块的运维编排菜单,创建磁盘爆满自动清理策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。
第三步,配置触发方式,运维编排支持手动触发、定时触发、告警触发等方式,根据策略内容,我们选择手动触发的方式。
编排流程配置完成后,设备出现对应的严重级别告警后,立即触发磁盘清理策略,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可查。
6.2.配置备份、对比与恢复
支持配置文件批量备份、下载、周期性备份、查看等,对IDC机房内设备的多个备份文件进行对比。定期自动对服务器配置进行巡检备份,并可进行对比分析,为用户管理网络做出合理的建议提供数据支撑,支持进行已备份配置间的对比分析和针对性的配置恢复。
第7章 机房资产全生命周期监管
为解决IDC机房设备管理中的“脱管”或“半脱管”问题,方案采取统一数据标准,对机房资产进行全面梳理与调用。通过智和网管平台,将资产实物与运维数据库进行一一对应,实现对IDC机房内网络设备、机柜、UPS、网络地址、机房布线容量等信息的集中管理。
这一措施不仅提升了资产信息的准确性和完整性,还通过标准化管理流程,确保网络设备的全生命周期得到有效监控与维护。
第8章 方案应用价值
北京智和信通IDC机房运维方案通过智能化、自动化和可视化的手段,显著提升了机房的运维效率、稳定性和安全性,同时降低了运维成本和风险,为企业的业务连续性提供了有力保障。
◉ 面监控与可视化管理
方案实现了对机房内网络设备、UPS电源、环境系统、供配电系统、空调系统、门禁系统、视频监控系统等的全面监管。通过形象化的虚拟场景与真实数据相结合,增强机房设备和设施数据的直观可视性,帮助运维人员快速掌握系统运行状态
◉ 故障快速定位与自愈
通过智能告警机制和自动化运维功能,方案能够快速定位故障根因,并触发自动化修复流程,减少人工干预时间,降低业务中断风险,保障业务的连续性。
◉ 数据驱动与决策支持
通过对机房运行数据的实时采集与分析,方案生成可视化的报告和趋势分析,为运维决策提供数据支撑,帮助优化资源配置,提升整体运维效能。
◉ 提升运维效率与稳定性
通过自动化监控和预警机制,实时机房中的IT设备、温湿度、漏水、电源、电流电压、烟雾、红外、UPS、视频监控、精密空调及门禁等运行状态,及时发现并处理潜在问题,避免故障的发生或扩大,从而显著提升机房的运行效率和稳定性。
◉ 降低运维成本与风险
通过自动化巡检、智能告警、故障自愈、配置备份与恢复等功能,减少了人工运维的工作量,降低了运维成本,同时通过预防性维护和故障自愈能力,降低业务中断的风险。