一种空管云数据中心的运维数据管理方法研究

(整期优先)网络出版时间:2024-04-28
/ 2

一种空管云数据中心的运维数据管理方法研究

唐佳

(中南空管局通信网络中心,广东省广州市 510000)

摘要:本文首先对运维数据的现状需求和数据治理必要性进行了简单介绍,随后分析了基于云数据中心和云原生架构使用运维数据有了一定可能性,然后参考民航数据治理标准体系,利用云数据中心大数据平台,进行了一整套的“数据集成、数据开发、数据存储、数据治理以及数据服务”等数据管理能力研究,提出并实现了一种健康度检查的运维场景思路。

关键词云数据中心、运维数据管理

一、引言

“十四五”以来,民航局着力推动智慧民航建设,持续推动智慧民航数据治理标准体系建设。空管局通导和网信相关规划文件陆续对云数据中心的建设保障和数据资源整合共享提出指导,对加强数据治理和数据分析提出了要求。做好数据管理工作是实现空管业务数据化和数据业务化,发挥数据业务价值,构筑高质量发展新引擎的重要举措和必经之路。

    云数据中心本身产生的大量监控指标、告警、日志、流量等运维数据,在在数据安全、数据权责方面的限制相对较低。云原生平台技术工具的统一让运维数据治理具备了一定的条件,顶层规范标准体系也在逐步完善,运维场景相对业务场景在技术上验证相对便捷。空管岗位优化、岗位胜任能力等新的要求,怎么通过运维数据分析让运维人员掌握整体运行态势以有效应对资源优化、问题定位、应急处置等各类运维场景变得越来越重要。为了提供智能集约的运维平台支撑,更好得赋能运维,运维数据管理需要持续开展并建立长效机制。运维数据管理有利于推动空管运维数据价值挖掘,对提升空管运行安全质量效率效益具有重要意义。

二、运维数据现状

中南空管局云数据中心包含了云计算、大数据、云安全等各类产品上百台设备,自主引接的硬件监控项超2万个,对外峰值流量超1Gb/s,日志保存185天以上,日志备份文件近千万级,占用空间超11TB,运维事件记录超300次,未来可存储分析的运维数据超100TB/年。统一的安全管理策略和安全防护使得运维数据引接采集绝大多数与业务网络隔离,具备一定的便捷性和安全性。

空管集成塔台等项目对云原生和微服务架构的研究与使用,为监控运维技术和数据的标准化规范化提供了一定条件。建设规划中管理平台、监控中心、日志中心和链路追踪平台,引入APM、ELK、Prometheus、Skywalking等组件可更低成本得满足服务的可观测性要求,为数据采集引接、数据指标体系建设、数据标准化管理提供了基础。

三、运维数据管理

运维数据管理采用智慧民航数据治理“7+1”顶层规范标准体系指导下的运维数据体系建设方法论,让运维数据持续用起来,实现“数据集成、数据开发、数据存储、数据治理以及数据服务”等数据管理能力。整体技术架构使用开源数据技术或数据组件,灵活支撑高效可靠的数据资产化体系和数据服务化能力。

3.1运维数据管理思路

以数据能力为驱动,抽象运维业务的“交付、观测、维护、运营、服务”场景界面,支撑运维领域的质量、成本和效率需求。质量,对应空管质量安全管理里的相关内容,可理解为安全性、稳定性、可靠性、业务连续性。成本,运维需通过人力和时间成本控制来产生效益,成本的控制精细化考验了运维团队的技术能力和管理能力。效率,不同的运维场景下,比如资源交付效率、变更效率、故障定位和问题处理效率等。从交付阶段开始,运维人员负责其生命周期管理的监控和管理,并利用数据能力提供应用服务。

云数据中心运维数据管理整体思路包含了标准化运维数仓建模,统一的运维数据采集、计算、服务以及应用,按照规范建立运维数据仓库,对运维数据分类抽象,从“质量、成本、效率”三个维度来提供更高标准高效率的运维服务和数据服务,比如异常检测分析、故障自愈、可视化、全链路诊断、数据质量分析等,逐渐减少不必要人工操作,向数据赋能运维人员决策转型。

3.2运维数据管理

3.2.1数据集成与开发

数据集成将云数据中心各类不同监控运维工具、不同类型的数据(结构化、半结构化、非结构化、离线以及实时数据等)进行整合,为减少数据的重复造轮和资源浪费问题,构建规范化的数据体系、沉淀数据资产以及挖掘数据价值作准备。

通过对Prometheus、ELK、Skywalking、zabbix等监控软件数据源的采集,如Node/Pod/Container资源/负载指标、状态指标、Prometheus外围指标、服务(容器)日志采集解析、服务追踪调用链采集分析等指标等,经数据提取、数据清洗和数据处理后存储到云数据中心中,利用Dataworks、MaxCompute等工具搭建数据仓库。

3.2.2数据存储与治理

使用大数据组件和存储实现运维服务主题库、运维数据主题库、运维对象主题库,每个主题库由事件、指标、告警、风险、故障等类型组成。对IT数据进行指标分类、分层梳理,并明确数据来源、采集方式和计算方法,构建指标体系。指标体系覆盖事前预防、事中控制、事后分析,服务于云数据中心运维场景。

维度

模块

内容

技术维度

IT基础设施监控指标主机、网络、组件、应用

硬件、操作系统、CPU、内存、存储、网络丢包率、网络延时、带宽、流量、设备状态、负载、响应时间、集群资源、调度、时延、错误、查询量、内部状态等

业务维度

功能可用

查询处理耗时、页面加载错误率、页面响应时长、中断时长等

管理维度

服务管理

变更、发布、故障、问题、事件等

表1 维度信息

3.2.3运维场景

有了标准化的数据体系以后,利用各种数据统计分析方法和智能算法,通过数据平台提供的数据服务API,对相关数据进行多维度、深层次的分析挖掘,支撑业务相关的数据应用场景,真正发挥数据平台的业务价值。本次研究通过对风险、告警、异常等事件统计来实现运维场景健康度检查功能。

健康度=100-

四、结语

运维人员需要运维数据赋能以应对数字化转型、高质量发展要求下不同的运维场景,云数据中心和云原生的建设发展为运维数据管理提供了一定的平台和技术支撑,本次研究通过学习参考智慧民航数据治理“7+1”顶层规范标准体系、阿里数据建模体系,实现健康度检查功能场景,提高运维人员对运行态势的掌握程度,提升安全保障能力。

参考文献

[1]胡振中,冷烁,袁爽.基于BIM和数据驱动的智能运维管理方法[J].清华大学学报(自然科学版),2022,62(02):199-207.DOI:10.16511/j.cnki.qhdxxb.2022.22.003.

[2]孙路明,张少敏,姬涛等.人工智能赋能的数据管理技术研究[J].软件学报,2020,31(03):600-619.

[3]陈威.农信基于开源大数据技术构建运维数据平台实践[J].信息系统工程,2024,(02):20-23.

[4]WANG, Xiaoshuang, et al. Research on intelligent operation and maintenance management method of enterprise it. In: Journal of Physics: Conference Series. IOP Publishing, 2021. p. 012059.

[5]张雪坚,张榆,钏涛,等.基于大数据技术的IT运维数据管理系统构建方法[J].电子科技, 2018, 31(4):3.DOI:CNKI:SUN:DZKK.0.2018-04-023.