电力大数据关键技术的应用

(整期优先)网络出版时间:2017-12-22
/ 2

电力大数据关键技术的应用

杨建1皮晓东2孙开宁2

(1.国网新疆电力有限公司信息通信公司2.国网新疆电力有限公司)

摘要:电网系统中大量的数据信息,需要电力企业具有较强的数据处理能力,这就需要在电网发展中采用大数据技术,大数据技术在智能电网中的合理运用能有效解决很多问题。本文主要针对电力大数据关键技术的应用进行了探讨。

关键词:大数据;智能电网;关键技术

在现代大数据应用领域中,智能电网占据着越来越重要的地位。分析和探究大数据技术在智能电网中的应用,有助于提高人们对智能电网相关技术的认知能力,也能够为今后改进智能电网的数据处理、分析工作提供重要的信息支持。

1大数据信息技术的应用内容

1.1数据采集模块

数据采集技术实现了对不同数据库信息的接收,比如产品客户端、网络站点、传感器等。在现代互联网企业的发展过程中,每个企业都有属于自己的数据采集工具,这些采集工具实现了分布式架构的应用,能够满足不同数据模块的采集及传输要求。在网页数据的采集过程中,一般利用网站的公开API,进行音频、视频、图片等数据的抽取,这种模式属于非结构化数据抽取模式,做好这一环节,再进行结构化模式的应用,进行本地数据文件的存储。

1.2数据存储模块

在数据存取过程中,现代化信息企业主要进行PastgreSQL模式的应用,这种模式以满足人机互动为目标,满足使用者的交易需求。有些企业进行传统式关系型数据库的使用,比如SQLServer,其属于行存储格式,适应于数据库的删、改、增等操作,但不具备良好的统计分析效率。目前来说,比较成熟的数据库产品有adata,其是一种先进的决策分析系统,具备良好的数据分析及应用效益。

1.3基础架构应用模块

为了进行横向扩展架构信息的有效性计算,进行网络节点服务器的添加是必要的,这种计算应用模式区别于纵向扩展架构。根据相关权威测试,数据信息具备高重复率,备份及归档存储系统内的数据冗余率高于90%,为了满足现阶段大数据信息的管理要求,进行大数据重复数据信息的高效化删除是必要的。数据服务器、架构客户端、元数据服务器是分布式重复数据删除系统的重要构成模块,在这个过程中,客户端模块具备数据的预处理功能,进行对外交互接口的提供,进行数据库的划分。元数据服务器主要进行元数据的维护管理,实现负载的有效性均衡。数据服务器主要进行数据的存储及其管理。

1.4数据处理的其他模块

为了适应现阶段大数据技术的研究要求,按照业务需求进行大数据信息的积极性处理是必要的,实现数据的科学性建模,确保数据信息的有效性预测。通过对数据挖掘模块的应用,可以进行现有数据信息的精细性计算,满足数据预测工作的要求,提升数据分析的综合性效益。在大数据分析过程中,数据挖掘算法是其重要的理论基础,挖掘算法的复杂性、计算过程中的大数据量是其分析过程中的主要问题。

2大数据关键技术应用

2.1大数据采集

大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决“信息孤岛”现象的目的。目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百度和谷歌等,以及条形码技术等。

2.2大数据存储与管理

针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件块复制存储在几个不同的存储节点上。比较有名的分布式存储技术是Google的GFS(googleFileSystem)和Hadoop的HDFS(HadoopDistributedFileSystem),其中,HDFS是GFS的开源实现。为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构,而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数据,比较有代表性的是Google的BigTable和Hadoop的HBase,其中,BigTable基于GFS,HBase基于HDFS。

2.3大数据计算模式与系统

大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。大数据计算模式多而复杂,比如流式计算、批处理计算、迭代计算和图计算等,其中,由于批处理计算的MapReduce技术具有扩展性和可用性,适合海量且多种类型数据的混合处理,因此,大数据计算通常采用此技术。MapReduce采用“分而治之”的思想,首先将一个大而重的数据任务分解为一系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。

2.4大数据分析与挖掘

为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统计分析已无法满足大数据分析需求,有待进一步研究改进。目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中得到新的发现和收获。

2.5分布式数据处理

在大数据信息系统中,实现了对各类数据的封装操作,基于此用户可享受随时、随需且标准化的检索与分析服务。例如在分布式数据处理系统中,主要采用流处理技术和批处理技术,其中前者将大数据视作不间断的流,对进入系统的数据流进行实时处理,并及时返回结果,进而提升了数据处理的及时性;而后者的核心则在于划分数据的方式、分配数据的方式和处理数据的技术,该技术先存储需要处理的数据,再根据特定的分割方法,将数据分割为多个数据块,接下来将各个数据块分给不同的处理器进行并行处理,进而降低了数据的关联关系,使得数据具有极高的集群性和可调度性。

2.6大数据与隐私安全

大数据潜在的巨大价值,吸引着无数潜在的攻击者,同时在社交网络的快速发展下,人们的隐私安全更是受到威胁,甚至影响到国家安全。鉴于此,各界人士着手大数据安全与隐私保护技术研究并取得了一定成果。现有的大数据安全与隐私保护技术有能对数据所有者进行匿名化的数据发布匿名保护技术、能隐藏用户信息和用户间关系的社交网络匿名保护技术、能确定数据来源的数据溯源技术、能够实现用户授权和简化权限管理的角色挖掘技术和将标识信息嵌入数据载体内部的数据水印技术等。

3结束语

大数据时代的新技术带给企业生产经营新的挑战和机遇,为了适应现阶段信息化工作的要求,企业需要做好相关大数据的分析及挖掘工作,大数据处理技术必将成为企业决策者洞察行业竞争态势的望远镜,成为提升企业核心竞争力的助推器。

参考文献:

[1]黄哲学,曹付元,李俊杰,陈小军.面向大数据的海运数据系统关键技术研究[J].网络新媒体技术,2012

[2]左翔,姜文彪.分布式数据库系统的设计与优化[J].赤峰学院学报(自然科学版),2012