智能电网大数据云计算技术研究
上QQ阅读APP看书,第一时间看更新

1.5 智能电网大数据机遇与挑战

1.5.1 大数据传输及存储技术

随着智能电网建设的逐步推进,在电力系统各个环节的运行数据及设备状态在线监测数据被记录下来,由此产生的海量数据传输和存储问题不仅对监控装置造成极大的负担,而且也制约着电力系统智能化的跨越式发展。

通过数据压缩可以有效减少网络数据传输量,提高存储效率。因此数据压缩技术获得了广泛关注,杨奇逊院士探讨了基于提升格式的故障暂态过程信号实时数据的压缩和重构算法,利用线性整数变换小波双正交滤波器组合哈夫曼编码方法对电力系统的实时数据进行压缩和解压缩。针对时序数据存在大量重复的问题,为减小存储空间,压缩算法是一种可行的选择,研究了基于二维提升小波的火电厂周期性数据压缩算法和电力系统稳态数据参数化压缩算法。在输电线路状态监测系统中,为了发现绝缘子放电,泄漏电流的采样频率比较高,数据量大。目前该类系统普遍采用无线通信方式,网络带宽有限,因此需要进行数据压缩。利用自适应多集树集合分裂排序(Set Partitioning in Hierarchical Trees, SPIHT)算法可以根据小波系数集合的显著性自适应地进行集合划分,尤其适合压缩泄漏电流这类高噪声信号。数据压缩一方面减少了存储空间;另一方面压缩和解压缩造成大量中央处理器(Central Processing Unit, CPU)资源的耗费。在数据到达监控中心后需要对数据进行解压缩,需要合适的计算与存储平台。

在数据存储方面,智能电网中的海量数据可以利用分布式文件系统来存储,比如利用Hadoop的HDFS等存储系统,然而这些系统虽然可以存储大数据,但很难满足电力系统的实时性要求。因此必须对系统中的大数据根据性能和分析要求进行分类存储:对性能要求非常高的实时数据采用实时数据库系统;对核心业务数据使用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。本节提出为智能电网中的大数据构建多级存储系统,如图1-1所示。需要指出的是,鉴于目前云平台接收智能电网监测数据的实时性不能保证,可以在图1-1的数据接入与信息集成前面设置若干前置机,负责实时接收通信网中送来的报警信息或监测数据,并在云平台不能响应时负责暂存。

图1-1 智能电网大数据多级存储系统

另外,智能电网中的数据格式与传统商业数据具有很大的不同,拥有自己的特点。比如在故障录波及在输变电设备状态监测中,波形数据较多,而波形数据与传统商业数据具有本质的不同,具有数据生成速度快、体量大和处理计算复杂度高等特点。因此需要研究面向智能电网大数据存储的格式,从而有利于后续的数据分析和计算。

智能电网环境下各类数据异构,不能用已有的简单数据结构描述,而计算机算法在处理复杂结构数据方面相对低效,但处理同质的数据则非常高效。因此,如何将数据组织成合理的同质结构,是大数据存储处理中的一个重要问题。另外,智能电网中存在大量的非结构化和半结构化数据,如何将这些数据转化为一个结构化的格式,是一项重大挑战。

1.5.2 实时数据处理技术

1.数据处理时效性

对大数据而言,数据处理速度十分重要。一般情况下,数据规模越大,分析处理的时间就会越长。传统的数据存储方案是为一定大小的数据量而设计的,在其设计范围内处理速度可能非常快,但不能适应大数据的要求。未来智能电网环境下,从发电环节、输变电环节,到用电环节,都需要实时数据处理。目前的云计算系统可以提供快速的服务,但有可能会受到短暂的网络拥塞,甚至是单台服务器故障的影响,而不能保证响应时间。

基于内存的数据库越来越受到关注。内存数据库就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。目前,电力系统中已经开始使用内存数据库,以提高实时性。例如,针对去年我国部分地区出现用电荒,而另一部分地区则呈现电能过剩的状态,SAP(Systems Application and Products)推出了基于HANA(High-performance Analytic Appliance)内存数据库的智能电表分析解决方案,希望能够将智能电网涉及的环节和电力大用户的数据进行集成和整合分析,以实现各地电能消费情况的分析,以做好相应的预防措施。

在大数据集中,进行关键字的查询也是一个重要的挑战。通过对整个数据集进行扫描来找到符合要求的记录的方法显然是不可行的,即使通过类似MapReduce这样的并行处理技术加快扫描,也不是很合理。而通过事先为数据建立索引结构帮助查找是一种比较快速同时节省系统资源的方法。目前一般的索引结构的设计仅支持一些简单的数据类型,大数据则要求为复杂结构的数据建立合适的索引结构,这也是一个大数据的巨大的挑战。例如,物联网采集的多维数据,其数据量不断增长,同时对查询时限有要求,需要不断更新索引结构,索引的设计就非常具有挑战性。下面分别从发电、输变电和用电环节分析智能电网大数据在数据处理方面带来的挑战。

2.发电

发电企业属于连续工业生产企业,它的特点是生产过程连续、自动化程度高,要求全过程的实时监控、高速的实时数据处理、长期的历史数据存储以及生产信息的集成与共享。有研究表明,正常运行的SCADA系统当接收到监测数据延时如果超过50ms,就会导致错误的控制策略;还有研究表明,SCADA系统在使用Internet环境下最普遍的TCP/IP协议时出现故障,主要原因是TCP协议在进行流量控制和数据纠错,而造成数据延迟。未来的智能电网解决方案将需要实时响应,即使出现节点故障的情况。目前的关系数据库系统和云计算系统被设计为是处理永久、稳定的数据。关系数据库强调维护数据的完整性、一致性;云计算系统强调可靠性和可扩展性,但很难顾及有关数据及其处理的定时限制,不能满足工业生产管理实时应用的需要。

3.输变电环节

状态监测对数据存储与处理平台的性能或实时性具有较高的要求,而云计算技术虽然可以有效地处理大数据,但需要进一步提升云平台对海量监测数据的存取性能,以满足实时性的要求。以往的大规模停电事故,最初是由一些环境因素引起的,比如大风导致的线路跳闸等。现有SCADA系统的监控范围仅限于系统的主参数,对构成系统的各重要设备的健康状况的信息缺失,致使运行人员在事故面前难以做出正确的处理。未来智能电网要求具有故障自愈功能,其SCADA系统须拥有全网的监测数据,需要将电力设备的状态数据纳入其中,这对平台的实时处理提出了更高的要求。

新型绿色能源发电功率的不稳定造成电网的波动,对整个电网调度形成很大的压力。目前电网调度与控制模型不能够处理这种大量的小型发电系统产生的波动和不可预知的行为。最新的研究表明,为支持这种情况,需要创建一种新型的电网状态监控系统,能够更加细粒度地跟踪电网实时状态。因此未来的SCADA系统需要实时处理比目前多几个数量级的监控数据。

4.用电

未来智能电网环境下,家庭可能配备多种电能、电量监测设备,用以实现低成本的用电,并与电网的负载相匹配。例如,电热水器可能会选择在夜间这种用电量低谷时段运行;空调会根据用户舒适度、电价以及电网负荷等参数实时自动调整。某种程度上,可以认为SCADA系统进入了普通家庭,用电环节的实时数据处理变得越来越重要。

1.5.3 异构多数据源处理技术

1.异构信息整合

未来智能电网要求贯通发电、输电、变电、配电、用电、调度等多个环节,实现信息的全面采集、流畅传输和高效处理,支撑电力流、信息流、业务流的高度一体化。因此,首要功能是实现大规模多源异构信息的整合,为智能电网提供资源集约化配置的数据中心。针对海量异构数据,如何构建一个模型对其进行规范表达,如何基于该模型实现数据融合,以及对其进行有效的存储和高效查询是急需解决的问题。

电网各信息系统大多是基于本业务或本部门的需求,存在不同的平台、应用系统和数据格式,导致信息与资源分散,异构性严重,横向不能共享,上下级间纵向贯通困难,例如:电力系统中存在监控、能量管理、配电管理、市场运营等各类信息系统,大多处于相互独立、数据信息不能共享的状态。使用云平台实现各独立系统的集成,可实现这些分散孤立系统之间的信息互通。

另外,智能电网的基础设施规模庞大,数量众多且分布在不同地点。例如:国家电网公司的信息化平台在公司总部与各个网省公司建立2级数据中心,实现公司总部、网省公司、地市县公司的3层应用。如何有效管理这些基础设施、减少数据中心的运营成本是一个巨大的挑战。

2.各类电网数据的高效管理

在智能电网异构多源信息融合和管理中,建立类似IEC61850或IEC61970的信息互操作模型是很有必要的。由于智能电网中的数据类型比IEC61850所涉及的类型要多,所以应用多层知识结构和语义的方法、建立面向领域的分析模型与基于语义的服务模型是一种可选的方法。综合运用统计学习、支持向量机、相关向量机和关联规则挖掘等理论,研究异构数据融合与挖掘的集成方案以及实时挖掘算法。由于设备状态的劣化是一个由量变到质变的过程,像多年积累的油色谱这样的时序数据的挖掘更有意义,目前这种大数据挖掘虽有一些研究成果,但实用化程度不高。

1.5.4 大数据可视化分析技术

面对海量的智能电网数据,如何在有限的屏幕空间下,以一种直观、容易理解的方式展现给用户,是一项非常有挑战性的工作。可视化方法已被证明为一种解决大规模数据分析的有效方法,并在实践中得到广泛应用。智能电网各类应用产生的大规模数据集,其中包含高精度、高分辨率数据、时变数据和多变量数据等。一个典型的数据集可达TB数量集。如何从这些庞大复杂的数据中快速而有效地提取有用的信息,成为智能电网应用中的一个关键技术难点。可视化通过一系列复杂的算法将数据绘制成高精度、高分辨率的图片,并提供交互工具,有效利用人的视觉系统,并允许实时改变数据处理和算法参数,对数据进行观察和定性及定量分析。

电力企业将电力科学可视化引入电力工业生产和管理领域,借助可视化的图形展示手段,为电力系统的运行监视、控制、调度、分析、规划等提供有力保障。随着电力信息日益丰富,电力大数据需要创新原有的可视化手段,通过可视化在更广阔的范围挖掘和展示电力数据的价值。这方面的挑战主要包括可视化算法的可扩展性、并行图像合成算法、重要信息的提取和显示等方面。

1.5.5 流式计算技术

随着业务的增长,业界对大数据的速度(Velocity)维度越来越关注,过去需要几天或者几个小时才能回答的问题现在期望在几分钟、几秒甚至毫秒内得到解决。实时流数据存储和处理技术将会越来越多地被研究和开发。实时流式大数据的处理在很多方面和分布式系统在原理上有很多相似之处,然而也有其独特需求。流式计算是一种高实时性的计算模式,需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。很多行业的大数据应用,如电信、电力、道路监控等行业应用,以及互联网行业的访问日志处理,都同时具有高流量的流式数据和大量积累的历史数据,因而在提供批处理数据模式的同时,系统还需要能具备高实时性的流式计算能力。流式计算的一个特点是数据运动、运算不动,不同的运算节点常常绑定在不同的服务器上。

Hadoop MapReduce为大数据处理提供了一个很好的平台。然而,由于MapReduce设计之初是为大数据线下批处理而设计的,随着很多需要高响应性能的大数据查询分析计算问题的出现,MapReduce在计算性能上往往难以满足要求。随着内存价格的不断下降以及服务器可配置的内存容量的不断提高,用内存计算完成高速的大数据处理已经成为大数据计算的一个重要发展趋势。Spark则是分布内存计算的一个典型的系统,SAP公司的Hana则是一个全内存式的分布式数据库系统。但目前尚未查到内存计算技术在输变电设备监测系统中的应用报道。

数据流技术在电力系统中应用研究起步晚,成果相对少。法国电力公司针对电力AMM(Automatic Metering Management)产生的大量用电数据流(可能以秒计量)进行连续查询,如按表或按城市查询最近5分钟用电量情况、查询午夜到早8点用电量超过正常值10%的用户,传统数据库管理系统无法满足对数据流的这些连续聚集查询需求,他们采用两个著名的数据流管理系统原型(STREAM和TelegraphCQ)进行了试验测试,试验结果发现这两个系统都无法完全满足需求,他们还要继续寻找更合适的其他系统或跟踪TelegraphCQ的更高版本或使用其他的商业系统。土耳其的Power Quality Group提出了针对电能质量数据监测的数据流系统框架PQStream,实时采集分析电能质量参数,且准备引入数据挖掘内容。葡萄牙的波尔图大学经济学院提出了针对电力市场买售电的负荷预测框架,根据负荷数据的实时变化及时做出决策。根据调查发现,未见国外研究机构根据输变电设备监测流式大数据进行分析并故障诊断的相关研究报道。