智能化综采管理平台中多源异构数据处理

所属分类：建筑论文阅读196次时间：2020-09-04 09:56

本文摘要：摘要: 针对智能化综采管理平台存在的信息孤岛以及子系统割裂等煤矿建设中存在的一系列问题，提出了智能化综采管理平台中的多源异构数据处理系统为主体的智能化煤矿建设体系架构。通过对大数据的采集、存储、分析以及系统实现，在井下构建智能化的多源异构

　　摘要: 针对智能化综采管理平台存在的信息孤岛以及子系统割裂等煤矿建设中存在的一系列问题，提出了智能化综采管理平台中的多源异构数据处理系统为主体的智能化煤矿建设体系架构。通过对大数据的采集、存储、分析以及系统实现，在井下构建智能化的多源异构大数据平台，成功建成了各个子系统之间能够统一管理、信息之间能够共享的格局。分析认为，多源异构数据处理系统可实现各类多源异构数据的高效传输和快速处理分析，能消除信息孤岛，以及设备持续开采的周期寿命进行预警预判和自动分析。

　　关键词: 智能化综采; 多源异构数据; 数据仓库; 数据处理

煤炭学报

　　0 引言

　　煤矿综采自动化技术对实现煤炭安全、高效的回采具有非常重要的意义，是国家经济发展所需煤炭供应的先决条件。国家“十五”“十一五”期间以来，我国煤炭开采技术及装备取得重大进步，推动了煤矿安全高效绿色开采技术的发展，建成了一大批综合机械化和高自动化程度的现代化矿井，生产效率、安全指标和煤炭产量大幅度提高[1-4]。

　　国内煤矿企业也在积极探索综采自动化技术的研究，并进行了多方面的尝试，取得了显著进步。但由于综采工作面复杂的生产过程，庞大的综采设备系统，各设备作业条件协同复杂，动作繁多，且对动作的逻辑顺序、准确性、响应速度要求高，所以针对其监控和管理面临着各设备控制方式分散、无法实现快速、准确的协作，不能充分发挥设备性能，生产效率较低[5-8]。

　　而且综采工作面自动化系统以过程化控制为核心，与生产管理过程脱节，未进行高效实时的实现信息的集成和互通，不能有效的对综采关键设备进行管理，无法为生产管理者提供决策和建议。因此，综采自动化系统的统一管理平台应运而生，但对于智能化综采管理平台中多源异构数据的处理仍需进一步探究。

　　1 智能化综采管理平台应用现状

　　现有的安全生产监测监控系统，多是局部性、少量指标的检测[9-11]。同时，因为生产厂商以及系统建设两者在时期上存在差异，所有子系统在通信协议和接入技术上不能够实现统一，子系统之间存在较大的数据结构差异，同时具有多源性和异构性的特点。煤矿井下设备( 包含各装备、机器、仪器等电子设施) 的数据采集均通过监控系统直接从设备上采集。

　　设备厂商对不同专业设备开发对应的监控系统从设备上实时获取数据。对煤矿而言，数据只能在监控系统中查看，不能在其它系统中实时使用; 对开发商来讲，每个监控系统既要负责数据的采集，又要负责数据的校验、传输、共享，大部分功能重复开发，造成系统臃肿，改动困难。而现有设备数据采集没有统一的数据标准、采集标准，在使用采集数据时，需要根据每种提供的格式进行解析、转换，增加了出错机率与重复工作量。并且，现有设备所生成的数据格式多样，包含结构化、半结构化和非结构化数据。因此，多源异构数据的处理就成为智能化综采管理平台运转的核心引擎。

　　2 多源异构大数据处理框架

　　2. 1 数据采集与 ETL 数据处理系统架构:

　　智能化综采管理平台中数据来源十分广泛，例如，运输三机、采煤机等各种生产器械、电液控制等器械系统、各种传感器的安全监测数据、用户操作行为数据、故障及报警数据等[12-14]。这些数据通过各自本身的监控系统及各种终端设备直接传输到云端，由于各设备的生产厂商不同，且暂无统一的数据标准，所以采集的数据格式多样，存在结构化、半结构化和非结构化数据，形成多源异构数据，并存在重复数据的可能[15-17]。

　　多源异构数据处理系统架构，如图 1 所示。用来描述将数据从来源端经过抽取 ( extract) 、转换 ( transform) 、加载( load) 至目的端的过程，同时也是构建数据仓库至关重要的一个环节，用户通过数据源抽取出自己需要的数据，经过数据清洗，最终将数据按照预先定义好的数据仓库模型加载到数据仓库中去。其中数据清洗包含: ①对不精确数据的清洗。

　　首先就是要识别出数据中的异常。在识别数据中的异常时，最常用的方法就是统计学的方法。给每个属性赋予对应的权重是它的核心思想，对每个属性字段值的平均值和标准差进行统计，依据此为每一个属性建立一个置信区间，通过查看属性值是否在置信区间内来判断属性是否异常; ②重复数据的清洗。在数据仓库中，最常见的数据质量问题就包括相似重复数据，不同系统的集成一般会导致大量重复记录生成，因此需要判断两条数据是否相似或相同，从而对相似重复数据进行集中的清洗。

　　2. 2 数据存储

　　根据数据集不同的特点和用途，采用不同的数据库进行存储操作。 Gbase /Oracle: Gbase 和 Oracle 两者都是 SQL 数据库，都遵从 SQL 语句，语法也差不多。最大的区别是表结构不同，Oracle 是传统行列式，小库比较快，大库靠索引提高效率。Gbase 是分布式，数据不是按行列来排列而是按区块分布的，所以小库的速度一般般，但是大库比如 TB 级，效率惊人，数据库越大 Gbase 优势越明显。

　　因此采用 Gbase 和 Oracle 对高价值密度数据进行存储及处理。 SQL on Hadoop: 在 SQL on Hadoop 系统中，有两种架构，一种是基于某个运行时，框架构建出查询引擎，典型案例是 Hive; 另一种是模仿过去关系数据库的 MPP 架构，就是依据过去的 MPP 数据库架构创建一个专门的系统，于是就有了 Impala，Presto 等等。Hive 具有高扩展性的特点，能够将集群的规模自由扩展，一般不需要重启服务; 还具有高延展性，支持用户自定义函数，用户可以根据需求来实现自己的函数; 同时还具备高容错性，SQL 在节点出现差错时仍可完成执行; 将复杂 MR 任务编写为 SQL 语句，提高开发效率; 灵活的数据存储等。

　　但是也存在非常明显的缺点，具有延迟性，性能还有待提升; 索引功能还不够完善，效率较低; 不支持事务类操作。因此将其作为低价值密度数据的数据仓库。 MapReduce: MapReduce 是一种编程模型，主要用于大规模数据集( 大于 1TB) 的并行运算。概念 “Map( 映射) ”和“Reduce( 归约) ”，是它们的主要思想，它具有从函数式编程语言以及从矢量编程语言里借来的特性。MapReduce 对不会分布式并行编程情况下的程序人员提供了极大的便利，并能在分布式系统上运行自己的程序，是面向大数据并行处理的计算模型、框架和平台。利用其并行计算的特点对低价值密度数据进行批量处理分析。

　　2. 3 数据处理

　　系统对于数据的处理分为高价值密度数据和低价值密度数据两个部分。低价值密度数据处理: 数据的价值密度与数据量成反比，数据量越庞大，其价值密度越低。因此对于低价值密度的庞大数据，利用 MapReduce 对大数据并行计算的能力，采用分布式队列流式计算方法，进行数据管理和分析挖掘。低价值密度数据的数据管理包括 Hadoop 集群配置管理、应用管理、资源监控、安全管理、告警管理等。

　　分析挖掘则是利用分析挖掘算法库中的自然语言、分类算法、推荐算法、聚类算法、关联分析等算法对数据进行统计分析、效果监控、反馈学习和系统监控。高价值密度数据处理: 对于高价值密度数据，由于其数据量相对较小可以进行更详细的数据定义、数据筛选、分析定制和算法管理工作。

　　2. 4 功能实现

　　多源异构数据处理系统目前已在智能化综采管理平台实现运行。通过持续数据采集，实现对生产设备的预警预判; 通过数据的交叉分析，实现对各综采自动化生产过程中的事件关联性分析决策。通过数据的积累，丰富企业决策依据; 实现数据的保护以及数据存储，让生产数据具有继承传递性。

　　煤炭论文投稿刊物：《煤炭学报》是中国煤炭学会主办的煤炭系统最高水平的综合性学术刊物，现为双月刊，112页。主要刊载与煤炭科学技术相关的基础理论和重大工程研究的理论成果，包括煤田地质学、矿山岩体力学、采矿工程、煤矿安全、环境保护、煤矿机电一体化、煤的加工与利用、煤炭经济研究等领域的学术论文。

　　3 结语

　　多源异构数据处理系统针对煤矿生产的数据特性，可实现各类多源异构数据的高效传输，快速处理分析。此外，可以消除信息孤岛，建立统一的数据传输网络与数据处理中心; 针对煤矿综采的各个环节的数据采集，结合专家经验进行开采的安全性预判，进而对设备持续开采的周期寿命进行预警预判和自动分析。

　　参考文献:

　　[1] 王国法. 综采自动化智能化无人化成套技术与装备发展方向[J]. 煤炭科学技术，2014，42( 9) : 30- 34.

　　[2] 王金华，黄乐亭，李首滨，等. 综采工作面智能化技术与装备的发展[J]. 煤炭学报，2014，39( 8) : 1418-1423.

　　[3] 高小强，杜福银，蔡爱国. 变频驱动刮板输送机负载特性及调速的智能控制策略研究[J]. 矿山机械，2011，39( 11) : 12-16.

　　[4] 王凯. 基于刮板输送机负载预测的采煤机调速技术研究[D]. 徐州: 中国矿业大学，2015.

　　[5] 谷勇. 基于模糊控制的采煤机截割自动调速控制系统[J]. 煤矿机械，2013，34( 12) : 151-153.