本文摘要:摘要:文章主要研究空气质量指数(AQI)预测的问题,由于大气中含有PM2.5、CO以及SO2等多种污染物,使得AQI的预测更加复杂。为解决时间序列数据存在的波动问题,采用集合经验模态分解EEMD对原始AQI数据进行分解,得到IMF分量和残余分量;又因为绝大多数的时间序
摘要:文章主要研究空气质量指数(AQI)预测的问题,由于大气中含有PM2.5、CO以及SO2等多种污染物,使得AQI的预测更加复杂。为解决时间序列数据存在的波动问题,采用集合经验模态分解EEMD对原始AQI数据进行分解,得到IMF分量和残余分量;又因为绝大多数的时间序列数据中既包含线性关系又包含非线性关系,而传统的LSTM网络针对线性数据可能产生过拟合现象,为此提出改进的LSTM网络,以加强对线性关系的表示。实验结果表明,将EEMD与改进的LSTM网络相结合形成的组合预测模型比传统模型的泛化能力更强、预测精度更高。
关键词:空气质量指数;长短时记忆神经网络;集合经验模态分解;固有模态分量
0引言
如何实现对空气质量指数(AQI)的高精度预测是一个重要的研究议题,对城市发展以及国民健康都有积极的意义。传统的AQI预测模型主要有三类:第一类是原始的数学统计模型,如主成分回归模型(PCR)[1]、多元线性回归模型(MLR)[2]等,假设在线性条件下,这些原始的数学统计模型可以取得相对较好的预测效果,但AQI数据是混沌的、无序、非平稳的,所以诸如此类的数学统计模型已经不再适用了。
空气质量分析: 秋季秸秆焚烧对临汾市空气质量的影响分析
第二类是基于机器学习技术,如支持向量机回归(SVR)[3]、BP神经网络[4]等,但是神经网络等模型通常需要海量的样本,而且极容易陷入局部最优;第三类是将上述两种模型组合成混合模型,如周剑峰(2018)[5]将因子分析法(FA)与支持向量机(SVM)进行结合用于热门微博的预测;Voukantsis等(2011)[6]将主成分分析法与神经网络相结合进行预测,提高了预测的有效性;张瑞和李雅梅(2018)[7]将主成分分析法(PCA)与最小支持向量机(LS-SVM)相结合进行预测,这些预测模型均没有考虑数据的波动。另外,研究还发现,时间序列数据在通常情况下波动较为严重,直接使用原始AQI数据进行预测会使得结果产生较大误差。
为了提高预测精度,本文采用EEMD对存在较大波动的AQI数据进行降噪分解,得到具有稳定性且有不同频率的IMF分量和一个残余序列,以消除波动对预测带来的影响。通常情况下,非线性的时间序列数据也可能包含线性关系,而传统的LSTM网络在处理这类数据的预测问题时,往往存在过拟合现象,为此本文提出改进的LSTM网络,加强对数据中线性关系的表示,以期提高AQI预测结果的精度。
1基本理论
1.1EEMD分解基本原理
传统的经验模型分解(EMD)[8]在对时间序列数据进行分解时会产生虚假分量和模态混叠的问题,严重影响模型的预测结果。为了解决这一问题,有人提出了集合经验模态分解(EEMD)[9],这是针对EMD分解的一种改进。
1.1.1EMD分解步骤
对于任意一组时间序列数据x(t),进行EMD分解的步骤如下:(1)记m1(t)、m2(t)分别为时间序列x(t)的极大值和极小值,并且分别拟合成包络线。对这两条包络线取均值,记为n1(t):n1(t)=m1(t)+m2(t)2(1)计算IMF分量h1(t):h1(t)=x(t)-n1(t)(2)如果h1(t)满足上述IMF分量的两个条件,则将h1(t)作为第一个IMF分量;否则,视之为原始时间序列。重复上述计算过程,进行k次判断之后,得到的分量h1k(t)满足IMF分量的两个条件,此时的h1k(t)即可作为时间序列x(t)的第一阶IMF分量,记为c1(t):c1(t)=h1k(t)(3)(2)第一阶IMF分量的剩余信号为r1(t),则:r1(t)=x(t)-c1(t)(4)根据上述计算过程,对r1(t)进行多次分解,直到n次分解之后的rn(t)为单调函数,才结束分解。通过n次分解可以得到n个IMF分量c1(t)c2(t)cn(t),和n个剩余信号r1(t)r2(t)rn(t)。
此时原始时间序列数据可以表示为:x(t)=åj=1ncj(t)+rn(t)(5)1.1.2EEMD分解步骤对于任意一组时间序列数据x(t),进行EEMD分解的步骤如下:(1)对时间序列数据x(t)叠加高斯白噪声序列ω1(t)得到新的叠加序列X(t):X(t)=x(t)+ω1(t)(6)(2)依据上述EMD的分解过程,对X(t)进行分解,得到各个IMF分量:X(t)=åj=1ncj(t)+rn(t)(7)(3)对上述时间序列数据x(t)叠加不同的高斯白噪声序列ωi(t),并重复上述计算过程,可以得到不同白噪声序列对应的各阶IMF分解量:Xi(t)=åj=1ncij(t)+rn(t)(8)(4)高斯白噪声的均值为零,因此x(t)对应的IMF分量为:cn(t)=1Nåi=1ncin(t)(9)其中,N表示加入高斯白噪声序列ωi(t)的总次数。
2改进的EEMD-LSTM预测模型
2.1改进的LSTM网络
改进后的LSTM网络的输出公式为:Yt=VtCt+ån=0t-1WntXn(17)其中,{X0X1Xt-1}是LSTM网络的输入值,{YtYt+1Yt+n}为输出值,{W0tWtW(t-1)t}、{W0(t+1)Wt(t+1)W(t-1)(t+1)}分别是输入、输出的直接权重,C是当前LSTM细胞的状态,V是系数。2.2改进的EEMD-LSTM模型本文构建如图2所示的EEMD-LSTM预测模型,对空气质量指数AQI进行预测。(1)空气质量指数(AQI):太原市的空气质量指数。
(2)AQI的数据序列分解:通过EEMD将AQI分解成不同尺度的IMF分量以及残余分量RES,使这些分量较为平稳,并具有不同的局部特征信息。(3)改进的LSTM网络模型预测:针对由EEMD分解得到的每一个IMFi,i=123⋯n以及残余分量RES,采用改进的LSTM模型进行预测,获得第t+1天每一个IMF的预测值IMF'it+1和残余分量RES的预测值r'nt+1。(4)AQI预测:将IMF分量和残余分量RES的预测结果相加以求和,得到第t+1天的AQI预测值AQI't+1:AQI't+1=åi=1nIMF'it+1+r'nt+1(18)
3实验与结果分析
3.1数据来源
空气质量指数(AQI)综合了PM2.5、PM10、CO、SO2、O3以及NO2六种污染物,描述了空气质量状况,并将空气质量划分为优(0~50)、良(51~100)、轻度污染(101~150)、中度污染(151~200)、重度污染(201~300)、严重污染(大于300)六个级别[10]。太原市是山西省的政治、经济、文化中心,工业化、城镇化程度比较高,空气质量一直备受关注。本文研究所用的太原市空气质量指数原始数据(2018年7月1日至2019年7月1日)主要来源于中华人民共和国生态环境部数据中心和PM2.5历史数据网站。
本文提出的改进的EEMD-LSTM模型对AQI的预测精度最高。其nRMSE指标比SVM模型、RNN模型以及LSTM模型的nRMSE指标分别下降了23.75%、64.12%和34.39%;而对应的MAPE指标则分别下降了24.51%、64.35%和35.83%。综上所述,基于改进的EEMD-LSTM模型的AQI预测结果具有更高的预测精度,优于SVM模型、RNN模型以及LSTM模型。
4结束语
为了提高对AQI的预测精度,本文提出了一种改进的EEMD-LSTM预测模型。其中,为了解决时间序列数据波动大的问题,采用EEMD对AQI进行分解,得到IMF分量和残余分量;为了解决时间序列数据中包含线性和非线性成分的问题,对传统的LSTM网络进行了改进,即将输出与输入进行连接。通过改进的LSTM网络对EEMD进行分解,得到各个分量并进行预测,通过PSO算法进行LSTM网络参数寻优,对各个分量的预测结果求和得到AQI的预测结果。实验充分验证了本文提出的改进的EEMD-LSTM模型是一种高效、精确的预测模型。
参考文献:
[1]SliniT,KaratzasK,MoussiopoulosN.StatisticalAnalysisofEnviron⁃mentalDataastheBasisofForecasting:AnAirQualityApplica⁃tion[J].ScienceoftheTotalEnvironment,2002,(3).
[2]VlachogianniA,KassomenosP,KarppinenA.EvaluationofaMulti⁃pleRegressionModelfortheForecastingoftheConcentrationsofNOxandPM10inAthensandHelsinki[J].ScienceoftheTotalEnvi⁃ronment,2011,(8).
作者:史学良1,李梁2,赵清华1
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/27854.html