【AI+信息系统 (GOVERNMENT)】大数据技术对空气质量分析的概述:监测、预测和追溯

发布于 2021-04-08 04:23

标题:An overview of air quality analysis by big data techniques: Monitoring, forecasting, and traceability

来 源:Information Fusion 73 (2021) 144–15

作 者:Wei Huang, Tianrui Li, Jia Liu, Peng Xie, Shengdong Du, Fei Teng

编 辑:周小凤

审 核:张宁,冀香震

出 品:西藏自治区人民政府办公厅-电子政务中心

论文链接:

https://www.sciencedirect.com/science/article/pii/S1566253521000658

一、摘要

二、大数据空气质量监测模型架构

许多学者对空气污染的发生和空气质量的预测做了大量的研究。这些研究大多依赖于统计或浅层机器学习模型来分析空气质量大数据的动态变化,如自回归综合移动平均模型(ARIMA)、隐马尔可夫模型(HMM)、反向传播神经网络(BPNN)等。然而,来自现实世界的多个时空序列数据往往体积大、非平稳、高度非线性。利用这些传统的模型来解决空气污染问题越来越困难,给空气污染的实时监测和预警带来了困难。时空序列建模由于具有大数据尺度、非线性相关、高维、动态变化等特点,基于传统空气污染建模方法,特别是多通道、多变量时空序列建模面临挑战。本文从空气污染监测、预测、溯源等关键问题入手,介绍了大数据技术对空气质量的分析。系统架构如图1所示。

Fig.1 Air Quality Analysis Methods by Big Data Techniques.

2.1空气质量监测数据

污染物的来源可分为两类:(1)自然污染源。火山爆发和森林火灾等自然现象会导致空气污染物,包括SO2、CO2、NO2、CO和硫酸盐。(2)人为来源。包括燃料燃烧、工业过程排放和运输排放。人为来源排放各种各样的污染物,包括氢、氧、氮、硫、金属化合物和颗粒物。政府机构已经定义了空气质量指数(AQI)来量化空气污染的程度。空气质量评估涉及的主要污染物为PM2.5、PM10、SO2、NO2、CO、O3。如表1所示,数值越大,级别和类别越高。描述的颜色越深,表示空气污染情况越严重,对人类健康的风险也越大。

Table 1: AQI values, descriptors, and color codes

监控系统收集来自不同设备的数据,并对数据进行预处理,如采样、填充缺失值等。空气质量数据采集系统如图2所示。例如,北京空气质量监测站记录了36个站点每小时的数据,共计1272979条空气质量记录。由此可见,监测系统采集的数据量比较大。每天监测系统都会产生大量的数据。传统的数据分析方法无法应对大数据的挑战,实施效率低下。利用大数据分析技术对这些数据进行深度挖掘,提取空气质量变化的模式和规律。

Fig.2: Air quality monitoring data collection system

空气质量数据由空气监测站感知,感知到的数据用于空气污染研究。然而,数据缺失是空气质量数据监测的一个普遍问题,这些缺失增加了预测的难度。在物理世界中,空气质量监测设备和气象监测设备往往由于机器故障、定期维护、传输不稳定、恶劣天气等不可控因素而导致数据丢失。这些缺失的数据对后续的分析构成了挑战。无论什么原因,不连续都是时间序列预测方案的一个重要障碍,而时间序列预测方案通常需要连续的数据作为其使用的条件。因此,为了更好地帮助人们感知空气污染,为后续的预测和可追溯问题提供数据保障,目前有很多研究致力于研究实时监测中空气质量数据缺失值的填充问题。

2.2 空气质量监测模型

2.2.1空间模型

空间模型考虑了利用大数据技术从空间角度填补缺失值的方法。空间模型缺失的数据如图3(a)所示。不同空间点的空气质量数据是在某一时间点获得的。红色部分可以看作是缺失的空间数据。因此,为了有效地估计缺失数据,将获取的空间数据插值到模型中。

2.2.2时间模型

时间模型利用时间序列上的信息,通过大数据技术填补缺失值。时间序列模型中数据缺失值如图3(b)所示。不同时间点的空气质量数据,红色部分为缺失的时间数据。自回归移动平均(ARMA)模型是时间序列分析中最常用的模型之一,它由自回归模型和移动平均模型组成。这种策略可能会降低预测的准确性,特别是当涉及到丢失而不是随机(MNAR)丢失时,因为在变量的丢失点中丢失了丰富的信息。考虑到时间序列的季节性,建立了ARMA的扩展模型,称为季节自回归综合移动平均(SARIMA)模型。

2.2.3 时空模型

Fig.3 Air quality data.

2.3.空气质量预测

2.3.1统计预测模型

统计预测模型将污染浓度数据或气象数据进行融合,建立基于统计的预测模型。空气质量预测的统计模型一般有两种:一种是基于单一污染物监测数据的时间序列的预测模型;另一种是将污染物监测数据与气象现场数据进行相关性分析,然后基于气象数据预测模型对污染物浓度进行预测。目前,在空气质量预测中常用的统计模型有回归模型、聚类分析模型、BP神经网络模型等。如图4所示,该框架由离线学习和在线推理两大部分组成。该方法基于半监督学习方法和通用的训练框架,由两个独立的分类器组成。一种是基于人工神经网络(ANN)的空间分类器,它将空间相关特征作为输入来建模不同地点空气质量的空间相关性。另一种是基于线性链条件随机场(CRF)的时间分类器,它涉及时变特征,以模拟地点空气质量的时间依赖性。

 Fig.4 Framework of Urban Air Quality Inference System

2.3.2深度神经网络模型

深层网络模型(DNN)具有强大的特征表示能力,因此,基于DNN的模型经常用于提取数据的时空特征和特征然后进行深度数据融合分析的预测问题。如图5所示,Yi等人基于空气污染的领域知识,提出了一种基于深度神经网络的方法(deep neural network, DeepAir),该方法由空间变换分量和深度分布式融合网络组成。前者考虑空气污染物的空间相关性,将空间稀疏的空气质量数据转换为一致的输入,模拟污染源。后者采用神经分布架构融合异构城市数据,同时捕捉影响空气质量的因素,如气象条件。

Fig.5 Framework of DeepAir

2.4 空气污染可追溯性

数据驱动模型允许模型拟合空气质量数据,从而改变模型以获得更好的结果。Yi等基于数据驱动方法分析了汽车尾气排放对空气污染的影响。该方法首先基于群体感知漂浮车辆轨迹数据和摄像机监控数据,采用协同矩阵分解和图半监督学习方法对城市交通进行建模,从而模拟整个城市的汽车尾气排放。然后结合空气质量数据和天气数据,采用线性回归和回归树模型分别从线性和非线性角度量化汽车尾气对空气污染的影响。图6显示了数据驱动方法的示例。目前,基于数据驱动模型的相关研究较少。然而,使用大量数据来建模可追溯系统的想法是可取的。

Fig.6 Air pollution traceability model.

2.5 空气质量预警系统

集空气质量监测、预报、溯源为一体的空气质量预警系统如图7所示。监测系统负责收集空气质量大数据,并对数据进行一些预处理。处理后的数据可用于大数据技术预测空气质量的预报系统。对预测污染物的浓度进行评估,并决定是否追溯这些污染物的源头。如果评价结果不佳,则对空气污染进行追踪。

空气质量数据是持续进行监测的。通过可追溯系统提供的信息,可以指导人们的日常活动,保护公众免受空气污染。气象和天气预报等被用作系统中的辅助条件,融合辅助数据有助于提高其准确性。影响空气质量的主要因素包括温度、湿度、天气状况、气压、降水、风力和风向。预警可以提前数小时向中央控制系统发送城市污染预警信息,必要时采取进一步的预防措施。预警系统提高了大众的环境意识,保护公众免受有害空气的影响。另一方面,它还可以帮助当局更好地控制空气污染问题,避免负面的社会影响、经济影响和环境影响。

 Fig.7 Air quality early warning systems

三、目前空气质量分析方法存在的问题和未来研究的方向

空气质量分析一直是城市计算中的热点问题,它对改善空气质量和城市规划具有重要的意义。虽然近年来对空气质量的研究项目很多,但仍然存在一些困难和值得探讨的空气质量理念。特别是在大数据已经成为时代潮流的今天,研究空气质量数据的常用手段之一就是利用大数据技术。本文将基于大数据技术的空气质量研究分为三个阶段:空气质量监测、空气质量预测和空气污染溯源。这些过程对解决空气质量问题都起着重要作用。现有的研究大多集中在空气质量的一个联系或特定问题上。因此,迫切需要从监测、预测、溯源三个方面考虑空气质量的全过程,并相互促进。空气质量研究的挑战和想法如下所示。

3.1适当的数据融合

空气质量大数据的特点是对数据监测的一大挑战。简单的融合并不意味着从不同数据源提取的特征可以有效地组合在一起。为了提高模型性能,需要对空气质量大数据进行分析,并考虑如何将多源异构、动态变化和时空相关性数据融合到模型输入中。我们还需要利用大数据技术来深入分析来自不同数据的信息,并将其有效地融合到计算框架的不同部分。因此,对空气质量数据融合方法的研究具有重要意义。

3.2 准确的监测

许多城市通过建立地面测量站来监测空气质量。然而,城市空气质量监测站的数量有限,因为建设和维护每个监测站的成本很高。一个城市的监测站数量很少,分布不均,难以覆盖整个城市。在物理世界中,空气质量监测设备和气象监测设备往往由于机器故障、定期维护、传输不稳定、恶劣天气等不可控因素而导致数据丢失或错误数据(噪声、异常值等)。这些缺失的数据和错误的数据对后续的分析构成了挑战。因此,数据缺失和数据错误是准确监测中常见而又关键的问题。虽然有很多方法可以填充缺失值或清除数据,但数据监控仍然很困难。为了更好的监测空气质量,可以加入各种外部因素,可以从不同的角度或通过不同的方法获取和清理数据。

3.3有效的预测

空气组分之间相互作用,单个变量的变化可导致多个间接反应和连续效应。空气质量大数据存在高度的不确定性和不稳定性,难以捕捉、学习和预测。此外,空气质量预测通常与天气条件、建模时间、地形和许多其他因素有关。不幸的是,空气质量预测方法往往不能完全捕捉到这些信息。有效地捕捉这些辅助特征对空气质量预测的影响,并了解它们对空气质量预测至关重要的总体影响特征,是一项挑战。不应忽视的是,空气质量预测也存在突变,一个主要的挑战是如何考虑学习空气质量预测模型的突变特征。例如,我们可以构建卷积神经网络(CNN)模型来提取与空间相关的数据。

3.4完整的可追溯系统

空气质量可追溯性研究污染的特征及其变化,使区域空气质量状况和污染源能够立即得知。如何利用数据驱动的方法,以物理或化学方法为辅助,建立完善的空气质量追溯体系仍有待研究。通过数据融合和大数据技术,可以快速追踪空气污染的主要来源。在这些数据的基础上,可以为不同地区设置量化减排目标和类型的企业以科学合理的方式和动态调整减排计划考虑到天气的变化,以实现环境保护和经济发展。目前很多学者的研究主要集中在空气质量预测上,缺乏一个完整的空气污染溯源系统。此外,基于大数据技术的空气质量追溯还没有得到足够的重视。这导致大量数据没有得到充分利用和深入挖掘。大数据技术在可追溯系统中的应用方向值得探索。

四、结论

五、参考文献

[1] M. Kampa, E. Castanas, Human health effects of air pollution, Environmental pollution 151 (2) (2008) 362–367.

[2] C. Huang, Q. Wang, S. Wang, M. Ren, R. Ma, Y . He, Air pollution prevention and control policy in china, in: Ambient Air Pollution and Health Impact in China, Springer, 2017, pp. 243–261.

[3] G. Bello-Orgaz, J. J. Jung, D. Camacho, Social big data: Recent achievements and new challenges, Information Fusion 28 (2016) 45–59.

[4] L. Zhang, Y . Xie, L. Xidao, X. Zhang, Multi-source heterogeneous data fusion, in: 2018 International Conference on Artificial Intelligence and Big Data, IEEE, 2018, pp. 47–51.

[5] Y . Zhang, M. Bocquet, V . Mallet, C. Seigneur, A. Baklanov, Real-time air quality forecasting, part i: History, techniques, and current status, Atmospheric Environment 60 (2012) 632–655.

[6] Y . Zhang, M. Bocquet, V . Mallet, C. Seigneur, A. Baklanov, Real-time air quality forecasting, part ii: State of the science, current research needs, and future prospects, Atmospheric Environment 60 (2012) 656–676.

[7] A. Mhawish, T. Banerjee, M. Sorek-Hamer, M. Bilal, A. I. Lyapustin, R. Chatfield, D. M. Broday, Estimation of high-resolution pm2. 5 over the indo-gangetic plain by fusion of satellite data, meteorology, and land use variables, Environmental Science & Technology 54 (13) (2020) 7891–7900.

[8] L. A. D´ ıaz-Robles, J. C. Ortega, J. S. Fu, G. D. Reed, J. C. Chow, J. G. Watson, J. A. Moncada-Herrera, A hybrid arima and artificial neural networks model to forecast particulate matter in urban areas: The case of temuco, chile, Atmospheric Environment 42 (35) (2008) 8331–8340.

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材