优秀论文解读

发布于 2021-10-11 16:41


1 Framework

为了预测空气质量,本文提出了一种基于时空注意机制的STA-LSTM模型,并采用编码器-解码器结构。如图2所示,模型主要由三部分组成。

(1)利用空间注意力机制捕捉传感器之间的动态空间相关性。在编码器中,我们设计了一个空间注意力机制来自动捕获不同区域对目标区域的相对影响,并对不同区域赋予不同的权重,即   (αt1,αt2,...,αtN),其中αtj表示t时刻区域j对目标区域的影响程度。每个区域的权重由每个监测站的历史信息、编码器LSTM的隐藏状态ht-1和单元状态ct-1共同确定。

(2)对非顺序信息进行特征提取,用于辅助预测。类似于poi和道路网络的非顺序数据不能直接作为LSTM的输入。因此,解决方案是对空间数据使用LINE图嵌入进行预处理,将其输出nst'作为解码器的输入。

(3)用时间注意力机制捕捉动态时间相关性。在解码器中,该模型利用时间注意力机制自动选择编码器LSTM输出的相关隐藏状态,得到时间上下文向量yt',并与辅助向量nst'和之前得到的预测结果相连接。然后,将其作为解码器LSTM的输入信息,预测t'时刻的空气质量。注意机制的权重βt'根据解码器的LSTM在t'-1时的隐藏状态h't'-1和细胞状态c't'-1计算。

2 Encoder with a Spatial Attention Mechanism

本文提出了一种空间注意机制,自动捕捉和利用不同区域的相对重要性,从而从整体上把握每个区域的空间影响因素,增强善于解决时变问题的传统LSTM。具体过程如下。给定编码器的LSTM在时间t−1时的隐藏状态ht-1和细胞状态ct-1,我们可以根据其对目标区域的影响计算周围区域的注意力权重,计算公式如下:

其中,Xl表示示区域l在时间T (过去)的所有历史时间序列数据。为attention的参数,可以通过学习获得。

通过区域l的每一组时间序列数据得到的权重表示该区域对目标区域的影响。此外,两个地区之间的地理距离也会影响相关程度,即距离越近,相关性越强。因此,模型使用距离相关矩阵表示每个区域与目标区域i之间的相为区域i与l之间距离的倒数,D为对角矩阵。最后,我们使用softmax函数将所有空间注意力权重归一化为[0,1],并确保其和为1。计算公式如下:

因此,αt1综合考虑了区域l对目标区域的重要性。换句话说,它控制区域l输入到编码器LSTM的信息量。其中λ+λ'=1,λ是一个可调超参数,用于确定计算权重时的stldi,j的比例。根据以上过程,依次得到t时刻各区域的注意权重,即

则t时刻通过空间注意力机制输出的向量为:

其中,αt1,l为区域l时间t的AQI值。

t时刻的空间影响因子XtSA 与目标区域的时间数据相连接(其中xti为t时刻的第i个时间数据,如空气质量指数、温度、风速等)得到编码器的LSTM输入,即,然后,我们使用上一个时间t的ht-1ct-1Xt来更新隐藏状态ht。计算过程如下:

其中f、i、o分别表示遗忘门、输入门、输出门,为候选细胞信息,W为权重参数,b为偏置项,σ为sigmoid函数。

3 Feature Extraction of Nonsequential Information for Auxiliary Prediction

空间数据类似于POIs和道路网络,直接或间接影响空气质量,因此模型将这些空间数据作为空气质量预测的辅助信息。但是这些数据不能直接输入到LSTM中。因此,本文提出利用LINE方法将预测区域的坐标、POIs和道路网络组成的信息网络嵌入到一个低维向量中,以提高空气质量的预测效果。下图是由坐标、POIs、道路网络等空间信息组成的信息网络图。

如图所示,预测区域之间的网络图表示每个区域之间的距离关系,其中A表示待预测区域,βaa表示任意两个区域之间的边eij集合,权重wij表示两个区域之间的距离。右边的图4中,POI和区域之间的网络图代表POIs在预测区域的分布,P代表POI的集合类,类别P1~P10,分别表示为运输,工厂、公园、商店、饮食和饮酒场所、体育场馆、学校、房地产、娱乐场所和其他场所。βap表示区域与POI类别之间的边eij集合,其权重wij表示预测区域i中包含类别Pj的POI个数。图中左边的区域和道路网之间的网络图代表了预测区域内的路段分布, 其中R代表路段类别的集合, βar代表区域和路段类别之间边eij的集合,其权重wij表示预测区域i中包含的rj类道路的总长度。

根据上述定义的网络图,本文采用LINE方法学习预测区域空间数据的低维向量表示。目标函数如公式所示:

通过优化目标函数L(G),可以得到每个区域di空间信息的低维向量表示,即表示一个ϕ维向量空间。

4 Decoder for Air Quality Prediction

本文在解码器中引入时间注意力机制,为编码器输出的隐藏状态分配不同的时间权值。同时对所有隐藏状态进行加权求和,将结果作为解码器未来时刻LSTM的输入,捕捉未来时刻t'与历史时刻之间的动态时间相关性,具体过程如下。

已知t'-1时刻解码器LSTM的隐藏状态h't'-1和细胞状态c't'-1,可使用以下公式计算编码器在t'时刻输出的隐藏状态ht的注意权重:

其中

与空间注意机制权重相似,将历史时刻隐藏状态的权重归一化为[0,1],公式如下:

根据上式,可计算编码器输出的所有历史隐藏状态的权值,然后对隐藏状态ht进行加权求和,得到时间上下文向量y,即:

我们将yt'与非顺序辅助信息nst'连接起来,t'-1时刻的输出结果作为解码器在t '时刻LSTM的输入,用来更新隐藏状态h't'。这个过程类似于编码器LSTM的计算过程,简单表示为:

然后,利用更新后的隐藏状态h't和上下文向量yt'共同计算目标区域AQI预测结果。计算过程如下:

其中,

最后,在模型训练过程中,选择Adam优化算法,使预测值与真值之间的均方误差函数最小,计算公式如下:

其中Θ表示STA-LSTM模型学习到的所有参数。

5 Experiments

为了验证模型的可行性和有效性,本文将提出的STA-LSTM模型与ARIMA、MFSVR、DeepST、LSTM、GCLSTM和ADAIN等6种AQI预测方法进行了比较。

2.STA-LSTM Evaluation

为了验证本文提出的STA-LSTM不同输入特征的有效性,我们可以在进行实验时限制某些特征的输入,同时保持其他模块不变。如表2所示,Fa、Fm、Fc、Ft和Fs分别代表AQI、气象数据、工厂空气污染物排放、交通流量和空间数据(POIs和道路网络)的特征。下表是结合不同输入特征得到的RMSE值。不难看出,结合所有特征的实验组的RMSE值最低。从图中还可以看出,与具有POIs和路网等空间特征的数据相比,以气象数据、工厂污染物排放和交通流量为输入特征的实验具有更好的预测效果。这可能是由于风速、企业排放和汽车尾气等连续的时间数据与空气预测高度相关。然而,从下图也可以看出,有效地捕捉空间数据之间的潜在关系对预测非常有帮助。因此,在进行空气质量预测时,我们需要考虑更多的相关因素,以获得更好的预测结果。

接下来,我们手动删除不同的模块,得到STA-LSTM、STA-ns、STA-ne和STA-nt三种变体。其中,STA-ns消除了编码器中的空间注意机制;STA-ne删除用于辅助预测的POIs和道路网络的空间信息;而STA-nt变体消除了解码器中的时间注意机制。图6(a)显示了STA-nt和STALSTM模型得到的RMSE值。不难看出,本文提出的模型要比STA-nt好得多,因为时间注意机制提高了空气质量的长期预测性能。图6(b)显示了不同编码长度的不同模型的预测结果。我们可以清楚地看到,每个模式的误差都在其最小值T=12,这可能是因为空气质量没有表现出任何长期的时间依赖性。

以上实验结果表明,本文提出的STALSTM模型相比于其他6个基准具有更好的预测效果。并讨论了STA-LSTM模型各模块的有效性。接下来,图7显示了一个最佳的预测结果。当数值小于25时,可见拟合结果非常好。当大于25时,有一定的偏差。预测效果与上述结果一致。

6 Conclusion

本文提出了一种基于时空注意机制的空气质量预测模型,即STA-LSTM模型。该模型采用编解码器结构。首先,在编码器中引入空间注意机制,以获取相邻监测点对目标区域的相对重要性。第二,在解码器中加入时间注意机制,以捕捉未来和历史时间之间的动态相关性。此外,该模型利用目标区域的空间数据作为预测的辅助信息,提高了预测精度。我们使用真实的数据集来评价本文模型的有效性。实验表明,与6个基准测试相比,我们的模型表现出了最好的性能。此外,我们还验证了具有不同特征和时空注意机制的模块的有效性。结合本文提出的所有特征,得到了最优的结果。

END

供 稿 | 张玙琪

排 版 | 张馨艺

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材