实时慢查询监控系统构建

发布于 2021-10-13 12:01

慢查询监控是MySQL运维中非常重要的一项，它可以帮助分析线上数据库性能的抖动或者业务查询响应慢等情况。当集群和实例非常多的情况下，慢查询的收集和存储会变得比较困难，而且不太好做到实时的慢查询告警。

常用方案介绍

1、慢日志收集

通常情况下会采用通过定时任务的方式使用pt-query-digest 将每个实例的慢日志收集写入到MySQL数据库。由于是定时任务触发，所以并不是实时的进行收集上报。

2、慢日志统计

通过查询MySQL数据库可以根据host、port、user、指纹、时间范围等条件进行查询统计。

3、慢日志告警

从MySQL中查询出慢日志然后匹配到对应的DBA和研发人员发送告警。但由于MySQL中数据是全量存在的只能根据时间范围进行批次查询，告警就无法做到实时。

pt-query-digest的方法在采集的时候就已经不是实时了，再加上告警任务是按时间范围进行批次查询所以这套架构下的慢查询监控不能做到实时的监控

下面介绍一下多点数据库实时慢查询监控的实现思路。

多点实时慢查询监控整体架构

如上图，我们有一个监听slowlog的agent，这个agent主要是持续的对慢查询log文件进行tail，将每一个slowlog段作为一个list的iterm push到redis。每个agent可以监听所在机器的所有MySQL实例的慢日志，这样就把分散在各个机器上的日志汇集到了一个redis中。然后有一个消费端也就是slowlog推送服务，从redis中pop出组装好的慢日志，根据pop出的慢日志解析其中的host，port，dbname以及user，匹配到对应的dba或研发，将慢日志实时推送给对应的人员。同时按照host-port将慢查询存储为文件。这样就形成了一个流式的处理，再加上redis的全内存操作，速度极快，完全可以做到实时。