运维日记|MySQL关于aborted告警日志的分析

运维日记|MySQL关于aborted告警日志的分析 – 作者:database

又是美创科技对客户一个季度一次的现场巡检，期待数据库能跑的又快又稳，毕竟这是对DBA最大的馈赠了。

结果不遂人意发现在错误日志内存在大量的如下报错：

查看当前数据库的状态值：

查看数据库关于数据库会话的关键参数：

数据库环境及相关参数
connect_timeout	10
interactive_timeout	28800
wait_timeout	28800
max_connections	151
net_write_timeout	60
net_read_timeout	30

可见，自数据库启动，440万尝试连接中，近140万会话异常退出，近200万会话未能正常连接到数据库环境。而排查错误日志中该报错无时间规律，同时客户反馈在业务层面，经常有长连接断开的现象。

TIP：

首先我们通过官方文档来了解Aborted_clients和Aborted_connects两个状态变量的代表意义，以及哪些情况或因素会导致这些状态变量变化呢？

造成Aborted_connects状态变量增加的可能原因：

1.客户机试图访问数据库，但没有数据库的特权。

2.客户端使用了错误的密码。

3.连接包不包含正确的信息。

4.获取一个连接包需要的时间超过connect_timeout秒。

造成Aborted_clients 状态变量增加的可能原因：

1.程序退出前，客户机程序没有调用mysql_close()。

2.客户端睡眠时间超过了wait_timeout或interactive_timeout秒。

3.客户端程序在数据传输过程中突然终止。

简单来说即：数据库会话未能正常连接到数据库，会造成Aborted_connects变量增加。数据库会话已正常连接到数据库但未能正常退出，会造成Aborted_clients变量增加。

根据错误日志中报错：

Got timeout reading communication packets

出现如上错误，基本上可判断为数据库认证超时导致，或者业务线程异常退出。

客户反馈并无相关业务客户端异常退出等操作或现象。

可简单判断会话超过interactive_timeout/ wait_timeout限制时间(28800)导致会话被数据库杀掉，跟应用沟通之后，应用确认其业务逻辑会话均为长连接，不会主动进行断开操作。如上可初步解释为何Aborted_clients状态变量会如此之高。

那又该如何解释Aborted_connects这个状态变量如何之高？

能使该状态变量增加的几种可能性，我们依次来确认排查。

1.客户机试图访问数据库，但没有数据库的特权。

2.客户端使用了错误的密码。

3.连接包不包含正确的信息。

4.获取一个连接包需要的时间超过connect_timeout秒。

关于1、2、3这三点，可统一解释为用户/密码/权限错误导致无法正常连接到数据库。这几个错误不会在错误日志中报该错误(Got timeout reading communication packets),错误日志中也不存在(Access denied for user)该类错误，且业务能正常运行。这样就能排除这三点的可能性。

那唯一可能就是由于连接认证超时时间超过connect_timeout秒，数据库层面connect_timeout参数设置为默认的10s。根据官方文档解释：

10s基本上能够支持业务使用。

那还有什么可能呢？

跟客户确认之后，了解到应用是通过MySQL Router连接到数据库服务器。检查Router 参数文件配置，发现如下参数设置

发现在Router的配置中connect_timeout 配置为3s，那是否可能由于客户端连接数据库的认证超过该限制导致。

因此建议修改Router配置文件中该参数，然后运行一段时间后是否情况得到一定的改善。

后续排查往网络方向排查，简单可通过客户端长ping数据库服务端，查看网络是否存在波动现象。

TIP:

根据官方文档中介绍，还可能是由于网络或者硬件层面的问题造成这个问题。

1. max_allowed_packet变量值太小，或者查询需要的内存比分配给mysqld的内存多。

2. 在Linux中使用以太网协议，包括半双工和全双工。一些Linux以太网驱动程序有这个bug。您应该通过在客户机和服务器机器之间使用FTP传输一个大文件来测试这个bug。如果传输以突发-暂停-突发-暂停模式进行，那么您正在经历一种Linux双工综合征。将网卡和集线器的双工模式切换到全双工或半双工模式，并测试结果以确定最佳设置。

3. 线程库中导致读取中断的问题。

4. 错误的TCP / IP配置。

5. 有故障的以太网、集线器、交换机、电缆等等。只有通过更换硬件才能正确诊断。

下面对各类Aborted connection的可能性进行一定的测试与分析：

测试环境说明：MySQL5.7