服务器排障nginx499错误地解决

问题描述:

近期平台对外开放了数据查询接口,在数据量特别大时,返回结果时间可能会超过3秒,接口开放后,系统本身调用没有问题,其他第三方平台接入时,总会报链接超时问题;

问题原因:

查看tomcat日志无任何错误,一开始以为是tomcat接收参数最大限制问题,对tomcat做了一次整体优化,修改连接数、修改post限制,问题仍存在;那问题可能出在nginx转发上面;

经排查,而在nginx中出现了499的错误,官方解释是nginx定义的一个状态码,用于表示这样的错误:

错误原因

1、nignx做proxy时,频繁的post,nginx认为不安全,记录499

可以在nignx的proxy配置中开启 proxy_ignore_client_abort on 功能是:确定在客户端关闭连接时是否应该关闭与代理服务器的连接,而不再等待响应

如果使用了proxy_ignore_client_abort on。 那么客户端主动断掉连接之后,Nginx 会等待后端服务器处理完(或者超时),然后记录“后端的返回信息”到日志。因此,如果后端返回200,就记录200 ;如果后端返回5XX ,那么就记录 5XX。

如果超时(默认60s,可以用 proxy_read_timeout 和proxy_send_timeout设置),Nginx 会主动断开连接,记录504

2、服务器返回http头之前,客户端就提前关闭了http连接,客户端请求服务端时,服务端响应慢,客户端觉得时间长主动关闭了连接, 比如浏览器(客户端)请求一个接口觉得很慢,就关掉了浏览器、 nginx做proxy的时候,后端执行时间长(如执行sql慢,调用其它接口慢)等,应该从后端去优化下,

通用解决方案:

1.499网上的解释是客户端主动关闭了连接

在一个项目上传文件的时候,nginx log报499,关闭iptables就可以

2.从排除故障的方法来说

nginx->tomcat,问题就出在这两个上面看nginx的请求是否在日志里面能发现,这次是post请求是499看tomcat的日志,是否有异常

3.从网络层,应用层,从下至上排除

iptables和网络方面的问题

4.使用工具

tcpdumptcpdump -XvvennSs 0 -i eth0 tcp[20:2]=0x4745 or tcp[20:2]=0x4854 -w /tmp/post.logtcpdump -i eth0 ((port 8000) and (tcp[(tcp[12]>>2):4]=0x)) -nnAl -w /tmp/GET.log0x4745 是post请求

5、设置客户端连接超时时间

发现第三方的请求是用的httpclient代理模式,而httpclient的链接超时时间设置的是2秒,在服务端还未返回数据是,就关闭了链接,调大httpclient的链接超时时间即可;