hbase连接数过多造成库堵塞的解决方案
库现象:HBase 库节点正常,查看 web 页面一切正常,只有连接数变为 0,
思路:
注:连接数过多,造成服务器堵塞一般情况下有两个原因造成:
1,网络不正常
2,业务哪里有问题,调用了接口而没有释放
所以一般情况下遇到这种情况首先找业务排查,如果他那没有问题,在按照下面的方法修改配置文件处
在主节点上运行 netstat -aoe 查看主机端口运行状态,可以看到有很多的CLOSE_WAIT,
这里可以看到服务器出现了大量的 CLOSE_WAIT
修改/etc/sysctl.conf 配置文件:
net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_keepalive_probes = 2
net.ipv4.tcp_keepalive_intvl = 2
使用 sysctl -p 使配置生效
然后会发现会出现大量的 TIME_WAIT 的连接 还要再修改下 linux 的/etc/sysctl.conf 配置
在最后加入
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 1200
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_max_syn_backlog = 8192
net.ipv4.tcp_max_tw_buckets = 5000
net.ipv4.route.gc_timeout = 100
net.ipv4.tcp_syn_retries = 1
net.ipv4.tcp_synack_retries = 1
说明:
net.ipv4.tcp_syncookies = 1
表示开启 SYN Cookies。当出现 SYN 等待队列溢出时,启用 cookies 来处理,
可防范少量 SYN 攻击,默认为 0,表示关闭;
net.ipv4.tcp_tw_reuse = 1
表示开启重用。允许将 TIME-WAIT sockets 重新用于新的 TCP 连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1
表示开启 TCP 连接中 TIME-WAIT sockets 的快速回收,默认为 0,表示关闭
net.ipv4.tcp_fin_timeout = 30
表示如果套接字由本端要求关闭,这个参数决定了它保持在 FIN-WAIT-2 状态的时间。
net.ipv4.tcp_keepalive_time = 1200
表示当 keepalive 起用的时候,TCP 发送 keepalive 消息的频度。缺省是 2 小时,改为 20 分钟。
net.ipv4.ip_local_port_range = 1024 65000
表示用于向外连接的端口范围。缺省情况下很小:32768 到 61000,改为 1024到 65000
net.ipv4.tcp_max_syn_backlog = 8192
表示 SYN 队列的长度,默认为 1024,加大队列长度为 8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000
表示系统同时保持 TIME_WAIT 套接字的最大数量,如果超过这个数字,
TIME_WAIT 套接字将立刻被清除并打印警告信息。默认为 180000,改为5000。对于 Apache、Nginx 等服务器,上几行的参数可以很好地减少TIME_WAIT 套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT 套接字的最大数量,避免 Squid 服务器被大量的 TIME_WAIT 套接字拖死。
net.ipv4.route.gc_timeout = 100
路由缓存刷新频率, 当一个路由失败后多长时间跳到另一个默认是 300
net.ipv4.tcp_syn_retries = 1
对于一个新建连接,内核要发送多少个 SYN 连接请求才决定放弃。不应该大于 255,默认值是 5,对应于 180 秒左右
修改完成后等待一段时间,打开 web 界面会发现连接数已经正常,表示连接恢复正常
注:连接数过多,造成服务器堵塞一般情况下有两个原因造成:
1,网络不正常
2,业务哪里有问题,调用了接口而没有释放
所以一般情况下遇到这种情况首先找业务排查,如果他那没有问题,在按照上面的方法修改配置文件处理