hadoop集群数据倾斜任务排查实战记录
一、问题发现
作业监控发现作业存在数据倾斜
问题排查
在 YARN 监控页面查看作业信息
查看 yarn 监控页面,此 job 共有 1009 个 reduce, 绝大部分 reduce 都是空跑没有处理数据
下面看一个执行时间很长的 reduce, 大概 18 个多小时
此 reduce 处理的数据量为:86.99 亿条
下面看一个执行时间短的 reduce, 大部分都在 3 分钟以内
处理的数据量为 0
问题解决:
提交开发, 让开发优化一下