51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

hadoop集群数据倾斜任务排查实战记录

hadoop集群数据倾斜任务排查实战记录

一、问题发现

作业监控发现作业存在数据倾斜

问题排查
在 YARN 监控页面查看作业信息
查看 yarn 监控页面,此 job 共有 1009 个 reduce, 绝大部分 reduce 都是空跑没有处理数据

下面看一个执行时间很长的 reduce, 大概 18 个多小时

此 reduce 处理的数据量为:86.99 亿条

下面看一个执行时间短的 reduce, 大部分都在 3 分钟以内

处理的数据量为 0

问题解决:

提交开发, 让开发优化一下

赞(6)
未经允许不得转载:工具盒子 » hadoop集群数据倾斜任务排查实战记录