51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

最新发布

RDD 有多少种持久化方式
白嫖帮

RDD 有多少种持久化方式

厉飞雨 阅读(57) 评论(0) 赞(6)

RDD 有多少种持久化方式?memory_only 持久化方式,如果内存存储不了,会怎么操作 首次使用 RDD 的时候,我们可以选择对 RDD 进行持久化,当再次使用 RDD 是就可以直接 从之前的缓存中获取而无需再次进行计算。对于需要反复使用的 RDD 会带来很大的性能改 善。 StorageLevel 存储级别包含如下类别 ![](http://static....

Kafka架构图
经验分享

Kafka架构图

厉飞雨 阅读(49) 评论(0) 赞(1)

Kafka架构图 ![](http://static.51tbox.com/static/2024-08-29/col/76602494c126b16cffeb3d79bebd2611/0975edf942374efb91b04bc282b94fb7.png.jpg) ![](http://static.51tbox.com/static/2024-08-29/col/76...

spark scheduler(任务调度)
白嫖帮

spark scheduler(任务调度)

厉飞雨 阅读(75) 评论(0) 赞(7)

![](http://static.51tbox.com/static/2024-08-29/col/d017caec9434e3beac16140d13ff9698/4404104693f34dc0b01d30d5c0479f84.png.jpg) 1.提交一个 Spark 应用程序,首先通过 Client 向 ResourceManager 请求启动一个 Applicat...

生产环境中,Kafka 如何保证消息幂等性问题
白嫖帮

生产环境中,Kafka 如何保证消息幂等性问题

厉飞雨 阅读(78) 评论(0) 赞(6)

生产环境中,Kafka 如何保证消息幂等性问题 #### 1.Kafka 幂等性的必要性? Producer 在生产发送消息时,难免会重复发送消息。Producer 进行 retry 时会产生重试机制, 发生消息重复发送。而引入幂等性后,重复发送只会生成一条有效的消息。Kafka 作为分布 式消息系统,它的使用场景常见与分布式系统中,比如消息推送系统、业务平台系统(...

hadoop集群数据倾斜任务排查实战记录
数据库

hadoop集群数据倾斜任务排查实战记录

厉飞雨 阅读(96) 评论(0) 赞(6)

hadoop集群数据倾斜任务排查实战记录 一、问题发现 作业监控发现作业存在数据倾斜 ![](http://static.51tbox.com/static/2024-08-29/col/53b6505160936fdb32da874fab258243/cfa9921fa7dd4a02a13e159e1a4560b7.png.jpg) 问题排查 在 YARN 监控页...

做过 hbase 的二级索引吗
开发笔记

做过 hbase 的二级索引吗

厉飞雨 阅读(97) 评论(0) 赞(6)

HBase 的一级索引就是 rowkey,我们只能通过 rowkey 进行检索。如果我们想对 hbase 里面 列族的列进行一些组合查询,就需要采用 HBase 的二级索引方案来进行多条件的查询。 二级索引的本质:就是建立各列值与行键之间的映射关系。 设计思路: ![](http://static.51tbox.com/static/2024-08-29/col/2a2...

集群作业执行缓慢问题排查 2(GC)
开发笔记

集群作业执行缓慢问题排查 2(GC)

厉飞雨 阅读(75) 评论(0) 赞(6)

一、问题发现 2019-05-07 XXX 告知 XXX 集群作业跑的很慢,提供作业 ID 为:application_1523379785773_150848 问题排查 作业查看 ![](http://static.51tbox.com/static/2024-08-29/col/9412a55d79f5727018d1deaeba1183a8/ad92a0e4b3...

推测执行hadoop
软件教程

推测执行hadoop

厉飞雨 阅读(67) 评论(0) 赞(7)

**所谓推测式执行,就是计算框架判断,如果有一个task执行的过慢,则会启动备份任务,最终使用原任务+备份任务中执行较快task的结果。产生原因一般是程序bug、负载倾斜。** mapreduce 推测执行的参数,开启此参数 ![](http://static.51tbox.com/static/2024-08-29/col/9a02338150d3f340eebf93cc...

集群作业执行缓慢问题排查 1
开发笔记

集群作业执行缓慢问题排查 1

厉飞雨 阅读(91) 评论(0) 赞(6)

集群作业执行缓慢问题排查 1 ### 问题发现 2022-05-07 XXX 告知 XXX 集群作业跑的很慢,提供作业 ID 为:application_1523379785773_87898 问题排查 作业查看 排查的时候作业已经执行完毕,发现只有 58 个 map,且没有 reduce,实在不应该慢! ![](http://static.51tbox.com/...