51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

Spark

spark 丢失临时文件问题

spark 丢失临时文件问题

厉飞雨 阅读(5) 评论(0) 赞(0)

spark 丢失临时文件问题 HHH 日志改造问题 背景 目前 HHH 日志初筛程序由于 RPC 处理时间过长,需要优化改造成 SparkStreaming 处理; 同时,HHH 日志解析后续 DP、DK、DEL 表生成同样适用MR 处理,浪费大量资源,可改造合并到 Spark Streaming 中一块处理。但在合并初筛、HHH 日志解析、DP、DK、DEL 时,碰到...

如何在PySpark中将DataFrame进行转换?

如何在PySpark中将DataFrame进行转换?

厉飞雨 阅读(6) 评论(0) 赞(0)

英文: How to transform in DataFrame in PySpark? 问题 {#heading} ============= 以下是翻译好的部分: 我在 Py Spark 中有一个数据框,其中包含列:id、name、value。 列名应为每个id取值`A、B、C`。value列包含数值。 样本数据框: dat...

将数据从本地PySpark会话写入Iceberg/Glue表格。

将数据从本地PySpark会话写入Iceberg/Glue表格。

厉飞雨 阅读(7) 评论(0) 赞(0)

英文: Write to Iceberg/Glue table from local PySpark session 问题 {#heading} ============= 我想要能够从我的本地机器使用Python操作托管在AWS Glue上的Iceberg表(读/写)。 我已经完成了以下工作: * 创建了一个Iceberg表并在AWS Glue上注册了它 * 使...

Spark驱动程序意外停止(Databricks)

Spark驱动程序意外停止(Databricks)

厉飞雨 阅读(6) 评论(0) 赞(0)

英文: Spark driver stopped unexpectedly (Databricks) 问题 {#heading} ============= 我在Azure Databricks中有一个Python笔记本,其中包含一个包含137次迭代的for循环。对于每次迭代,它使用`dbutils.notebook.run`调用另一个Scala笔记本。Scala笔记...

PySpark 使用 OR 运算符在筛选中

PySpark 使用 OR 运算符在筛选中

厉飞雨 阅读(6) 评论(0) 赞(0)

英文: PySpark using OR operator in filter 问题 {#heading} ============= 这个过滤器有效: `raw_df_2 = raw_df_1.filter(array_contains(col("country.state.city"), 'San Diego&...

spark-joy

spark-joy

厉飞雨 阅读(11) 评论(0) 赞(0)

> 死非生的对立面,而作为生的一部分永存。------《挪威的森林》 ✨😂 2000 多种方法为您的产品增添设计风格、用户满意度和奇思妙想。 <https://github.com/swyxio/spark-joy/> ![图片](http://static.51tbox.com/static/2024-12-09/col/dfbeb8db8aaf2c...