Spark-工具盒子

大数据探索：在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

2024-12-25 厉飞雨阅读(481) 评论(0) 赞(18)

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来，在过去，我们要<a href="https://dqydj.com/how-to-import-fixed-width-data-into-a-spreadsheet-via-r-playing-with-ipums-cps-data/">用 R 语言提取固定宽度的...

用 Spark SQL 进行结构化数据处理

2024-12-25 厉飞雨阅读(419) 评论(0) 赞(13)

<blockquote> Spark SQL 是 Spark 生态系统中处理结构化格式数据的模块。它在内部使用 Spark Core API 进行处理，但对用户的使用进行了抽象。这篇文章深入浅出地告诉你 Spark SQL 3.x 的新内容。 </blockquote> 有了 Spark SQL，用...

spark 丢失临时文件问题

2024-12-14 厉飞雨阅读(534) 评论(0) 赞(17)

spark 丢失临时文件问题 HHH 日志改造问题背景目前 HHH 日志初筛程序由于 RPC 处理时间过长，需要优化改造成 SparkStreaming 处理；同时，HHH 日志解析后续 DP、DK、DEL 表生成同样适用MR 处理，浪费大量资源，可改造合并到 Spark Streaming 中一块处理。但在合并初筛、HHH 日志解析、DP、DK、DEL 时，碰到...

如何在PySpark中将DataFrame进行转换？

2024-12-14 厉飞雨阅读(501) 评论(0) 赞(16)

英文: How to transform in DataFrame in PySpark? 问题 {#heading} ============= 以下是翻译好的部分：我在 Py Spark 中有一个数据框，其中包含列：id、name、value。列名应为每个id取值`A、B、C`。value列包含数值。样本数据框: dat...

如何使用Pyspark获取跨多个文件排序的Parquet行组统计信息？

2024-12-14 厉飞雨阅读(361) 评论(0) 赞(19)

英文: How to get Parquet row groups stats sorted across multiple files with Pyspark? 问题 {#heading} ============= 你可以尝试使用`repartition`方法来改变数据分区的分布，从而达到你想要的效果。例如： df = df.repartition(2...

如何创建一个返回元组或同时更新两列的Spark UDF？

2024-12-14 厉飞雨阅读(483) 评论(0) 赞(23)

英文: How to create a Spark UDF that returns a Tuple or updates two columns at the same time? 问题 {#heading} ============= Here's the modified code with the necessary changes to fix th...

将数据从本地PySpark会话写入Iceberg/Glue表格。

2024-12-14 厉飞雨阅读(546) 评论(0) 赞(16)

英文: Write to Iceberg/Glue table from local PySpark session 问题 {#heading} ============= 我想要能够从我的本地机器使用Python操作托管在AWS Glue上的Iceberg表（读/写）。我已经完成了以下工作： * 创建了一个Iceberg表并在AWS Glue上注册了它 * 使...

在Pyspark中，在数据框中添加带有时间间隔的新时间戳列。

2024-12-14 厉飞雨阅读(351) 评论(0) 赞(20)

英文: Add new timestamp column with interval in dataframe in pyspark 问题 {#heading} ============= 我正在使用PySpark，并且有一个Spark数据框。我想要添加一个新列"timestamp interval"，间隔为15分钟。请问有人可以帮忙吗？我的数...

PySpark 使用 OR 运算符在筛选中

2024-12-14 厉飞雨阅读(405) 评论(0) 赞(20)

英文: PySpark using OR operator in filter <h1>问题 {#heading}</h1> 这个过滤器有效： <code>raw_df_2 = raw_df_1.filter(a...

Spark驱动程序意外停止（Databricks）

2024-12-14 厉飞雨阅读(456) 评论(0) 赞(15)

英文: Spark driver stopped unexpectedly (Databricks) 问题 {#heading} ============= 我在Azure Databricks中有一个Python笔记本，其中包含一个包含137次迭代的for循环。对于每次迭代，它使用`dbutils.notebook.run`调用另一个Scala笔记本。Scala笔记...

51工具盒子

Spark