Spark-工具盒子

Spark SQL 究竟是何方神圣?

2024-12-25 厉飞雨阅读(228) 评论(0) 赞(10)

Spark SQL允许大家在Python、Java以及Scala中使用数据帧;利用多种结构化格式读取并写入数据;通过SQL进行大数据查询。 Spark SQL属于Spark用于处理结构化与半结构化数据的接口。结构化数据是指那些拥有一定模式的数据，包括JSON、Hive Tables以及Parquet。模式意味着每条记录都拥...

Apache Spark 2.0 最快4月亮相预计效能翻九倍

2024-12-25 厉飞雨阅读(251) 评论(0) 赞(11)

1月才刚释出1.6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame <img src="http://static.51tbox.com/static/2024-1...

大数据探索：在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

2024-12-25 厉飞雨阅读(229) 评论(0) 赞(12)

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来，在过去，我们要<a href="https://dqydj.com/how-to-import-fixed-width-data-into-a-spreadsheet-via-r-playing-with-ipums-cps-data/">用 R 语言提取固定宽度的...

用 Spark SQL 进行结构化数据处理

2024-12-25 厉飞雨阅读(228) 评论(0) 赞(12)

<blockquote> Spark SQL 是 Spark 生态系统中处理结构化格式数据的模块。它在内部使用 Spark Core API 进行处理，但对用户的使用进行了抽象。这篇文章深入浅出地告诉你 Spark SQL 3.x 的新内容。 </blockquote> 有了 Spark SQL，用...

spark 丢失临时文件问题

2024-12-14 厉飞雨阅读(315) 评论(0) 赞(15)

spark 丢失临时文件问题 HHH 日志改造问题背景目前 HHH 日志初筛程序由于 RPC 处理时间过长，需要优化改造成 SparkStreaming 处理；同时，HHH 日志解析后续 DP、DK、DEL 表生成同样适用MR 处理，浪费大量资源，可改造合并到 Spark Streaming 中一块处理。但在合并初筛、HHH 日志解析、DP、DK、DEL 时，碰到...

如何在PySpark中将DataFrame进行转换？

2024-12-14 厉飞雨阅读(294) 评论(0) 赞(14)

英文: How to transform in DataFrame in PySpark? 问题 {#heading} ============= 以下是翻译好的部分：我在 Py Spark 中有一个数据框，其中包含列：id、name、value。列名应为每个id取值`A、B、C`。value列包含数值。样本数据框: dat...

如何使用Pyspark获取跨多个文件排序的Parquet行组统计信息？

2024-12-14 厉飞雨阅读(184) 评论(0) 赞(16)

英文: How to get Parquet row groups stats sorted across multiple files with Pyspark? 问题 {#heading} ============= 你可以尝试使用`repartition`方法来改变数据分区的分布，从而达到你想要的效果。例如： df = df.repartition(2...

如何创建一个返回元组或同时更新两列的Spark UDF？

2024-12-14 厉飞雨阅读(250) 评论(0) 赞(20)

英文: How to create a Spark UDF that returns a Tuple or updates two columns at the same time? 问题 {#heading} ============= Here's the modified code with the necessary changes to fix th...

将数据从本地PySpark会话写入Iceberg/Glue表格。

2024-12-14 厉飞雨阅读(300) 评论(0) 赞(15)

英文: Write to Iceberg/Glue table from local PySpark session 问题 {#heading} ============= 我想要能够从我的本地机器使用Python操作托管在AWS Glue上的Iceberg表（读/写）。我已经完成了以下工作： * 创建了一个Iceberg表并在AWS Glue上注册了它 * 使...

在Pyspark中，在数据框中添加带有时间间隔的新时间戳列。

2024-12-14 厉飞雨阅读(187) 评论(0) 赞(17)

英文: Add new timestamp column with interval in dataframe in pyspark 问题 {#heading} ============= 我正在使用PySpark，并且有一个Spark数据框。我想要添加一个新列"timestamp interval"，间隔为15分钟。请问有人可以帮忙吗？我的数...

51工具盒子

Spark