Spark-工具盒子

将数据从本地PySpark会话写入Iceberg/Glue表格。

2024-12-14 厉飞雨阅读(546) 评论(0) 赞(16)

英文: Write to Iceberg/Glue table from local PySpark session 问题 {#heading} ============= 我想要能够从我的本地机器使用Python操作托管在AWS Glue上的Iceberg表（读/写）。我已经完成了以下工作： * 创建了一个Iceberg表并在AWS Glue上注册了它 * 使...

在Pyspark中，在数据框中添加带有时间间隔的新时间戳列。

2024-12-14 厉飞雨阅读(351) 评论(0) 赞(20)

英文: Add new timestamp column with interval in dataframe in pyspark 问题 {#heading} ============= 我正在使用PySpark，并且有一个Spark数据框。我想要添加一个新列"timestamp interval"，间隔为15分钟。请问有人可以帮忙吗？我的数...

PySpark 使用 OR 运算符在筛选中

2024-12-14 厉飞雨阅读(405) 评论(0) 赞(20)

<p>英文:</p> <p>PySpark using OR operator in filter</p> <h1>问题 {#heading}</h1> <p>这个过滤器有效：</p> <p><code>raw_df_2 = raw_df_1.filter(a...

Spark驱动程序意外停止（Databricks）

2024-12-14 厉飞雨阅读(457) 评论(0) 赞(15)

英文: Spark driver stopped unexpectedly (Databricks) 问题 {#heading} ============= 我在Azure Databricks中有一个Python笔记本，其中包含一个包含137次迭代的for循环。对于每次迭代，它使用`dbutils.notebook.run`调用另一个Scala笔记本。Scala笔记...

How does reduceByKey() in pyspark knows which column is key and which one is value?

2024-12-14 厉飞雨阅读(377) 评论(0) 赞(13)

<p>英文:</p> <p>How does reduceByKey() in pyspark knows which column is key and which one is value?</p> <h1>问题 {#heading}</h1> <p>我是一个对Pyspark新手，正在阅读&...

spark-joy

2024-12-14 厉飞雨阅读(1880) 评论(0) 赞(15)

<blockquote> <p>死非生的对立面，而作为生的一部分永存。------《挪威的森林》</p> </blockquote> <p>✨? 2000 多种方法为您的产品增添设计风格、用户满意度和奇思妙想。</p> <p><a href="https://github.com...

spark安装与部署

2024-12-14 厉飞雨阅读(462) 评论(0) 赞(15)

<p>为了防止不必要的报错，部署之前请务必从开头开始看，切勿跳过其中一个部署模式，因为每一个部署模式都是从上一个模式的配置上进行的</p> <h2>环境说明 {#环境说明}</h2> <ul> <li><code>hadoop-2.7.5</code></li> <...

十亿条数据需要每天计算怎么办？Spark快速入门

2024-10-26 厉飞雨阅读(498) 评论(0) 赞(23)

<h2><a href="#一-概述">#</a> （一）概述 {#一-概述}</h2> <p>前段时间公司规划了一个新的项目，我成了这个项目的负责人。在做技术选型时，有一个需求阻碍了前进的步伐。大概有十亿条数据，数据总量在六百G左右，这些海量的数据需要每天根据一定的逻辑计算得到几千万的值。当数据量...

学会RDD就学会了Spark，Spark数据结构RDD快速入门

2024-10-26 厉飞雨阅读(418) 评论(0) 赞(14)

<h2><a href="#一-概述">#</a> （一）概述 {#一-概述}</h2> <p>Spark计算框架封装了三种主要的数据结构：RDD（弹性分布式数据集）、累加器（分布式共享只写变量）、广播变量（分布式共享支只读变量）</p> <h2><a href=&qu...

像写SQL一样去处理内存中的数据，SparkSQL入门教程

2024-10-26 厉飞雨阅读(365) 评论(0) 赞(16)

[#](#一-概述) （一）概述 {#一-概述} ------------------------ SparkSQL可以理解为在原生的RDD上做的一层封装，通过SparkSQL可以在scala和java中写SQL语句，并将结果作为Dataset/DataFrame返回。简单来讲，SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集...

51工具盒子

Spark