51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

Spark

将数据从本地PySpark会话写入Iceberg/Glue表格。

将数据从本地PySpark会话写入Iceberg/Glue表格。

厉飞雨 阅读(20) 评论(0) 赞(0)

英文: Write to Iceberg/Glue table from local PySpark session 问题 {#heading} ============= 我想要能够从我的本地机器使用Python操作托管在AWS Glue上的Iceberg表(读/写)。 我已经完成了以下工作: * 创建了一个Iceberg表并在AWS Glue上注册了它 * 使...

PySpark 使用 OR 运算符在筛选中

PySpark 使用 OR 运算符在筛选中

厉飞雨 阅读(20) 评论(0) 赞(0)

英文: PySpark using OR operator in filter 问题 {#heading} ============= 这个过滤器有效: `raw_df_2 = raw_df_1.filter(array_contains(col("country.state.city"), 'San Diego&...

Spark驱动程序意外停止(Databricks)

Spark驱动程序意外停止(Databricks)

厉飞雨 阅读(19) 评论(0) 赞(1)

英文: Spark driver stopped unexpectedly (Databricks) 问题 {#heading} ============= 我在Azure Databricks中有一个Python笔记本,其中包含一个包含137次迭代的for循环。对于每次迭代,它使用`dbutils.notebook.run`调用另一个Scala笔记本。Scala笔记...

spark-joy

spark-joy

厉飞雨 阅读(53) 评论(0) 赞(1)

> 死非生的对立面,而作为生的一部分永存。------《挪威的森林》 ✨? 2000 多种方法为您的产品增添设计风格、用户满意度和奇思妙想。 <https://github.com/swyxio/spark-joy/> ![图片](http://static.51tbox.com/static/2024-12-09/col/dfbeb8db8aaf2c0...

spark安装与部署

spark安装与部署

厉飞雨 阅读(25) 评论(0) 赞(1)

为了防止不必要的报错,部署之前请务必从开头开始看,切勿跳过其中一个部署模式,因为每一个部署模式都是从上一个模式的配置上进行的 环境说明 {#环境说明} ------------ * `hadoop-2.7.5` * `jdk1.8.0_181` * `Scala` * `spark-3.3.0-bin-hadoop2` 下载地址: {#下载地址:} -----------...

十亿条数据需要每天计算怎么办?Spark快速入门

十亿条数据需要每天计算怎么办?Spark快速入门

厉飞雨 阅读(58) 评论(0) 赞(7)

[#](#一-概述) (一)概述 {#一-概述} ------------------------ 前段时间公司规划了一个新的项目,我成了这个项目的负责人。在做技术选型时,有一个需求阻碍了前进的步伐。大概有十亿条数据,数据总量在六百G左右,这些海量的数据需要每天根据一定的逻辑计算得到几千万的值。当数据量达到这种程度时,Java应用已经无法支撑了,于是在技术选型时选中了大数据计...

学会RDD就学会了Spark,Spark数据结构RDD快速入门

学会RDD就学会了Spark,Spark数据结构RDD快速入门

厉飞雨 阅读(66) 评论(0) 赞(4)

[#](#一-概述) (一)概述 {#一-概述} ------------------------ Spark计算框架封装了三种主要的数据结构:RDD(弹性分布式数据集)、累加器(分布式共享只写变量)、广播变量(分布式共享支只读变量) [#](#二-rdd) (二)RDD {#二-rdd} --------------------------- RDD:弹性分布式数据集是...

像写SQL一样去处理内存中的数据,SparkSQL入门教程

像写SQL一样去处理内存中的数据,SparkSQL入门教程

厉飞雨 阅读(39) 评论(0) 赞(4)

[#](#一-概述) (一)概述 {#一-概述} ------------------------ SparkSQL可以理解为在原生的RDD上做的一层封装,通过SparkSQL可以在scala和java中写SQL语句,并将结果作为Dataset/DataFrame返回。简单来讲,SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集...