51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

sparksql

像写SQL一样去处理内存中的数据,SparkSQL入门教程

像写SQL一样去处理内存中的数据,SparkSQL入门教程

厉飞雨 阅读(16) 评论(0) 赞(1)

# (一)概述 SparkSQL可以理解为在原生的RDD上做的一层封装,通过SparkSQL可以在scala和java中写SQL语句,并将结果作为Dataset/DataFrame返回。简单来讲,SparkSQL可以让我们像写SQL一样去处理内存中的数据。 Dataset是一个数据的分布式集合,是Spark1.6之后新增的接口,它提供了RDD的优点和SparkSQL优化执行