如何使用Pyspark获取跨多个文件排序的Parquet行组统计信息?
英文: How to get Parquet row groups stats sorted across multiple files with Pyspark? 问题 {#heading} ============= 你可以尝试使用`repartition`方法来改变数据分区的分布,从而达到你想要的效果。例如: df = df.repartition(2...
英文: How to get Parquet row groups stats sorted across multiple files with Pyspark? 问题 {#heading} ============= 你可以尝试使用`repartition`方法来改变数据分区的分布,从而达到你想要的效果。例如: df = df.repartition(2...