当数据量非常大时,使用传统的SQL可能会变得非常慢。这时,Spark SQL提供了更强的计算能力,帮助你在分布式环境下进行高效查询。
如何使用Spark SQL进行大规模数据查询?
from pyspark.sql import SparkSession# 创建Spark会话 spark = SparkSession.builder.appName('SparkSQLExample').getOrCreate()# 读取数据 data = spark.read.csv('large_data.csv', header=True, inferSchema=True)# 注册为临时表 data.createOrReplaceTempView('data_table')# 执行SQL查询 result = spark.sql("SELECT column_name, COUNT(*) FROM data_table GROUP BY column_name")# 显示结果 result.show()