Spark SQL

Spark SQL允許Spark執行用SQL, HiveQL或者Scala表示的關係查詢。這個模組的核心是一個新類型的RDD-SchemaRDD。 SchemaRDDs由物件組成,行物件用有一個模式(scheme) 來描述行中每一列的資料類型。SchemaRDD與關聯式資料庫中的表(table)很相似。可以通過存在的RDD、一個Parquet文件、一個JSON資料庫或者對儲存在Apache Hive中的資料執行HiveSQL查詢中創建。

本章的所有例子都利用了Spark分布式系统中的樣本資料,可以在spark-shell中運行它們。

results matching ""

    No results matching ""