Spark 核心概念是 Resilient Distributed Dataset (RDD) ,你可以將它視為一個可以併型操作、有容錯機制的資料集和。目前有 2 種方式可以建立 RDDs:第一種是在你執行的驅動程式中併行化一個已經存在集合;另外一個方式是引用外部儲存系統的資料集,例如共享文件系統,HDFS,HBase或其他 Hadoop 資料格式的資料來源。