Spark 編程指南繁體中文版
簡介
快速上手
Spark Shell
獨立應用程序
開始翻滾吧!
编程指南
引入 Spark
初始化 Spark
Spark RDDs
并行集合
外部數據集
RDD 操作
傳遞函數到 Spark
使用键值對
轉換
行動
RDD持久化
共享變量
從這裏開始
Spark Streaming
一個快速的例子
基本概念
關聯
初始化StreamingContext
離散流
輸入DStreams
DStream中的轉換
DStream的輸出操作
缓存或持久化
Checkpointing
部署應用程序
監控應用程序
性能優化
減少處理時間
設置正確的批次大小
記憶體優化
容錯語意
Spark SQL
開始
資料來源
RDDs
parquet文件
JSON數據集
Hive表
性能優化
其它SQL接口
編寫語言集成(Language-Integrated)的相關查詢
Spark SQL數據類型
MLlib
數據類型(Data Type)
本地向量(Local vector)
標記點(Labeled point)
本地矩陣(Local matrix)
分布矩陣(Distributed matrix)
RowMatrix
IndexedRowMatrix
CoordinateMatrix
基本統計分析(Basic Statistics)
概述統計量(Summary Statistics)
相關性(Correlations)
分層抽樣(Stratified sampling)
假設檢定(Hypothesis testing)
隨機數據生成(Random data generation)
分類與迴歸(Classification and Regression)
線性方法(Linear Methods)
數學公式(Mathematical formulation)
損失函數(Loss Function)
正則化(Regularizers)
最佳化 (Optimization)
二元分類(Binary classification)
線性支持向量機(SVMs)
邏輯斯迴歸(Logistic regression)
評估指標(Evaluation metrics)
示例(Examples)
GraphX编程指南
開始
屬性圖
圖操作
Pregel API
圖建立者
頂點和邊RDDs
圖算法
例子
部署
提交應用程序
獨立運行Spark
在yarn上運行Spark
更多文件
Spark配置
RDD 持久化
Powered by
GitBook
RDD 持久化
RDD 永續儲存
Spark 有一個最重要的功能是在記憶體中
永續儲存
(或
緩存
) 一個資料集。
results matching "
"
No results matching "
"