• Spark 編程指南繁體中文版
  • 簡介
  • 快速上手
    • Spark Shell
    • 獨立應用程序
    • 開始翻滾吧!
  • 编程指南
    • 引入 Spark
    • 初始化 Spark
    • Spark RDDs
      • 并行集合
      • 外部數據集
      • RDD 操作
        • 傳遞函數到 Spark
        • 使用键值對
        • 轉換
        • 行動
      • RDD持久化
    • 共享變量
    • 從這裏開始
  • Spark Streaming
    • 一個快速的例子
    • 基本概念
      • 關聯
      • 初始化StreamingContext
      • 離散流
      • 輸入DStreams
      • DStream中的轉換
      • DStream的輸出操作
      • 缓存或持久化
      • Checkpointing
      • 部署應用程序
      • 監控應用程序
    • 性能優化
      • 減少處理時間
      • 設置正確的批次大小
      • 記憶體優化
    • 容錯語意
  • Spark SQL
    • 開始
    • 資料來源
      • RDDs
      • parquet文件
      • JSON數據集
      • Hive表
    • 性能優化
    • 其它SQL接口
    • 編寫語言集成(Language-Integrated)的相關查詢
    • Spark SQL數據類型
  • MLlib
    • 數據類型(Data Type)
      • 本地向量(Local vector)
      • 標記點(Labeled point)
      • 本地矩陣(Local matrix)
      • 分布矩陣(Distributed matrix)
        • RowMatrix
        • IndexedRowMatrix
        • CoordinateMatrix
    • 基本統計分析(Basic Statistics)
      • 概述統計量(Summary Statistics)
      • 相關性(Correlations)
      • 分層抽樣(Stratified sampling)
      • 假設檢定(Hypothesis testing)
      • 隨機數據生成(Random data generation)
    • 分類與迴歸(Classification and Regression)
      • 線性方法(Linear Methods)
        • 數學公式(Mathematical formulation)
          • 損失函數(Loss Function)
          • 正則化(Regularizers)
          • 最佳化 (Optimization)
        • 二元分類(Binary classification)
          • 線性支持向量機(SVMs)
          • 邏輯斯迴歸(Logistic regression)
          • 評估指標(Evaluation metrics)
          • 示例(Examples)
  • GraphX编程指南
    • 開始
    • 屬性圖
    • 圖操作
    • Pregel API
    • 圖建立者
    • 頂點和邊RDDs
    • 圖算法
    • 例子
  • 部署
    • 提交應用程序
    • 獨立運行Spark
    • 在yarn上運行Spark
  • 更多文件
    • Spark配置
      • RDD 持久化
Powered by GitBook

簡介

Spark 編程指南繁體中文版

============================= 如果你是個讀者,這邊有更容易閱讀的Gitbook版本

貢獻方式

請有意願加入的同好參考(https://github.com/TaiwanSparkUserGroup/spark-programming-guide-zh-tw/blob/master/CONTRIBUTING.rst)

大綱

  • 簡介
  • 快速上手
    • Spark Shell
    • 獨立應用程序
    • 開始翻滾吧!
  • 編程指南
    • 引入 Spark
    • 初始化 Spark
    • Spark RDDs
      • 並行集合
      • 外部數據集
      • RDD 操作
        • 傳遞函數到 Spark
        • 使用鍵值對
        • 轉換
        • 行動
      • RDD持續化
    • 共享變數
    • 從這裡開始
  • Spark Streaming
    • 一個快速的例子
    • 基本概念
      • 連接
      • 初始化StreamingContext
      • 離散化串流
      • 输入DStreams
      • DStream中的轉換
      • DStream的輸出操作
      • 暫存或持續化
      • Checkpointing
      • 部署應用程序
      • 監控應用程序
    • 性能優化
      • 減少處理時間
      • 設置正確的的批次大小
      • 記憶體優化
    • 容錯語意
  • Spark SQL
    • 開始
    • 資料來源
      • RDDs
      • parquet文件
      • JSON數據集
      • Hive表
    • 性能優化
    • 其它SQL接口
    • 編寫語言集成(Language-Integrated)的相關查詢
    • Spark SQL術劇類型
  • MLlib

    • 數據類型
      • 本地向量
  • GraphX編程指南

    • 開始
    • 屬性圖
    • 圖操作
    • Pregel API
    • 圖建立者
    • 頂點和邊RDDs
    • 圖算法
    • 例子
  • 部署
    • 提交應用程序
    • 獨立運行Spark
    • 在yarn上運行Spark
  • 更多文檔
    • Spark配置
      • RDD持續化

Copyright

本文翻譯自

Spark 官方手冊

  • Reference:

Spark 编程指南简体中文版

License

本文使用的許可請查看這裡

results matching ""

    No results matching ""