PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署
PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 内容简介: 本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。 资源目录: 译者序 序 前言 关于作者 第1章 了解Spark 1 1.1 什么是Apache Spark 1 1.2 Spark作业和API 2 1.2.1 执行过程 2 1.2.2 弹性分布式数据集 3 1.2.3 DataFrame 4 1.2.4 Dataset 5 1.2.5 Catalyst优化器 5 1.2.6 钨丝计划 5 1.3 Spark 2.0的架构 6 1.3.1 统一Dataset和DataFrame 7 1.3.2 SparkSession介绍 8 1.3.3 Tungsten Phase 2 8 1.3.4 结构化流 10 1.3.5 连续应用 10 1.4 小结 11 第2章 弹性分布式数据集 12...









