Spark内核设计的艺术架构设计与实现
云计算教程

Spark内核设计的艺术架构设计与实现

Spark内核设计的艺术架构设计与实现 内容简介: 本书赞誉 前言 第1章 环境准备 ········································1 1.1 运行环境准备 ···········································2 1.1.1 安装JDK ·········································2 1.1.2 安装Scala ········································2 1.1.3 安装Spark ·······································3 1.2 Spark初体验 ···································4 1.2.1 运行spark-shell ·······························4 1.2.2 执行word count ······························5 1.2.3 剖析spark-shell ·······························9 1.3 阅读环境准备 ·········································14 1.3.1 安装SBT ·······································15 1.3.2 安装Git ·········································15 1.3.3 安装Eclipse Scala IDE插件 ········15 1.4 Spark源码编译与调试 ·························17 1.5 小结 ···························23 第2章 设计理念与基本架构 ···············24 2.1 初识Spark ··································25 2.1.1 Hadoop MRv1的局限···················25 2.1.2 Spark的特点 ·································26 2.1.3...
Hadoop大数据开发案例教程与项目实战
云计算教程

Hadoop大数据开发案例教程与项目实战

Hadoop大数据开发案例教程与项目实战  内容简介: 本书是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括第1~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS、计算系统MapReduce、计算模型Yarn、数据云盘。提高篇包括第7~11章,具体包括协调系统Zookeeper、Hadoop数据库Hbase、Hadoop数据仓库Hive、Hadoop数据采集Flume、OTA离线数据分析平台。全书内容结构合理,知识点全面,讲解详细,重点难点突出。 本书适合作为院校计算机及相关专业大数据课程的教材,也可供学习者自学参考。 资源目录: 基础篇 第1章 Hadoop概述 1 1.1 Hadoop简介 1 1.2 Hadoop相关项目 2 1.3 Hadoop来源 3 1.4 Hadoop的发展史 4 1.5 Hadoop特点 5 1.6 Hadoop体系架构 6 1.6.1 HDFS体系结构 7 1.6.2 MapReduce体系结构 7 本章小结 8 习题 8 第2章 Hadoop基础环境配置 9 2.1 准备Linux环境 9 2.1.1 安装VMware12虚拟机 9 2.1.2 部署CentOS 64位操作系统 11 2.2 Linux配置 16 2.2.1 什么是Linux 16 2.2.2 Linux发行版 16 2.2.3 配置网络 16 2.2.4 Linux终端 17 2.3 Hadoop环境搭建 21 2.3.1 JDK安装和测试 21 2.3.2 Hadoop安装和配置 25 2.3.3 SSH免密码配置 31 本章小结 33 习题 34 第3章 分布式存储HDFS 35 3.1 HDFS概念 35 3.1.1 HDFS简介 35 3.1.2 HDFS设计思路和理念 35 3.2 HDFS体系结构 36 3.3 HDFS文件存储机制 36 3.4 HDFS Shell介绍 39 3.4.1 命令格式 39 3.4.2 HDFS用户命令 40 3.4.3 HDFS管理员命令 40 3.5 Hadoop项目创建 47 3.6 RPC通信原理 53...
大数据技术原理与应用 概念、存储、处理、分析与应用
云计算教程

大数据技术原理与应用 概念、存储、处理、分析与应用

大数据技术原理与应用 概念、存储、处理、分析与应用  内容简介: 大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受关注。大数据处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业,都融入了大数据的印迹,大数据对人类的社会生产和生活必将产生重大而深远的影响。 大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带。本书将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域“深耕细作”奠定基础、指明方向。在本书的基础上,感兴趣的读者可以通过其他诸如《Hadoop权威指南》等工具书,继续深入学习和实践大数据相关技术。 资源目录: 第一篇大数据基础 第1章大数据概述 1.1大数据时代 1.1.1第三次信息化浪潮 1.1.2信息科技为大数据时代 提供技术支撑 1.1.3数据产生方式的变革促成 大数据时代的来临 1.1.4大数据的发展历程 1.2大数据的概念 1.2.1数据量大 1.2.2数据类型繁多 1.2.3处理速度快 1.2.4价值密度低 1.3大数据的影响 1.3.1大数据对科学研究的影响 1.3.2大数据对思维方式的影响 1.3.3大数据对社会发展的影响 1.3.4大数据对就业市场的影响 1.3.5大数据对人才培养的影响 1.4大数据的应用 1.5大数据关键技术 1.6大数据计算模式 1.6.1批处理计算 1.6.2流计算 1.6.3图计算 1.6.4查询分析计算 1.7大数据产业 1.8大数据与云计算、物联网 1.8.1云计算 1.8.2物联网 1.8.3大数据与云计算、物联网的关系 1.9本章小结 1.10习题 第2章大数据处理架构Hadoop 2.1概述 2.1.1Hadoop简介 2.1.2Hadoop的发展简史 2.1.3Hadoop的特性 2.1.4Hadoop的应用现状...
Hadoop大数据处理
云计算教程

Hadoop大数据处理

Hadoop大数据处理 内容简介: 《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。   《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。   《Hadoop大数据处理》适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。 资源目录: 第1章 大数据处理概论 1 1.1 什么是大数据 2 1.2 数据处理平台的基础架构 5 1.3 大数据处理的存储 7 1.3.1 提升容量 7 1.3.2 提升吞吐量 11 1.4 大数据处理的计算模式 17 1.4.1 多处理技术 17 1.4.2 并行计算 20 1.5 大数据处理系统的容错性 26 1.5.1 数据存储容错 27 1.5.2 计算任务容错 28 1.6 大数据处理的云计算变革 30 本章参考文献 32 第2章 基于Hadoop的大数据处理架构 35 2.1 Google核心云计算技术 35 2.1.1 并行计算编程模型MapReduce 36 2.1.2 分布式文件系统GFS 38 2.1.3 分布式结构化数据存储BigTable 39 2.2 Hadoop云计算技术及发展 41 2.2.1 Hadoop的由来 41 2.2.2 Hadoop原理与运行机制 42 2.2.3 Hadoop相关技术及简介 45 2.2.4 Hadoop技术的发展与演进 47 2.3 基于云计算的大数据处理架构 48 2.4 基于云计算的大数据处理技术的应用 51 2.4.1 百度 51 2.4.2 阿里巴巴 56 2.4.3 腾讯 58 2.4.4 华为 60 2.4.5 中国移动 62 2.5 Hadoop运行实践 63 本章参考文献 64 第3章 MapReduce计算模式 66 3.1 MapReduce原理 66 3.2 MapReduce工作机制 69 3.2.1 MapReduce运行框架的组件 70 3.2.2 MapReduce作业的运行流程 70 3.2.3 作业调度 72 3.2.4 异常处理 73...
Hadoop 2.X HDFS源码剖析
云计算教程

Hadoop 2.X HDFS源码剖析

Hadoop 2.X HDFS源码剖析 内容简介: 《Hadoop 2.X HDFS源码剖析》以Hadoop 2.6.0源码为基础,深入剖析了HDFS 2.X中各个模块的实现细节,包括RPC框架实现、Namenode实现、Datanode实现以及HDFS客户端实现等。《Hadoop 2.X HDFS源码剖析》一共有5章,其中第1章从总体上介绍了HDFS的组件、概念以及典型的流程,同时详细介绍了HDFS各个组件间RPC接口的定义。第2章介绍了Hadoop RPC框架的实现,Hadoop RPC是HDFS各个组件间通信所依赖的底层框架,可以理解为HDFS的神经系统。第3~5章分别介绍了Namenode、Datanode以及HDFS客户端这三个组件的实现细节,同时穿插介绍了HDFS 2.X的新特性,例如Namenode HA、Federation Namenode等。 阅读《Hadoop 2.X HDFS源码剖析》可以帮助读者从架构设计与源码实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧以及编程规范等。这些对于读者全面提高自己的技术水平有很大的帮助。 资源目录: 第1章 HDFS 1 1.1 HDFS概述 1 1.1.1 HDFS体系结构 1 1.1.2 HDFS基本概念 2 1.2 HDFS通信协议 4 1.2.1 Hadoop RPC接口 4 1.2.2 流式接口 20 1.3 HDFS主要流程...
NumPy攻略:Python科学计算与数据分析 中文_Python教程
Python教程

NumPy攻略:Python科学计算与数据分析 中文_Python教程

资源名称:NumPy攻略:Python科学计算与数据分析 中文 第1章 使用IPython 1 第2章 高级索引和数组概念 19 第3章 常用函数 40 第4章 NumPy与其他软件的交互 63 第5章 声音和图像处理 81 第6章 特殊类型数组与通用函数 102 第7章 性能分析与调试 115 第8章 质量保证 127 第9章 用Cython为代码提速 142 第10章 有趣的Scikits 153 资源截图:
Selenium Python之学习笔记 中文_Python教程
Python教程

Selenium Python之学习笔记 中文_Python教程

资源名称:Selenium Python之学习笔记 中文 本文档主要讲述的是Selenium Python之学习笔记;我们在学习 Selenium Python 之学习笔记 Selenium Python 之学习笔记 Selenium Python的时候肯定会遇到这样那样的问题 资源截图:
python基础用法 中文_Python教程
Python教程

python基础用法 中文_Python教程

资源名称:python基础用法 中文 本文档主要讲述的是python基础用法;Python 是一种代表简单思想的语言。有极其简单的语法。Python 是 FLOSS(自由/开放源码软件)之一。 资源截图: