数据架构 大数据、数据仓库以及DATA VAULT
云计算教程

数据架构 大数据、数据仓库以及DATA VAULT

数据架构 大数据、数据仓库以及DATA VAULT 内容简介: 本书是数据仓库之父Inmon的新作,探讨数据的架构和如何在现有系统中最有效地利用数据。本书的主题涵盖企业数据、大数据、数据仓库、Data Vault、业务系统和架构。主要内容包括:在分析和大数据之间建立关联,如何利用现有信息系统,如何导出重复型数据和非重复型数据,大数据以及使用大数据的商业价值,等等。 本书的读者对象包括数据工程技术人员、管理人员以及从事数据分析和研究的科研人员。 资源目录: 第1章 企业数据  1 1.1 企业数据  1 1.1.1 企业的全体数据  1 1.1.2 非结构化数据的划分  2 1.1.3 业务相关性  3 1.1.4 大数据  3 1.1.5 分界线  4 1.1.6 大陆分水岭  5 1.1.7 企业数据全貌  6 1.2 数据基础设施  6 1.2.1 重复型数据的两种类型  7 1.2.2 重复型结构化数据  7 1.2.3 重复型大数据  8 1.2.4 两种基础设施  9 1.2.5 优化了什么  10 1.2.6 对比两种基础设施  11 1.3 分界线  12 1.3.1 企业数据分类  12 1.3.2 分界线  12 1.3.3 重复型非结构化数据  13 1.3.4 非重复型非结构化数据  15 1.3.5 不同的领域  17 1.4 企业数据统计图  17 1.5 企业数据分析  22 1.6 数据的生命周期——随时间推移理解数据  27 1.7 数据简史  31 1.7.1 纸带和穿孔卡片  31 1.7.2 磁带  32 1.7.3 磁盘存储器  32 1.7.4 数据库管理系统  32 1.7.5 耦合处理器  33 1.7.6 在线事务处理  33 1.7.7 数据仓库  34 1.7.8 并行数据管理  34 1.7.9 Data Vault  35 1.7.10 大数据  35 1.7.11 分界线  35...
Spark零基础实战
云计算教程

Spark零基础实战

Spark零基础实战 内容简介: Spark是业界公认的近几年发展快、受关注度的一体化多元化的大数据计算技术,可以同时满足不同业务场景和不同数据规模的大数据计算的需要。 本书首先通过代码实战的方式对学习Spark前必须掌握的Scala内容进行讲解并结合Spark源码的阅读来帮助读者快速学习Scala函数式编程与面向对象完美结合的编程艺术,接着对Hadoop和Spark集群安装部署以及Spark在不同集成开发环境的开发实战作出了详细的讲解,然后基于大量的实战案例来讲解Spark核心RDD编程并深度解密RDD的密码,并且通过实战的方式详解了TopN在Spark RDD中的实现,为了让读者彻底了解Spark,本书用了大量的篇幅详细解密了Spark的高可用性、内核架构、运行机制等内容。 Spark零基础实战这本书定位于零基础的学员,也可以作为有一定大数据Hadoop经验的从业者以及对大数据非常感兴趣的学生的本Spark入门书籍。 截图:
用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用
云计算教程

用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用

用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用 内容简介: 如何能牢牢地黏住老用户、吸引新用户、读懂用户的偏好兴趣和喜怒哀乐,这都是对企业发展至关重要甚至关乎生死存亡的问题,解决这个问题的方法就是推荐系统。本书分为上中下三篇,共13章,上篇为用户画像知识工程基础,包括表征建模、画像计算、存储及各种更新维护等管理操作;中篇为推荐系统与用户画像,包括传统协同过滤等经典推荐算法的介绍,以及涉及用户画像的推荐方法;下篇为应用案例分析,包括Netflix、阿里等数据竞赛的经典数据案例,以及在具体工程开发过程的具体案例,分别从系统需求、总体结构、算法设计、运行流程及测试结果等五个方面提供详细案例指导。 资源目录: 上 篇 第1章 用户画像概述 3 1.1 用户画像数据来源 3 1.1.1 用户属性 5 1.1.2 用户观影行为 5 1.2 用户画像特性 5 1.2.1 动态性 5 1.2.2 时空局部性 6 1.3 用户画像应用领域 6 1.3.1 搜索引擎 6 1.3.2 推荐系统 7 1.3.3 其他业务定制与优化 7 1.4 大数据给用户画像带来的机遇与挑战 8 第2章 用户画像建模 9...
深入云计算:Hadoop应用开发实战详解(修订版)
云计算教程

深入云计算:Hadoop应用开发实战详解(修订版)

深入云计算:Hadoop应用开发实战详解(修订版) 内容简介: 本书由浅入深,全面、系统地介绍了Hadoop这一高性能处理大量数据集的理想工具。本书内容主要包括HDFS、MapReduce、Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop相关的子项目,各个知识点都配有精心设计的大量经典的小案例,实战性和可操作性强。 本书旨在帮助云计算初学者迅速掌握Hadoop系统,提升读者在云计算实践中的应用和开发能力。同时本书极强的系统性和大量翔实的案例对于有一定基础的中高级用户有非常好的参考价值 截图:
Hadoop安全:大数据平台隐私保护
云计算教程

Hadoop安全:大数据平台隐私保护

Hadoop安全:大数据平台隐私保护 内容简介: 《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。第1章是介绍性内容,随后分为四大部分:*部分是安全架构,第二部分是验证、授权和安全审计,第三部分是数据安全,第四部分是归纳总结。*后介绍了几个使用案例,融合了书中诸多概念。 《Hadoop安全 大数据平台隐私保护》适合对Hadoop感兴趣的读者,有大数据平台保护需求的读者。 资源目录: 序  xi 前言  xii 第1章 引言  1 1.1 安全概览  1 1.1.1 机密性  2 1.1.2 完整性  2 1.1.3 可用性  2 1.1.4 验证、授权和审计  3 1.2 Hadoop 安全:简史  5 1.3 Hadoop 组件和生态系统  5 1.3.1 Apache HDFS  6 1.3.2 Apache YARN  7 1.3.3 Apache MapReduce  8 1.3.4 Apache Hive  9 1.3.5 Cloudera Impala  9 1.3.6 Apache Sentry  10 1.3.7 Apache HBase  11 1.3.8 Apache Accumulo  11 1.3.9 Apache Solr  13 1.3.10 Apache Oozie  13 1.3.11 Apache ZooKeeper  13 1.3.12 Apache Flume  13 1.3.13 Apache Sqoop  14 1.3.14 Cloudera Hue  14 1.4 小结  14...