大数据:互联网大规模数据挖掘与分布式处理
云计算教程

大数据:互联网大规模数据挖掘与分布式处理

大数据:互联网大规模数据挖掘与分布式处理 内容简介: 本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:   □ 分布式文件系统以及Map-Reduce工具;   □ 相似性搜索;   □ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;   □ 搜索引擎技术,如谷歌的PageRank;   □ 频繁项集挖掘;   □ 大规模高维数据集的聚类算法;   □ Web应用中的关键问题:广告管理和推荐系统。 资源目录: 第1章  数据挖掘基本概念   1.1  数据挖掘的定义   1.1.1  统计建模   1.1.2  机器学习   1.1.3  建模的计算方法   1.1.4  数据汇总   1.1.5  特征抽取   1.2  数据挖掘的统计限制   1.2.1  整体情报预警   1.2.2  邦弗朗尼原理   1.2.3  邦弗朗尼原理的一个例子   1.2.4  习题   1.3  相关知识   1.3.1  词语在文档中的重要性  ...