自制搜索引擎 PDF
SEO教程

自制搜索引擎 PDF

资源名称:自制搜索引擎 PDF 内容简介: 《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。本书适合所有对搜索引擎感兴趣的技术人员阅读。 作者简介: 山田浩之(作者)信息工程学博士。先后于日本IBM、雅虎从事分布式搜索引擎的研发工作。目前在东京大学生产技术研究所从事高性能并行数据库的研发工作。末永匡(作者)开源搜索引擎Senna/Groonga的开发者。每天都在奋斗,梦想着能创建一个更加自由、更加无拘无束的,而不是一家独大的应用程序平台。胡屹(译者)多年从事Web开发工作。热爱编程,关注设计模式,致力于提升软件开发的质量。曾获得SCJP和PHP ZCE证书。译有《计算机是怎样跑起来的》。 资源目录:第1章 搜索引擎是如何工作的  11-1 理解搜索引擎的构成  3什么是搜索引擎  3构成搜索引擎的组件  4与搜索引擎相关的组件  51-2  实现了快速全文搜索的索引结构  7全文搜索的两种方法  7倒排索引的结构  8倒排索引的构建方法  9倒排索引中的术语  101-3 深入理解倒排索引  12倒排索引=词典+倒排文件  12从倒排索引中查找单词  13将单词的位置信息加入倒排文件中  13从倒排索引中查找短语  141-4 制作中文文档的倒排索引  16分割中文句子的方法  16权衡分割方法  171-5 实现倒排索引  19实现词典  19实现倒排文件  221-6 使用倒排索引进行检索  24布尔检索  24使用倒排索引的检索处理流程  24关联度的计算方法  26信息检索中的检索  271-7 构建倒排索引  29使用内存构建倒排索引  29使用二级存储构建倒排索引  29静态索引构建和动态索引构建  321-8 准备要检索的文档  34收集数据  34数据规范化  35第2章 准备全文搜索引擎的检索样本  372-1 全文搜索引擎wiser  39wiser的构成  39准备用于检索的文档  402-2 安装wiser  42构建wiser  42启动wiser  43解压缩Wikipedia的副本  442-3 运行wiser  45构建倒排索引  45使用倒排索引查询  46比较grep和wiser的运行速度  46第3章 构建倒排索引  493-1 复习有关倒排索引的知识  51提取词元  51为每个词元创建倒排列表  533-2 构建倒排索引  54在存储器上创建倒排列表  54倒排列表和倒排文件的数据结构  54从源代码级别梳理倒排索引的构建顺序  56进一步阅读源代码  59专栏 根据实际情况设计搜索引擎(系统)  68第4章 开始检索吧  714-1 检索处理的大致流程  73充分理解检索处理的流程  734-2 使用倒排索引进行检索  75从源代码级别梳理检索处理的流程  75解读split_query_to_tokens()函数的具体实现  76使用具体示例加深对检索处理流程的理解  77解读函数search_docs()的实现细节  80解读函数search_phrase()的实现  84专栏 如何实现标签检索  88第5章 压缩倒排索引  895-1 压缩的基础知识  90压缩倒排索引的好处  90专栏 压缩的目的  90倒排索引的压缩方法  91倒排文件的压缩方法  91压缩的原理  945-2 实现wiser中的压缩功能  97压缩功能源代码的概要  97了解无需进行压缩时的操作  99抓住Golomb编码的要点  101解读Golomb编码中的编码处理  105解读Golomb编码的解码处理  108第6章 挑战wiser的优化及参数的调整  1136-1 提高检索处理的效率  115优化检索处理  115将查询分割为无重复部分的词元序列  1166-2 禁用短语检索  119分析对2字符的字符串进行检索时的行为  119分析对3字符的字符串进行检索时的行为  1206-3 改变检索结果的输出顺序  122作为检索结果排序核心的指标  122按照文档大小降序排列的检索结果  124专栏 排名欺诈  1286-4  让1个字符的查询也能检索出结果  29获取以特定字符开头的词元的列表  129合并检索到的结果  131专栏 如何实现相似文档的检索  1316-5  调整控制倒排索引更新的缓冲区容量  133确认由缓冲区容量的差异带来的不同效果  133用sar命令分析负载  1346-6  调整只有英文字母的词元的分割方法  135如何避免用英文单词检索时准确率下降的问题  135如何判断某字符是否属于索引对象  135修改负责分割词元的函数  1366-7 确认压缩的效果  138观察Golomb编码的效果  138对比压缩启用前后的索引大小  138专栏 避免滥用全文搜索引擎  139第7章 为今后更加深入的学习做准备  1417-1 wiser没能实现的功能  143倒排索引之外的全文搜索索引  143高效处理大规模数据的存储器  143利用缓存提高检索的速度  143使用各种各样的压缩方法  144优化搜索结果的排名  144调整准确率和召回率  145降低检索结果排序处理的负载  147并行处理  147结合对属性的筛选过滤  148分面搜索  148专栏 时延和吞吐量  1497-2  全文搜索引擎Groonga的特点  150通过词元的部分一致检索提升召回率  150使用内存映射文件  151片段  152专栏 宣传活动的重要性  1527-3  实现出考虑到用户意图的搜索引擎  153引入停用词  153应对词素解析的错误  153专栏 断句错误  154处理全角字符和半角字符  155对查询进行归一化  156留意布尔检索的解析过程  156通过词素解析器适当地解析查询  157对错误的输入进行修正  157输入补全  158建议用户检索相关的关键词  1597-4 收集、提取文档时的要点  160制作爬虫时的处理要点  160在提取文本时需要处理的要点  163Appendix 附录  165A-1 深度话题 166近几年的压缩方法  166动态索引构建  169分布式索引  174A-2 wiser中的文本提取和存储  178用于处理XML的2 种API——DOM和SAX  178提取文档的标题和正文  179掌握状态的迁移  182构建文档数据库  187后记  191 资源截图:
《Google与百度:全球两大搜索巨头的技术创新与盈利策略》PDF 下载
SEO教程

《Google与百度:全球两大搜索巨头的技术创新与盈利策略》PDF 下载

资源名称:《Google与百度:全球两大搜索巨头的技术创新与盈利策略》PDF 下载 内容简介: 《Google与百度:全球两大搜索巨头的技术创新与盈利策略》内容简介为:Google和百度代表着互联网搜索技术的最高水准。Google以创新制胜,处处求新求变,其品牌深入人心,并成为搜索的代名词。而百度作为全球最大的中文搜索企业,造就了中国企业在美国纳斯达克上市的最璀璨的成绩。《Google与百度:全球两大搜索巨头的技术创新与盈利策略》从技术创新、盈利模式、市场策略、竞争战略、文化理念等多方面对两个企业进行深入的对比分析,解秘了这两个搜索巨头的成功奥秘。 资源目录: 前言  第一章 世界搜索霸主与中国第一品牌 Google 横空出世  加速成长  非常规上市  百度  回国创业  融资典范  成功转型  缔造中国神话  第二章 多元发展与专注经营 Google 开发桌面搜索  涉足网上书店  进入纸媒广告  推出E-mail服务  打造全球交友平台  百度  专注搜索技术  专注搜索服务  第三章 关键词广告与竞价排名 Google 搜索技术授权  关键词广告  百度  竞价排名  固定排名  第四章 创造性颠覆与模仿制胜 Google 创新气质  盈利新范式  另类股票发行  百度  跟随战略  模仿佳作  青胜于蓝...
电商学院老AVIP课程《不能不会的SEO技术》(上,中,下)完整版
SEO教程

电商学院老AVIP课程《不能不会的SEO技术》(上,中,下)完整版

资源名称:电商学院老AVIP课程《不能不会的SEO技术》(上,中,下)完整版   资源内容:老A电商学院VIP课程,不能不会的SEO技术,老A电商学院搜索讲师元芳主讲,资深搜索讲师,9年淘宝经验,8年淘宝商家经验。曾经用3年多的时间,深入研究淘宝规则,对淘宝规划有独到的见解。精通淘宝搜索以及淘宝个性化搜索   资源目录: 不能不会的SEO技术(上) 不能不会的SEO技术(中) 不能不会的SEO技术(下)
黑帽SEO课程跨年教程
SEO教程

黑帽SEO课程跨年教程

资源名称:黑帽SEO课程跨年教程   教程内容: 1.网站标签的讲解1.面包屑导航的设置2.关键词选取以及布局3.程序优化以及目录布置4.页面布局和内页优化 上4.页面布局和内页优化 下5.robots.txt的作用6.robots语法讲解7.站群优化 上8.站群优化 中9.站群优化 下10.中文分词算法11.隐含语义索引原理12.网站优化方案制作14.IIS日志的作用15.蛋糕原理16.网站权重分析17.关键词排名下降恢复18.网站收录下降恢复19.软文营销策略20.如何编写软文提升网站收录和排名21.相关课程介绍
云+移动计算时代卓越IT管理的十把钥匙系列视频
云计算教程

云+移动计算时代卓越IT管理的十把钥匙系列视频

教程名称:云+移动计算时代卓越IT管理的十把钥匙系列视频 课程目录: 1-云+移动计算时代的IT管理框架 10- 云+移动计算时代的IT运维操作框架(MOF) 2-云+移动计算时代的IT治理、风险与合规管理(ITGRC) 3-云+移动计算时代的IT价值交付(ValIT) 4-云+移动计算时代的业务连续性管理(BCM)与容灾(DR) 5-云+移动计算时代的IT治理标准ISO38500与IT监管审计最佳实践 6-云+移动计算时代的信息安全管理(ISO2700X系列) 8-云+移动计算时代的IT服务管理标准(ISO20000) 9-云+移动计算时代的IT服务管理最佳实践(ITIL V3)
织梦简洁酒店旅馆住宿类企业织梦模板
织梦模板

织梦简洁酒店旅馆住宿类企业织梦模板

模板适用类别:其他行业,   模板名称: 简洁酒店旅馆住宿类企业织梦模板 模板介绍: 织梦最新内核开发的模板,该模板属于酒店行业,旅馆企业, 住宿类,属于企业通用,酒店住宿、住宿旅游等企业均可以使用该模板,页面简洁简单,容易管理,DEDE5.5内核以上都可以使用;附带测试数据! 模板特点: 简洁美观大方小清新的设计风格,图片展示效果绝佳。 页面结构简单,利于SEO的优化,模板后台易于管理。   使用程序:   织梦DEDECMS5.5以上版本都可以使用。   模板页面: index.htm 首页模板 head.htm footer.htm article_article.htm 文章内容 这里不一一列出! 温馨提示: 按照正常的织梦安装步骤来安装还原就可以用了,从后台重新点击保存下系统基本参数。 系统>系统基本参数> 保存(确定)。 后期bug修正: 暂无 网站截图:
Office365 专业人员系列视频教程
云计算教程

Office365 专业人员系列视频教程

教程名称:Office365 专业人员系列视频教程 课程目录: IT 专业人员系列课程(1):Office 365 架构简介 IT 专业人员系列课程(2):Office 365 简单迁移 IT 专业人员系列课程(3):Office 365 混合部署 IT 专业人员系列课程(4):Office 365 部署方案与服务管理 IT 专业人员系列课程(5):Office 365 身份账户与目录同步 用户培训系列课程(1):完整的云中 Office 用户培训系列课程(2):增强社交,便捷完成业务 用户培训系列课程(3):随时随地,保持直观的业务沟通 用户培训系列课程(4):简单IT,轻松平台运维管理
Hadoop教程
云计算教程

Hadoop教程

教程名称:Hadoop教程 课程目录: Hadoop教程_1.Hadoop的源起与体系介绍 Hadoop教程_14.Map-Reduce数据分析之一,API实战 Hadoop教程_15.Map-Reduce数据分析之一,API实战 Hadoop教程_16.Map-Reduce数据分析之二,Hadoop流,应用案例 Hadoop教程_17.Map-Reduce数据分析之二,Hadoop流,应用案例 Hadoop教程_18.Map-Reduce数据分析之二,Hadoop流,应用案例 Hadoop教程_19.Map-Reduce数据分析之二,Hadoop流,应用案例 Hadoop教程_2.Hadoop的源起与体系介绍 Hadoop教程_3.Hadoop的源起与体系介绍 Hadoop教程_32.Pig安装与PigLatin语言,应用案例4 Hadoop教程_33.hadoop高级介绍 Hadoop教程_34.hadoop高级介绍 Hadoop教程_35.hadoop高级介绍 Hadoop教程_36.hadoop高级介绍 Hadoop教程_37.hadoop高级介绍 Hadoop教程_38.hadoop高级应用 Hadoop教程_39.hadoop高级应用 Hadoop教程_4.实施Hadoop集群 Hadoop教程_40.hadoop高级应用 Hadoop教程_41.hadoop高级应用 Hadoop教程_42.hadoop高级应用 Hadoop教程_43.Hadoop集群安装 Hadoop教程_44.HBASE分布式安装 Hadoop教程_5.实施Hadoop集群 Hadoop教程_6.实施Hadoop集群 Hadoop教程_7.分布式文件系统HDFS,大数据存储实战 Hadoop教程_8.分布式文件系统HDFS,大数据存储实战 Hadoop教程_9.分布式文件系统HDFS,大数据存储实战
大数据hadoop资料大集合
云计算教程

大数据hadoop资料大集合

教程名称:大数据hadoop资料大集合 课程目录: hadoop入门实战手册 Hadoop实战(第2版) Hadoop实战-陆嘉恒(高清完整版) Hadoop技术内幕:深入解析HadoopCommon和HDFS Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理》迷你书 hadoop技术内幕:深入解析YARN架构设计与实现原理》迷你书 Hadoop权威指南(中文版)(带书签) Hadoop权威指南-第3版 Hadoop源代码分析(完整版) Hadoop高级编程-构建与实现大数据解决方案 基于Hadoop的海量数据平台 高可用性的HDFS-Hadoop分布式文件系统深度实践