seo前线培训教程第二节:搜索引擎基础原理

[复制链接]
查看56553 | 回复148 | 2013-10-20 12:33:17 | 显示全部楼层 |阅读模式
seo前线培训教程第二节:搜索引擎基础原理

课程内容简介:


解读《走进搜索引擎》,说明哪些是对于SEO需要看的,哪些是相对不重要的。并对于中文分词、倒排索引等重点部分进行详细的讲解。


课后:


逐渐阅读理解《走进搜索引擎》的重点章节。


上半节


1. 抓取系统


爬虫只是个下载器,可以把它想象成迅雷。它本身的分析能力很有限,仅有的分析功能主要是提取页面上的链接从而不断抓取。搜索引擎的大多数分析步骤,都是在页面先被抓回去以后做的。


常见的对于爬虫的误解如,搜索引擎无法很好的抓取动态网页。

2. 分析系统


分析系统会用程序来尽力解读网页的类型、主题等。


3. 索引系统


索引系统将网页内容转化为倒排索引,以支持海量数据的迅速查询。


4. 查询系统


当用户搜索词的时候,会触发搜索引擎的查询系统。它涉及到搜索结果的排序等,一般是SEO最为关注的部分。


《走进搜索引擎》(第二版)重点章节


下载系统


Page 6 搜索引擎的体系结构


Page 12 万维网的直径——扁平化网站的重要性


Page 16 宽度优先策略——百度大致策略


Page 19 不重复抓取策略


Page 25 网页抓取优先策略


Page 26 网页重访策略——快照更新的本质


Page 31 其他应该主要注意的礼貌性问题——抓取压力反馈


分析系统


Page 46 网页结构化的目标——区块重要性差异


Page 52 通过投票方法得到正文


Page 56 网页查重——伪原创不可行 & 特征项


Page 61 中文分词——同关键词对应多个页面是否分散权重


Page 68 PageRank的基本想法——反链有效的原因


索引系统


Page 87 倒排索引——检索的本质 & 关键词的伪概念


查询系统


Page 113 什么是信息熵——原创文章!=有价值的文章


Page 115 检索词和查询词的区别——区域性排名


Page 116 自动文本摘要——不显示description的原因


Page 122 关键词权重的量化方法TF-IDF


Page 137 中文自动摘要——摘要可控


Page 145 推测用户查询意图


排序学习


Page 186 查询相关/无关的排序模型——排名因素的细分


Page 217 排序特征


搜索引擎的性能调优——性能瓶颈


下半节


下载网页 -> 中文分词 -> 倒排索引 -> 查询


Python实例:最简单的搜索引擎


搜索引擎眼中,网页是由大量词构成的。


思考:为什么在网页里面重复出现关键词,有时可以提升排名?



下载地址:
游客,如果您要查看本帖隐藏内容请回复





上一篇:穿越火线快捷支付一个赚10元,卡多就赚得多操作性强
下一篇:价值880元VIP培训课程通过贴吧soso非常规方法引流日引3000+IP
富哥网赚交流2群:160191546
zhengcun | 2013-10-20 23:07:07 | 显示全部楼层
恩静                                                      
香儿 | 2013-10-21 13:44:43 | 显示全部楼层
看帖看完了至少要顶一下,还可以加入到淘帖哦!
、大胖鱼 | 2013-10-22 17:52:38 | 显示全部楼层
顶顶多好
speak10 | 2013-10-22 17:59:27 | 显示全部楼层
难得一见的好帖
早安晚安勿忘心 | 2013-10-22 17:57:29 | 显示全部楼层
说的非常好
清风1 | 2013-10-22 18:11:21 | 显示全部楼层
很好哦
1812371619 | 2013-10-22 17:34:00 | 显示全部楼层
不错不错
夏天的雪 | 2013-10-29 13:32:09 | 显示全部楼层
很不错
12233 | 2013-10-29 13:16:26 | 显示全部楼层
好帖就是要顶
点击右侧快捷回复 本站禁止发布一切违法信息,如有发现清空主题禁言处理!举报请联系QQ:568065892
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则