山滚云

搜索引擎的爬行,抓取,索引与收录

SEO基础优化 9807℃ 喜欢 (0)

大家好,蜗牛SEO上一节给大家分享了  HTTP返回状态码的含义,以及详细使用方法。  很多朋友都表示很喜欢,内容很全面,不少朋友表示对其进行了收藏。接下来呢,蜗牛将给大家继续爆一个每个SEOER都喜爱不已的干货。

搜索引擎爬行,抓取,索引与收录。相信不止一个朋友,或者所是大多数朋友都对这个话题特别的感兴趣。蜗牛SEO这次就会将这个惊天大秘密悄悄得告诉大家。(一般人我还真不告诉他)。

爬行,抓取,索引 收录

 

一、      爬行,抓取,索引,收录原理

首先大家要明白一点,各家搜索引擎有所不同,但是所有搜索引擎的工作原理都是千秋有同的。所以,只要你按照搜索引擎的喜好去做好了,那么,有一家搜索引擎喜欢上了你的网站,其它搜索引擎,想不喜欢都难。因为你已经成大众情人了。

蜘蛛的工作原理是,进入一个网站后,一边爬行,一边抓取。它在爬行的过程中沿着链接发现新页面,然后“爬”过去抓取新页面。爬行只是一个形象的比喻,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。

抓取是指蜘蛛发现新的页面后,像浏览器一样打开页面,把页面HTML代码和图像音乐等元素存入数据库。显然,爬行和抓取是相互交织的。抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取和浏览器读取文件是基本一样的。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去

索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是index。

收录是SEOer们最关心也最常用的词,其实也是4个概念中最不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。

二、      搜索引擎会把什么样的数据放进索引库呢?

通过蜗牛SEO的解释,相信大家已经清楚,只有你在网站上有更新,蜘蛛才会爬行过后进行抓取,当蜘蛛把抓取的页面放进数据库,搜索引擎分析过后认为有价值,他才会将内容放进索引库。那么,搜索引擎会把什么样的数据放进索引库呢?

新的,权威的,用户认可的,很少看见的,我想用这四个词来形容最好不过了。

新的就是指原创的,在其它任何一个角落搜索引擎都没有见过的。

权威的,是指受到信任的,权重高的,比如腾讯,新浪,搜狐,网易,你在上面发个垃圾信息,搜索引擎都会去收录它。因为它的权重高,它更新的内容多,质量高,被搜索引擎所重视。

用户认可的,你写的内容有让用户看下去的愿望,如果你写得内容死气沉沉,用户看着看着想睡觉,我想,用户体验一定不会很好,那么搜索引擎也不会对这样的网页给予高的权重。

很少看见的,比如,四川发生地震,广东多了一便SARS病例,深圳举行大运会,北京举行奥运会,这样的信息,这样的信息是具有很强的时效性的,机会稍纵即逝,所以这样的网页搜索引擎一抓到马上就会把它放进索引库里面。

三、      收录之后的展现

网页收录之后,自然是拿来给用户看的,那么,我们怎么知道哪些内容被收录了呢?

  1. 直接通过搜索引擎可以搜索到的数据
  2. 用site或是站长工具查询到的收录数据。
  3. 时间决定信任度,搜索引擎最先抓到的一般被认为是原创。
  4. 收录之后的排序,收录到页面之后,搜索引擎会进行一个排序,根据相关度与质量来给予相应的排序。我们搜索到的一个关键词的排序一般是由网站信任度与同业竞争度来决定的,因此出现了一些关键词很容易排到前面,一些关键词很难排到前面。

四、      如何让快照更新,如何增加收录量与关键词的排名?

  1. 投搜索引擎之所好,多创作新的,用户认可的内容。养成定时或定期更新的习惯,让搜索引擎定时爬取。
  2. 多创作相关的,优质的内容,让搜索引擎与用户认可你的站点,让用户直接访问网站来获取内容,同时让搜索引擎根据用户的喜好来给你站点高的权重值。

 

关掉本节的内容,蜗牛就讲到这里了,如果大家对此话题还意犹未尽,请大家说  蜗牛SEO博客  给蜗牛留言或者去找蜗牛一起来研究这个话题。希望本篇文章使大家对搜索引擎对内容的收录有进一步的了解和认识。

转载请注明:⎛蜗牛SEO⎞ » 搜索引擎的爬行,抓取,索引与收录

1、阿里云服务器、数据库、对象存储OSS月付,优惠5-8折(新老用户不限)~
2、阿里云服务器、数据库、对象存储OSS年付/多年付,优惠5-8折(限新用户)~
3、腾讯云服务器、数据库、对象存储OSS月付,优惠5-8折(新老用户不限)~
4、腾讯云服务器、数据库、对象存储OSS年付/多年付,优惠5-8.5折(新老用户不限)~
5、华为云服务器、数据库、对象存储OSS,优惠购买5-8折~
6、景安网络快云服务器、快云VPS最低2折起优惠购买~
7、天翼云服务器、数据库、对象存储OSS,优惠购买2折起~
8、火山云服务器、数据库、对象存储OSS,优惠购买2折起~
1、阿里云最新活动页,云服务器79元/年起~>>
2、腾讯云最新活动页,云服务器68元/年起~>>
3、华为云最新活动页,云服务器35元/年起~>>
4、香港恒创轻云服务器218元一年,436元3年起~>>
5、山滚云香港虚拟主机50元一年,100元三年起~>>
6、山滚云独立IP虚拟主机118元一年起~>>

山滚网络是国内领先的网络服务商,有丰富的客户服务经验,我们有专业的云服务器代理、各类云计算产品、网站建设、网站优化、团队,为您提供优质的服务,您的满意是我们不懈的追求。

城市分站:上海SEO北京SEO广州SEO深圳SEO深圳建站公司武汉SEO重庆SEO成都SEO

业务范围:阿里云6折起,腾讯云华为云6折起,天翼云火山云景安网络2折起,深圳建站公司    微信:ganshangwoniu    QQ:549233124    业务咨询热线:177-2050-9380

   Copyright © 2008-2024 山滚网络版权所有   

QQ在线咨询
上海SEO山滚网络微信号