搜索引擎蜘蛛爬行网站的原理

搜索引擎抓取原理:经过多少个过程？为什么我们发表的很多文章都没有收录？为什么我们仍然不包括我们逐字逐句制作的内容？

第一，什么是蜘蛛？

我们把搜索引擎比作无边无际的网络海洋，拥有海量的信息。“蜘蛛”是一套计算机程序，旨在从互联网上捕捉和检索信息。蜘蛛，又称爬虫和机器人，是一种信息捕获系统。互联网就像一张蜘蛛网，像“蜘蛛”一样在网上反复爬来爬去。不知道是不是累了，所以叫蜘蛛网。

第二，搜索过程

当我们在搜索框中搜索一个关键词时，搜索引擎的输出结果只能通过一些非常复杂的流程呈现给用户，一般需要经过爬行、过滤、索引、输出结果四个流程。当我们在搜索引擎中看到的只有一个结果时，搜索根据各种算法在首页第一位显示一个关键词。

第三，包容过程

收录的过程会经历以上四个过程:抓取、过滤、索引、输出结果。

1.夺取

网站是否收录，首先看网站的蜘蛛访问日志，看蜘蛛有没有来过。如果蜘蛛没有爬行过，是不可能被收录的。收录的前提是搜索引擎要抓取。这从网站的IIS日志，也就是服务器日志就可以看出来。如果不来呢？然后主动提交给搜索引擎，搜索引擎会派蜘蛛抓取网站，很有可能被收录。

2.过滤

仅仅因为一个网站被抓取并不意味着它会被收录。不一定。当一个蜘蛛抓取它的时候，它会把数据拿回来，放到一个临时的数据库里，然后进行过滤。过滤掉一些垃圾内容或者低质量的内容。看看你的信息有没有被收集。网上有很多相同的信息，它不会索引你的信息。有时候自己写的文章不会被收录。都是我们一字一句做出来的。那不是很好的原创文章吗？真的是很好的原创内容。为什么有时候不收录？低质量的内容，低质量的内容不是你的文章写得有多精彩，而是看你的文章是否被用户关注，是否被用户需要。还有之前提到的添加内容的技巧。

3.建立索引并输出结果。

通过一系列要求，满足收录内容后建立索引，索引建立后此时收录。用户搜索关键词时会输出结果，输出结果排在最前面。它是一个系统的算法，有搜索引擎中的各种算法，比如一些外部链接的投票，匹配是否相关等等，把你的页面放在前面。这里还有一个包容的例子。包含只是通过抓取然后输出结果。中间的两个流程都没有经过，也就是说抢完之后马上就收录了。这是在什么情况下？即时效性强的内容，比如新闻，时效性强。与今天相比，发生了非常事件，吸引了大部分用户的关注，所以发布的信息已经被抓取，搜索引擎会在第一时间展现给用户。这样一来，信息一旦过去，用户就不会再关注它，以后也不会有太大的价值。互联网有问题。用户的注意力过去后，搜索引擎会重新搜索这类内容。如果是垃圾内容，低质量的内容还是会被搜索引擎过滤掉。