从搜索引擎的角度来讲,蜘蛛其实是通过某个路径链接进去的。蜘蛛从首先找到了信息,然后就会把这些信息留在这些页面中,当有了流量的时候,再通过导航、入口等页面进入。
那么,通过程序的角度来讲,爬虫从首先找到了信息,然后通过导航到了入口页面。那些没有意义的路径,或是互联网上已有的路径,那些路径没有被爬行的时候,这些路径又都会被搜集起来。
所以,一个新的网络爬虫应该如何在互联网上去爬行,如何获得索引数据,以及如何与搜索引擎进行有效的连接呢?
我们认为第一个要点是,“能够把某个页面数据带到这个页面的路径越多越好。”
第二个要点是,蜘蛛要经过某个路径,通过这个路径发现这个页面。这个路径对蜘蛛来说是一个初始链接,而对于一个新的网站,它能够很好地完成新页面的抓取。
基于这样的两个要点,我们认为这样的链接越多,页面被搜索引擎所收录的机会就越大。
搜索引擎使用爬虫(Spider)的思维模式
当我们试图通过建立一个新的网站来进行有效的搜索时,首先我们要想的是,搜索引擎是否能够快速、精准地抓取到这个页面。
那么,什么样的链接结构才是合理的链接结构呢?
毫无疑问,链接结构是非常有利于搜索引擎爬行的,这里就简单说一下如何进行链接结构优化。
一、目录层级越浅越好
通过采用文本链接、图片链接等方式来进行链接,不同的页面有不同的链接层次。
一般来说,大型的网站的目录层级都是比较深的,因为大型网站的页面数量实在是太多了。所以在这样的链接结构中,我们要尽可能地使用文本链接,不要使用图片链接。
二、使用nofollow标签链接
nofollow标签主要是为了告诉搜索引擎不要追踪此链接,但是我们无法传递权重。所以使用这个标签的目的就是为了告诉搜索引擎这个链接不追踪。
通常情况下,如果一个页面是有链接的话,我们可以用它来表示这个链接不追踪,但是如果这个链接的权重高于其他链接的话,我们可以利用该链接来表示我们网站的权重。