搜索引擎爬虫重复抓取问题如何解决?

针对每一位SEO从业者而言,爬虫每天来我们的网站进行网页的抓取,是十分宝贵的资源。但在这中间由于爬虫无序的抓取,势必会浪费一些爬虫的抓取资源。这中间我们就需要解决搜索引擎爬虫对我们的网页重复抓取的问题,下面西部数码网与你一起来看一下如何解决这个问题。

在聊这个问题之前,我们需要理解一个概念。首先爬虫本身是无序的抓取,他不知道先抓什么再抓什么,只知道看到了什么,且计算后认为有价值就进行抓取。

而对于我们而言,抓取的整个过程中,我们最要解决是如下几类

新产生的页面,没有被抓取过的
产生了一段时间,迟迟不被抓取的
产生了一段时间,却一直没收录的
产生很久的页面,但最近更新了
包含内容更多的聚合页面,如首页、列表页
如上几类,按照顺序我们定义哪一类最需要被爬虫抓取。

针对大型网站,搜索引擎爬虫抓取资源过剩,而针对小网站,抓取资源稀缺。所以在这里我们强调一下,我们不是要解决搜索引起爬虫重复抓取的问题,而是要解决搜索引擎爬虫最快的抓取我们希望抓取的页面。要把这个思路纠正!

下面,我们聊一下怎么让搜索引擎爬虫最快的抓取我们希望被抓取的页面。

爬虫是抓取到一个网页,从这个网页在找到更多的链接,周而复始的过程,那么这个时候我们就要知道要想被爬虫更大概率抓取,就要给更多的链接,让搜索引擎爬虫发现我们希望被抓取的网页。这里我拿上述的第一种情况举例说明一下:

新产生的页面,没有被抓取过的
这类一般都会是文章页,针对于这类我们的网站每天都会大量产生,所以我们就要在更多的网页给予这部分链接。例如首页、频道页、栏目/列表页、专题聚合页、甚至文章页本身,都需要具备一个最新文章板块,以此等待爬虫抓取到我们的任何网页时,都能发现最新的文章。

同时,试想一下,这么多页面都有新文章的链接,连接传递权重,那这新文章,既被抓取了,权重也不低。被收录的速度会明显提升。

那针对那些长时间不收录的,也可以考虑是不是权重太低了,我多给一些内链支持,传递一些权重。应该会有收录的可能。当然也有可能不收录,那你就要靠内容本身的质量了。之前有一篇文章是专门说内容质量的也欢迎大家阅读:什么内容容易被百度判断为优质内容?。

所以,我们为了解决搜索引擎爬虫重复抓取问题不是我们最终要解决的。因为本质上搜索引擎爬虫是无序的,我们只能通过针对网站的架构、推荐算法、运营策略等进行干预。使爬虫给予我们更理想的抓取效果。

关于西部数码

成都西维数码科技有限公司成立于2002年,注册资本1000万元,总部坐落于“天府之国”——成都,旗下品牌西部数码 (www.west.cn) ,深耕IDC行业十多年,已拥有北京、广东、郑州、成都、绵阳、香港等中国多个云计算IDC安全数据中心和美国等海外数据中心。我们先后自主研发的虚拟主机弹性云服务器、西数企业云邮箱等产品都广受用户欢迎。我们始终坚持用户体验至上的价值导向,深入挖掘用户需求,目前,有超过一百万用户通过我们注册并管理了超过一千万个域名,累计有超过50万网站在我们的自主研发的云主机平台上运行,服务的用户有:宝贝回家寻子网、四川大学、链家网(北京)科技有限公司、四川省互联网协会、沱牌集团、谭木匠、中铁二局、四川省中国青年旅行社、富森美家居网上商城等

我们始终坚持“以人为本,客户为尊,永续创新”的核心价值观,抢抓各种发展机遇,不断创新发展理念,不断转变发展方式,不断破解发展难题,随着企业的发展,我们经营的业务也不断发展为以云计算为基础的云主机业务、域名注册、域名交易等其他相关业务,公司从最初只有几个员工发展到如今拥有近二百人的精英团队,并在中国IDC、云计算行业中占有一席之地,位列国内三强。成为拥有多项自主知识产权的国家高新技术企业,ICANN和CNNIC双认证的国际顶级域名注册服务机构,首批获得国家工信部颁发的全国云服务牌照企业之一。

赞(0)
声明:本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8306;邮箱:fanjiao@west.cn。本站原创内容未经允许不得转载,或转载时需注明出处:西部数码知识库 » 搜索引擎爬虫重复抓取问题如何解决?

登录

找回密码

注册