什么是网站的可追溯性和可索引性?

发布于:2019-06-20

--1_5.png

 告诉我,当您考虑对网站进行排名时,您首先想到的是什么?

内容?或者反向链接?

我承认,两者都是在搜索结果中定位网站的关键因素。但他们不是唯一的。

事实上,另外两个因素在seo优化中起着重要作用 - 可抓取性和可索引性。然而,大多数网站所有者从未听说过它们。

与此同时,即使是可索引性或可抓取性的小问题也可能导致您的网站失去排名。无论你有什么好的内容或多少反向链接,都是如此。

网络爬虫如何扫描您的网站?一种了解搜索引擎机器人如何工作的新工具,试用Log File Analyzer,窗体底端。

 

什么是可抓取性和可索引性?

要理解这些术语,我们首先来看看搜索引擎如何发现和索引页面。要了解任何新的(或更新的)页面,他们会使用所谓的网络抓取工具,其目的是在网络上关注链接,只需一个目标:

查找和索引新的Web内容。

谷歌解释说:

“爬虫会查看网页并关注这些网页上的链接,就像您浏览网页上的内容一样。他们从链接转到链接,并将有关这些网页的数据带回Google的服务器。“

简而言之,这两个术语都与搜索引擎访问和索引网站上的页面以将其添加到其索引的能力有关。爬行介绍了搜索引擎的访问和抓取内容的页面上的能力,如果站点没有可爬网性问题,则Web爬网程序可以通过跟踪页面之间的链接轻松访问其所有内容。

但是,断开的链接或死角可能会导致可抓取性问题 - 搜索引擎无法访问网站上的特定内容。

可转位,在另一方面,是指搜索引擎的分析和页面添加到其索引的能力。

即使Google可以抓取某个网站,但它可能不一定能够为其所有网页编制索引,这通常是由于可转换性问题。

 

什么影响可抓取性和可索引性?

1.网站结构

网站的信息结构在其可抓取性方面起着至关重要的作用。

例如,如果您的网站具有未与其他任何地方链接的网页,则网页抓取工具可能难以访问这些网页。

当然,他们仍然可以通过外部链接找到这些页面,前提是某人在其内容中引用了这些页面。但总的来说,弱结构可能会导致可爬行性问题。

 

2.内部链接结构

网络爬虫通过以下链接在网络上传播,就像您在任何网站上一样。因此,它只能从其他内容中找到您链接到的页面。

因此,良好的内部链接结构将使其能够快速到达您网站结构深处的那些页面。但是,糟糕的结构可能会将其发送到死胡同,从而导致网络爬虫错过了您的某些内容。

 

3.循环重定向

损坏的页面重定向会阻止Web爬网程序进入其轨道,从而导致可爬网问题。

 

4.服务器错误

同样,损坏的服务器重定向和许多其他与服务器相关的问题可能会阻止Web爬网程序访问您的所有内容。

 

5.不受支持的脚本和其他技术因素

您在网站上使用的技术可能会导致可追溯性问题。例如,由于抓取工具无法遵循表单,因此对表单后面的内容进行选通将导致可抓取性问题。

各种脚本(如Javascript或Ajax)也可能会阻止Web爬网程序中的内容。

 

6.阻止Web爬网程序访问

最后,您可以故意阻止网页抓取工具对您网站上的网页编制索引。

这样做有一些很好的理由。

例如,您可能已创建了要限制公共访问的页面。作为阻止访问的一部分,您还应该阻止它访问搜索引擎。

但是,也很容易错误地阻止其他页面。例如,代码中的一个简单错误可能会阻止整个网站部分。

您可以在本文中找到的可抓取性问题的完整列表 - 您的网站对抓取者不友好的18个原因:可追溯性问题指南。 

 

如何使网站更容易抓取和索引?

我已经列出了一些可能导致您的网站遇到可抓取性或可索引性问题的因素。因此,作为第一步,您应该确保它们不会发生。

但是,您还可以采取其他措施来确保网络抓取工具可以轻松访问和索引您的网页,这样也有利于网站seo优化。

1.将Sitemap提交给Google

Sitemap是一个小文件,位于您网域的根文件夹中,其中包含指向您网站上每个网页的直接链接,并使用Google控制台将其提交给搜索引擎。

该站点地图将告知Google您的内容,并提醒您对其所做的任何更新。

 

2.加强内部联系

我们已经讨论了相互关联如何影响可抓取性。因此,为了增加Google抓取工具查找您网站上所有内容的机会,请改善网页之间的链接,以确保所有内容都已连接。

 

3.定期更新和添加新内容

内容是您网站中最重要的部分。它可以帮助您吸引访客,向他们介绍您的业务,并将其转换为客户。

但内容也可以帮助您提高网站的可抓取性。例如,网络抓取工具访问不断更新其内容的网站。这意味着他们会更快地抓取您的网页并将其编入索引。

 

4.避免重复任何内容

如果内容重复,则内容相同或非常相似的网页可能会导致排名失败。

但重复的内容也会降低抓取工具访问您网站的频率。

因此,检查并修复网站上的任何重复内容问题。

 

5.加快页面加载时间

网页抓取工具通常只能在有限的时间内对网站进行抓取和索引编制。这称为爬网预算。基本上,一旦时间到了,他们就会离开你的网站。

因此,您的页面加载速度越快,爬虫在耗尽时间之前就能访问的越多。

用于管理可爬网性和可索引性的工具

如果上述所有声音都令人生畏,请不要担心。有些工具可以帮助您识别和修复可爬网性和可索引性问题。

 

日志文件分析器

日志文件分析器  将向您显示桌面和移动Google机器人如何抓取您的网站,以及是否有任何错误需要修复和抓取预算以进行保存。您所要做的就是上传您网站的access.log文件,让该工具完成其工作。

访问日志是人或机器人发送到您网站的所有请求的列表; 通过分析日志文件,您可以跟踪和了解爬网程序的行为。

 

分析和管理Googlebots

1.改善您网站的可抓取性和可索引性

2.试用Log File Analyzer

3.窗体底端

 

谷歌工具

Google Search Console  可帮助您在Google中监控和维护您的网站。这是一个提交站点地图的地方,它显示了网站抓取工具对您网站的覆盖范围。

Google PageSpeed Insights  可让您快速查看网站的网页加载速度。 

大多数网站管理员都知道,要对网站进行排名,他们至少需要强大且相关的内容和反向链接来增加其网站的权限。

他们不知道的是,如果搜索引擎的抓取工具无法抓取并索引其网站,他们的努力是徒劳的。

这就是为什么除了专注于为相关关键字添加和优化页面以及构建链接之外,您还应该持续监控网络抓取工具是否可以访问您的网站并向搜索引擎报告他们找到的内容。

评论展示

参与评论
  • click

660

shares

 

在线客服

服务热线:400-8817-968

QQ客服:425827996

周一至周五:8:30-18:00

扫码加微信咨询

业务微信

15815846676
长按号码加微信

在线留言

top