改善您的页面搜索引擎优化

发布于：2019-07-04

谈论我们一遍又一遍看到的一些常见的页面陷阱会很有帮助，以下这些点可以改善您的页面搜索引擎优化。

1.抓取预算

鉴于像谷歌这样的搜索引擎为每个域（和子域）分配了一定的抓取预算，我总是惊讶于网站所有者只是试图将所有内容都推送到索引中。而且对于哪些网站可以进行爬虫访问，他们似乎也完全不小心。

要在您的网站上评估和解决这些问题，一个很好的起点是Google网站管理员工具（转到：抓取>抓取统计信息），它可以让您初步了解网站的运作情况。一个成功的图表略有增加 - 这通常反映出Google会选择添加的内容，因此会更频繁地返回。相反，如果该图表跳跃或大幅减少，您可能会遇到问题。

有两种方法可以控制搜索引擎抓取工具：使用robots.txt指令并在HTML标记中实现漫游器元标记（或将其作为HTTP X-Robots标头提供）。但是，这两个指令的问题在于它们无法解决您的（潜在的）爬网预算问题：

机器人元标记：实施正确的“无索引 ”确实会阻止某个网页显示在搜索结果中，但该网页仍会被抓取 - 因此必须使用抓取预算。

robots.txt： 阻止网址（或文件夹等）会阻止网站被抓取（因此不会浪费抓取预算）; 然而，存在巨大的缺点。一个是页面可能仍然（部分）显示在搜索结果中（主要是由于从其他地方链接），所有入站链接汁将被截止。换句话说，这些链接无助于您的排名。

考虑到这些要点，你可能会考虑将这些结合起来......但请 - 不要！它根本无法工作。如果使用robots.txt阻止某个网页，则系统不会抓取该网站，因此根本无法读取元漫游器代码！

注意过滤器和排序，分页以及其他可能无用的页面。我们经常看到这些只是被推到了索引，但肯定永远不会或将会排名。不要浪费谷歌的资源！

根据经验：如果你想确保不浪费爬行预算，只有页面确实有用（所以不要首先创建其他页面）。如果你有其他人不想出现，我会使用元机器人来至少利用入站链接资产。

2.重复内容

我假设每个人都熟悉重复内容（DC）问题，但结果并非如此。由于大量的内部（部分）DC，看到有多少站点仍然表现不佳，我总是感到惊讶。尽管现在大多数网站都可以处理会话ID和跟踪参数，但这里有一些“经典”我想提醒你：HTTP与HTTPs被认为是DC，产品可用于多个类别（并且不使用单个产品URL也会导致DC，子域（如登台服务器）可能会让您遇到麻烦。

也就是说，rel =“canonical”元标记（或X-Robots Rel-Canonical Header）可以帮助您解决这些问题，但我认为这是解决DC问题的第三个最佳选择。在我看来，这完全取决于效率 - 因此解决问题的最佳方法是确保您只使用一个（规范化的）URL而不是多个URL来提供内容。就这么简单。

我一般不会依赖谷歌称之为“强烈暗示”的东西 - 因为它暗示他们可能会或可能不会考虑，但实质上它并不像HTTP 301重定向那样强制指令（他们很容易遵循）。

同样，它归结为尽可能少的谷歌选择。使用令人惊叹的内容强制执行单个唯一的URL，并将先前存在的URL（例如，旧版本或多个版本）重定向到此（新）URL，您将不会遇到DC问题。

3.正确标记

关于适当加价是否以及为何重要的问题，有很多不同意见。我并没有真正参与讨论，但我坚信干净简单的标记会有所帮助。这主要是因为我真的不想冒险尝试从站点中提取信息时爬虫可能会出现“问题”。这也是我认为做schema.org标记是一件好事的原因：它可以帮助引擎（不仅是爬虫）真正理解（部分）内容并理解它。总之，要了解它的含义。

显然，您必须考虑哪些信息可以并且想要提供给Google（以及其他人），但如果您不提供数据，他们会在其他地方获取。所以一般来说，不要错过这个。它不仅仅是因为更突出的结果而获得更多的点击率 - 顺便说一句，这很棒 - 但是如果你将结构化数据与rel =“author”和/或rel =“publisher”相结合效益更大。基本上Google正在逐步理解并将经过验证的实体分配给查询集，您肯定不想错过这一点。在我看来，谷歌正在大规模地移动到你需要成为给定实体的经过验证的权限的点，因此将自动受益于属于该实体的所有长尾流量 - 这很有意义，因为事实是谷歌每天都会看到大约20％的新查询。

评论展示

参与评论

Rank:

ProductId:

姓名:
内容: