技术SEO

重复内容:原因和解决方法

  作者:Scarlett    

重复内容意味着类似的内容出现在网络上的多个位置 (URL),因此搜索引擎不知道在搜索结果中显示哪个 URL,这会损害网页的排名,而且当人们开始链接到相同内容的不同版本时,问题只会变得更糟。本文将帮助您了解重复内容的各种原因,并找到解决方案。

什么是重复内容?

重复内容是在网络上有多个 URL 显示相同的内容,搜索引擎不知道哪个 URL 在搜索结果中排名靠前。因此,他们可能会将两个 URL 排名较低,并优先考虑其他网页。

例子

重复的内容可以比作处于十字路口,其中路标指向同一目的地的两个不同方向:您应该走哪条路?更糟糕的是,最终目的地只是略有不同。作为读者,您不介意因为您得到了想要的内容,但是搜索引擎必须选择要在搜索结果中显示的页面,因为它当然不想将相同的内容显示两次。

假设您关于“关键字 x”的文章  出现在http://www.example.com/keyword-x/并且相同的内容也出现在http://www.example.com/article-category/keyword-x/。这种情况并非虚构:它发生在许多现代内容管理系统中。然后假设您的文章已被几位博主选中,其中一些链接到第一个 URL,而其他链接到第二个。重复的内容是您的问题,因为这些链接都宣传不同的 URL。如果它们都链接到同一个 URL,则您在“关键字 x”上排名会更高。

重复内容的原因

重复内容的原因有很多。它们中的大多数是技术性的:人们决定将相同的内容放在两个不同的地方而不明确哪个是原始内容的情况并不常见。当然,除非您克隆了一篇文章并意外发布了它。但除此之外,我们大多数人都觉得不自然。

但是有很多技术原因,这主要是因为开发人员不像浏览器甚至用户那样思考,更不用说搜索引擎蜘蛛了——他们像程序员一样思考。以我们之前提到的那篇文章为例,它出现在http://www.example.com/keyword-x/和 上http://www.example.com/article-category/keyword-x/。如果你问开发商,他们会说它只存在一次。

误解 URL 的概念

在开发者眼中,该文章的唯一标识符是该文章在数据库中的 ID,而不是 URL。但对于搜索引擎来说,URL 是一段内容的唯一标识符。

会话 ID

例如,您通常希望跟踪访问者并允许他们将想要购买的商品存放在购物车中。为了做到这一点,你必须给他们一个“会话”。会话是访问者在您的网站上所做操作的简要历史记录,可以包含诸如购物车中的商品之类的内容。为了在访问者从一个页面单击到另一个页面时保持该会话,该会话的唯一标识符(称为会话 ID)需要存储在某处。最常见的解决方案是使用 cookie 来实现。但是,搜索引擎通常不会存储 cookie。

那时,某些系统会回退到在 URL 中使用会话 ID。这意味着网站上的每个内部链接都会将该会话 ID 添加到其 URL 中,并且由于该会话 ID 对该会话来说是唯一的,因此它会创建一个新的 URL,因此会产生重复的内容。

用于跟踪和排序的 URL 参数

重复内容的另一个原因是使用不会更改页面内容的 URL 参数,例如在跟踪链接中。你看,对一个搜索引擎来说,http://www.example.com/keyword-x/http://www.example.com/keyword-x/?source=rss网址是不一样的。后者可能允许您跟踪人们的来源,但它也可能使您更难获得良好的排名——这是非常不需要的副作用!

当然,这不仅仅用于跟踪参数。它适用于您可以添加到不更改重要内容的 URL 的每个参数,无论该参数是用于“更改一组产品的排序”还是“显示另一个侧边栏”:所有这些都会导致重复内容。

未经允许的使用

重复内容的大多数原因是您或您的网站的“错误”。但是,有时其他网站会在征得或未征得您同意的情况下使用您的内容。它们并不总是链接到您的原始文章,因此搜索引擎不会“获取”它并且必须处理同一文章的另一个版本。您的网站越受欢迎,这个问题变得越来越大。

参数顺序

另一个常见的原因是 CMS 不使用漂亮干净的 URL,而是使用像 一样的 URL /?id=1&cat=2,其中 ID 指的是文章,而 cat 指的是类别。URL/?cat=2&id=1将在大多数网站系统中呈现相同的结果,但对于搜索引擎而言则完全不同。

评论分页

在 WordPress 以及其他一些系统中,有一个选项可以对您的评论进行分页。这导致内容在文章 URL 中重复,文章 URL + /comment-page-1//comment-page-2/ 等。

适合打印的页面

如果您的内容管理系统创建了适合打印的页面,并且您从文章页面链接到这些页面,Google 通常会找到它们,除非您专门阻止它们。现在,问问自己:您希望 Google 展示哪个版本?有你的广告和周边内容的那个,还是只显示你的文章的那个?

www VS 非www

这是书中最古老的内容之一,但有时搜索引擎仍然会出错:当您网站的两个版本都可以访问时,WWW 与非 WWW 重复内容。另一种不太常见但我也见过的情况是 HTTP 与HTTPS重复内容,其中通过两者提供相同的内容。

“规范”网址

正如我们已经看到的,多个 URL 指向相同内容的事实是一个问题,但它是可以解决的。在出版物工作的人通常能够很容易地告诉您某篇文章的“正确”网址应该是什么,但有时当您询问同一家公司的三个人时,您会得到三个不同的答案……

这是一个需要解决的问题,因为最终只能有一个(URL)。一段内容的“正确” URL被搜索引擎称为 规范 URL。

Canonical的由来

Canonical 是一个源自罗马天主教传统的术语,其中创建了一份圣书清单,并被认为是真实的。它们被称为新约的经典福音书。具有讽刺意味的是,罗马天主教会花了大约 300 年的时间和无数次的斗争才提出了这个规范列表,他们最终选择了同一个故事的四个版本。

识别重复内容问题

您可能不知道您的网站或内容是否存在重复内容问题。使用 Google 是发现重复内容的最简单方法之一。

有几个 搜索运算符 在此类情况下非常有用。如果您想在您的网站上找到包含关键字 X 文章的所有网址,您 可以在 Google 中输入以下搜索词组:

site:example.com intitle:"关键字 X"

然后,Google 会向您显示 example.com 上包含该关键字的所有页面。您使intitle查询的该部分越具体,就越容易清除重复的内容。您可以使用相同的方法来识别网络上的重复内容。假设您文章的完整标题是 “关键字 X – 为什么它很棒”,您会搜索:

intitle:“关键字 X - 为什么它很棒”

Google 会为您提供与该标题匹配的所有网站。有时甚至值得从您的文章中搜索一两个完整的句子,因为某些抓取工具可能会更改标题。在某些情况下,当您进行这样的搜索时,Google 可能会在结果的最后一页显示这样的通知:

这表明谷歌已经在对结果进行“去重”。它仍然不好,所以值得点击链接并查看所有其他结果,看看您是否可以修复其中的一些。

解决方案

一旦您决定了哪个 URL 是您的内容的规范 URL,您就必须开始规范化过程。这意味着我们必须告诉搜索引擎有关页面的规范版本,并让他们尽快找到它。有四种解决问题的方法,按优先顺序排列:

  1. 不创建重复内容
  2. 将重复内容重定向到规范 URL
  3. 向重复页面添加规范链接元素
  4. 添加从重复页面到规范页面的 HTML 链接

避免重复内容

上述一些导致重复内容的原因有非常简单的修复方法:

  • 您的 URL 中是否有会话 ID?
    这些通常可以在您的系统设置中禁用。
  • 你有重复的打印机友好页面吗?
    这些完全没有必要:您应该只使用 打印样式表。
  • 您是否在 WordPress 中使用评论分页?
    您应该在 99% 的网站上禁用此功能(在 设置»讨论下)。
  • 您的参数顺序不同吗?
    告诉您的程序员构建一个脚本以始终以相同的顺序放置参数(这通常称为 URL 工厂)。
  • 是否存在跟踪链接问题?
    在大多数情况下,您可以使用基于哈希标签的营销活动跟踪,而不是基于参数的营销活动跟踪。
  • 你有 WWW 与非 WWW 的问题吗?
    选择一个并通过将一个重定向到另一个 。您还可以在 Google 网站管理员工具中设置首选项,但您必须声明域名的两个版本。

如果您的问题不是那么容易解决,那么可能仍然值得付出努力。目标应该是完全防止出现重复的内容,因为它是迄今为止问题的最佳解决方案。

301 重定向重复内容

在某些情况下,不可能完全阻止您使用的系统为内容创建错误的 URL,但有时可以重定向它们。如果这对您来说不合逻辑(我可以理解),请在与开发人员交谈时牢记这一点。如果您 确实 摆脱了某些重复内容问题,请确保将所有旧的重复内容 URL 重定向到正确的规范 URL。

有时您不想或无法删除文章的重复版本,即使您知道它是错误的 URL。为了解决这个特殊问题,搜索引擎引入了规范链接元素。它位于您网站的 <head> 部分,如下所示:

<link rel="canonical" href="http://example.com/wordpress/seo-plugin/" />

href规范链接的部分中,您为文章放置了正确的规范 URL。当支持规范的搜索引擎找到此链接元素时,它会执行软 301 重定向,将该页面收集的大部分链接值转移到您的规范页面。

不过,这个过程比 301 重定向慢一点,所以如果你能做一个 301 重定向,那会更好。

链接回原始内容

如果您无法执行上述任何操作,可能是因为您无法控制您的内容所在网站的 <head> 部分,在文章顶部或底部添加返回原始文章的链接始终是一个不错的选择主意。您可能希望通过在 RSS 源中添加返回文章的链接来执行此操作。一些抓取工具会过滤掉该链接,但其他抓取工具可能会将其保留。如果 Google 遇到多个指向您原始文章的链接,它会很快确定那是实际的规范版本。

结论

重复的内容无处不在。我还没有遇到过一个超过 1,000 个页面的网站,它至少没有一个微小的重复内容问题。这是您需要不断关注的事情,但它是可以修复的,并且奖励可能很丰富。只需从您的网站中删除重复的内容,您的优质内容就可以在排名中飙升!