技术SEO

网站爬虫可以为您的网站揭示的 5 个严重错误

  作者:Li Bai    
网络爬虫
网站爬虫经常在您网站的整个生命周期内访问您的网站。他们在您的网站上寻找新内容、跟踪链接并收集数据,以更好地了解它如何服务于搜索意图。 这些爬虫在浏览您的网站时可能会遇到错误,例如重复的内容和损坏的链接。尽快修复这些错误对于保持您网站的健康和您在 Google 上的排名非常重要。 在本指南中,我们包含了 5 个严重的抓取错误以及如何修复它们。 

内部链接将用户从一个页面引导到您网站上的另一个页面。内部链接有利于SEO,可以帮助建立站点结构,并传播链接权益。 

断开的链接可能是由于错误的 URL 或已删除的页面造成的。在这些情况下,网站尚未更新以反映更改。 

断开的链接会阻止用户浏览您的网站,这会对用户体验产生负面影响(您网站排名的一个关键因素)。

损坏的链接还会阻止爬虫浏览您的网站并将其编入索引。由于要抓取数百万个网站,每个机器人在必须移动到下一个网站之前只能抓取有限数量的页面。这通常称为您的“抓取预算”。

如果您的链接已损坏,机器人将无法抓取您的网站,并且会消耗您的“预算”。 

错误 2:混合内容

当网页的代码以 HTTPS(安全超文本传输​​协议)加载,但页面上的内容(图像、视频等)以 HTTP 加载时,会出现混合内容问题。 

为什么混合内容是一个问题?

发生此问题时,用户将收到一个警告弹出窗口,表明他们可能正在下载不安全的内容。这可能会提示用户离开页面,从而导致高跳出率。

混合内容会对用户体验产生负面影响,并向 Google 表明您的网页存在安全问题。

错误 3:重复的内容

当网站抓取工具发现您网站上的内容与您网站上的其他内容有 85% 或更多相似度时,Google 会标记为重复内容。 

如果您使用多种语言的相同内容为世界各地的不同国家/地区提供服务,或者有多个内容相似的登录页面,则可能会发生这种情况。  

为什么重复内容是一个问题?

当搜索引擎看到重复的内容时,他们可能会对抓取或索引哪个版本感到困惑,并可能同时排除两者。 

搜索引擎可能认为您试图操纵算法,并可能降低您的排名或禁止您的网站出现在搜索结果中。 

链接资产也可能因重复而被稀释,这会影响您的整体页面权威分数。

要修复它们,您可以:

  • 向您希望 Google 抓取和编入索引的页面添加规范标签。规范标签向搜索引擎指示原始页面,因此他们将知道在 SERP 中显示哪个页面。 
  • 使用从重复页面到原始页面的 301 重定向
  • 指示 Googlebot 使用 Google Search Console 以不同方式处理 URL 参数。

避免此问题的最简单方法是为网站的每个页面创建独特的内容。

错误 4:孤立页面

孤立页面不会在内部链接到您网站上的任何其他页面。用户无法通过您网站的主菜单、站点地图或其他页面的链接访问这些页面。

访问孤立页面的唯一方法是通过直接链接。

为什么孤立页面是一个问题?

如果搜索引擎找不到孤立页面,则该页面将不会在 SERP 上编入索引。

将孤立页面添加到您的 site.xml 文件会浪费您的抓取预算,因为 Google 的机器人需要更长的时间来查找和抓取它。 

如果您的网站不再需要或不再有用,请删除孤立页面。 

如果您仍想保留该页面,请从您网站上的另一个页面添加一个指向该页面的内部链接,并使其在菜单系统中可被发现。

反向链接的功能类似于在线推荐。当外部网站链接到您的网站时,您会获得支持。在搜索引擎眼中,它们是信任和权威的标志。

拥有来自具有良好页面权威的外部网站的链接会将部分权威转移回您的网站。

缺乏反向链接意味着您的网站几乎没有页面权威,并且您不是您所在领域的权威。

有毒反向链接是来自网站的链接,它们会削弱您的页面权威并损害您的 SEO 排名。您需要避免来自镜像站点、低权威域或布局不佳的网站的反向链接。 

总结

搜索引擎优化的世界竞争激烈,您需要获得所有优势。通过解决可能影响您网站的关键错误,让自己在竞争中脱颖而出。