如何在你的网站上找到每一个孤立网页

  • 如何在你的网站上找到每一个孤立网页已关闭评论
  • A+
所属分类:博客文章

如何在你的网站上找到每一个孤立网页如何在你的网站上找到每一个孤立网页

找到没有链接的网页是困难的,但并非不可能。
如果你的网站上有用户和搜索引擎无法访问的页面,这是一个你需要解决的问题。
快。
这些类型的页面有一个名称:孤立页面
在这篇文章中,你将了解什么是孤立页面,为什么修复它们对搜索引擎优化很重要,以及如何找到你网站上的每一个孤立页面。

什么是孤儿页(Orphan Page)

没有任何链接的页面称为孤立页。
像谷歌这样的搜索引擎通常通过以下两种方式之一找到新页面:

  • 爬虫程序跟踪来自另一个页面的链接
  • 爬虫程序会找到XML站点地图中列出的URL

所以,如果你想让谷歌抓取和索引你的网页,他们需要能够找到它。

为什么孤立页面是一个搜索引擎优化问题

搜索引擎无法通过链接找到孤立页面,因此孤立页面通常未编制索引,并且永远不会出现在搜索结果中。即使您的孤立页面列在XML站点地图中,它们仍然是SEO的一个问题。

孤立页不好吗

孤立页面对用户和爬虫来说都不是什么好东西。
用户无法通过站点的自然结构访问这些页面,因此如果这些页面上有重要或有用的信息,那么这些信息就是浪费。
这会造成令人沮丧的用户体验。
没有内部链接,就没有权力传递给页面,搜索引擎也没有语义或结构上下文来评估页面。
如果不知道页面在整个站点中的位置,就很难确定页面与哪些查询相关。

孤立页与死胡同页

在深入研究孤立页面之前,让我们花一点时间来简要澄清两个可能导致融合的SEO术语之间的差异。
正如我们已经建立的,孤立页面是一个网页,它不能被同一网站上的任何其他页面链接或访问。
另一方面,死胡同是一个网页,它没有链接到任何其他内部网页或任何外部网站,从而形成了一个“死胡同”
当人们登陆这个页面时,他们要么反击要么干脆放弃网站。
当搜索引擎爬虫登陆页面时,他们无处可去,也无法传递链接权益。
今天,有这么多模板和主题可用,创建一个死胡同更困难,但几乎不可能。
通过向页面内容添加链接,或者确保在每个页面上填充侧栏或页脚导航,可以很容易地修复死角。
一切正常,很好。
现在让我们找到你的孤儿页。

1、识别可爬网的页面

您需要一个列表,列出当前通过抓取站点链接可以访问的所有url。
你需要你自己的爬虫-一个搜索引擎优化蜘蛛,这样做。尖叫蛙是个不错的选择。
无论您使用什么爬虫程序,请确保它设置为只对搜索引擎可索引的页面进行爬网。
我的意思是,它不应该抓取以下页面:

  • 不确定
  • 通过搜索引擎隐藏机器人.txt一

从网站主页开始爬网。
确保使用规范的URL,包括正确的https或http,以及www或non-www。
完成站点爬网后,将URL导出到电子表格中,如下所示:
如何在你的网站上找到每一个孤立网页

2、解决孤立页的两个常见原因

有两个常见的原因,孤儿页应该立即解决和处理。
这两个原因本质上都是页面重复,应该自动一致地重定向到一个URL。
如果没有,则很可能页面的某些版本没有链接,结果是孤立的。
在这种情况下,他们是孤儿并不是主要问题,他们是重复的事实是。
这些问题可能会在以后你寻找孤立页面时出现,需要处理,所以最好事先把它们放在一边。

非规范https/http或www/Non-www

理想情况下,站点上的每个公共页面都应该一致地使用http或https(最好是https),并且一致地使用www或non-www。
如果您的网站的所有变体都在您的浏览器中输入:

所有四个变体都应该自动重定向到完全相同的URL。
为了保持一致性,该页面本身应该是规范的。
如果这些变体中的一个没有正确地重定向,它可能是在更广泛的站点上出现类似问题的迹象。
使用这种变体检查其他url,看看这是否是一个更普遍的问题。
您应该测试站点的其他页面,并检查站点的.htaccess文件,以确保这些页面的重定向设置正确。
下面是如何在.htaccess中强制使用https。如果您这样做谷歌国外推广,请验证站点上的每个页面都具有SSL功能,否则您的用户将收到可怕的浏览器警告。
下面是如何强制www或非www。再次验证这不会造成任何服务器错误。

尾随斜杠

另一个需要注意的是尾部斜杠的一致使用。
例如,这两个URL可能生成相同的内容,但URL不完全相同:

检查站点上的一些页面,无论是否有尾随斜杠,确保它们自动重定向到同一个URL,并且始终这样做。
验证是否在.htaccess中正确设置了此项。
下面是如何在.htaccess中强制使用尾随斜杠。

3、从Google Analytics获取URL列表

根据定义,爬虫程序很难找到孤立页面。
因此,使用任何搜索引擎优化工具来寻找一个肯定是有问题的。
开始寻找孤立页面的最好地方之一是你自己的谷歌分析数据(或你使用的任何其他分析软件包)。
只要有问题的页面安装了Google Analytics,如果这个页面曾经被访问过,那么Google Analytics的某个地方就会有它的记录。
要获得URL的全面列表,请从左侧边栏转到Behavior>;Site Content>;All Pages
如何在你的网站上找到每一个孤立网页
因为我们的孤儿网页很难找到,他们被访问的次数可能相当少。
单击“Pageviews”使箭头指向上,表示uri列表按升序排序,从最小页面视图到大多数页面视图。
这会将最有可能成为孤立项的页面移到顶部:
如何在你的网站上找到每一个孤立网页
为了确保我们的列表尽可能全面,请转到右上角的日期范围。
将开始日期设置回Google Analytics之前的时间,然后单击应用按钮:
如何在你的网站上找到每一个孤立网页
现在我们需要尽可能多地扩展url列表。
在右下角,单击显示行下拉菜单并选择最大行数。
我们最大的障碍是,分析一次最多只能列出5000个网址:
如何在你的网站上找到每一个孤立网页
如果你有超过这个,你将不得不一次导出5000个页面,直到你有你的所有谷歌分析访问者数据。
然而,我们是按升序对页面浏览量进行排序的,所以我们的列表应该包括所有的,并且很可能包括大多数有访问者的孤立url。
分析可能需要一点时间来获取所有数据。
耐心一点,不要着急,否则你会有崩溃你的浏览器的风险。
加载URL后,请转到右上角,选择“导出”,然后导出Google工作表、Excel文件或CSV电子表格以获取URL。
如果你的技术水平稍微高一点,你可以使用googleanalytics API来加速这个过程;尝试使用pageviews度量来对比pagePath维度。
如何在你的网站上找到每一个孤立网页
现在,将导出的分析文件中的URL复制到孤立页电子表格中,如下所示:
如何在你的网站上找到每一个孤立网页
我们需要将这些转换成URL格式,以便它们有用。
为此,请插入新列并粘贴主页URL,如下所示:
如何在你的网站上找到每一个孤立网页
并使用concat()公式将它们组合成下一列中的URL:
如何在你的网站上找到每一个孤立网页
然后,只需向下拖动公式即可获得完整的URL列表:
如何在你的网站上找到每一个孤立网页

4、确定你的孤立网址

为了识别孤立的url,我们需要比较电子表格中可爬网url列表和找到的分析url列表。
在我们假设的例子中,https://example.com/11是一个孤立的页面,但实际上您几乎总是有更多的url需要筛选,我们需要自动化识别孤立url的过程。
为此,我们需要一个公式来检查分析列表中的每个URL是否也在我们的可爬网URL列表中找到英文网站优化排名
下面是一个公式示例,可以实现这一点:
如何在你的网站上找到每一个孤立网页
我们在单元格E2中使用的“匹配”公式如下:

=匹配(D2,$A$2:$A$11,0)

此公式检查单元格D2中的URL是否在$A$2:$A$11范围内。
(如果您对电子表格不太熟悉,这里有美元符号,以确保当我们将公式拖到列中时,范围不会改变。)
值“0”告诉googlesheets这些列不需要排序。(请参阅Google Sheets文档。)
如果存在匹配项,则公式将返回其在范围中的位置,在本例中,该位置是范围中的第一个位置。
我们更感兴趣的是,如果没有匹配的。
如您所见,对于https://example.com/11,因为在我们的可爬网URL列表中找不到它。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
150英文目录网站提交服务Dofollow外链
Quora美版知乎针对性问题人工作答
外贸产品Web2.0及社会化网站再发布分享服务
英文新闻稿写作发布服务—中级版