屏蔽页面抓取的多种方法

基础教程里面,已简单介绍过robots.txt和rel=”nofollow”,但屏蔽页面的抓取并不只有这两种方法。

因为爬虫抓取页面一定是通过链接的,所以最本质有效的处理方式是,在可以的情况下完全不展示想屏蔽的页面的链接。

如果仍需要对用户展现链接但不希望爬虫抓取,可考虑使用JavaScript或进一步Ajax处理链接的方式,但需要注意搜索引擎不总是解析不出JavaScript。

此外还有页面级的nofollow与noindex,服务器端还可以强行给爬虫返回404页面等屏蔽抓取的方法。

SEO视频教程待更新。