您所在的位置:首页 - 网站资讯 - 正文网站资讯

如何设置让网站禁止被爬虫收录

wang wang 07-20 【网站资讯】 41人已围观

摘要网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于PPC的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

1、通过 robotstxt 文件屏蔽

可以说 robotstxt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:

Useragent Baiduspider

Disallow /

Useragent Googlebot

Disallow /

Useragent GooglebotMobile

Disallow /

Useragent GooglebotImage

Disallow/

Useragent MediapartnersGoogle

Disallow /

Useragent AdsbotGoogle

Disallow /

UseragentFeedfetcherGoogle

Disallow /

Useragent Yahoo Slurp

Disallow /

Useragent Yahoo Slurp China

Disallow /

Useragent YahooAdCrawler

Disallow /

Useragent YoudaoBot

Disallow /

Useragent Sosospider

Disallow /

Useragent Sogou spider

Disallow /

Useragent Sogou web spider

Disallow /

Useragent MSNBot

Disallow /

Useragent iaarchiver

Disallow /

Useragent Tomato Bot

Disallow /

Useragent

Disallow /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加,添加如下语句:

:可以抓取本页,也可以顺着本页继续索引别的链接

:禁止抓取本页,但可以抓取跟踪本页的其它链接

:可以抓取本页,禁止抓取和跟踪本页的其它链接

:禁止抓取本页,禁止抓取和跟踪本页的其它链接

:禁止搜索引擎建立快照

3、通过服务器(如:Linux/nginx )配置文件设置

直接过滤 spider/robots 的IP 段。

以上就是《SEO优化之如何设置让网站禁止被爬虫收录》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

打赏!

分享到:

文章评论 (暂无评论,41人围观)

1238 文章数
0 评论数
101554 浏览数

我的名片

网名:小五

职业:seo

现居:郑州

Email:2915847353@qq.com

站长寄语:有得有失,才是人生

  • 我的微信
取消
微信二维码
微信二维码
支付宝二维码
关注微信公众号 关注微信公众号
17596519501
7*24小时客服电话