独立站Neo
17 阅读
避免有些网站上线后收录不好的策略
1、尽量不要用chrome浏览器,他会收集网址,提前来采集,可能导致大量的noindex
2、手工新增robots.txt,屏蔽不让抓取的网址(针对WordPress的情况,可自行完善)
User-agent: *
# 屏蔽以 /feed/ 结尾的网址
Disallow: /*/feed/
# 屏蔽包含 /login/ 的网址
Disallow: */login/
# 屏蔽包含 ?attribute 的网址
Disallow: /*?*attribute
# 屏蔽包含 /author/ 的网址
Disallow: /author/
# 屏蔽所有网址采集(上线后删掉)
Disallow: /
协议层面屏蔽爬虫。
默认的robots.txt 是 WordPress动态生成的,我们自己新增robots.txt,就会屏蔽掉默认动态生成的。
如何做?手写robots.txt 上传即可。
以上是我的一些思考,欢迎交流
有任何问题和想交流的地方,可以加我微信