最近有客户问起robots.txt协议文件是什么?有啥作用?简而言之,robots文件可以通过特定的规则告诉搜索引擎网站是否可以抓取,以及哪里可以抓取。
robots.txt文件的具体应用
在做优化业务的过程中,我碰到过这样的客户:他们的外贸网站上线后一段时间,发现收录很少,甚至过了好长时间都没被谷歌收录,检查了无数次还是发现不了问题,客户找到了我咨询怎么办。看过他们的网站后,我发现网站没什么大问题,网站大部分网页还是符合谷歌收录标准的。后来我问他们的网站是什么时候上线的,大多数人的回答都是在建站公司买了模板站后立即就开通使用了。
不少人误以为,网站尽早开通,尽早被收录。其实这个想法是不对的,应该加个前提就是你的网站已经完善了。搜索引擎对于网站的第一印象是非常重要的,做谷歌SEO必须要考虑到这个。很多模板站刚刚买来是没什么实际内容的,这时候就上线的话,谷歌蜘蛛过来爬一遍会发现你的网站只是个空架子。就算后期你把网站完善起来了,谷歌对于你的网站第一印象不好,还是会影响收录。
所以说,无论你是什么网站,最好等网站完善好了再上线,一开始就以好的形象面对谷歌。大多数模板网站不支持自己制定上线时间,你交了钱,开通后台就开始使用了。在这个过程中,根本没有完善网站的机会,网站就上线了。如果你遇到这样的情况,可以在网站根目录里添加一个robots.txt文件来拒绝谷歌爬虫,等网站做好了,再放开这个限制。如果网站之前没有完善就开放了抓取,导致收录困难,后期可以通过多更新高质量内容,做高质量外链,慢慢改善。
如何创建Robots文件
创建一个robots文件很简单。大家先创建一个空白的txt文档,接着把文件名改为robots就可以了。接着我们要根据自己的网站情况,在这个文档里输入指令来辅助我们做好SEO。大部分网站包括我们的外贸网站,在刚刚建立时都不是很完善,这时就让谷歌来抓取对于后期优化是不利的。我们可以使用如下指令来拒绝所有的蜘蛛抓取。
User-agent: *
Disallow: /
User-agent: 用于指定蜘蛛类型,*表示所有,Googlebot指谷歌蜘蛛,Baiduspider指百度蜘蛛。如果用Googlebot替代*则表示只限定谷歌不准抓取。
网站完善后,我们想蜘蛛来抓取我们的网站时,可以去掉Disallow:后面的/或者再使用Allow: /指令。Disallow还可以用来限制具体的栏目不准抓取,比如Disallow: /a/就表示a栏目下所有页面不准抓取。当我们要给网站增添新栏目时就可以使用这个写法,先禁止抓取,待完善后再开放。这样操作的目的就是为了给搜索引擎留个好印象,也利于日后的优化工作。
robots协议的写法规则
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
常用的robots规则
1、禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
2、禁止百度索引你的网站
User-agent: Baiduspider
Disallow: /
3、禁止Google索引你的网站
User-agent: Googlebot
Disallow: /
4、禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
5、禁止除谷歌外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
6、禁止蜘蛛访问某个目录(例如禁止admin\css\images被索引)
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
7、允许访问某个目录中的某些特定网址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
在书写这些语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的。搜索引擎一般都有自己的的站长平台如谷歌站长平台和百度站长平台,我们可以使用它们来测试robots文件,加快其生效速度。
发表评论
Want to join the discussion?Feel free to contribute!