moonseo:robots文件设置及实操写法

moonseo:robots文件设置及实操写法
moonseo
robot.txt到底要怎么写呢?今天moonseo给大家详细讲解下“robots文件设置及实操写法”;
 
一、robots.txt文件是什么
 
robots.txt文件简单理解为就是告诉搜索引擎蜘蛛,我们的网站上哪些内容可以被抓取,哪些不能抓取。当搜索引擎蜘蛛访问我们网站时,第一件事就是检查网站根目录是否存在robots.txt文件,如果存在则会遵守robots.txt文件所编写的规则抓取相应的内容;
 
例如本站的robots.txt文件规则:
 
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Sitemap:http://www.seowaw.com/sitemap.xml
 
腾讯网robots.txt文件规则:
User-agent: *
 
Disallow: 
 
Sitemap: http://www.qq.com/sitemap_index.xml
 
二、robots.txt文件作用
 
为什么网站都要写robots.txt文件呢?主要有以下四点:
 
1、网站安全(防止重要信息泄露)
2、节省网站流量(减少蜘蛛访问页面)
3、引导蜘蛛爬取网站地图(有利于网站收录)
4、禁止搜索引擎蜘蛛收录隐私页面(保护网站重要信息)
 
三、robots.txt文件写法
 
“/” 前面有一个英文状态下空格;
 
Disallow: /禁止访问
 
例如:”Disallow:/plus/ad_js.php”禁止访问/plus/as_js.php文件,”Disallow:/a/”,”Disallow:/b/”禁止访问a,b文件。
 
Allow: /允许访问
 
User-agent: /描述搜索引擎robots的名字
 
我们知道搜索引擎爬虫有多个种类,Baiduspider、Googlebot、360spider、Sosospider等等。
例如:User-agent: Baiduspider表示定义百度蜘蛛,那么名为”Baiduspider”就受到 ” User-agent: Baiduspider”后面的Disallow和Allow的规则限制。”User-agent: *”表示定义所有蜘蛛。
 
例如本站robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问,且禁止抓取”Disallow: /”下文件。
腾讯网robots.txt文件规则表示:允许所有搜索引擎蜘蛛访问所有文件。
多种搜索引擎蜘蛛
 
四、robots.txt文件存在位置
 
存放在网站根目录下,并且robots.txt文件名所有字母必须为小写。
 
五、注意事项
 
在编写robots.txt文件时,User-agent、Disallow、Allow第一个字母均为大写,后面的字母小写,并且在 ”:”后面必须带一个英文字符空格,网站上线之前建议写好robots.txt文件禁止蜘蛛访问,如果还不会写可以参考网上robots.txt写法,以免给网站收录带来不必要的麻烦。
 
总结:以上就是moonseo分享的个人经验,如果你还不会robots.txt文件写法,可以联系moonseo帮忙解决!

您可能还会对下面的文章感兴趣: