详解robots.txt协议,robots.txt文件写法解读

相信现代网络营销和SEO优化人员都知道搜索引擎的重要性,这也是为什么这么多人协助搜索引擎正确抓取并索引网站的原因,但是作为专业人员,如果你还未听说过robots.txt,robots.txt文件协议的信息,则可能你会遇到麻烦。
详解robots.txt协议,robots.txt文件写法解读
今天院长就来给大家详细介绍介绍下什么是robots.txt?以及robots.txt使用方法。
 
一、robots.txt文件协议是什么?
 
简单说robots.txt是一个文本文件,作用于指引搜索引擎蜘蛛如何抓取和索引网站页面,一般情况下,robots.txt文件位于网站跟目录下,当蜘蛛访问网站时,会第一时间访问到robots.txt文件。
 
对于不同类型的搜索引擎蜘蛛,robots.txt协议于1994年建立,并保证所有搜索引擎蜘蛛必须遵循robots.txt协议标准。
 
因为robots.txt文件为搜索引擎提供了关于如何抓取或如何不抓取本网站部分内容,因此robots.txt文件设置是非常重要的,一旦robots.txt文件设置不正确,很可能会导致不必要的索引错误,所以当你开始设置robots.txt文件时,请手工仔细检查你的robots.txt文件。
 
如何使用robots.txt文件屏蔽蜘蛛抓取某些目录呢?请使用“disallow”指令。
 
对于一个商城类型网站,以下你使用robots.txt文件屏蔽的页面,例如:
 
1、重复出现的网页
2、动态产品页和服务页面
3、用户注册页面
4、管理页面
5、购物车
6、在线咨询
7、搜索栏
......
 
基本上就像这样:
robots.txt,robots.txt协议,robots文件
截图中,我指示了避免对用户账号,购物车和搜索栏中查找产品或某些动态页面进行了屏蔽。
 
当然任何网站的robots.txt文件都是可以访问到的,只需输入:www.seowaw.com/robots.txt(替换成自己的域名即可)
 
因此robots.txtw文件无法保护或隐藏网站中的任何数据,此外,某些恶意爬虫也同样可以利用robots.txt文件获取网站最有价值的页面。
 
robots.txt只是某种协议,个别搜索引擎还是会抓取协议范围之内的内容,但,对于大多数搜索引擎而言,都会遵循robots.txt协议指令。
 
二、robots.txt文件协议写法
 
虽然robots.txt文件协议有一定缺点,但是我们还是非常有必要知道robots.txt文件协议机具写法,他们的好处是可以让SEO人员快速“禁止”或“允许”页面抓取,而不需要手工访问每个页面。如下:
 
禁止所有搜索蜘蛛访问网站内容:
 
User-agent:*
Disallow: /
 
禁止所有蜘蛛访问指定目录:
 
User-agent:*
Disallow: /2-login/
 
禁止搜索蜘蛛访问某个页面是非常有用的,只需确定你想要禁止搜索蜘蛛访问哪些目录,然后,在robots.txt文件中添加“disallow”指令即可。
 
提示:你还可以将网站robots.txt文件手动添加到搜索资源平台上(百度站长),这是一种更安全的方法,能够随时检查robots.txt文件设置规范。
 
院长总结:以上就是关于robots.txt文件写法介绍,尽管robots.txt设置很简单,但绝不可轻视,很有可能一个设置失误,而导致出现无法被索引结果。最后希望我在本文中的描述能够指导你更好的理解robots.txt文件。

您可能还会对下面的文章感兴趣: