必须明确什么时候我们的网站才需要robots.txt文件。在确认需要robots.txt之后,就来问题了。robots.txt怎么写?
一、先熟悉robots.txt文件的几个关键词:
1、User-agent:跟上搜索引擎蜘蛛的名称;*代表所有搜索引擎蜘蛛;
2、Disallow:不允许蜘蛛访问的;
3、Allow:允许蜘蛛访问的。
二、写robots.txt文件的方法
1、直接用TXT文档创建一个新的文本;然后重命名为robots.txt;编辑文本即可,如下信息;
User-agent:*
Disallow: /cata.asp?
Disallow:/mulu/
allow: /mulu2/
以上的robots.txt文件是告诉所有搜索引擎蜘蛛不允许爬取有带cata.asp?和mulu的内容, 允许爬取mulu2的内容。
2、使用站长工具的robots文件生成(http://tool.chinaz.com/robots/)直接生成就可以了。
在限制目录输入文件夹名称、目录名称然后点页面下面的生成按钮就可以了。
制作完robots.txt文件上传到网站根目录,然后登入百度站长平台检查下即可。下面是百度站长平台robots工具的说明。
三、百度robots工具使用说明
1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
2、您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。
3、robots工具暂不支持https站点。
4、robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。