robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。因此robots.txt协议非常的重要,那么怎么正确的理解它呢?本文章会从什么是robots协议、robots.txt协议的注意事项、robots.txt协议的原则以及误设置了robots怎么处理来说明。
一、什么是robots协议
robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎网站上的哪些页面可以抓取,哪些页面不能抓取。
二、robots.txt协议的注意事项
1、仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。
2、如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
3、为了避免站长在设置robots文件时出现问题,百度站长平台特别推出了robots工具,帮助站长正确设置robots。
三、robots.txt协议的原则
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
四、误设置了robots怎么处理
1.修改robots,然后到百度站长后台检测并更新robots。
2.在百度站长后台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。
3.在百度站长后台抓取频次,申请抓取频次上调。
4.百度反馈中心,反馈是因为误操作导致了这种情况的发生。
5.百度站长后台链接提交处,设置数据主动推送(实时)。
6.更新sitemap网站地图,重新提交百度,每天手工提交一次。