手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

robots协议的作用是什么

时间:2024-10-12 05:44:42

1、spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。robots.txt文件应该放置在网站根目录下。例如:百度spider首先会检查该网站中是否存在http://one.oyjit.com/robots.txt这个文件

2、robots功能:robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。robots格式User-agent: *Disallow:allow:"*"和"$"的含义Baiduspider支持使用通配符"*"和"$"来模糊匹配url。"$" 匹配行结束符。"*" 匹配0或多个任意字符。对于一般企业可以这样的去写,在Disallow掉不想被搜索引擎抓取的文件即可,比如我们的网站数据,图片等等。

© 手抄报圈