手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

如何写蜘蛛只让允许抓取sitemap文件

时间:2024-10-19 14:10:10

1、首先,确保你拥有网站的实际控制权,可以操作到根目录的文件。比如你的网站是demo.com,那么需要能够操作到demo.com/something这个维度。

2、在根路径下创建robots.txt文件,当然也可以在别的路径下,但是确保访问到demo.com/robots.txt是对应的文件。

3、robots的协议有非常多种,这里只介绍最基础的语法。整个文件可以是这样的:“User-agent:”代表对应的蜘蛛,一般可以是baidu/google等,每个蜘蛛会有对应的说明,可以直接查看。“Allow”或者“Disallow”代表行为,后头需要跟具体的path,一般为最左匹配。

4、举个例子,希望百度抓取你的网站全部内容,而别的网站不允许抓取任何内容,需要这样写:User-agent: baiduAllow: /User-agent: *Disallow: /

5、如果希望一个搜索引擎只收录你的站点地图,假设文件放在/sitemap/目录下,那么应该这样来操作:User-agent: *Allow: /sitemap/Disallow: /

6、当然,现在robots协议之外,还有更多资源提交的方法,比如各大搜索引擎均有对应的站长平台,可以在上面提交自己的sitemap文件,更加定制化的提示蜘蛛抓取方案,具体操作不再赘述。

© 手抄报圈