手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

如何判断百度蜘蛛访问网站

时间:2024-10-14 21:44:27

  在国内,大部分网嗄磅麇蚺站的经营都离不开百度搜索引擎,网站要在百度搜索引擎得到好的排名,其前提条件就是必需确保百度蕴螵盅遇搜索引擎蜘蛛经常访问网站,并收录网页,那么,如何判断百度蜘蛛访问网站呢?  通过解读网站的日志信息,来确定蜘蛛是否访问网站,这是一种最有效、实用的方法。在网站根目录下的log文件夹查找带有日期的log文本文件,选择其中的一个日期文件(例如ex101116.log)下载到本地,这个文件就是2010年11月16日的日志,用记事本打开,在日志文件中搜索“baiduspider”(百度蜘蛛)这个词,发现以下的代码:2010-11-15 18:18:10 125.65.165.169 GET /product.asp - 80 - 220.181.108.166 Baiduspider+ (+http://www.baidu.com/search/spider.htm) -www.fjqytd.com200 ....  下面详解这段代码:1、"2010-11-15 18:18:10" 是百度蜘蛛访问的日期和时间。2、"GET /product.asp"是bd蜘蛛访问的页面 get表示获取的意思。3、80是端口4、220.181.108.166是百度蜘蛛的ip地址5、Baiduspider+(+http://www.baidu.com/search/spider.htm)就是指百度蜘蛛了6、www.fjqytd.com是被访问的网络地址7、200表示抓取成功,这是百度蜘蛛爬行后返回的代码。  另外,还有其他一些代码:2xx 成功200 正常;服务器已成功处理了请求。201 正常;请求成功且服务器已创建了新的资源。202 正常;已接受用于处理,但处理尚未完成。203 正常;已成功处理了请求,但返回了可能来自另一来源的信息。204 正常;服务器成功处理了请求,但未返回任何内容。3xx 重定向301 已移动 — 请求的网页已被永久移动到新位置。302 已找到 — 请求的数据临时具有不同 URI。303 查看其他位置—当请求者应对不同的位置进行单独的 GET 请求以检索响应时,服务器会返回此代码。304 未修改 — 未按预期修改文档。305 使用代理 — 请求者只能使用代理访问请求的网页。306 未使用 — 不再使用;保留此代码以便将来使用。4xx 客户机中出现的错误400 错误请求 — 请求中有语法问题,或不能满足请求。401 未授权 — 请求要求进行身份验证。402 需要付款 — 表示计费系统已有效。403 禁止 — 服务器拒绝请求。404 找不到 — 服务器找不到请求的网页。405 方法禁用— 禁用请求中所指定的方法。406 不接受— 无法使用请求的内容特性来响应请求的网页。407 代理认证请求 — 客户机首先必须使用代理认证自身。408 请求超时 — 服务器等候请求时超时。409 冲突 — 服务器在完成请求时发生冲突。410 请求的网页不存在(永久);415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。5xx 服务器中出现的错误500 内部错误 — 因为意外情况,服务器不能完成请求。501 未执行 — 服务器不支持请求的工具。502 错误网关 — 服务器接收到来自上游服务器的无效响应。503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。504 网关超时 — 服务器作为网关或代理,未及时从上游服务器接收请求。  总之,这些状态代码提供了有关请求状态的信息,且为baiduspider(百度蜘蛛)提供了有关网站请求的网页的信息。反过来,可以利用这些状态代码来判断baiduspider(百度蜘蛛)是否访问网站。

© 手抄报圈