网络爬虫类型

时间：2026-04-25 08:07:23

1、首先介绍通用网络爬虫（General Purpose Web Crawler）,通用网络爬虫的爬取目标是全网资源，目标数据庞大。主要应用于大型搜索引擎中，如百度搜索引擎的百度蜘蛛，商业价值巨大。

通用网络爬虫主要是由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块等构成。爬行的时候需要采用一定的爬行策略，主要有深度优先爬行策略和广度优先爬行策略。

网络爬虫类型

2、聚焦网络爬虫（Focused Crawler），是按照预先定义好的主题有选择地惊醒网页爬取，爬取目标为与主题相关的页面，该爬虫大大节省爬取所需的带宽和服务器资源，适用于特定人群。

聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

网络爬虫类型

3、增量式网络爬虫（Incremental Web Crawler），所谓增量式，即增量式更新。增量式更新指的是再更新的时候只更新改变的地方，而为改变的地方则不更新，所以该爬虫只爬取内容发生变化的网页或者新产生的网页。

网络爬虫类型

4、深层网络爬虫（Deep Web Crawler），首先，什么是深层页面？

在互联网中，网页按存在方式划分为表层页面和深层页面。所谓表层页面，指的是不需要提交表单，使用静态的链接能够到达的静态页面；而深层页面是需要调教一定的关键词之后才能获取的页面。在互联网中，深层页面数量往往比表层页面多得多。

深层网络爬虫主要由URL列表、LVS列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

网络爬虫类型