手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

网络爬虫类型

时间:2024-10-18 21:40:52

1、 首先介绍通用网络爬虫(General Purpose Web 觊皱筠桡Crawler),通用网络爬虫的爬取目标是全网资源,目标数据庞大。主要刂茗岚羟应用于大型搜索引擎中,如百度搜索引擎的百度蜘蛛,商业价值巨大。 通用网络爬虫主要是由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块等构成。爬行的时候需要采用一定的爬行策略,主要有深度优先爬行策略和广度优先爬行策略。

网络爬虫类型

2、 聚焦网络爬虫(Focused Crawler),是按照预先定义好的主题有选择地惊醒网页爬取,爬取目标为与主题相关的页面,该爬虫大大节省爬取所需的带宽和服务器资源,适用于特定人群。 聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

网络爬虫类型

3、 增量式网络爬虫(Incremental Web Crawler),所谓增量式,即增量式更新。增量式更新指的是再更新的时候只更新改变的地方,而为改变的地方则不更新,所以该爬虫只爬取内容发生变化的网页或者新产生的网页。

网络爬虫类型

4、 深层网络爬虫(Deep Web Crawler),首先,什么是曰钷董竿深层页面? 在互联网中,网页按存在方式划分为表层页面和深层页面。所谓表层页面,指的是不需要提交表单,使用静态的链接能够到达的静态页面;而深层页面是需要调教一定的关键词之后才能获取的页面。在互联网中,深层页面数量往往比表层页面多得多。 深层网络爬虫主要由URL列表、LVS列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

网络爬虫类型
© 手抄报圈