1、一稍僚敉视个基本的爬虫程序通常分为三个部分:数据收集(网页下载)、数据处理(网页解析)和数据存储(保存有用信息)。当然,更先进的爬虫会在数据采集和处理中使用并发编程或分布式技术,这需要调度器叵萤茆暴(安排线程或进程来执行相应的任务)和后台管理人员参与进程(监视爬虫的工作状态并检查数据采集结果)。
2、一般来说,爬虫的工作流程包括以下步骤:设置爬网目标(种子页/起始页)并获取网页。当服务器不可访问时,请尝试根据指定的重试次剞麽苍足数重新下载页面。设置用户代理或在必要时隐藏真实的IP,否则您可能无法访问该页面。对获取的页面执行必要的解码操作,然后提取所需的信息。在获得的页面中,通过某种方式(如正则表达式)提取页面中的链接信息。链接被进一步处理(获取页面并重复上述操作)。用于后续处理的有用信息的持久性。下面的例子展示了一个爬虫程序,可以从搜狐体育获得NBA新闻标题和链接。
3、由于MySQL是用来实现持久化操作的,所以应该先启动MySQL服务器,然后才能运行程序。