1、步骤一:采集结果预览
2、步骤二:新建采集任务1、复制网页地址
3、新建智能模式采集任务
4、如果识别的内容不够准确,可以手动设置识别,选择列表选项—手动点选列表。
5、步骤三:配置采集规则1、设置提取数据字段软件识别出字段后我们可以右击字段进行螽啸镥释相关设置,包括修改字段名称、增减字段、处理数据等。
6、字段设置效果如下:
7、使用深入采集功能提取详情页数据我们需要采集医院专家的具体信息,这里需要用到两次深入采集,我们点击科室链接,然后使用第一次“深入采集”功能,跳转到详情页进行采集。
8、进入到详情页后,软件识别为单页,识别效果错误,此时我们在页面类型中选择自动识别,识别列表类型的详情页。
9、同时由于软件一开始识别的时候把页面识别为单页,因此没有识别出下一页的元素,我们需要在分页设置中自动识别一下。
10、分页设置完毕之后,我们设置要提取的字段,字段设置效果如下:
11、由于我们需要采集每位医生的具体信息,因此我们需要第二次用到深入采集功能。
12、在医生信息的详情页上,我们设置需要采集的内容,字段设置效果如下:
13、步骤四:设置并启动采集任务
14、步骤五:导出并查看数据