1、在谷歌浏览器中打开官网(pa1pa),下载浏览器插件,并如下步骤安装。
2、安装成功后,在浏览器点击插件栏上便会出现”爬”的图标,注册登录即可使用爬一爬数据采集器。
3、打开想要采集的网站,点击浏览器插件栏的”爬”的图标,启动插件。依次点击选取所要抓取的元素。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。(#注:本例的采集模式为Click Mode)
4、如果要抓取多页信息,按照下图所示,点击分页设置的箭头后,选中“下一页”,并设置点击的次数。(#注:Click mode 在”分页设置”选择时候区别于Auto Mode,只选中“下一页”的按钮即可,非全部页码区域。)
5、确认色彩框选中全部数据后,先点击“完成”按钮,再点击“测试”按钮,测试所采集的数据是否就是您想要的。
6、确认测试成功后,点击”OK”按钮关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。
7、点击“提交”按钮,任务创建成功。您可在官网的该任务的"任务总览"页面下运行并管理该任务。
8、任务运行结束后,在页面的“数据”选项即可查看并下载完整数据。
9、如果想获得本例采集的数据,可在官网论坛页面的数据中心下载或关注我索要即可。