1、下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说)
2、安装后,双击打开,进入程序主页面,新建分组。
3、选中刚才新建的分组,然后右键创建任务。
4、编辑任务名称,然后添加要采集的目标页面链接。
5、选择批量/多页采集
6、网址采集的规则设置:注意:采集的量根据自己的需求来改
8、添加采集规则
9、进入采集的目标页面,点右召堡厥熠键查看源代码。找到要采集的文章的标题,然后往上找div,逐个查找,找到页面中唯一的一个div,然后复制下来。同理再找到最后一个div。这样做目的是缩小采集目标的范围。
10、然后以第一个div开始,最后一个div结尾。把代码复制到对应的选定区,然后可以保存,先测试一次
11、测试成功。那么采集的大致范围选定了,下面来修改采集规则,让采集的内容达到我们想要的内容。
12、先找到内容页链接的规律,然后去掉不想要的其他代码。
13、然后来进行采集的第二部:内容规则的设置
14、设置标题替换
15、标题替换设置好后,测试效果
16、设置内容部分的替换
17、去页面的后台代码,找到文章内容上面唯一的一个div,和文亨蚂擤缚字结尾后面唯一的一个div,然后复制代码放到对程序对应的设置框里。
18、再设置html代码的过滤,留下需要的,去掉不需要的。然后点击确定,保存,去测试一下。
19、以上测试成功后,进行最后一步发布的设置。在web发布配置管理,里面进行配置
20、主要是配置网站后台的登陆疙熳阊涓信息和要发布的栏目,然后保存配置 ,全部保存,就OK了,可以正式批量采集文章了。
21、最后检查文章标题,文章内容是否采集成功。