手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

phpcms文章采集器之采集内容规范

时间:2024-11-04 18:37:28

1、我们需要在第一步【采集网址规则】中单击任意地址跳转到第二部【采集内容规范】页面

phpcms文章采集器之采集内容规范

2、观察之后的【采集内容规则】界面,我们发现【标题】自动已经被设置,器内容为“百度新闻搜索——体育新闻”,我们需要在此删除“——体育新闻”字段。双击【标题】标签,在弹出的【标签编辑】选项卡中点击【添加】按钮,在弹出的快捷菜单中选择【内容替换】,并按图设置。

phpcms文章采集器之采集内容规范
phpcms文章采集器之采集内容规范
phpcms文章采集器之采集内容规范

3、之后我们双击【内容】标签,在此我们可以通过【前后提取】【正则提取】【可视化提取】【正文提取】【标签组合】等多种方式提取网页的正文数据。

phpcms文章采集器之采集内容规范

4、通过对网页的分析,我们确定从那个HTML标签处开始提取,比如本文中为:<ol class="exp-conent-orderlist">,结束字符则为</ol>

phpcms文章采集器之采集内容规范

5、此外,我们还可以通过【数据处理】模块,将文本中多余的HTML标签删除,如下图所示。

phpcms文章采集器之采集内容规范
phpcms文章采集器之采集内容规范

6、至此,内容采集到此结束。整个步骤最关键的为【第三步】只有截取正确的HTML代码,才能达到只留文本信息而屏蔽代码的目的。

phpcms文章采集器之采集内容规范
© 手抄报圈