关关采集规则编写详细教程

时间：2024-10-27 12:36:42

1、第一步: 我们先复制一份原来的规则做模板比如说我今天演示的采集站点是我爱读书网 52dsw.net 这个小说站点那么我就把我复制的那份做模板的规则命名为 52dsw.xml 这个主要是便于记忆

2、第二步: 我们运行采集器里的规则管理工具打开后加载刚刚我们命名为 52dsw.xml的这个XML文件

3、第三步: 开始正式编写规则了1. RULEID(规则编号) 这个任意2. GetSiteName(站点名称) 这里我们写我爱读书网3. GetSiteCharset(站点编码) 这里我们打开 www.52dsw.net 查找 charset= 这个 =号后面的就是我们需要的站点编码www.52dsw.net 我们查到的编码是 gb23124. GetSiteUrl(站点地址) 这个就不用我说了吧写入 http://www.52dsw.net/5. NovelSearchUrl(站点搜索地址) 这个地址的获得得按照每个网站程序的不同而言不过呢有个通用的方法就是通过抓包来获得自己想要的内容虽然说是通过抓包来获得但是怎么就知道获得的就是我们想要的呢看我操作首先我们运行封包工具选择 IEXPLORE.EXE 这个进程最好是你只开一个网站也就是你只打开了你要想编写规则的那个网站确保进程里只有一个IEXPLORE.EXE这个进程这里我们我们可以看到提交的地址是 /book/search.aspx 我们来组合一下得到的地址是 http://www.52dsw.net/book/search.aspx而提交内容的代码是SearchKey=%C1%AB%BB%A8&SearchClass=1&SeaButton.x=26&SeaButton.y=10 但是对于我们有用的是 SearchKey=%C1%AB%BB%A8&SearchClass=1 这一段这里获得的这段将在NovelSearchData(搜索提交内容) 这里用到把这段改成我们想要的代码就是把这一段%C1%AB%BB%A8 替换成 {SearchKey} 这个表示搜索提交的内容完整的代码是 SearchKey={SearchKey}&SearchClass=1然后我们测试下是否正确经过测试我们获得的内容是正确的 6. NovelListUrl(站点最新列表地址) 这个我就不说了因为这些每个站点的不同这个就需要自己去找了我爱读书网的是 http://www.52dsw.net/top/lastupdate_1.html7. NovelList_GetNovelKey(从最新列表中获得小说编号此规则中可以同时获得书名获得书名是在手动模式的时候用到如果你要用手动模式那么必须获得书名否则手动模式将会无法使用)我们打开 http://www.52dsw.net/top/lastupdate_1.html 这个地址查看源文件我们编写这个规则的时候找到想要获得的内容所在的地方比如我们打开地址看到想要获得的内容的第一本小说的名字是立地成魔我们在源文件里面找到莫伦特传 <ul><li class="li1"> <a target=_blank href="/Book/LN/131.html" >奇幻</a></li><li class="li2"><a target=_blank href="/html/book/130/150557/List.shtm" ><font color="#006699">[目录]</font></a> <a href="http://www.52dsw.net/Book/150557/Index.html" target="_blank"><font color="#006633">莫伦特传</font></a></li><li class="li3"><a href="/html/book/130/150557/3946236.shtm" target="_blank">第一卷第八章黑暗崛起</a></li><li class="li4">11月27日</li><li class="li5"><a href="/Author/WB/150557.html" target="_blank">巨龙之瞳</a></li><li class="li6">连载 </li></ul>我们编写规则用到的代码其实也不是很多我编写规则的原则是能省则省也就是说代码越短越好除非万不得已一般精短一些比较好好了不废话了在这个规则里面我们需要用到的是 <a href="http://www.52dsw.net/Book/149539/Index.html" target="_blank"><font color="#006633">立地成魔</font></a>我们将这段改下 <a href="http://www.52dsw.net/Book/(\d*)/Index.html" target="_blank"><font color="#006633">(.+?)</font></a> 其中 (\d*) 表示编号 (.+?) 表示小说名经过测试正确8. NovelUrl(小说信息页地址) 这个很容易我们随便点开一本小说就能知道了比如说 http://www.52dsw.net/Book/150557/Index.html 这本小说我们可以看到的我们改下将里面的 150557 换成 {NovelKey} 一般情况表示小说编号 http://www.52dsw.net/Book/{NovelKey}/Index.html9. NovelErr(小说信息页错误识别标记) 这个一般是 http://www.52dsw.net/Book/149539/Index.html 吧中间的那个编号随意改变下比如 http://www.52dsw.net/Book/15055799/Index.html 这样我们获得的错误标记就是未找到该编号的书籍信息! 10. NovelName(获得小说名称正则) 我们随便打开一本小说 http://www.52dsw.net/Book/149539/Index.html 查看源代码获得小说名称这个我们可以从固定模式着手比如我们刚才打开的立地成魔这本小说我们看到他的固定小说名格式是《立地成魔》那我们在源代码里找到《立地成魔》这个我们得到的内容是 <div id="CrBookTitle"><span class="booktitle">《立地成魔》</span></div> 这一段我们改下 <div id="CrBookTitle"><span class="booktitle">《(.+?)》</span></div> 下面的 NovelAuthor(获得小说作者) LagerSort(获得小说大类) SmallSort(获得小说大类) NovelIntro(获得小说简介) NovelKeyword(获得小说主角(关键字)) NovelDegree(获得写作进程)NovelCover(获得小说封面) 这些呢我就不演示了这些跟上面的那个获得小说名方法是一样的也就所谓的一通百通这里有些时候获得的内容里面有些不想用到的因为格式不固定有些内容只能先获得然后在用过滤功能过滤掉过滤的用法在后面有说11. NovelInfo_GetNovelPubKey(获得小说公众目录页地址)这个的地址获得跟上面的一样的方法这里我就不说明了 12 PubIndexUrl(公众目录页地址) 这个我说明一下这个的用法这个一般是在知道采集目标站的动态地址的时候用到如果不知道对方动态地址的话就在这个里面写入{NovelPubKey} 如果知道动态路径比如说 http://www.52dsw.net 这个站的没本小说的章节目录的动态地址是 http://www.52dsw.net/Book/149539/Index.aspx 那么 PubIndexUrl 这个的规则就是 http://www.52dsw.net/Book/{NovelKey}/Index.aspx13. PubVolumeSplit(分割分卷) 这个分割分卷有写地方需要注意到如果分割分卷的正则没对那么有可能对于下面的获得章节名那些有很大的影响这里我们获得分割部分的代码呢按我的经验呢是找到第一个分卷跟下面的分卷查看他们的共同处在我们分析 http://www.52dsw.net/html/book/130/149539/List.shtm 这个目录章节里面的源代码可以看出他们有个共同点拿这一段来说明下 </ul><div id="feiku_e_n_d"></div> <div id="mmuu88">力量的追求 </div><ul>从这里我们可以看到他的共同点是 </ul><div id="feiku_e_n_d"></div> 我们吧他改下改成正则格式 </ul>\s*<div id="feiku_e_n_d"></div>其中的\s* 表示匹配与任何白字符匹配，包括空格、制表符、分页符等也就是说在 </ul> 与 <div id="feiku_e_n_d"></div> 之间不管有多少个空格都可以用 \s* 来表示 14 . PubVolumeName(获得分卷名) 想要获得准确的分卷名必须在上面的分割部分的正则必须正确一般情况下分割部分跟分卷名是在一块的上面我们说明分割部分用到的 </ul><div id="feiku_e_n_d"></div> <div id="mmuu88">力量的追求 </div><ul> 这一段大家如果有注意看到的话会发现里面有我们在这一步里面要获得的分卷名我们改下代码 <div id="mmuu88">(.+?)</div>\s*<ul> 我们测试下正常获得分卷但是有这些我们一般在过滤规则里面过滤掉就行了 15. PubChapterName(获得章节名) 这个我们拿一段来说明<li><a title="更:2008-10-24 12:58:00 更:3264" href="3859084.shtm">强悍的驯服方法</a></li> 对于这种里面有时间日期更新字数什么的我们直接忽略因为这些不是我们要获得的内容这个我们可以用 .+? 来表示有些人就问了为什么我这里没用() 括起来呢这里我跟大家说下我们获得的内容是()里面的内容如果不是你想要的内容但是写规则的时候又必须用到的我们可以吧表达式稍微改下就可以了好了我们吧上面的那一段改下改成表达式 <li><a title="更.+?更.+?" href="\d*.shtm">(.+?)</a></li>正常获得内容这个大家是不是看着这个规则有些别扭这个是因为中间有换行符导致的我没改下代码我们用\s* 来表示N个换行符我们改后的代码是<li><a title="更.+?\s*更.+?" href="\d*.shtm">(.+?)</a></li> 现在是不是好些了经过测试也一样正常获得内容说明规则无问题 16. PubChapter_GetChapterKey(获得章节地址(章节编号)) 这里说明下这个里面的章节编号是在下面的 PubContentUrl(章节内容页地址)用到一般式知道目标站的动态地址静态地址一般用不到在不知道目标站的动态地址那么这里我们需要获得的是章节地址分析得到 <li><a title="更.+?更.+?" href="(\d*.shtm)">(.+?)</a></li> 这里既然是获得章节地址那为什么我们还有用到章节名的呢这个说下主要就是为了避免获得的章节名跟获得的章节地址不匹配这里在说下章节编号的写法其实并不麻烦只需要稍微改下就行了 <li><a title="更.+?更.+?" href="(\d*).shtm">(.+?)</a></li> 改成这样就可以了我们测试下看看看到了吧这样改下就是获得编号了这个获得的编号只能在知道目标站动态地址的情况下采有用到17. PubContentUrl(章节内容页地址) 上面的获得章节地址里面有说明这个是在知道目标站的动态地址的情况下用到因为一般静态地址用不到这里我拿 http://www.52dsw.net/html/book/149539/3790336.ASPX 这个来说明下该怎么用其中的 149539 这个是小说编号这里我们用 {NovelKey} 替代 3790336 这个就是在 PubChapter_GetChapterKey 里面获得的章节编号我们用 {ChapterKey} 替代组合一下就是 http://www.52dsw.net/html/book/{NovelKey}/{ChapterKey}.ASPX 这个就是我们的动态章节地址了 !!!记住前提是知道对方的动态地址 !!! 如果不知道对方的动态地址那么我们在 PubContentUrl(章节内容页地址) 这里写的内容就是 {ChapterKey} 18. PubContentText(获得章节内容) 这个获得方法同于获得章节名的那些这个就不说明了二..好了现在我们说明下过滤的用法这个很容易何谓过滤过滤就是说剔除你不想要到的内容一般用到过滤的几个地方是简介章节名分卷名和获得的小说章节内容不过章节内容这个有一个替换功能简介章节名分卷名这几个暂时没有替换规则比如说我们获得的分卷名为正文（www.52dsw.net）但是呢我们在获得分卷的时候只想获得正文这两个字那么我们这里就用到了过滤过滤的格式是过滤的内容|过滤的内容每个过滤内容中间用|来分开简介章节名的过滤跟分卷名一样比如说我们获得作者名的时候获得的内容里面有段多余的内容<li class="l5">书籍作者</li><li class="l6"><a href="/Author/WB/149539.html">聚散随风</a></li>因为他的这个 <a href="/Author/WB/149539.html"> 有些的有有些的没有所以我们暂时不管直接用书籍作者</li>\s*<li class="l6">(.+?)</li> 先获得想要的内容从规则看来我们获得的内容是 <a href="/Author/WB/149539.html">聚散随风</a> 这一段我们在这一段里面想保留的内容是聚散随风我们来吧 <a href="/Author/WB/149539.html"> 跟 </a> 加入过滤规则里 </a> 这个因为是固定的所以直接加上就行了 <a href="/Author/WB/149539.html"> 这个是变动的我们吧他也改下改成正则格式 <a href="/Author/WB/\d*.html">这样就行了我们加上过滤 <a href="/Author/WB/\d*\.html">|</a> 内容就是这样现在说下章节内容的替换章节内容替换规则每行一个替换，格式如下需要替换的内容♂替换结果<div.+?> 这个表示过滤<div.+?>♂<br> 这个表示替换比如说 feiku 这个站里面有个地字他是用的图片我们该怎么办呢这里我们用替换来处理<img src="http://www.52dsw.net/images/di.gif" />♂地其他的替换类似 <a href="/Author/WB/149539.html">♂替换的内容替换只在章节内容里才有用这个是章节内容专用的

4、有些人又问了为什么我采集某个站为什么老出现空章节呢这个出现可能空章节的原因这个有可能是目标站正好重启网站你的采集IP被封等等...这里我要说明的出现空章节的是因为图片章节引起的缘故采集器的采集内容的操作程序是先检查你采集的章节是否是图片章节如果你的PubContentImages(章节内容中提取图片) 的正则不正确没有获得图片章节内容的话就会检查你的采集文字内容 PubContentText(获得章节内容)这个里面的正则的匹配如果 PubContentImages(章节内容中提取图片) 跟 PubContentText(获得章节内容) 都没有匹配的内容那么就出现了上面我们说的空章节的原因好了规则写好了我们来测试下规则是否能够正常获得想要获得的内容测试显示我们写的规则能够正常的获得想要的内容

5、附上我爱读书网采集规则供大家参考：<?xml version="1.0"?><RuleConfigInfo xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema"> <RuleVersion> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>RuleVersion</RegexName> </RuleVersion> <RuleID> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>22</Pattern> <RegexName>RuleID</RegexName> </RuleID> <GetSiteName> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>http://www.52dsw.net/</Pattern> <RegexName>GetSiteName</RegexName> </GetSiteName> <GetSiteCharset> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>gbk</Pattern> <RegexName>GetSiteCharset</RegexName> </GetSiteCharset> <GetSiteUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>http://www.52dsw.net/</Pattern> <RegexName>GetSiteUrl</RegexName> </GetSiteUrl> <NovelSearchUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>NovelSearchUrl</RegexName> </NovelSearchUrl> <NovelSearchData> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>NovelSearchData</RegexName> </NovelSearchData> <NovelSearch_GetNovelKey> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>NovelSearch_GetNovelKey</RegexName> </NovelSearch_GetNovelKey> <NovelListUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>http://www.52dsw.net/list/0.html</Pattern> <RegexName>NovelListUrl</RegexName> </NovelListUrl> <NovelList_GetNovelKey> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td class="odd"><a href="http://www.52dsw.net/book/(\d*).html">(.+?)</a></td></Pattern> <RegexName>NovelList_GetNovelKey</RegexName> </NovelList_GetNovelKey> <NovelUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>http://www.52dsw.net/book/{NovelKey}.html</Pattern> <RegexName>NovelUrl</RegexName> </NovelUrl> <NovelErr> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>未找到该编号的书籍信息</Pattern> <RegexName>NovelErr</RegexName> </NovelErr> <NovelName> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>line-height: \d*%">(.+?)</span></td></Pattern> <RegexName>NovelName</RegexName> </NovelName> <NovelAuthor> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td width="25%">作&nbsp;&nbsp;&nbsp; 者：(.+?)</td></Pattern> <RegexName>NovelAuthor</RegexName> </NovelAuthor> <LagerSort> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td width="25%">类&nbsp;&nbsp;&nbsp; 别：(.+?)</td></Pattern> <RegexName>LagerSort</RegexName> </LagerSort> <SmallSort> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td width="25%">类&nbsp;&nbsp;&nbsp; 别：(.+?)</td></Pattern> <RegexName>SmallSort</RegexName> </SmallSort> <NovelIntro> <FilterPattern>&nbsp;</FilterPattern> <Method>Match</Method> <Options>None</Options> <Pattern><span class="hottext">内容简介：</span><br />((.|\n)+?)<span class="hottext">作品关键字：</span></Pattern> <RegexName>NovelIntro</RegexName> </NovelIntro> <NovelKeyword> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>NovelKeyword</RegexName> </NovelKeyword> <NovelDegree> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td>文章状态：(.+?)</td></Pattern> <RegexName>NovelDegree</RegexName> </NovelDegree> <NovelCover> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><img src="(.+?)" border="0" width="100" height="125" align="right" hspace="5" vspace="5" /></a></Pattern> <RegexName>NovelCover</RegexName> </NovelCover> <NovelDefaultCoverUrl> <FilterPattern /> <Method>Match</Method> <Options>IgnoreCase</Options> <Pattern>nocover.jpg</Pattern> <RegexName>NovelDefaultCoverUrl</RegexName> </NovelDefaultCoverUrl> <NovelInfo_GetNovelPubKey> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><li><a class="btnlink" href="(.+?)">点击阅读</a></li></Pattern> <RegexName>NovelInfo_GetNovelPubKey</RegexName> </NovelInfo_GetNovelPubKey> <PubCookies> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>PubCookies</RegexName> </PubCookies> <PubIndexUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>{NovelPubKey}</Pattern> <RegexName>PubIndexUrl</RegexName> </PubIndexUrl> <PubIndexErr> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>这里必须填写</Pattern> <RegexName>PubIndexErr</RegexName> </PubIndexErr> <PubVolumeContent> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>PubVolumeContent</RegexName> </PubVolumeContent> <PubVolumeSplit> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><div id="tit</Pattern> <RegexName>PubVolumeSplit</RegexName> </PubVolumeSplit> <PubVolumeName> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>le">(.+?)</div></Pattern> <RegexName>PubVolumeName</RegexName> </PubVolumeName> <PubChapterName> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td class="ccss">\s*<a href="\d*.html">(.+?)</a>\s*</td></Pattern> <RegexName>PubChapterName</RegexName> </PubChapterName> <PubChapter_GetChapterKey> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><td class="ccss">\s*<a href="(\d*.html)">.+?</a>\s*</td></Pattern> <RegexName>PubChapter_GetChapterKey</RegexName> </PubChapter_GetChapterKey> <PubContentUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>{ChapterKey}</Pattern> <RegexName>PubContentUrl</RegexName> </PubContentUrl> <PubContentErr> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern>这里必须填写</Pattern> <RegexName>PubContentErr</RegexName> </PubContentErr> <PubContent_GetTextKey> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>PubContent_GetTextKey</RegexName> </PubContent_GetTextKey> <PubTextUrl> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>PubTextUrl</RegexName> </PubTextUrl> <PubContentText> <FilterPattern>&nbsp;</FilterPattern> <Method>Match</Method> <Options>IgnoreCase</Options> <Pattern><div id="content">((.|\n)+?)<div id="footlink"></Pattern> <RegexName>PubContentText</RegexName> </PubContentText> <PubContentReplace> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern /> <RegexName>PubContentReplace</RegexName> </PubContentReplace> <PubContentImages> <FilterPattern /> <Method>Match</Method> <Options>None</Options> <Pattern><[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*></Pattern> <RegexName>PubContentImages</RegexName> </PubContentImages></RuleConfigInfo>