1、我们在做爬虫程序的时候,如果是爬取内容相对固定的内容,比较容易避免内容的重复爬取。
2、但是,如果爬取的内容是一直变化的,如某个内容的页码是实时变化的,那么我们就需要做重复检查。
3、那么怎么做重复检查?首先,我们需要将每项爬取的内容设置一个唯一标示。如标题、链接地址等。
4、然后,我们在爬取的时候,将这些内容都记录到数据库中。
5、在每爬取一条数据时,和数据库内容进行比较,如果该key值已经出现过,那么就说明该记袄嬖艽蛞录已经爬取,就不应该再重复爬取。
6、但是,这样还会有一个问题,就是高并发情况下,还是有可能会重复爬取,那么我们可以姗隗肆念采取在插入的sql语句中增加校验。使用Insert Select Not Exist语句在进行插入,避免数据插入重复。