1.大站点优先
大站点属性:PR值高;外链多;内容质量高;抓取速率快(有着稳定的服务器/良好的网站结构/鬲尚嫱侉优秀的用户体验/内容质量高/),抓取频率高,有些甚至7x24小时不间断
利用策略 :将新站点地址放在这些大站点或者类大站点上
2.重要页面优先抓取
重要页面排序依据:页面获取的已抓取页面的连接的多少和连接权重的高低
3.抓取策略
spider选择性的使用深度和广度优先原则(搜索引擎自身资源有限)对站点进行URL抓取,对URL进行以上1、2点比较后放入队列内排序
4.更新策略
a.用户体验
网页被搜索到的次数越多,被再次抓取的频率就会越高。
b.历史更新频率
搜索引擎对页面再次抓取并分析页面是否更新,记录更新频率,更新频率越高的,被再次抓取就越高
c.网页类型
同一站点下,首页、目录页、专题页和文章页的更新频率不同,首页、目录页要快。
s
权重高的页面抓取频率高
对网页进行a/b/c/d四项进行权衡,对网页更新频率进行确定。