1、选定hash算法ha衡痕贤伎sh算法有很多,常见的MD5、SHA1、CRC等,而很多hash值计算工具,都能同时计算多种hash值,但我们只需要碚枞凇悄选择一种算法即可,这样方便以后进行重复检验,如果同时选择多种算法,会增加数据保存量,导致以后检索排重困难。由于不少正规下载网站和文件,都会提供MD5值,因而,我选择MD5作为排重标识。具体选哪一种,大家可以根据自己需要来决定。
2、计算已下载文件的MD5值打开hash值计算工具hash V1.04,界面如下图
3、去掉SHA1、CRC32前的勾,在“浏览”菜单里导入已经下载的文件,计算MD5值。举例如下图
4、保存和处理MD5信息
5、计算结果可以直接复制粘贴到其他文字处理工具中,也可以保存成txt文本文件,具体根据需要选择。把这些信息输入到文字处理工具中,保存成hash记录文档,以供以后进行排重检索。
6、处理MD5信息的文字处理工具,必须要能够支持全文搜索,只有全文搜索才能有效汰拶珏茧监测排重。excel、word与友益文书,都支持全文搜索的文字工具,我比较倾向于推荐这三个。但全文搜索有一个弊端,那就是数据量大的时候检索速度很慢。友益文书的目录搜索速度很快,如果有时间和精力进行整理,那可以把每个文件的MD5计算信息在友益文书里保存成一个独立的目录,并以MD5信息命名目录,这个办法可以有效解决全文搜索工具的弊端。
7、友益文书进行信息整理示例如下图
9、友益文书目录搜索演示
10、进行重复检验4.1 下载前重复检验
11、进行下载前,先查看下载站提供的MD5值,把它复制下来,以其做关键词在hash记录文档里搜索,如果没有搜索结果,就证明不重复,可以进行下载;如果有搜索结果,那就证明以前曾经下载过该文件,那就无需再下载,在自己的存储空间里查找即可。
12、下载站的文件MD5查看举例4.2 下载后重复检验
14、有些文件,由于下载前无法获得其MD5信息,我们无法在下载前判断是否已经下载过相同的文件。因而,我们改为在下载完成后进行重拎粹蠃账复判断。下载完成后,先用hash计算工具计算下载文件MD5值,然后用该MD5值做关键词,在hash记录文档里进行搜索。如果有搜索结果,则是重复下载,则无需进行存储操作;如没有搜索结果,则非重复搜索,则进行存储操作。