1、python、pip、bs4的安装,bs4用pip install命令获取
2、先看原始文件,全是html标签,总共1.7亿字
3、失败了几次:用word通配符替换,死机;记事本替换,没有通配符,累死鸬钟召蜗才换了一点点;用python replace替换,才替换到ad***内存就暴掉了;用vb加载文件就能死机。。。即使拆成27个文件也很大。。。
4、打开python命令行(这里我为了看起来方便用了idel,但是命令行处理能力较强)载入BeautifulSoup模块来去除html标签
5、试试看bs,能完美的去掉html标签
6、然后用open 'r' 读取文件,168Mb纯文本,几秒就读完了。因为文本中含有中文,要加encoding='utf-8',否则会出错。
7、别忘了关掉前面的文件,是一个好习惯。用bs的html.parser(本来是爬虫去除HTML标签用的傧韭茆鳟)去除HTML标签。这个过程要花几分钟新建一个供写入的txt文件,把替换好的文本写入,关掉新文件(不关掉就不会保存。)
8、关掉python,可以看到新文件已经缩减为了原来的四分之一
9、再打开的话,就可以看到没有HTML标签,是完整的词典了。可以在程序中使用了(可以自制电子词典)。