完成巨量html标签的去除（bs4的妙用）

时间：2026-04-21 17:11:50

1、python、pip、bs4的安装，bs4用pip install命令获取

2、先看原始文件，全是html标签，总共1.7亿字

3、失败了几次：用word通配符替换，死机；记事本替换，没有通配符，累死才换了一点点；用python replace替换，才替换到ad***内存就暴掉了；用vb加载文件就能死机。。。即使拆成27个文件也很大。。。

完成巨量html标签的去除（bs4的妙用）

4、打开python命令行（这里我为了看起来方便用了idel，但是命令行处理能力较强）载入BeautifulSoup模块来去除html标签

完成巨量html标签的去除（bs4的妙用）

5、试试看bs，能完美的去掉html标签

完成巨量html标签的去除（bs4的妙用）

6、然后用open 'r' 读取文件，168Mb纯文本，几秒就读完了。因为文本中含有中文，要加encoding='utf-8'，否则会出错。

完成巨量html标签的去除（bs4的妙用）

7、别忘了关掉前面的文件，是一个好习惯。

用bs的html.parser（本来是爬虫去除HTML标签用的）去除HTML标签。这个过程要花几分钟

新建一个供写入的txt文件，把替换好的文本写入，关掉新文件（不关掉就不会保存。）

完成巨量html标签的去除（bs4的妙用）

8、关掉python，可以看到新文件已经缩减为了原来的四分之一

完成巨量html标签的去除（bs4的妙用）

9、再打开的话，就可以看到没有HTML标签，是完整的词典了。可以在程序中使用了（可以自制电子词典）。

完成巨量html标签的去除（bs4的妙用）