1、首先,要安装中文分词工具。如果是Anaconda,需要在Anaconda prompt进行,或者手动进入conda环境后再安装。可以使用pip install -i 指定国内镜像安装。
2、分词之前需要准备一段文字。主流的分词工具都是针对现代汉语的。
3、如图是使用snownlp进行分词的例子。注意,只有现代汉语准确度较好,这是显然的。
4、如图是snownlp的分词结果。snownlp分词结果比较简单,没有词性信息。
5、接下来,是使用THULAC进行分词的例子。如图所示。
6、分词结果如图所示。THULAC有详细的词性信息,而且分词准确度高一些。