1、TFIDF中的TF表达式如图示:
2、TFIDF中的IDF表达式如图示:
3、TFIDF向量可以由不同级别的分词产生(单个词语,词性,多个词(n-grams))。具体如图示:
4、导入相应的模块如图示:
5、读取word文件中的内容如图示:
6、进行中文划词,并将其转化为DataFrame类型,方便删除不许要的数据。如图示:
7、划分结果如图示:
8、利用info方法查看数据的详细信息,如图示:
9、筛选出需要删除的数据,得到一组布尔值。如图示:
10、得到的布尔数组。如图示:
11、利用布尔索引,删除bool值为False的数据。如图示:
12、删除无关的的数据后,数据的信息如图示:
13、从上图中可以看到索引不在连续。
14、删除数据后会,剩下数据的索引将不再连续,为了方便后续索引,故重置索引。如图示:
15、重置索引的数据如图示:
16、接下来用TFIDF向量作为特征。实例化TFIDF类,如图示:
17、转换训练数据,如图示:
18、经过TFIDF转换后的数据是一个稀疏矩阵,如图示:
19、为方便观察转化后的数据,将其转化为DataFrame类型,如图示:
20、经过TFIDF转化后的特征向量如图示: