手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

机器学习——TF-IDF特征向量

时间:2024-10-12 18:16:20

1、TFIDF中的TF表达式如图示:

机器学习——TF-IDF特征向量

2、TFIDF中的IDF表达式如图示:

机器学习——TF-IDF特征向量

3、TFIDF向量可以由不同级别的分词产生(单个词语,词性,多个词(n-grams))。具体如图示:

机器学习——TF-IDF特征向量

4、导入相应的模块如图示:

机器学习——TF-IDF特征向量

5、读取word文件中的内容如图示:

机器学习——TF-IDF特征向量

6、进行中文划词,并将其转化为DataFrame类型,方便删除不许要的数据。如图示:

机器学习——TF-IDF特征向量

7、划分结果如图示:

机器学习——TF-IDF特征向量
机器学习——TF-IDF特征向量

8、利用info方法查看数据的详细信息,如图示:

机器学习——TF-IDF特征向量

9、筛选出需要删除的数据,得到一组布尔值。如图示:

机器学习——TF-IDF特征向量

10、得到的布尔数组。如图示:

机器学习——TF-IDF特征向量

11、利用布尔索引,删除bool值为False的数据。如图示:

机器学习——TF-IDF特征向量

12、删除无关的的数据后,数据的信息如图示:

机器学习——TF-IDF特征向量

13、从上图中可以看到索引不在连续。

14、删除数据后会,剩下数据的索引将不再连续,为了方便后续索引,故重置索引。如图示:

机器学习——TF-IDF特征向量

15、重置索引的数据如图示:

机器学习——TF-IDF特征向量

16、接下来用TFIDF向量作为特征。实例化TFIDF类,如图示:

机器学习——TF-IDF特征向量

17、转换训练数据,如图示:

机器学习——TF-IDF特征向量

18、经过TFIDF转换后的数据是一个稀疏矩阵,如图示:

机器学习——TF-IDF特征向量

19、为方便观察转化后的数据,将其转化为DataFrame类型,如图示:

机器学习——TF-IDF特征向量

20、经过TFIDF转化后的特征向量如图示:

机器学习——TF-IDF特征向量
© 手抄报圈