用决策树实现文本分类。
工具/原料
JuPyter
获取数据集
1、导入模块。
2、需要导出相关类别的新闻数据。
3、加载训练集和测试集
4、提取特征数据。
对特征数据做特征工程
1、导入停用词。
2、用训练集进行拟合。
3、对数据做特征工程。
模型训练
1、创建决策树分类模型。
2、导入训练集对模型进行训练。
模型评估
1、导入测试集对模型进行评估。
2、决策数运行时间。
3、决策树模型评估成绩。
4、将模型的预测结果可视化。
5、可视化的预测结果。
6、预测样本量。
7、统计分类失误个数。
8、获取文本分类器的常用评价指标。
9、指标报告。
绘制决策树学习曲线
1、生成绘制学习曲线所需的数据。
2、绘制学习曲线。
3、学习曲线如图示。