一段抓取互联网信息的程序可以爬去各种网络内容对自己的信息进行扩展或者扩充。
工具/原料
python
网页解析器
1、从网页中提取有价值的数据
2、网页解析器分类(1)正则表达式(2)Html.parser(3)Beautiful Soup(4)lxml
3、结构化解析-DOM(Document Object Model)树
Beautiful Soup安装
1、去百度官网搜索,Beautiful Soup然后解压到python文件夹里就可以使用了
Beautiful Soup 语法
1、从根节点开始索引,然后依次向下查找
2、举个列子
3、创建Beautiful Soup对象
4、结点的搜索
5、访问结点内容
代码编写
1、查询所有a标签里的内容
2、获取一行编码