一段抓取互联网信息的程序
http://v.youku.com/v_show/id_XMjkzMTMzMDUzMg==.html?tg=fl2&tpa=dW5pb25faWQ9MjAwMDAxXzEwMDE4M18wMV8wNA工具/原料
python环境
爬虫简介
1、一段抓取互联网信息的程序
爬虫价值
1、互联网数据,为我所用可以爬去各种网络内容对自己的信息进行扩展或者扩充。
简单爬虫架构
1、爬虫调度端
2、架构-运行流程1.调度器2.URL管理器3.下载器4.解析器5.应用
具体详细
1、URL:管理器管理待抓取URL集合和已抓取URL集合--防止重复抓取、防止循环抓取
2、实现方式:内存:1.python内存2.MySQL3.缓存数据库
3、网页下载器将互联网上URL对应的网页下载到本地的工具(1)Python有哪几种下载器?Urlib2 python官方基础模块Requests 第三方包更强大
4、网页下载器 -urllib2(1)最简洁的读取给定URL->urllib2.urlopen(url)
5、(2)添加data、http header
6、(3)添加特殊情景的处理器
代码实现