手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

如何使用爬虫下载网站小说

时间:2024-10-23 03:27:51

以免费小说下载网站下载小说为例.从网站上直接下载小说的页面如图,这里利用python从网站的每章的小说阅读页面读取小说、写入到文件中.

如何使用爬虫下载网站小说

代码实现

1、首先import所需的库,urllib.request的urlopen和beautifulsoup.由于需要将内容写入到txt文件中,也需要importos库

如何使用爬虫下载网站小说

2、输入文本写入路径,使用urlopen打开网址并用beautifulsoup解析.

如何使用爬虫下载网站小说

3、打开网站源代码,找到小说地址,查看其所属区域块.每个块都会有起始、终止符号,例如<div>...</div>,符号中间的部分是该块的内容,同时,每个块不是只有一个,需要其他标签定位等.

如何使用爬虫下载网站小说

4、list是小说网址部分的内容href=子网址,由于源码内ul有3个,所需部分是最后一个,所以加上下标定位最后一个ul。

如何使用爬虫下载网站小说

5、如步骤3中图片所示,网址的内容是不全的,前面省略了主网址。为保证正确,需要打开该网址,查看主网址,在代码中重定义org_url.

如何使用爬虫下载网站小说

6、内容的下载、写入部分代码如图.第一个for循环是写入每章的内容.第二个for循环写入该章的内容.该部分也需要查看具体章节页面的源码.最后关闭文件,进行保存.

如何使用爬虫下载网站小说
如何使用爬虫下载网站小说

结果

1、运行该命令,代码正确后会显示如图.可以看出文件正成功逐章下载。

如何使用爬虫下载网站小说

2、打开保存的文件,会看到小说成功保存到文件中,如图.

如何使用爬虫下载网站小说
© 手抄报圈