如何使用爬虫下载网站小说

时间：2026-05-02 06:44:19

1、首先import所需的库，urllib.request的urlopen和beautifulsoup.由于需要将内容写入到txt文件中，也需要import os库

如何使用爬虫下载网站小说

2、输入文本写入路径，使用urlopen打开网址并用beautifulsoup解析.

如何使用爬虫下载网站小说

3、打开网站源代码，找到小说地址，查看其所属区域块.

每个块都会有起始、终止符号，例如<div>...</div>，符号中间的部分是该块的内容，同时，每个块不是只有一个，需要其他标签定位等.

如何使用爬虫下载网站小说

4、list是小说网址部分的内容href=子网址，由于源码内ul有3个，所需部分是最后一个，所以加上下标定位最后一个ul。

如何使用爬虫下载网站小说

5、如步骤3中图片所示，网址的内容是不全的，前面省略了主网址。

为保证正确，需要打开该网址，查看主网址，在代码中重定义org_url.

如何使用爬虫下载网站小说

6、内容的下载、写入部分代码如图.

第一个for循环是写入每章的内容.

第二个for循环写入该章的内容.

该部分也需要查看具体章节页面的源码.

最后关闭文件，进行保存.

如何使用爬虫下载网站小说

1、运行该命令，代码正确后会显示如图.

可以看出文件正成功逐章下载。

如何使用爬虫下载网站小说

2、打开保存的文件，会看到小说成功保存到文件中，如图.

如何使用爬虫下载网站小说