python

所在的位置： python >> python介绍 >> python网络爬虫批量打包下载小说

python网络爬虫批量打包下载小说

北京医院皮炎治疗 http://pf.39.net/bdfyy/bdfzj/210410/8833134.html

暂且把我要做的称为一个项目，记录在开发过程中碰到的问题。

项目目标：把小说批量下载，并合并到一个TXT文件里，还要能被阅读器自动分章读取。

项目流程1、创建项目文件夹2、获取小说列表3、获取章节内容4、处理章节内容5、导出文本

1、创建项目文件夹

下载的内容会存到这个文件夹下，为了方便管理，命名小说。

创建项目文件夹

2、获取小说列表

命名

引入我们将要用到的库

找到小说的目录页

通过urllib.request获取到网页内容，有乱码，没关系下一步处理

查看源文件，编码是GBK，用GBK解析

同过正则表达提取，并补全链接

为了方便测试、理解，定义一个获取章节内容的函数

筛选内容，获取章节正文

去HTML标签，文本显示

定义个保存文本函数，并设定每隔5下载一章

到这里项目基本完成，导入手机测试一下

效果还算不错，简单的案例完成。

转载请注明：http://www.aierlanlan.com/rzfs/960.html

上一篇文章： Python的执行过程

下一篇文章：你以为Python是人工智能编程语言,这