python网络爬虫批量打包下载小说

北京医院皮炎治疗 http://pf.39.net/bdfyy/bdfzj/210410/8833134.html

暂且把我要做的称为一个项目,记录在开发过程中碰到的问题。

项目目标:把小说批量下载,并合并到一个TXT文件里,还要能被阅读器自动分章读取。

项目流程1、创建项目文件夹2、获取小说列表3、获取章节内容4、处理章节内容5、导出文本

1、创建项目文件夹

下载的内容会存到这个文件夹下,为了方便管理,命名小说。

创建项目文件夹

2、获取小说列表

命名

引入我们将要用到的库

找到小说的目录页

通过urllib.request获取到网页内容,有乱码,没关系下一步处理

查看源文件,编码是GBK,用GBK解析

同过正则表达提取,并补全链接

为了方便测试、理解,定义一个获取章节内容的函数

筛选内容,获取章节正文

去HTML标签,文本显示

定义个保存文本函数,并设定每隔5下载一章

到这里项目基本完成,导入手机测试一下

效果还算不错,简单的案例完成。




转载请注明:http://www.aierlanlan.com/rzfs/960.html

  • 上一篇文章:
  •   
  • 下一篇文章: