暂且把我要做的称为一个项目,记录在开发过程中碰到的问题。
项目目标:把小说批量下载,并合并到一个TXT文件里,还要能被阅读器自动分章读取。
项目流程1、创建项目文件夹2、获取小说列表3、获取章节内容4、处理章节内容5、导出文本
1、创建项目文件夹
下载的内容会存到这个文件夹下,为了方便管理,命名小说。
创建项目文件夹2、获取小说列表
命名引入我们将要用到的库
找到小说的目录页
通过urllib.request获取到网页内容,有乱码,没关系下一步处理
查看源文件,编码是GBK,用GBK解析
同过正则表达提取,并补全链接
为了方便测试、理解,定义一个获取章节内容的函数
筛选内容,获取章节正文
去HTML标签,文本显示
定义个保存文本函数,并设定每隔5下载一章
到这里项目基本完成,导入手机测试一下
效果还算不错,简单的案例完成。