在前面我们已经学习了quests、正则表达式的基本用法,但我们还没有完整地实现一个爬取案例,这一节,我们就来实现一个完整的网站爬虫,把前面学习的知识点串联起来,同时加深对这些知识点的理解。
1.准备工作在本节开始之前,我们需要做好如下的准备工作:
安装好Python3,最低为3.6版本,并能成功运行Python3程序。了解PythonHTTP请求库quests的基本用法。了解正则表达式的用法和Python中正则表达式库的基本用法。以上内容在前面的章节中均有讲解,如尚未准备好建议先熟悉一下这些内容。
2.爬取目标本节我们以一个基本的静态网站作为案例进行爬取,需要爬取的链接为