所在的位置： python >> python介绍 >> Python学习网络爬虫第一周下载

Python学习网络爬虫第一周下载

北京中科白癜风医院爱心接力不忘初心 http://baijiahao.baidu.com/s?id=1697098023515184729&wfr=spider&for=pc
功能：自动爬取某网站，并且将该网站的文本数据存储到本地。基本实现步骤：1）自动爬取网站，获得网站数据；2）数据存储到本地。遇到问题及解决办法：1）自动爬取，暂时水平不够高，采用的伪爬取方法即找到网页网址的规律；2）关于文本的处理，输出成想要的格式正题方法：1）网页分为静态网页（存粹的html格式的）、动态网页（使用AJAX），即动态加载网页的数据不一定出现按外html中等。本文爬取的网页是动态网页，采用的方法是浏览器渲染引擎（渲染引擎的职责就是渲染，即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分，所以渲染引擎也称为浏览器内核）。因而需要安装selenium库，FireFox浏览器，下载getodriver。selenium库使用方法：

转载请注明：http://www.aierlanlan.com/rzfs/7122.html

上一篇文章：用Python轻松爬取阿里巴巴国际站

下一篇文章：零基础自学python语法