Python学习网络爬虫第一周下载

北京中科白癜风医院爱心接力不忘初心 http://baijiahao.baidu.com/s?id=1697098023515184729&wfr=spider&for=pc
功能:自动爬取某网站,并且将该网站的文本数据存储到本地。基本实现步骤:1)自动爬取网站,获得网站数据;2)数据存储到本地。遇到问题及解决办法:1)自动爬取,暂时水平不够高,采用的伪爬取方法即找到网页网址的规律;2)关于文本的处理,输出成想要的格式正题方法:1)网页分为静态网页(存粹的html格式的)、动态网页(使用AJAX),即动态加载网页的数据不一定出现按外html中等。本文爬取的网页是动态网页,采用的方法是浏览器渲染引擎(渲染引擎的职责就是渲染,即在浏览器窗口中显示所请求的内容。这是每一个浏览器的核心部分,所以渲染引擎也称为浏览器内核)。因而需要安装selenium库,FireFox浏览器,下载getodriver。selenium库使用方法:


转载请注明:http://www.aierlanlan.com/rzfs/7122.html