#Python爬虫#
python是一个非常火热的编程语言,被称为胶水语言,可以应用于诸多领域,在爬虫领域根据它强大的生态更是有其独特的优势。
爬虫的意义就是将网页数据进行存储,自定处理,想要学习爬虫首先要了解一点html相关知识,至少能够看懂网页数据标签。下面我们就进行豆瓣网站的数据爬取。将数据保存到本地excel文件中。
首先我们要知道爬虫的基本思路要指定网址,有需要爬地源。要明确想要得到什么数据,即网页中的标签存储什么数据,要懂。
要知道建立什么样的规则去爬取网页数据。即通过正则表达式去建立规则。
要懂技术,懂编程,看得懂python代码,起码要懂基础语法。下面详细介绍python爬虫需要用到的模块
BeautifulSoup:它是一个工具箱,通过解析文档为用户提供需要抓取的数据,re:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。urllib:是Python中的一个功能强大、用于操作URL,并在做爬虫的时候经常要用到的库。xlwt:是python对Excel表格的操作sqllite3:一种轻便的数据库工具:PyCharm:一种非常好用的针对python的编辑器:建议使用社区版因为免费。
下面开始正式的梳理一下爬虫步骤,首先全局变量baseurl接收要爬取的网址,及豆瓣网。savepath是要保存数据到本地的文件名。datalist是列表用来接收获取到的网页数据。savedata是具体的保存数据的函数。getData是获取的数据函数。askURL是解析网页的函数。模拟浏览器与网站进行交互,这是最关键的,只有成功与爬取源进行交互,即取得允许爬取的资格才能够进行对数据的操作,因为有些网站的数据是机密,只能浏览,不允许被其他渠道传播的,有些网站还存在反爬虫机制,所以,爬虫是有危险的。想要成功获得信任资格,就要模拟的浏览器和你自己本身的浏览器一模一样才行,即建立一个浏览器的头部信息,以及浏览器的标志,还有编码规范,这点也是很重要的。
今天的分享到这里就结束了,大家觉得可以的话可以点个