所在的位置： python >> python发展 >> python小白必看python零基

python小白必看python零基

#Python爬虫#

python是一个非常火热的编程语言，被称为胶水语言，可以应用于诸多领域，在爬虫领域根据它强大的生态更是有其独特的优势。

爬虫的意义就是将网页数据进行存储，自定处理，想要学习爬虫首先要了解一点html相关知识，至少能够看懂网页数据标签。下面我们就进行豆瓣网站的数据爬取。将数据保存到本地excel文件中。

首先我们要知道爬虫的基本思路要指定网址，有需要爬地源。要明确想要得到什么数据，即网页中的标签存储什么数据，要懂。

要知道建立什么样的规则去爬取网页数据。即通过正则表达式去建立规则。

要懂技术，懂编程，看得懂python代码，起码要懂基础语法。下面详细介绍python爬虫需要用到的模块

BeautifulSoup:它是一个工具箱，通过解析文档为用户提供需要抓取的数据，re：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。urllib：是Python中的一个功能强大、用于操作URL，并在做爬虫的时候经常要用到的库。xlwt：是python对Excel表格的操作sqllite3：一种轻便的数据库工具：PyCharm:一种非常好用的针对python的编辑器：建议使用社区版因为免费。

下面开始正式的梳理一下爬虫步骤，首先全局变量baseurl接收要爬取的网址，及豆瓣网。savepath是要保存数据到本地的文件名。datalist是列表用来接收获取到的网页数据。savedata是具体的保存数据的函数。getData是获取的数据函数。askURL是解析网页的函数。模拟浏览器与网站进行交互，这是最关键的，只有成功与爬取源进行交互，即取得允许爬取的资格才能够进行对数据的操作，因为有些网站的数据是机密，只能浏览，不允许被其他渠道传播的，有些网站还存在反爬虫机制，所以，爬虫是有危险的。想要成功获得信任资格，就要模拟的浏览器和你自己本身的浏览器一模一样才行，即建立一个浏览器的头部信息，以及浏览器的标志，还有编码规范，这点也是很重要的。

今天的分享到这里就结束了，大家觉得可以的话可以点个

转载请注明：http://www.aierlanlan.com/tzrz/525.html

上一篇文章： Python高效编程技巧

下一篇文章：一Python爬虫之基础入门