所在的位置： python >> python前景 >> 入门Python爬虫获取数据篇

入门Python爬虫获取数据篇

刘军连怎么挂号 https://jbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/793/

作者：李菲来源：人工智能学习圈

在如今的大数据时代，相信大家都对Python一词有所耳闻。而Python爬虫，简单来说，即通过Python程序获取对我们有用的数据。常用于商业分析，不过偶尔也可以辅助我们解决在日常生活中遇到的一些问题。

首先，在爬虫中最常见的代码便是：

即引入requests库，是一切爬虫程序的基础。在Python中，有许多库可以供我们使用。这也是Python相对于其它编程语言的一大优势。

*这里要注意，如果之前没有在电脑上安装过requests库，需要先进行安装。Mac用户在终端中输入pip3installrequests，按下回车即可。Windows用户需要打开命令提示符程序，输入pipinstallrequests。

在引入requests数据库后，就可以使用其中的requests.get()方法了。其具体的用法为：

其中，variable代表变量的名称，常用的命名为res。（不过也可以自定义变量名，并不会影响程序的运行。）括号中的参数是所需要的数据的网址。

在这里需要注意，不是所有服务器都会欢迎爬虫程序。建议大家在运行爬虫程序前先去查一下相应网站的Robots协议，了解一下哪些页面是可以抓取的。而查看Robots协议的方式也很简单，只需在网站域名后加上/robots.txt就可以了。网址前如有显示‘Allow’即为允许爬取，而带有‘Disallow’后的网址就不建议大家去抓取了。比如，下图就是知乎的部分Robots协议截图。

那么，在这里举个例子。比如，我想要爬取某网站的信息，假设它的网址为

转载请注明：http://www.aierlanlan.com/cyrz/4624.html

上一篇文章：巨细Python爬虫详解CDA数据分

下一篇文章：没有了