入门Python爬虫获取数据篇

刘军连怎么挂号 https://jbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/793/

作者:李菲来源:人工智能学习圈

在如今的大数据时代,相信大家都对Python一词有所耳闻。而Python爬虫,简单来说,即通过Python程序获取对我们有用的数据。常用于商业分析,不过偶尔也可以辅助我们解决在日常生活中遇到的一些问题。

首先,在爬虫中最常见的代码便是:

即引入requests库,是一切爬虫程序的基础。在Python中,有许多库可以供我们使用。这也是Python相对于其它编程语言的一大优势。

*这里要注意,如果之前没有在电脑上安装过requests库,需要先进行安装。Mac用户在终端中输入pip3installrequests,按下回车即可。Windows用户需要打开命令提示符程序,输入pipinstallrequests。

在引入requests数据库后,就可以使用其中的requests.get()方法了。其具体的用法为:

其中,variable代表变量的名称,常用的命名为res。(不过也可以自定义变量名,并不会影响程序的运行。)括号中的参数是所需要的数据的网址。

在这里需要注意,不是所有服务器都会欢迎爬虫程序。建议大家在运行爬虫程序前先去查一下相应网站的Robots协议,了解一下哪些页面是可以抓取的。而查看Robots协议的方式也很简单,只需在网站域名后加上/robots.txt就可以了。网址前如有显示‘Allow’即为允许爬取,而带有‘Disallow’后的网址就不建议大家去抓取了。比如,下图就是知乎的部分Robots协议截图。

那么,在这里举个例子。比如,我想要爬取某网站的信息,假设它的网址为


转载请注明:http://www.aierlanlan.com/cyrz/4624.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了