一、项目背景
随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要。
本文基于这个问题,针对51job招聘网站,爬取了全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。
分析比较了不同岗位的薪资、学历要求;分析比较了不同区域、行业对相关人才的需求情况;分析比较了不同岗位的知识、技能要求等。
二、效果展示
本次数据分析的特点在于:使用Tableau将数据分析的结果做成可视化交互大屏,效果如下:
三、爬取数据基于51job招聘网站,我们搜索全国对于“数据”岗位的需求,大概有页。
爬取岗位:大数据、数据分析、机器学习、人工智能等相关岗位。
爬取字段:公司名、岗位名、工作地址、薪资、发布时间、工作描述、公司类型、员工人数、所属行业。
我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息,大概爬取思路为:先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作。使用工具:Python+requests+lxml+pandas+time+Xpath1.导入相关库
importrequestsimportpandasaspdfrompprintimportpprintfromlxmlimportetreeimporttimeimportwarningswarnings.filterwarnings("ignore")
2.关于翻页的说明
#第一页的特点