前言:最近比较有时间,替一个同学完成了一个简单的爬虫和数据分析任务,具体的要求是爬取复仇者联盟4的豆瓣影评信息并进行简单的数据分析,这里的数据分析指的是提取关键词并进行词云分析以及按照时间进行热度分析,分析比较简单,后续可以继续完善。
首先,献上数据采集和分析的结果。
短评数据
按照该同学的要求,只采集了条数据,有需要更多数据的同学可自行修改采集的限制即可
下面,我们就来详细描述下如何完成数据采集和数据分析的工作的
首先,爬虫的第一步,分析页面元素,打开网页,按下F12,查看数据请求
从上往下,依次寻找,我们可以发现数据就存在于第一个请求中
我们可以分析下这个请求,点击翻页,多请求几个页面
我们可以知道他的翻页规律是由start和limit这两个参数来控制的,start表示第几页,limit表示每页多少条
知道他的分页规律后,我们需要定位我们需要采集的元素,我们这里需要采集短评内容、发布人信息、评价指数、评价时间,赞同数等
这里我们选择的是etree+xpath解析数据,这里我给大家演示下如何定位短评内容,我们采用浏览器上的选中元素的功能,选中元素后,查看元素的位置
分析对应的html元素,首先找到改元素最可靠的顶级元素,这里我们可以很容易的发现这个元素是位于id=