来源:澎湃新闻编者按:本文数据获取及统计分析时间为年9月,部分数据特征及结论可能与春运时间段不一致。春节想肥家想去浪没有火车票怎么办我们就一起来根据数据看看余票放票究竟有没有规律是完全靠人品还是有一定规律可循?▍十行代码带你获取余票数据-通过url获取网页数据我们选择在网站上获取数据大家对这个界面应该相当熟悉然后在网页空白处右键——审查元素在Network界面找到RequestURL这个url就包含余票信息我们再用python做一个简单的数据清洗余票数据就爬取成功了-利用python,构建余票自动爬取代码我们利用python的schedule库构建全天候运行的数据代码不断获取余票数据这里受篇幅所限我就不赘述啦▍到底什么样的火车票是有机会抢到的-大区间有票小区间无票理论上来说,任何时段的火车票都有机会抢到,因为一旦有退票返回系统,基本上会实时返回余票库。我们这里指的抢票,定义为远程大区间车票还有余票,又距离开车时间相对较短,铁路部门因为希望减少空载率,实现利润最大化而将远程车票分开售卖。举个栗子:如果小长假想去平遥古城玩两天,我们先来看看火车票:系统显示G二等座已全部卖光,一等座也只剩一张,平遥古城是不是去不成了呢?当然不是,我们发现平遥古城并不是终点站,该车次终点站是运城北。搜索北京到运城北看看结果:结果显示北京到运城北票源充足,余票量大于99张。在此,我们先大胆的进行猜测,铁路部门觉得全程的余票卖不完了,为了减少空载率,拆开卖也能接受的时候,就会有大量的余票放出。接下来,我们一起来验证看看这些余票到底是怎么放出的?▍大数据来解析余票放票时间由于改版,余票超过20张时不会显示具体数量,显示为“有”,但实际上,在购票提交订单之前,系统仍会提示实际的余票数。但是登陆之后长时间的爬虫容易对账号产生不良的影响,所以建议还需要爬取实际票数的朋友们要谨慎,退一步可以选择其它代售网站,余票数一般可显示至99张。在此非常感谢郑涛老师提供的含有准确余票信息的源数据,数据为连续七日当日火车票余票数,采集间隔为1分钟。我们一起来探讨火车票余票的放票方式。-同一趟列车,不同站点的放票时间是否相同?同趟列车,不同站点的放票时间是否相同,即放票时间是否与车站有关。为了验证这个问题,我们选取了D次同一日,三个区间的余票情况进行分析比较。结果显而易见,我们发现三个区间站的放票时段集中在中午12时和下午18时30分,三个区间站没有明显的差异,即此趟列车余票的放票时间基本不会因车站的不同而有差异。-同一趟列车,不同日期放票时间是否一样?我们还以D次为例,看看连续三天D次当日的余票信息。我们可以看出,三天虽然余票数不尽相同,但每天的18:25分到18:30分,均有大量的余票放出,三日的放票时间十分接近,所以D上海到南京区间的放票时间在这三日是相对固定的。这是一个普遍现象还是个例?我们来把时间拉长,看看七日的数据还符不符合这个规律。从表中可以看出,答案是肯定的,不同日期D车次释放余票的时间基本相同,我们再来看看其它几个车次。除此之外,小编还观察了G-苏州到无锡、G-丹阳到南京、G-无锡到镇江等合计20趟列车不同日期相同区段当日余票的放票情况,发现以上20趟列车的放票时间也有一个相对固定的时刻。-那么,究竟提前多久时间能抢到放出来的余票?我们将20趟列车的“发车——放票时间”做成一个柱状图,来看看其中有没有什么规律。从上面的数据来看,每趟列车的放票时间不尽相同,但是我们发现了两个数据非常密集的区段,开车前7小时(分钟)和开车前1小时(60分钟),我们在实际的抢票过程中可以重点
转载请注明:http://www.aierlanlan.com/cyrz/6115.html