「来源:|Python爬虫与数据挖掘ID:crawler_python」
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
位卑未敢忘忧国,事定犹须待阖棺。
大家好,我是Python进阶者。
前言
前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。
关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:
盘点常用验证码标注和识别项目线上部署三种方式——VUE前端、Java后端和Python后端部署
Python项目实战篇——常用验证码标注识别(CNN神经网络模型训练/测试/部署)
Python项目实战篇——常用验证码标注识别(前端+后端实现高效率数据标注)
Python项目实战篇——常用验证码标注识别(数据采集/预处理/字符图切割)
Python项目实战篇——常用验证码标注和识别(需求分析和实现思路)
之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬虫+数据分析:手把手教你用Python网络爬虫获取B站UP主10万条数据并用Pandas库进行趣味数据分析。
一、背景引入
一提到B站,第一印象就是视频,相信很多小伙伴和我一样,都想着去利用网络爬虫技术获取B站的视频吧,但是B站视频其实没有那么好拿到的,关于B站的视频获取,之前有介绍通过you-get库进行实现,感兴趣的小伙伴可以看这篇文章:You-Get就是这么强势!。
言归正传,经常在B站上学习的小伙伴们可能经常会遇到有的博主连载几十个,甚至几百个视频,尤其像这种编程语言、课程、工具使用等连续的教程,就会出现选集系列,如下图所示。
当然这些选集的字段我们肉眼也是可以看得到的。只是通过程序来实现的话,可能真没有想象的那么简单。那么这篇文章的目标呢,就是通过Python网络爬虫技术,基于selenium库,实现视频选集的获取。
二、具体实现
这篇文章我们用的库是selenium,这个是一个用于模拟用户登录的库,虽然给人的感觉是慢,但是在网络爬虫领域,这个库还是用的蛮多的,用它来模拟登录、获取数据屡试不爽。下面是实现视频选集采集的所有代码,欢迎大家亲自动手实践。
#coding:utf-8fromseleniumimportwebdriverfromselenium.webdriver.