有时候我们的抓取项目时需要登陆到某个网站上,才能看见某些内容的,所以模拟登陆功能就必不可少了。
1.使用selenium库实现模拟登陆
selenium是进行自动化测试的一种库,配合浏览器相对应的webdriver,可以模拟浏览器行为登录知乎,大大方便、简化了登录操作
2.使用已知的cookie访问
先使用浏览器登录。再打开开发者工具,转到network选项卡。在左边的Name一栏找到当前的网址,选择右边的Headers选项卡,查看RequestHeaders,这里包含了该网站颁发给浏览器的cookie。对,就是后面的字符串。把它复制下来,一会儿代码里要用到。
.使用scrapy框架模拟登陆
Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含request(异步调度和处理)、下载器(多线程的Downloader)、解析器(selector)和twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。