代理ip池是进行爬虫工作必不可少的工具,今天进行简易的爬虫代理ip池的维护,不用过多的配置,从程序到网站的爬虫列表,操作的步骤执行抓取-存入-检测-爬取一保证采集的时候可以正常的使用。
两个线程,一个用于服务器的对外地提供的代理ip使用,另一个用于维护代理ip使用。
1、线程
(1)的HTTP服务,使用URL的参数以便进行数据库的筛选,符合条件的代理以json格式返回。
加入代理ip池的ip都设置了过期的时间,要检测代理ip的能否可以进行操作,去检测代理ip的过期时间。
2、线程2
清除掉过期时间的ip。