所在的位置: python >> python前景 >> python爬虫高级功能

python爬虫高级功能

1、解析robots.txt

这个robots.txt文件中说:对于BadCrawler这样的代理用户是禁止浏览本站点的。

我们现在使用这个Python自带的robotparser模块测试一下:

上面测试说明,如果将爬虫程序的代理用户设置为:BadCrawler

由于你访问的目标站点已经警告你了:“我们禁止用户代理为BadCrawler的用户访问本站点里面的所有网站”。所以,我们用robotparser模块创建的对象,通过rp.can_fetch(user_agent,url)函数返回:False。

在can_fetch()函数前面的一堆都是初始化,can_fetch()函数是在程序里面使用,它的功能:确定指定的用户代理是否允许访问网页。




转载请注明:http://www.aierlanlan.com/cyrz/6834.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了