python爬虫高级功能

1、解析robots.txt

这个robots.txt文件中说：对于BadCrawler这样的代理用户是禁止浏览本站点的。

我们现在使用这个Python自带的robotparser模块测试一下：

上面测试说明，如果将爬虫程序的代理用户设置为：BadCrawler

由于你访问的目标站点已经警告你了：“我们禁止用户代理为BadCrawler的用户访问本站点里面的所有网站”。所以，我们用robotparser模块创建的对象，通过rp.can_fetch(user_agent,url)函数返回：False。

在can_fetch()函数前面的一堆都是初始化，can_fetch()函数是在程序里面使用，它的功能：确定指定的用户代理是否允许访问网页。

下一篇文章：没有了