这个robots.txt文件中说:对于BadCrawler这样的代理用户是禁止浏览本站点的。
我们现在使用这个Python自带的robotparser模块测试一下:
上面测试说明,如果将爬虫程序的代理用户设置为:BadCrawler
由于你访问的目标站点已经警告你了:“我们禁止用户代理为BadCrawler的用户访问本站点里面的所有网站”。所以,我们用robotparser模块创建的对象,通过rp.can_fetch(user_agent,url)函数返回:False。
在can_fetch()函数前面的一堆都是初始化,can_fetch()函数是在程序里面使用,它的功能:确定指定的用户代理是否允许访问网页。