python做爬虫,如何避免牢狱之灾

随着数据资源的爆炸式增长，网络爬虫的应用场景和商业模式变得更加广泛和多样，网络爬虫技术为数据收集者提供了极大的便利，也给专业网络爬虫公司带来巨大的收益。但是与之相伴的是许多人好奇的一件事——爬虫是否违法？

关于这个问题，一直都是比较难定性的，因为爬虫本身只是个工具，就和菜刀一样，所以很多人都拿菜刀无罪论、技术无罪论来为爬虫辩护。那么，爬虫到底犯不犯法？作为一个程序员，如何避免这些坑呢？本文就为大家介绍一下程序员怎么跳出这些坑。

基本可以确定的是，如果爬虫使用不当，那么爬虫的开发者是有可能触犯法律的，而根据情况不同，获得的刑罚也有可能有差异。要看开发和使用爬虫是否犯法，需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下：

一、爬什么数据犯法？

1、高度敏感信息，包括四种信息：行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动，由于定罪门槛最低，因此严格限制在此四类，不做任何扩展；

2、敏感信息，即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较，《解释》对第二类信息的界定仍留有空间，意味着在司法实践中，仍有可能会出现目前所列举之外的第二类信息类型；

3、其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息，达到定罪1]槛的信息数量越少。

二、怎么爬犯法？

如果是爬取公开的数据，通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。那么，到底怎么爬数据是有可能触犯法律的呢，主要考虑是否涉及以下两种行为：

未遵守Robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（RobotsExclusionProtocol），网站通过Robots协议告诉爬虫哪些页面可以抓取，哪些页面不能抓取。

如何查看采集的内容是的有rebots协议？其实方法很简单。你想查看的话就在IE上打