python做爬虫,如何避免牢狱之灾

随着数据资源的爆炸式增长,网络爬虫的应用场景和商业模式变得更加广泛和多样,网络爬虫技术为数据收集者提供了极大的便利,也给专业网络爬虫公司带来巨大的收益。但是与之相伴的是许多人好奇的一件事——爬虫是否违法?

关于这个问题,一直都是比较难定性的,因为爬虫本身只是个工具,就和菜刀一样,所以很多人都拿菜刀无罪论、技术无罪论来为爬虫辩护。那么,爬虫到底犯不犯法?作为一个程序员,如何避免这些坑呢?本文就为大家介绍一下程序员怎么跳出这些坑。

基本可以确定的是,如果爬虫使用不当,那么爬虫的开发者是有可能触犯法律的,而根据情况不同,获得的刑罚也有可能有差异。要看开发和使用爬虫是否犯法,需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下:

一、爬什么数据犯法?

1、高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;

2、敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;

3、其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪1]槛的信息数量越少。

二、怎么爬犯法?

如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:

未遵守Robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。

如何查看采集的内容是的有rebots协议?其实方法很简单。你想查看的话就在IE上打


转载请注明:http://www.aierlanlan.com/rzfs/4583.html