数据分析Python数据分析学习路线

数据分析人人都有必要掌握一点,哪怕只是思维也行。下面探讨Python数据分析需要学习的知识范畴,结合自己的经历和理解,总结的学习大纲,有些章节带有解释,有些没有。当然,关于学习范畴,可能每个人的理解都不太一样,以下仅供参考。

1数据分析思维

数据分析属于分析思维的一个子类,有专门的数据方法论。只有先养成正确的分析思维,才能使用好数据。

大多数人的思维方式都依赖于生活和经验做出直觉性的判断,最直观的体现是,在数据和业务分析中有时无从下手。

什么是好的分析思维?

用两张在网络上流传甚广的图片说明

思维模式(图片来源网络)

对应以下两种思维:

我们12月的销售额度下降,我想是因为年终的影响,我问了几个销售员,他们都说年终生意不太好做,各家都收紧了财务预算,谈下的几家费用也比以前有缩水。我对他们进行了电话拜访,厂家都说经济不景气,希望我们价格方面再放宽点。

我们12月的销售额度下降,低于去年同期和今年平均值,可以排除掉大环境的因素。其中A地区下降幅度最大,间接影响了整体销售额。通过调查发现,A地区的市场因为竞争对手涌入,进行了低价销售策略。除此之外,B地区的经济发展低于预期发展,企业缩减投入。

第一个分析思维是依赖经验和直觉的线性思维,第二个分析思维则注重逻辑推导,属于结构化的思维。两种思维往往会导致不同的结果。

1.1金子塔原理

麦肯锡思维中很重要的一条原理叫做金字塔原理,它的核心是层次化思考、逻辑化思考、结构化思考。

1.1.1什么是金字塔?

任何一件事情都有一个中心论点,中心论点可以划分成3~7个分论点,分论点又可以由3~7个论据支撑。层层拓展,这个结构由上至下呈金字塔状。

1.1.2结构化思维金字塔(图片来源网络)1.1.3核心法则:MECE

金字塔原理有一个核心法则MECE,全称MutuallyExclusiveCollectivelyExhaustive,论点相互独立,尽可能多的列举。

1.1.4假设先行

首先得有一个思考作为开始。这是什么意思?因为金字塔是从上而下,需要有一个中心论点,也就是塔尖。我们可以先提出一个问题,比如此产品的核心功能是某某功能吗?

1.2二八法则1.2.%的分析过程决定80%的分析结果1.2.2抓住关键因素

以上节选的两个分析思维,都能在麦肯锡问题分析与解决技巧中找到原型,感兴趣的可查看下面这本书。

2数据获取

2.1大数据平台提取

各个公司都可能有自己专属的大数据平台,进入公司要首先掌握如何从这上面拿去我们需要的业务数据

2.2第三方服务接口

合作企业或公司购买的服务接口,我们可以直接调用拿到数据。

2.3开源公开数据集

推荐一些数据集

2.4爬虫爬取网站数据

python的常用包:

requests

json

BeautifulSoup

requests库就是用来进行网络请求的,说白了就是模拟浏览器来获取资源。

由于我们采集的是api接口,它的格式为json,所以要用到json库来解析。

BeautifulSoup是用来解析html文档的,可以很方便的帮我们获取指定div的内容。

3数据存储

3.1SQL分组,聚合,多表join操作

groupby,aggregate,join操作

join操作可参考Python与算法社区


转载请注明:http://www.aierlanlan.com/rzfs/148.html