数据分析人人都有必要掌握一点,哪怕只是思维也行。下面探讨Python数据分析需要学习的知识范畴,结合自己的经历和理解,总结的学习大纲,有些章节带有解释,有些没有。当然,关于学习范畴,可能每个人的理解都不太一样,以下仅供参考。
1数据分析思维
数据分析属于分析思维的一个子类,有专门的数据方法论。只有先养成正确的分析思维,才能使用好数据。
大多数人的思维方式都依赖于生活和经验做出直觉性的判断,最直观的体现是,在数据和业务分析中有时无从下手。
什么是好的分析思维?
用两张在网络上流传甚广的图片说明
思维模式(图片来源网络)
对应以下两种思维:
我们12月的销售额度下降,我想是因为年终的影响,我问了几个销售员,他们都说年终生意不太好做,各家都收紧了财务预算,谈下的几家费用也比以前有缩水。我对他们进行了电话拜访,厂家都说经济不景气,希望我们价格方面再放宽点。
我们12月的销售额度下降,低于去年同期和今年平均值,可以排除掉大环境的因素。其中A地区下降幅度最大,间接影响了整体销售额。通过调查发现,A地区的市场因为竞争对手涌入,进行了低价销售策略。除此之外,B地区的经济发展低于预期发展,企业缩减投入。
第一个分析思维是依赖经验和直觉的线性思维,第二个分析思维则注重逻辑推导,属于结构化的思维。两种思维往往会导致不同的结果。
1.1金子塔原理麦肯锡思维中很重要的一条原理叫做金字塔原理,它的核心是层次化思考、逻辑化思考、结构化思考。
1.1.1什么是金字塔?任何一件事情都有一个中心论点,中心论点可以划分成3~7个分论点,分论点又可以由3~7个论据支撑。层层拓展,这个结构由上至下呈金字塔状。
1.1.2结构化思维金字塔(图片来源网络)1.1.3核心法则:MECE金字塔原理有一个核心法则MECE,全称MutuallyExclusiveCollectivelyExhaustive,论点相互独立,尽可能多的列举。
1.1.4假设先行首先得有一个思考作为开始。这是什么意思?因为金字塔是从上而下,需要有一个中心论点,也就是塔尖。我们可以先提出一个问题,比如此产品的核心功能是某某功能吗?
1.2二八法则1.2.%的分析过程决定80%的分析结果1.2.2抓住关键因素以上节选的两个分析思维,都能在麦肯锡问题分析与解决技巧中找到原型,感兴趣的可查看下面这本书。
2数据获取
2.1大数据平台提取各个公司都可能有自己专属的大数据平台,进入公司要首先掌握如何从这上面拿去我们需要的业务数据
2.2第三方服务接口合作企业或公司购买的服务接口,我们可以直接调用拿到数据。
2.3开源公开数据集推荐一些数据集
2.4爬虫爬取网站数据python的常用包:
requests
json
BeautifulSoup
requests库就是用来进行网络请求的,说白了就是模拟浏览器来获取资源。
由于我们采集的是api接口,它的格式为json,所以要用到json库来解析。
BeautifulSoup是用来解析html文档的,可以很方便的帮我们获取指定div的内容。
3数据存储
3.1SQL分组,聚合,多表join操作groupby,aggregate,join操作
join操作可参考Python与算法社区