为什么要学习数据分析?
「过去」以往在增量时代,每天都有新的领域、新的市场被开发。尤其是在互联网、电商等领域的红利期,似乎只要做好单点的突破就能获得市场。这个蛮荒时代,业务运营主要依靠是经验和直觉驱动。比如跨境电商领域初期,凭借世界工厂平台的优势,国内厂家似乎只需基于经验选品即可大卖。
「现在」但是随着规则的成熟,更多玩家的进入,市场从蓝海变为红海,进入到存量期,仅靠经验驱动的增长模式不再有效。还是拿跨境电商举例,由于卖家的剧增,海外市场的饱和,跨境电商就进入存量运营时代,已经不存在绝对的蓝海市场,每个细分领域都有许多竞争对手。此时,要求商家从粗放运营转为精细化运营,也就是用数据分析报告决定市场是否值得投入,用数据选品,用数据做经营分析,用数据库存管理。
当然,不是说纯定量的数据分析决定了一切,经验就不重要了。而是说在决策的过程中,数据结论占据的比例与以往相比更大,同时业务经验也是必不可少的部分。
「未来」互联网逐渐成为“传统行业”的未来,人工智能、元宇宙等由数据驱动的行业越来越依赖数据分析。还有众多制造业亟待数字化转型,以期在全球供应链中提高制造环节的附加值。也就是说,在未来,数据驱动业务将更频繁。
数据分析的底层逻辑数据分析的本质是「沙盘演练」:战场上,指挥员们在指挥部的地形模型前「推演」敌我双方的趋势确定作战方案;商场上,管理层通过数据间的运算关系「推断」运营的发展进而做决策。
基于这样的定义可以知道数据分析的目的是为了做对当下运营发展有利的决策,那它是如何做到的呢?为了解答这个问题,可以从前面的定义中引申出几个关键概念:数据,运算关系,推断,决策。
什么是数据?最通用的理解,数据是被存储起来的信息。从应用的角度,数据是把事物做量化处理的工具,万物皆可数据化:数值数字是数据,文本、图像、视频等同样都是数据。
按字段类型划分,可以把数据分为:
文本类:常用于描述性字段,如姓名、地址、备注等数值类:最为常见,用于描述量化属性,如成交金额、商品数量等时间类:仅用于描述时间发生的时间,是重要的分析维度(如同比、环比、累计等)按结构划分,可以把数据分为:
结构化数据:通常指关系数据库方式记录的数据半结构化数据:如日志、网页数据非结构化数据:指语音、图片、视频等形式的数据根据数据连续的属性不同,还可以分为:
连续型数据:在任意区间可以无限取值,比如年龄、身高离散型数据:常见的分类数据,比如性别、年级数据间的「运算关系」孤立的数据往往没有参考价值,比如量化一个人,身高是cm,并不能意味什么。比如网易云音乐的用户,每个用户的年龄是数据,对使用产品的人群年龄进行分段比如18-24岁,该年龄段人数占比的指标对网易云音乐来说才有价值。从数据到指标的计算过程,就是数据间的「运算关系」,也叫「指标」。
指标的作用在于「度量」业务的发展:
比如用户指标,度量用户业务的发展,用户数比如产品指标,度量产品业务的发展,比如经营指标,度量业务的发展,销售额、毛利率、ROI等这些指标(点)通过一定的结构可以编织而成指标体系(线、面)衡量局部、甚至是全局的业务。
「推断」业务的发展「沙盘演练」中,指挥员通过军事沙盘上的地形,及敌我双方的工事、兵力部署、火器配置等情况,分析敌情,制定作战方案。数据把现实中的运营抽象到数字世界中,通过指标体系,应用各种分析方法(业务分析、产品分析、用户分析、经营分析......),帮助经营做决策。
如何做决策?赵括熟读兵书,却不能活用,沦为纸上谈兵的笑话。所以获得分析能力后,不能照本宣科,要结合实际业务场景做决策。
数据分析落地涉及流程创新、变革管理,用新的思维解决业务问题。但这个过程并不是强迫变革,需要借助对业务的理解及软性的能力来使分析平滑落地。
如何开始?站在“前人”的肩膀上,可以走得更远。饼干哥哥根据多年数据分析工作经验沉淀出了数据分析师能力模型,跟着它“按图索骥”,补充自身缺失的能力,最终形成独立、落地的数据分析能力。
数据分析师能力模型完整的数据分析师能力体系应该包括底层认知、业务场景及能力三板斧。
底层认知在建立数据分析思维之前,应该先在底层认知达成共识。什么是认知?是对事物底层逻辑的了解,是对是世界万物的判断,认知的本质就是做决定。也就是说,为了帮助数据分析中每个决策的有效性(选择什么指标、分析方法?接下来做什么?等等),需要先建立底层认知。
这一步,我们需要去明确数据分析的定义:数据分析是什么?目的/产出?分析流程?
数据分析是什么同学们在求职过程中会发现,同样是数据分析师岗位,但是面试的内容千差万别,有考察机器学习、统计学等专业能力的,也有考察市场/行业分析的,还有考察产品分析的。此时就有同学问,这些真的是数据分析该做的吗?
我们从字面上拆解,数据分析=数据×分析,进一步拆:
数据能力=统计学∪机器学习∪建模能力∪工具使用∪...分析能力=经营分析∪用户分析∪产品分析∪...这就是认知上的偏差:当一些同学认为数据分析就是用Excel做表、python写脚本、机器学习建模时(其实这些只是组成数据分析能力的一部分),求职市场对数据分析师的要求更为完整。
回过头来看,数据分析到底是什么?笔者认为,数据分析是一个过程,是利用数据能力做分析的过程:从发现问题、分析原因,到落地建议;这还是一个“解构”的过程:从整体拆到局部,从一般到特殊,从面到线到点,不断下钻剖析,找到具体可落地的点。
数据分析产出是什么?了解完什么是数据分析后,深入思考一个问题:这个过程的最终产出的交付物是什么?
要回答这个问题,我们需要回到数据分析的本质:解决业务问题。也就是回到业务层面的需求是什么,才能决定最后落地交付物:
1.解决问题最常见的数据分析场景,就是业务发现销售额下降、用户流失、产品跳失率高,也就是业务层面出现了一个问题待解决,此时需要数据分析师介入帮助从数据层面挖掘原因、给出解决建议。
分析过程可能是做一些探索性数据分析、统计分析、机器学习建模,甚至是做AB测试实验,最终交付分析报告,或者模型部署上线。
2.理解现象有时业务可能并不存在确切的“问题”,更多旨在通过加深对现有场景的理解,来提高现有业务模型、策略的效果;比如,现在业务使用的是客单价平均值将客户分为高、低两个人群进行营销,此时数据分析师通过对消费者的洞察分析,给予更精准的人群划分方案:利用客单价分位数,将客户分为三个人群,这样业务利用更新后的策略进行营销设计,提高转化效果。
分析过程可能是做相关分析、回归分析,甚至是无监督的聚类,来对现状进行解释。
3.支持诊断按照需求的时效性,可以把业务需求分为临时需求和常规需求,而前面两者属于业务的临时需求,或者说是专项分析需求。对于常规需求,主要旨在提高业务流程的效率,比如对于电商运营中的商品库存管理业务,运营需要及时查询库存情况,并结合销售趋势对低库存量的商品进行补单;此时,数据分析师可以通过交付“低库存预警报表”来帮助优化该流程效率。
支持诊断的内容主要集中在自动化的报表,甚至是商业智能(BI)体系的搭建。
4.探索发现如果说前面是基于已知模式的分析,那么业务中还存在一种需求,就是对未知的探索。最为典型的场景则是对市场、对消费者的洞察后,给出品牌及业务增长的策略。
分析过程更多是基于行业、基于市场,使用如PEST、SWOT、波特五力等商业分析模型。
分析生命周期至此,我们知道了数据分析是什么,以及最终的产出交付物,那这个过程如何实现的呢?从落地的角度来看,数据分析是一个从发散到收敛的过程:业务理解-数据探索-分析模型-落地交付-产品生命周期
业务理解数据分析是从业务到数据再回到业务的过程,所以理解业务是数据分析的起点。
1.业务场景“无场景不分析”、“脱离业务场景的分析都是耍流氓”等资深数据分析师的建议无不说明业务场景的重要性。数据分析能力模型中的业务场景模型:用户-产品-场景,就是为了帮助读者理解业务场景而设计的,在这里不赘述。
2.问题定义不知道读者有没这样的体验?就是领导交代任务给你,或者是朋友有求于你时,执行力强的人很快就完成了任务请求,但是最后却被告知这结果并不是对方想要的?这种情况很常发生在初入数据分析岗位的新同学身上,原因归根结底就是没有做好问题定义!
在理解了需求所处的业务场景后,可以借助逻辑树工具来对问题进行拆解,拆解的过程尽量要遵循MECE、“相互独立,完全穷尽”的金字塔原理。
3.预期价值其实,很多企业都在讨论数据分析师的价值在哪?从这一现象可以看出数据分析师需要时刻