深度分析思维和数据科学魔法

很多时候,复杂的模型不足以(或太重)从数据中获得出色的、可持续的见解。深度分析思维可能会被证明更有用,它可以由不一定受过数据科学训练的人来完成,即使是编码经验有限的人也可以。在这里,我们将通过一个案例研究,探讨我们所说的深度分析思维是什么意思,以及它是如何工作的。这些技能通常是通过经验而不是通过培训获得的,而数据科学通才通常拥有它们。

本文的目标读者是数据科学决策者,以及希望在职业生涯的某个阶段成为数据科学经理和决策者的初级专业人士。与深度学习不同,深度思考也更难自动化。那些自动化的深度学习实际上是新的数据科学奇才,他们可以跳出思维定势。本文描述的大部分内容也是数据科学的魔法,不是在标准教科书中或课堂上讲授的。通过阅读本教程,您将学习并能够使用这些数据科学秘密,并可能改变您对数据科学的看法。数据科学就像一座冰山:每个人都知道并且能够看到冰山的一角(回归模型、神经网络、交叉验证、聚类、Python等等,如教科书中所述)。在这里,我将避免术语和复杂的数学公式,同时讨论一些高级概念。

1.案例研究:问题

这里研究的真实数据集是一个时间序列,包含周的观测值。数据点是某一特定网站在一段时间内每周平均每天的用户数。数据从GoogleAnalytics中提取,总结如下图。一些股市数据也显示了类似的模式。

数据和所有的详细计算都可以在最后一节提供的交互式电子表格中得到。下面是摘录。

商业问题

我们需要回答

访问用户数量是否随着时间的推移而增长,是否可以推断未来(以及如何推断)我们看到了怎样的增长(线性增长,或者比线性增长更快)我们是否能够解释这些下跌,并在未来避免它们。与任何行业一样,增长是由许多因素驱动的,因为每个部门都在尽力为增长做出贡献。也有不利于增长的因素,如市场饱和、市场下滑或竞争。所有的积极和消极力量结合在一起,可以创造一个稳定的、可预测的增长模式,无论是线性的、指数的、季节性的,还是组合的。利用中心极限定理,可以用高斯模型来近似。然而,在实践中,如果想要做出现实的预测并衡量增长的成本,那么更好的做法是识别这些因素,以获得更好的前景。

在深入研究第3部分(包括电子表格和计算)中的原始数据建模注意事项(数据科学魔法)之前,我们首先讨论一下深度分析思维。

2.深度分析思维

任何数据科学家都可以快速运行一个模型,并得出在第1节中讨论的案例中存在线性增长的结论,并据此做出预测。然而,如果我们在许多项目中经常看到的预测工作时间仅为3个月或更短,这可能对业务没有帮助。要维持经济增长,就需要对起作用的相反力量有更深刻的理解,以平衡和促进整体增长。也许这种增长终究不是好事。这就是深度分析思维发挥作用的地方。

当然,首先要考虑的是,这是否是一个关键的业务问题,是来自一位对其业务健康状况(甚至在经济繁荣时期尤其如此)心存疑虑的高管,还是与某个特定项目相关的事后分析。我们假定这是一个关键的战略问题。在实践中,数据科学家知道每个问题的重要性,并相应地用适当的深度思考和优先级来对待它们。我接下来讨论的内容适用于广泛的业务情况。

回答隐藏的问题

对于数据科学家来说,参与与数据相关的业务方面总是有益的(不仅仅是编码或实现机器学习模型)。对于小型企业来说尤其如此,这是数据科学的一个常常被忽视的方面。在大公司中,这涉及与各种团队合作。我们应该问的问题在下面分为三类:业务,数据和相关指标。

商业问题:

贵公司是否追求正确的增长方式?它是否在正确的细分市场中成长?增长是否朝着错误的方向发展?我们现在是否会吸引那些转换率低(低ROI)或流失率高(客户生命周期价值低,用户获取成本高)的受众。数据科学家能够很好地访问相关数据并对其进行分析以回答这个问题。高管们是否过于


转载请注明:http://www.aierlanlan.com/tzrz/4209.html