全文共字,预计学习时长12分钟
图源:unsplash用谷歌搜索“数据科学家的基本技能”,搜索结果的前几位是一长串技术术语,叫做硬技能,包括Python、代数、统计和SQL等最普遍的技能。然后是软技能,包括沟通能力、商业头脑、团队合作能力等。
假设你是具备以上所有能力的超人,从五岁起就开始写代码,是一位Kaggle大师,你的会议论文必将获得最佳论文奖。但你的项目仍然极有可能难以达到成熟并成为完全合格的商业产品。
最近的研究估计,超过85%的数据科学项目无法投入生产。一些研究提出了许多失败的原因。笔者甚至从未把所谓的基本技能作为潜在的原因。
是上面的技能不重要吗?当然不是。硬技能和软技能都至关重要。关键是它们是必要的,但仅仅掌握这些还不够。此外,它们很受欢迎,出现在每条谷歌搜索中。因此,你可能已经知道自己是否需要提高数学水平或团队合作能力。
笔者想谈谈对现在流行的硬技能和软技能起补充作用的技能,可称之为工程技能。在与真正的客户一起构建真正的产品时,它们会极其有用。遗憾的是,数据科学家们很少学习工程技能,这有助于丰富行业经验。但大多数初级数据科学家缺少这些技能。
工程技能与数据工程领域无关。用“工程技能”这个词来将其与纯粹的科学或研究技能进行区分。《剑桥词典》里对于engineering(工程)的解释是“运用科学原理来设计和建造机器、结构和其他物品。”
本文中,工程是将科学转化为产品的促成因素。如果没有合适的工程技能,模型将继续在预定义的数据集上运行。但他们永远也无法找到真正的顾客。
重要却经常被忽视的技能包括:
1.简单性。确保你的代码和模型是简单的,但不是过分简单化的。
2.鲁棒性。你的假设是错误的。做个深呼吸,继续编码。
3.模块化,分而治之。深入研究最小的问题,然后找到一个开源解决它。
4.采摘果实。不要只