本文源自:《TheonlinecoursesyoumusttaketobeabetterDataScientist》
作者:DavidAdriánCaones
翻译:Anny
故事要从很久以前说起,年我开始学习数据科学,最初目的是为了满足雇主的需要。我在一家为西班牙公司提供自动化服务的公司工作,需要利用数据来自动化那些规则不容易硬编码的复杂任务。当时的我刚从一场可怕的经济危机中毕业,作为一名工程师,有一些统计建模的知识,可以熟练使用MATLAB。
年的时候没有专门的数据科学学位、训练营和获得最近研究的途径,至少在西班牙没有。那时候,数学家大多集中精力于成为一名公共教育系统的教师或是教授,而软件工程师大部分相比较枯燥的数据科学,更偏向于应用开发或创造类似于Uber的新“X”。
在这种情况下,大多数数据科学从业人员都是一群刚毕业的学生,他们大多都有定量学位(许多来自不同部门的工程师,以及经济学和类似学位的人)。在这个背景下,我找到了一些对我大有助益的珍贵网络资源,从长远来看,也让我成为了今天(年)更好的数据科学家。
免责声明
在线课程不会让你成为数据科学家。要成为一名数据科学家,你需要以下几方面的结合:
一个定量的学位(非必须但大有帮助)。有使用工具和技术的实用知识。这些可以从训练营习得,就像我和佩德罗教的。有实际项目和相关项目的实践经验。这是这个列表中最重要也是最难做到的一点。氛围,周围都是优秀的专业人士。正如我以前的老板曾经告诉我的:如果你是房间里最聪明的人,你应该开始担心了。对数据科学工作有很好的理解,包括数据结构、系统和算法如何工作的理论知识。
最后一点是这篇文章的重点。我将在这里向你们展示的在线课程是那些专注于获取数据科学的理论基础的课程,以及这些课程有一些共同的特点:
并不是那种典型的训练营迷你课程,你可以在通勤的一小时内完成。这些课程又长又难,必须投入时间成本。由顶尖大学的优秀教授授课。被公司、招聘人员等认可。这些课程是不会让你成为一个数据科学家,但是当你练习你的技能与实际项目,学习所需的工具,等等,这些课程将会为你的成功的基础数据科学家从长远来看,将你除了平庸的数据科学家训练机器学习模型和编写代码,但不知道真正发生了什么和为什么。
“这篇文章不是由这些课程赞助的!”
记住这一点很重要。与其他推荐数据科学课程的帖子和列表相反,这篇文章对你有两个好处:首先我已经完成了这里列出的每一门课程,我推荐它们的理由是,基于我的个人经验,它们是值得的。每门课程我都会附上相应的证书来证明我的话,虽然并没有人会给我送钱。
课程推荐
那么就进入我们今天的正题,我们按照时间顺序一一来介绍
1.IntroductiontoComputerScienceandProgrammingUsingPython
使用Python的计算机科学和编程简介
这是麻省理工学院埃里克·格里姆森(EricGrimson)教授的一门非常优秀的课程。基于我已经有一些MATLAB经验,作为数据科学家的首要目标之一就是学习Python。我上这门课程时,内容是针对Python2编写的,最近已更新为Python3。
这门课程的有趣之处在于它引入了计算机科学的重要概念,这些概念通常被许多数据科学家抛诸脑后,比如数据结构,计算复杂度(大O符号ComputationalComplexity(BigOnotation)),面向对象编程,演算法,递归。
如果您是经验丰富的数据科学家但不具备Python知识,这个课程是不错的选择,且它现在是标准课程。
2.IntroductiontoComputationalThinkingandDataScience
计算思维与数据科学导论
这是上一课程的进阶学习。重视应用于统计的编程,内容对许多模拟进行编码,生动有趣。
3.TheAnalyticsEdge
分析相关
这是DimitrisBertsimas教授的一门好课,着重于将机器学习算法和优化算法结合在一起,并使用ggplot进行可视化。内容包括线性模型、决策树、随机森林、聚类(k均值)、线性规划、一些NLP(如今有些过时)另外需要注意的是所有内容均以R语言教授。
4.MachineLearning
机器学习
本课程无需介绍,可能是有关机器学习的最著名的课程,并且是过去几年有关ML大肆宣传的大功臣。
此课程由斯坦福大学的著名教授兼AI倡导者AndrewNg教授。课程非常出色,重点在于介绍最流行的机器学习算法,包括其数学基础。这是该领域最有价值的课程之一。
早在年,该课程就使用MATLAB/Octave进行了教授。最近已更新为Python。
5.LearningFromData
数据所学
加州理工学院的YaserS.Abu-Mostafa教授撰写的这门有趣的课程非常深入地介绍了什么是统计学习,为何可行以及如何以正确的方式进行学习,其中涵盖了偏差权衡,过度拟合,正则化等深入方面,验证,归纳理论等。它以理性而严谨的方式解释了机器学习的基础,不推荐那些没有数学背景的人学习。
其内容基于同名书:
6.DeepLearningSpecialization
深度学习专业化
这是AndrewNg教授及其新的教育事业deeplearning.ai的深度学习专业知识,也是当今该领域最有价值的证书之一。
这是一门长期的专业课程,有5门课程专门针对神经网络,这是当今最重要的算法之一,也是处理非结构化数据(图像,声音,文本,视频等)的最佳方法。从第一门课程中的神经网络的基础和数学到超参数调整,项目计划和策略,卷积架构,最后是序列模型架构。这些课程具有高度结构化,严格和基础性以及实用性,并具有许多实际用例。
以上是我推荐的最优质的课程。
当然并不是我开始从事该领域以来完成课程的全部。我永远在学习着课程,有时甚至同时修两种。尽管有时会涉及其他主题的知识,例如城市设计,能源等,但大多数都是关于数据科学的。如果有兴趣,也许我会在另一篇文章中介绍这个主题。
接下来课程虽然不足以被列入上面的课程推荐但仍非常值得一看:
1.IntroductiontoDeepLearning
深度学习简介
这是莫斯科高等经济学院的一门课程。上面未列出,因为它非常广泛且结构性不强,但某种角度来讲广泛也可以是其优势之一。
如果您正在寻找深度学习的简短介绍,其中涉及很多架构而又不十分