你想用Python做机器学习,但你在入门时遇到了麻烦吗
在这篇文章中,你将使用Python完成你的第一个机器学习项目。
在这一步一步的教程中,你将:
下载并安装PythonSciPy,获取Python机器学习最有用的包。
加载数据集并使用统计摘要和数据可视化理解它的结构。
创建6个机器学习模型,选择最好的,建立准确性可靠的信心。
如果您是一个机器学习初学者,并希望最终开始使用Python,那么本教程就是为您设计的。
让我们开始吧
年1月/年1月更新:更新以反映scikit-learnAPI在0.18版本中的变化。
年3月/更新:添加帮助设置Python环境的。
年4月更新:增加了一些关于随机性和预测的有用链接。年9月/9月更新:添加到我自己托管版本的数据集的链接。
年2月/2月更新:更新sklearnv0.20,也更新了地块。
年10月/10月更新:在最后添加了额外教程的链接,以便继续。
年11月/11月更新:为每个部分添加了完整的代码示例。
年12月/12月更新:更新示例以删除v0.22中API变化引起的警告。
年1月更新:更新到删除测试工具的代码片段。
如何用Python开始机器学习?
学习机器学习的最佳方式是通过设计和完成小型项目。
入门时,Python可能会令人生畏
Python是一种流行的、功能强大的解释语言。与R不同,Python是一种完整的语言和平台,可以用于研究和开发以及开发生产系统。
还有许多模块和库可供选择,为完成每个任务提供了多种方法。它会让人感到难以承受。
开始使用Python进行机器学习的最佳方式是完成一个项目。
它将迫使您安装并启动Python解释器(至少如此)。
它将给你一个鸟瞰如何逐步完成一个小项目。
它会给你信心,也许会让你继续自己的小项目。
初学者需要一个小的端到端项目
书本和课程令人沮丧。他们给你很多食谱和片段,但你永远看不到它们是如何组合在一起的。
当您将机器学习应用到您自己的数据集时,您正在处理一个项目。
一个机器学习项目可能不是线性的,但它有一些众所周知的步骤:
定义问题。
准备数据。
评估算法。
改善的结果。
现在的结果。
真正适应新平台或工具的最好方法是端到端地完成一个机器学习项目,并涵盖关键步骤。即,从加载数据,总结数据,评估算法和做出一些预测。
如果您能做到这一点,您就有了一个可以在一个又一个数据集上使用的模板。一旦您有了更多的信心,您就可以在以后填补空白,比如进一步的数据准备和改进结果任务。
你好,机器学习的世界
在一个新工具上开始一个最好的小项目是鸢尾花的分类(例如鸢尾数据集)。
这是一个很好的项目,因为它被很好地理解。
属性是数值型的,所以您必须弄清楚如何加载和处理数据。
这是一个分类问题,允许您用一种更简单的监督学习算法来练习。
这是一个多类分类问题(多名义),可能需要一些专门的处理。
它只有4个属性和行,这意味着它很小,很容易装入内存(以及一个屏幕或A4页面)。
所有的数值属性都在相同的单位和相同的比例中,开始时不需要任何特殊的比例或转换。
让我们从Python中的helloworld机器学习项目开始吧。
Python中的机器学习:分步教程
(从这里开始)
在本节中,我们将完成一个端到端的小型机器学习项目。
以下是我们将要讲的内容的概述:
安装Python和SciPy平台。
加载数据集。
总结数据集。
可视化数据集。
评估一些算法。
做一些预测。
1.下载,安装和启动PythonSciPy
在系统上安装Python和SciPy平台(如果还没有安装的话)。
我不想详细讨论这个问题,因为其他人已经这样做了。这已经非常简单了,特别是如果您是开发人员的话。如果你确实需要帮助,请在评论中提问。
1.1安装SciPy库
本教程假设Python版本为2.7或3.6以上。
您需要安装5个关键库。下面是本教程所需的PythonSciPy库列表:
scipynumpymatplotlibpandassklearn安装这些库的方法有很多。我的最佳建议是选择一种方法,然后在安装每个库时保持一致。
scipy安装页面提供了在多个不同平台(如Linux、macOSX和Windows)上安装上述库的详细说明。如果您有任何疑问或问题,请参阅本指南,它已经被成千上万的人遵循。
在MacOSX上,可以使用macports安装Python3.6和这些库。有关macports的更多信息,请参见主页。
在Linux上,您可以使用包管理器,比如Fedora上的yum来安装rpm。
如果你使用的是Windows系统,或者你不太自信,我建议你安装Anaconda的免费版本,它包含了你需要的所有东西。
注意:本教程假设您已经安装了scikit-learn0.20或更高版本。
1.2启动Python并检查版本
确保Python环境已成功安装并按预期工作是一个好主意。
下面的脚本将帮助您测试环境。它导入本教程中需要的每个库并打印版本。
打开命令行并启动python解释器:
python
我建议直接在解释器中工作,或者编写脚本并在命令行上运行它们,而不是大型编辑器和ide。保持简单,