在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。本文将带你进入全球最大机器学习竞赛社区Kaggle,教你如何选择自己适合的项目,构建自己的模型,提交自己的第一份成绩单。
本文将介绍数据科学领域大家都非常关心的一件事。事先完成一门机器学习MOOC课程并对Python有一些基础知识有助于理解文本,但没有也没关系。本文并不会向大家展示令人印象深刻的成果,而是回顾基础知识,试图帮助初学者找到方向。
文章结构:
1.介绍
2.Kaggle综述
3.建立自己的环境
4.预测房价竞赛简介
5.加载和检查数据
6.我们的模型:决策树介绍、偏差-方差权衡、随机森林
7.预处理数据
8.整合并提交结果
介绍
目前,我们能在网上找到很多高质量的免费机器学习教程,如MOOC。一年以前,我在Udacity接触了「机器学习入门」课程,我认为它对于新手来说非常友好。在这里,我学到了机器学习基础概念、很多流行算法,以及scikit-learn的API。在完成课程以后,我非常希望学到更多,但陷入了短暂的迷茫。
在做完一番研究后,我认为下一步最优的选择是进军Kaggle,它是谷歌旗下的一个预测模型竞赛平台。没什么比自己动手进行实践更好了!
初次尝试Kaggle竞赛是很紧张刺激的,很多时候也伴随着沮丧(得到好成绩之后这种感觉似乎还加深了!),本文将着重介绍如何入门并开始你的第一场Kaggle竞赛,在这个过程中尽快成长。
Kaggle综述
房价竞赛登录页面。(如果你已经熟悉Kaggle网站了,本段可以跳过)
Kaggle上有两个最适合新手的竞赛(某种程度上已成为Kaggle的「入门教程」):
Titanic(预测生存:一种二元分类问题):