本文介绍的学习路线使用的是当下主流数据分析挖掘编程语言Python来掌握数据挖掘的实际工作能力与认识水平。按照1)基础理论→2)编程能力→3)挖掘应用→4)大数据实践的学习流程来设置,完全适合小白从零基础学习并成为合格的数据挖掘工程师。就业方向适用于金融、保险、证券以、互联网以及人工智能等对数据应用需求度高的行业。
适合从事数据分析、挖掘零基础的同学,对于Python数据分析、挖掘感兴趣的同学。
第一阶段.首先要了解统计学与挖掘算法的基础,建议用8天的时间去学习。
学习重点:统计学基础与算法基础是做数据挖掘的理论基础,需要具备对理论的理解与各种统计方法、数据结构、算法的掌握,统计学掌握聚类、回归、方差、正态分布、条件假设与随机变量等。算法需掌握常用数据结构,栈,队列,链表,树,举证与图等。
01.统计学基础理论27课
02.算法导论视完整版15课
第二阶段.接下来要熟悉Python编程基础,并熟练运用,建议用10天时间去学习。
学习重点:掌握Python数据变成基础,对于python的安装配置,开发环境的搭建,需要掌握windows与linux两个系统的环境搭建,理解并掌握python的数据结构、函数、面向对象编程。对于python的文本操作,数据库操作。了解python常用扩充包,提高开发效率。
01.Python编程基础23课
02.Python进阶之入门到精通22课
第三阶段.重点在数据分析与挖掘编程上实战练习,建议用15天的时间去学习。
学习重点:Python语言在对于数据处理,数据挖掘算法实现上有着很大优势,重点掌握如何使用python语言来是现实抽样、邻近度聚类、回归、预测分析等数据挖掘中常见的应用,并理解课程中实际案例:天气预测、信用评级与风险管理等。对于数据挖掘在量化交易中的应用以及文本挖掘中的应用,是常见的应用场景,需要掌握其技术实现方法与建模。
01.Python数据分析和数据挖掘实战12课
02.数据挖掘量化交易实战演练10课
03.数据挖掘之文本挖掘与自然语言处理12课
第四阶段.大数据数平台数据挖掘应用,建议用10天的时间去学习
学习重点:在实际工作中,公司往往是提供大数据云计算平台,在现有的大数据平台基础上进行数据挖掘,所以会要求数据挖掘工作者具备大数据平台的实操经验,所以有必要学习了解常见的hadoop、rapidminer、mahout、hive数据仓库这样的大数据环境,并能使用大数据平台提供的数据挖掘工具来完成项目实现公司决策支持需求。
01.深入浅出大数据挖掘技术5课
02.RapidMiner大数据挖掘平台应用14课
03.hadoop家族Mahout数据挖掘平台应用28课