近年来,随着大数据时代的到来,新媒体信息传播平台的发展日新月异,人们开始习惯于利用碎片时间浏览社会新闻、娱乐八卦、时事政治,微博实时热搜榜已经逐渐成为人们获取热点的主要途径。实时热搜榜的形成不仅需要微博内部运行几亿的访问量,而且需要基于各个热点事件现有的曲线增长变化对其在榜单上的上升或下降趋势进行预测,这就不单是只依赖于Hadoop大数据技术的运转,还要通过机器学习来实现。人工智能的热议使得“机器学习”四个字对于很多人来说不再陌生,但能将“机器学习”与“大数据分析”结合探讨的书在市面上依然屈指寥寥。《Python+Spark2.0+Hadoop机器学习与大数据实战》的出现弥补了这一空缺。作者林大贵,从事IT行业多年,在系统设计、网站开发、数字营销、商业智慧、大数据、机器学习等领域具有丰富的实战经验。《Python+Spark2.0+Hadoop机器学习与大数据实战》将方兴未艾的“机器学习”和热门的“大数据分析”技术与应用在一本书中融会贯通地娓娓道来,体现了作者深厚的技术功底和丰富的经验。本书不是对原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范例程序详解,语言上浅显易懂,降低了读者学习“机器学习和大数据分析”的门槛。带领读者进入机器学习和大数据的领域。本书的所有范例程序都运用了流行的“胶水语言”Python进行了重新改写,非常接“地气”。本书与其他相关出版物偏重于理论教学和技术介绍不同的是,偏重于上机实践和自学非常适合“机器学习和大数据分析”的初学者和正在学习这个领域技术的人员作为学习和上机实践用的教材。本书使用Python开发Spark应用程序,具有多重优势。不仅可以享有Python语言特性所带来的好处,即程序代码简明、较易学习、高生产力等,再加上Spark基于内存的分布式计算框架/架构,还可以大幅提升性能,非常适合需要多次重复运算的机器学习算法,并且Spark还可以存取HadoopHDFS分布式存储的大量数据。
转载请注明:http://www.aierlanlan.com/cyrz/9186.html