导读:
1.打破R慢的印象,ETL效率显著优于Python,堪比spark,clickhouse
2.对比python中的datatable、pandas、dask、cuDF,R中data.table以及spark、clickhouse
3.探讨R中的ETL体系
ETL在数据工作中起着至关重要的作用,主要用途有两个:(1)数据生产(2)为探索性数据分析与数据建模服务。做过建模的小伙伴都知道,70%甚至80%的工作都是在做数据清洗;又如,探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此,ETL效率在整个项目中起着举足轻重的作用。而日常数据生产中,有时会牵扯到模型计算,一般以R、python为主,且1~G左右的数据是常态。基于此,于是想对比下R、Python中ETL的效率。目前已有研究
H2O团队一直在运行这个测试项目,其中:Python用到了:(py)datatable,pandas,dask,cuDF(moding.pandas在下文作者亲自测试了下);R:data.table,dplyr;julia:DataFrames.jl;clickhouse;spark测试内容有groupby、join、sort等。测试数据长这样:废话不多说,先看部分结果的截图吧。5G数据50G数据详细报告见: