数据分箱的作用特性,以及用Python

系统型号:Windows10软件版本:Python3.8

《使用Python进行数据分析》系列:

将数据导入Python后,别忘了检查的步骤

用Python如何处理有缺失的数据,并不是只有删除和替换

统一数据口径常被强调,但在有些情况下这不是必要的

常见的3类数据规范化方法,掌握起来

数据分箱是数据预处理中的一种常见步骤,用在将连续范围的取值划分到互斥且完备的更小范围中。

这主要有两个作用:1.分箱相当于给了个更大的预测范围,一定程度上能提高预测的准确性;2.分箱之后能更好地了解数据的分布。

频数分布直方图的横坐标就是一种分箱,我们可以很好理解,分箱的特征有:1.完备性,各个分箱加在一起涵盖了变量的取值范围;2.互斥性,各个分箱之间没有交集部分;3.等距性,各个分箱的范围是一样的(除了首尾有时候的“半无限”集合);4.有穷性,分箱的个数是有限的;5.有意义性,就是各个分箱要具有一定的意义,每个分箱之间有意义上的区别,不然为了分箱而分箱,在后期的分析上不好做文章。(最后一点读者可能会有争议,欢迎在评论区讨论~)

那如何用Python读数据分箱?

首先对数据范围进行分箱;然后赋予这个分箱新的标签;最后将变量的值一一对应到分箱之中。

importnumpyasnpimportpandasaspd#通过等差数列,取出5个数bins=np.linspace(min(df["xxx"]),max(df["xxx"]),5)#通过5个数,分成四组,取四个标签bin_name=["A","B","C"]#新建一列名为new的数据df["new"]=pd.cut(df["xxx"],bins,labels=bin_name,include_lowest=True)

以上就是关于数据分箱以及如何用Python进行分箱的介绍,希望对你有所启发。之后本系列会持续更新,后续内容包括,探索性数据分析,模型开发评估等的内容。有其他的数据相关的感兴趣内容欢迎在评论区留言(或者私信),我会在结合自身学习方向,在之后的文章中为大家进行分享。




转载请注明:http://www.aierlanlan.com/grrz/1149.html

  • 上一篇文章:
  •   
  • 下一篇文章: