所在的位置： python >> python优势 >> 数据分箱的作用特性,以及用Python

数据分箱的作用特性,以及用Python

系统型号：Windows10软件版本：Python3.8

《使用Python进行数据分析》系列：

将数据导入Python后，别忘了检查的步骤

用Python如何处理有缺失的数据，并不是只有删除和替换

统一数据口径常被强调，但在有些情况下这不是必要的

常见的3类数据规范化方法，掌握起来

数据分箱是数据预处理中的一种常见步骤，用在将连续范围的取值划分到互斥且完备的更小范围中。

这主要有两个作用：1.分箱相当于给了个更大的预测范围，一定程度上能提高预测的准确性；2.分箱之后能更好地了解数据的分布。

频数分布直方图的横坐标就是一种分箱，我们可以很好理解，分箱的特征有：1.完备性，各个分箱加在一起涵盖了变量的取值范围；2.互斥性，各个分箱之间没有交集部分；3.等距性，各个分箱的范围是一样的（除了首尾有时候的“半无限”集合）；4.有穷性，分箱的个数是有限的；5.有意义性，就是各个分箱要具有一定的意义，每个分箱之间有意义上的区别，不然为了分箱而分箱，在后期的分析上不好做文章。（最后一点读者可能会有争议，欢迎在评论区讨论~）

那如何用Python读数据分箱？

首先对数据范围进行分箱；然后赋予这个分箱新的标签；最后将变量的值一一对应到分箱之中。

importnumpyasnpimportpandasaspd#通过等差数列，取出5个数bins=np.linspace(min(df["xxx"]),max(df["xxx"]),5)#通过5个数，分成四组，取四个标签bin_name=["A","B","C"]#新建一列名为new的数据df["new"]=pd.cut(df["xxx"],bins,labels=bin_name,include_lowest=True)

以上就是关于数据分箱以及如何用Python进行分箱的介绍，希望对你有所启发。之后本系列会持续更新，后续内容包括，探索性数据分析，模型开发评估等的内容。有其他的数据相关的感兴趣内容欢迎在评论区留言（或者私信），我会在结合自身学习方向，在之后的文章中为大家进行分享。

转载请注明：http://www.aierlanlan.com/grrz/1149.html

上一篇文章： python2020十大Python

下一篇文章： python函数作用域global与no