经常听别人说Python在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是Python数据处理厉害,而是他有数据分析神器——pandas
前言
今天从两个需求来看看数据分列功能,由于Excel自带功能比较弱,在处理稍微复杂的需求时会显得力不从心,因此,本系列文章将引入Excel中一个非常高效的数据处理插件——PowerQuery,并且看看pandas是怎样灵活解决。
本文结构:
先看看简单的分列接着尝试分割扩展成行最后是多列分割扩展成行Excel分列
Excel中对数据进行分列是非常简单的。如下:
选中需要处理的列功能卡数据,分列按钮,即出现设置弹窗选分隔符号,点击下一步左上部分,勾选逗号,点击下一步最后看到结果预览,没问题,直接点击完成pandas分列
pandas对文本列进行分列,非常简单:
DataFrame.str.split(),对文本列分列,第一参数指定分隔符此外,参数expand,表示是否扩展成列,若设置为True,则分割后的每个元素都成为单独一列。这符合当前需求
复杂点的需求
有时候,我们希望分割的内容,转化成行,需求如下:
比如,第一行张三的科目中有3个元素,则分割结果张三就有3行使用Excel自带功能处理这需求就比较困难,我们使用PowerQuery来处理:
功能区PowerQuery,点从表/范围此时会启动Powerquery编辑窗口
点选科目整列上方功能区开始,转换区中,点选拆分列,选按分隔符
这里大部分设置与Excel自带功能基本一致点开高级选项,点选拆分为中的行
功能区开始,最左边点按钮关闭并上载,即可把结果输出会Excel请自行到官方网站下载此插件安装
那么pandas中怎么实现这需求:
先用str.split分割,但这次不需要expand调用DataFrame.explode(),对某一序列类型的列进行展开注意,explode方法是pandas0.25版本的新增方法
提升难度
假如现在有多列需要进行分割展开呢?如下:
同时把科目和成绩分割扩展到行直接看pandas怎么解决:
先对科目与成绩列分别进行split后,再进行explode然后通过concat,与原来的性名列合并虽然实现了,但代码的语义不够清晰。编程语言的灵活性在此可以充分体现,我们把逻辑封装成一个函数hp_explode,以后需要使用时,简单调用即可:
hp_explode(),可自动识别内容是list的列进行扩展hp_explode方法的定义不是本文的核心,需要源码的小伙伴看文末
不想调用.str.split?当然也支持:
一句搞定总结
Series.str.split(),对文本列分割expand参数指定是否扩展为列DataFrame.explode(),对序列的列扩展成行,通常与Series.str.split()配合使用下一节,将看看Excel举世闻名的vlookup函数与pandas中的实现
如果希望从零开始学习pandas,那么可以看看我的pandas专栏。