真实数据Python数据分析零基础入

北京中科中医院 http://news.39.net/bjzkhbzy/170317/5252016.html

Python数据分析与处理运用分享

背景

目前数据分析已经深入到各个行业中,尤其以Python为工具的数据分析越来受到各个企业的青睐,随着大数据和人工智能技术的不断发展,Python受到了越来越高的重视,因此很多人选择了Python作为数据分析和处理的工具。

那么,下面我们就以在职场中常见的问题为例,基于Python进行数据分析与处理

1.字符串的拆分

对购药时间进行拆分,拆分出日期和星期只需要短短两行代码

也可以使用pandas中的字符串方法:

大家可以看到python非常轻松地完成了这样的工作。

Python可以使用不同的方法完成同样的任务,这就是Python强大的原因之一。

这个时候有同学就会问,excel不也能干这样的事情吗,那么下面我们再来看一个例子,把价格转换为数字

仅需要两行代码就将Price和Mileage转换为数字了:

这个时候可能还是没有真正体验到Python的强大之处,那么下面我们再来看一个例子,把计算一下每个表格里面总共有多少个承销商

我们看看Python如何一行代码实现。

好了下面我们再继续看一个例子,体验Python高效数据处理的一个能力。这个是今年新型冠状病毒的数据,需要将数据合并在一起.

有几十个csv文件,现在想把他们合并在一起,看看用python如何实现

仅仅用了0.1s就合并了所有数据

最后我们再看一个和数据分析相关的例子,在数据分析时,很多时候需要计算相关指标,以电商数据为主,计算每个用户的登录时间间隔

Idx为用户编号,LogInfo3为用户登录时间,现在计算每个用户的登录时间间隔

首先按照用户编号和登录时间进行排序

然后进行计算,计算每个用户的每次登陆时间距离上次登录时间的间隔

对于每个用户,最早登陆时间距离上次是缺失的。可以用0来填补

df[‘间隔’].fillna()

最后我们再看一个征信相关数据,计算每个客户的未结清贷款笔数,一个用户对应一个report_id(报告编号),一个客户可能会有多笔贷款。

计算逻辑为贷款状态为[正常,逾期,呆账]的贷款笔数,按照每个report_id分类汇总。就可以汇总出每个客户的未结清贷款笔数

通过以上案例,大家应该可以体验到Python的强大之处了吧,Python功能非常多,这个地方就不一一列举了。原始的数据有时候非常的乱,这个时候需要用Python对其进行处理,而pandas库又提供了非常强大的数据处理手段,能帮助我们运用简单的代码实现复杂的功能。

想学这门课的话可以加扣:




转载请注明:http://www.aierlanlan.com/rzgz/4311.html