所在的位置： python >> python优势 >> 数据分析新手笔记python篇一

数据分析新手笔记python篇一

一、数据分析的三大类型

探索型Explorator→图表可视化

验证型Confirmatory→假设检验

预测型Predictive→机器学习

1、探索型Explorator→图表可视化

importseabornassns

%matplotlibinline

条形图：

sns.barplot(x="species",y="petal_length",data=df,palette="plasma_r")

箱型图：

sns.boxplot(x="species",y="petal_length",data=df)

直方图：

sns.distplot(df["petal_length"])

散点图：

importmatplotlib.pyplotasplt

pt=sns.FacetGrid(df,hue="species")

pt.set(xlim=(0,2.5))

pt.set(ylim=(0,8))

pt.map(plt.scatter,"petal_width","petal_length").add_legend()

2、验证型Confirmatory→假设检验

假设检验根据数据样本所提供的证据，肯定还是否定有关总体的声明。

2.1假设检验的基本流程

①提出零假设（我们希望推翻的结论），及备择假设（我们希望证明的结论）

①在零假设的前提下，推断目前样本统计量出现的概率

统计量可符合不同分布，即对应不同的检验方法

②设定一个拒绝零假设的阈值（常见5%，即统计学意义“显著”，significant）,如果目前样本统计量在零假设下出现的概率小于阈值，则拒绝零假设，承认备择假设

2.2单样本、双样本检验

单样本

一个硬币的正反面概率不一样

复旦大学的男学生平均身高高于cm

双样本

硬币一和硬币二的正面概率有显著区别

复旦大学和交通大学男生平均身高不一样

2.3P-value

P-value：零假设成立时，观察到样本的概率

通常用5%，1%，0.1%用于判断备择假设是否成立的判断阈值

2.4单样本z检验

假设：要检验的统计量（近似满足正态分布）

常见用途：检测总体平均值是否等于某个常量

原理：中心极限定理，大量相互独立的随机变量，其均值的分布以正态分布为极限

python中单样本z检验流程

安装包：win+R→cmd→condainstallstatsmodels

例如：

零假设：复旦大学男生平均身高cm

择假设：复旦大学男生平均身高不是cm

importstatsmodels.stats.weightstats

Z,pval=statsmodels.stats.weightstats.ztest(X,value=)

2.5单样本t检验

适用于样本量较少（n30）

python中单样本t检验流程

安装包：win+R→cmd→condainstallscipy

例如：

零假设：复旦大学男生平均身高cm

备择假设：复旦大学男生平均身高不是cm

#是阿拉伯数字1samp

importscipy.stats

t,pval=scipy.stats.ttest_1samp(X,popmean=)

比z检验更加常用

2.6双样本t检验

零假设：复旦大学和上海交大男生平均身高一样高

择假设：复旦大学和上海交大男生平均身高不一样高

importscipy.stats

df_1=df[df.species=="复旦大学"]

df_2=df[df.species=="上海交大"]

t,pval=scipy.stats.ttest_ind(df_1["身高"],df_2["身高"])

双样本t检验最常见的用法就是比较两组样本的平均值是否一致

转载请注明：http://www.aierlanlan.com/grrz/1732.html

上一篇文章： Python的优点是什么

下一篇文章： Python书单之1Python语言