数据分析新手笔记python篇一

一、数据分析的三大类型

探索型Explorator→图表可视化

验证型Confirmatory→假设检验

预测型Predictive→机器学习

1、探索型Explorator→图表可视化

importseabornassns

%matplotlibinline

条形图:

sns.barplot(x="species",y="petal_length",data=df,palette="plasma_r")

箱型图:

sns.boxplot(x="species",y="petal_length",data=df)

直方图:

sns.distplot(df["petal_length"])

散点图:

importmatplotlib.pyplotasplt

pt=sns.FacetGrid(df,hue="species")

pt.set(xlim=(0,2.5))

pt.set(ylim=(0,8))

pt.map(plt.scatter,"petal_width","petal_length").add_legend()

2、验证型Confirmatory→假设检验

假设检验根据数据样本所提供的证据,肯定还是否定有关总体的声明。

2.1假设检验的基本流程

①提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)

①在零假设的前提下,推断目前样本统计量出现的概率

统计量可符合不同分布,即对应不同的检验方法

②设定一个拒绝零假设的阈值(常见5%,即统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设

2.2单样本、双样本检验

单样本

一个硬币的正反面概率不一样

复旦大学的男学生平均身高高于cm

双样本

硬币一和硬币二的正面概率有显著区别

复旦大学和交通大学男生平均身高不一样

2.3P-value

P-value:零假设成立时,观察到样本的概率

通常用5%,1%,0.1%用于判断备择假设是否成立的判断阈值

2.4单样本z检验

假设:要检验的统计量(近似满足正态分布)

常见用途:检测总体平均值是否等于某个常量

原理:中心极限定理,大量相互独立的随机变量,其均值的分布以正态分布为极限

python中单样本z检验流程

安装包:win+R→cmd→condainstallstatsmodels

例如:

零假设:复旦大学男生平均身高cm

择假设:复旦大学男生平均身高不是cm

importstatsmodels.stats.weightstats

Z,pval=statsmodels.stats.weightstats.ztest(X,value=)

2.5单样本t检验

适用于样本量较少(n30)

python中单样本t检验流程

安装包:win+R→cmd→condainstallscipy

例如:

零假设:复旦大学男生平均身高cm

备择假设:复旦大学男生平均身高不是cm

#是阿拉伯数字1samp

importscipy.stats

t,pval=scipy.stats.ttest_1samp(X,popmean=)

比z检验更加常用

2.6双样本t检验

零假设:复旦大学和上海交大男生平均身高一样高

择假设:复旦大学和上海交大男生平均身高不一样高

importscipy.stats

df_1=df[df.species=="复旦大学"]

df_2=df[df.species=="上海交大"]

t,pval=scipy.stats.ttest_ind(df_1["身高"],df_2["身高"])

双样本t检验最常见的用法就是比较两组样本的平均值是否一致




转载请注明:http://www.aierlanlan.com/grrz/1732.html

  • 上一篇文章:
  •   
  • 下一篇文章: