一、数据分析的三大类型
探索型Explorator→图表可视化
验证型Confirmatory→假设检验
预测型Predictive→机器学习
1、探索型Explorator→图表可视化
importseabornassns
%matplotlibinline
条形图:
sns.barplot(x="species",y="petal_length",data=df,palette="plasma_r")
箱型图:
sns.boxplot(x="species",y="petal_length",data=df)
直方图:
sns.distplot(df["petal_length"])
散点图:
importmatplotlib.pyplotasplt
pt=sns.FacetGrid(df,hue="species")
pt.set(xlim=(0,2.5))
pt.set(ylim=(0,8))
pt.map(plt.scatter,"petal_width","petal_length").add_legend()
2、验证型Confirmatory→假设检验
假设检验根据数据样本所提供的证据,肯定还是否定有关总体的声明。
2.1假设检验的基本流程
①提出零假设(我们希望推翻的结论),及备择假设(我们希望证明的结论)
①在零假设的前提下,推断目前样本统计量出现的概率
统计量可符合不同分布,即对应不同的检验方法
②设定一个拒绝零假设的阈值(常见5%,即统计学意义“显著”,significant),如果目前样本统计量在零假设下出现的概率小于阈值,则拒绝零假设,承认备择假设
2.2单样本、双样本检验
单样本
一个硬币的正反面概率不一样
复旦大学的男学生平均身高高于cm
双样本
硬币一和硬币二的正面概率有显著区别
复旦大学和交通大学男生平均身高不一样
2.3P-value
P-value:零假设成立时,观察到样本的概率
通常用5%,1%,0.1%用于判断备择假设是否成立的判断阈值
2.4单样本z检验
假设:要检验的统计量(近似满足正态分布)
常见用途:检测总体平均值是否等于某个常量
原理:中心极限定理,大量相互独立的随机变量,其均值的分布以正态分布为极限
python中单样本z检验流程
安装包:win+R→cmd→condainstallstatsmodels
例如:
零假设:复旦大学男生平均身高cm
择假设:复旦大学男生平均身高不是cm
importstatsmodels.stats.weightstats
Z,pval=statsmodels.stats.weightstats.ztest(X,value=)
2.5单样本t检验
适用于样本量较少(n30)
python中单样本t检验流程
安装包:win+R→cmd→condainstallscipy
例如:
零假设:复旦大学男生平均身高cm
备择假设:复旦大学男生平均身高不是cm
#是阿拉伯数字1samp
importscipy.stats
t,pval=scipy.stats.ttest_1samp(X,popmean=)
比z检验更加常用
2.6双样本t检验
零假设:复旦大学和上海交大男生平均身高一样高
择假设:复旦大学和上海交大男生平均身高不一样高
importscipy.stats
df_1=df[df.species=="复旦大学"]
df_2=df[df.species=="上海交大"]
t,pval=scipy.stats.ttest_ind(df_1["身高"],df_2["身高"])
双样本t检验最常见的用法就是比较两组样本的平均值是否一致