问题:这个犯人是否有罪?零假设和备选假设是互补的
零假设:这个犯人没有罪
备选假设:这个犯人有罪
案发视频、人证、不在场证明 p(无罪) = 0.01%:样本证据
显著性水平:
标准:如果这个人无罪的概率<=5%,那么就是否定无罪
比较:
备选假设成立了:这个犯人有罪。
总结:
- 以汽车引擎排放为案例练习单样本检验
新排放标准:平均值<20ppm
10台引擎排放水平:15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9
描述统计分析:
问题:公司引擎排放是否满足新标准?
零假设:公司引擎排放不满足标准,也就是平均值>=20
备选假设:公司引擎排放满足标准,也就是平均值<20
假设检验的类型:
这个案例属于单样本检验。
抽样分布类型:
这个案例样本大小是10,属于小样本抽样分布,那是不是t分布呢?总体是不是近似分布呢?所以我们用某种技术手段看看样本数据集的分布长什么样子。
可以使用python 的seaborn包来看数据集的直方图和拟合曲线:
所以案例属于t分布,自由度 = 样本大小 - 1 = 9
补充知识点:柱状图和直方图的差别
每个类别的数据用柱状图;查看数据集的分布情况用直方图:
单尾检验还是双尾检验:
单尾检验:检验的判断标准是落在抽样分布的左侧还是右侧,这个要看备选假设。如果备选假设包含小于号,那么就是左尾检验,判断标准对应在抽样分布的左边。如果备选假设包含大于符号,那么就是右尾,判断标准对应在抽样分布的右侧的黄色区域。
双尾检验:就是判断标准一分为二,分布在抽样分布的两侧。如果备选假设包含一个不等于号,那么就是双尾检验。
所以案例属于单尾检验的左尾检查。
所以在问题是什么里面的一般步骤是:
- 零假设和备选假设
- 检验类型
- 抽样分布
- 检验方向
所以本次案例假设检验——单样本t检验,单尾检验种的左尾。
补充知识点:统计学中p值是什么?
p值是在假定零假设成立前提下,得到样本平均值的概率是多少?
如何计算p值:
1)样本标准差s:估计总体标准差
方式一:手动计算
用这个网址:https://www.graphpad.com/quickcalcs
这个是双尾检验的p值,根据双尾检验值和单尾检验p值的关系:
所以 p = 0.015/2
方式二:python包
这个p值的含义是:在零假设前提下,得到样本平均值的概率,假设汽车引起满足不排放标准20,得到样本平均值的概率是0.0074。
判断标准是:显著水平alpha = 5%,我们是左尾检验
做出结论:
统计显著说明两个不同版本之间有差异,但是不同于效果显著,这个差异多大,看另一个指标。
对于假设检验报告的格式:用APA格式
该案例:检验类型,t值(自由度)(保留两位小数)
单样本t(9)=-3.00, p=.0074(a=5%),单尾检验(左尾)
推论统计总我们往往还要给出置信区间,这里面t值是不一样的:
所以单个平均值的置信区间
95%置信水平 CI = [17.11,17.23]
对于置信区间报告的格式:用APA格式
效应量:指出差异的大小,效果显著程度
该案例中:
单样本检验cohens'd =(样本平均值-总体平均值)/ 样本标准差
效应量报告格式 d = -0.95
总结:推论统计分析报告的一般思路
该案例推论统计分析报告:
- 以心理学现象(特鲁普效应)为案例练习相关配对检验
实验内容:将第一组字体颜色读出来,记录全部读完的时间,第二组同样,注意:这边是读字体颜色,而不是字的内容。随机抽取24个人进行实验,每个人有以上2组文字,记录每名实验者分别读出两组文字颜色的时间,汇总到下面表格。
1)描述统计分析
2)推论统计分析——假设检验
2.1问题是什么?
验证心理学现象:特鲁普效应是否存在?
- 零假设和备选假设
零假设:特鲁普效应不存在,第一组平均值 = 第二组平均值 或者 第一组平均值-第二组平均值 = 0
备选假设:特鲁普效应存在,第一组平均值 < 第二组平均值
- 检验类型
这是相关配对检验:有两组相关数据,那么我们就可以用差值来转化为单样本检验
- 抽样分布
这里面有24个样本大小,所以是小样本抽样,通过可视化来体现差值数据集的分布,可以发现近似正态分布,所以抽样分布是t分布。
- 检验方向
通过备选假设,第一组反应平均时间<第二组反应平均时间,备选假设包含小于号,所以是单尾检验中的左尾。
所以本次假设检验是相关配对t检验 单尾检验中的左尾
2.2证据是什么?
计算p的值:
也就是说,在没有特鲁普效应存在的假设前提成立下,样本平均值出现的概率是1.8e-08。
2.3判断标准是什么?
我们给定常用的显著水平是5%:
2.4做出结论?
假设检验报告:
相关配对检验t(23) = -8.09,p=1.8e-08(a=5%),单尾检验(左尾)
存在统计显著,拒绝零假设,从而验证特鲁普效应存在。
3)置信区间
这里样本平均值是指差值数据的平均值:
置信区间报告:
两个平均值差值的置信区间95%置信水平 CI = [-8.49,-8.36]
4)效应量
效应量报告:
d = -1.65 效果很显著。
- 总结分析报告:
1.描述统计分析:
第一组样本数据:字体内容和颜色一致,平均反应时间是13.927秒,标准差是3.54秒第二组样本数据:字体内容和颜色不一致,平均反应时间是22.351秒,标准差是5.01秒
“不一致”情况所用的时间均大于“一致”情况,也就是当字体内容和字体颜色不一致时,实验者的平均反应时间变长
2.推论统计分析:
1)假设检验
相关配对检验t(23)=- 8.09,p=1.8e-08(a=5%),单尾检验(左尾)
存在统计显著,拒绝零假设,从而验证特鲁普效应存在。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI = [-8.49,-8.36]
3)效应量
d = -1.65, 效果很显著。
- 以A/B测试为案例练习独立双样本检验
作为产品经理,你想要知道哪个键盘布局对于用户体验更好呢?
如果键盘对于用户拼错字的影响较小,那么这个键盘是符合用户习惯的,因此,我们把目标定位为用户打字时拼错字的影响,将两组用户随机分配到不同的版本,每组实验者25人,A组使用版本A,B组使用键盘版本B,让他们在30秒内打出标准20个单词/文字/消息,记录这些字里面错别字的数量。记录在下面的文件中。
1.描述统计分析
2.推论统计分析
2.1假设检验
1)问题是什么?
问题:哪个键盘布局对于用户体验更好呢?
零假设:A版本和B版本没有差别,也就是A版本平均值 = B版本平均值
备选假设:A版本和B版本有差别,也就是A版本平均值 != B版本平均值
检验类型:独立双样本检验
抽样分布:小样本抽样分布的t分布
检验方向:双尾检验
2)证据是什么?
t = -4.06,p_two=0.00019,df = 45
3)判断标准?
alpha = 5%
4)得出结论?
假设检验报告:
独立双样本t(45) = -4.05,p = .00019(5%),双尾检验
拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。
2.2置信区间
置信区间报告:两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69),A版本用户体验更好,平均少打错字2-3个字。
2.3效应量
效应量报告:d = -1.14 ,效果显著大
总结:
1.描述统计分析
A版本: 平均打错字个数为5.08个,标准差为2.06个B版本: 平均打错字个数为7.80个,标准差为2.65个
2.推论统计分析
1)假设检验
独立双样本t(45) = -4.05,p = .00019(5%),双尾检验
拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69)
A版本用户体验更好,平均少打错字2-3个字。
3)效应量
d = -1.14 ,效果显著
本文地址:http://syank.xrbh.cn/quote/7564.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多