假设检验和ABTEST(一)

如题所述

第1个回答  2022-07-16

参考:
从假设检验到AB实验——面试前你要准备什么?
一文入门A/B测试(含流程、原理及示例)
A/B testing(一):随机分配(Random Assignment)里的Why and How
第一类错误和第二类错误的关系是什么?
假设检验的逻辑是是什么?

我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,这时就需要从总体中抽出一部分样本,用样本来估计总体情况。

举一个简单的例子:

学而思网校App进行了改版迭代,现在有以下两个版本

版本1:首页为一屏课程列表 ; 版本2:首页为信息流

如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是 并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。

假设检验其实就是反证法,想要证明一个命题是正确的,只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。所以通常,先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立

常常会假设两个命题:
H0:备受质疑的命题
原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为:等于=、大于等于>=、小于等于<=。
H1:有待验证的问题
备择假设,用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。

两者的联系:
下图中红色阴影部分的面积为α,即第一类错误犯错的概率;黑色的阴影部分的面积为β,即第二类错误犯错的概率。

通常情况下,我们关注α,因为我们是对于H0所以应的样本进行观测和做出判断的,α就是H0与H1交集且在H1的部分(拒绝H0接受H1);而对于β,我们用的是H1对应的样本的总体(有多少样本点导致在前一步计算检验统计量时不拒绝H0)进行判断的,β就是H0与H1交集且在H0的部分(拒绝H1接受H0)。

显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者 根据业务情况定好的

显著性水平α越小,犯第I类错误的概率自然越小,一般取值:0.01、0.05、0.1等

当给定了检验的显著水平a=0.05时,进行双侧检验的Z值为1.96,t值为 。

当给定了检验的显著水平a=0.01时,进行双侧检验的Z值为2.58 。

当给定了检验的显著水平a=0.05时,进行单侧检验的Z值为1.645 。

当给定了检验的显著水平a=0.01时,进行单侧检验的Z值为2.33

检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。

双侧检验:备择假设没有特定的方向性,形式为“≠”这种检验假设称为双侧检验

单侧检验:备择假设带有特定的方向性 形式为">""<"的假设检验,称为单侧检验 "<"称为左侧检验 ">"称为右侧检验

假设检验根据业务数据分为两种:一个总体参数的假设检验和两个总体参数的假设检验

一个总体参数 的假设检验:只有一个总体的假设检验

举个例子:学而思App原版本1转化率为 19%,学而思App版本2开发完成后,直接全量发布整体上线,过一段时间后统计转化率为27%,我们想判断版本2是否比版本1好,这时我们做的假设检验总体只有1个,全部用户。对于总体只有一个的称为一个总体参数的假设检验。

两个总体参数 的假设检验:有两个总体的假设检验

同样的例子:学而思App版本1和学而思App版本2同时上线,流量各50%,这时我们做的假设检验总体有2个,分别为命中版本1的全部用户与命中版本2的全部用户。

两种假设检验的检验统计量计算方式有所不同,所以做区分描述。

在判断用什么检验的时候,首要考虑的条件是 样本量 ,其次是 总体服从的分布

简单地说其实就是, 总体标准差 怎么估计的问题。检验类型确定了,检验统计量也就确定了。

(不过现在的很多软件简化了上述步骤,改为, 若总体标准差已知(无论样本大小)都用Z检验 若总体标准差未知,都用T检验 不过当样本量够大的时候,T分布也近似于Z分布了 ,所以最后的结果不会差很多。 T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布。

利用假设检验来证明:
第一步: 提出原假设和被择假设:H0:中医是无效的。 H1:中医是有效的。 H0是我们希望推翻的命题,H1是希望被证实的命题。
第二步:从整体的研究样本中抽样,这里应选择两个总体:两组生理特征和疾病状况一致的人,一组人不给予治疗,另一组给予中医治疗,持续观测两组人的生理数据。
第三步:根据两组人的生理数据构造T统计量(双样本σ未知)进行T检验。
第四步:根据显著性水平确定拒绝域或者P值。
第五步:构造拒绝域,考察0与拒绝域的关系;或者计算p值,比较其与显著性水平的关系。

相似回答