推断统计学(二)——假设检验

如题所述

第1个回答  2022-07-08
        假设检验是建立在 否定式逻辑 上的一类 概率验证 方法。

        否定式逻辑:若A-->B,则~B-->~A。举个例子,一般情况下若一个人性别为男性(A),则这个人上厕所理应去男厕(B),但是发现这个人不去男厕上厕所(~B),则这个人的性别就不是男性(~A)。

        需要注意两点:1)否定式逻辑中A和B并不是充要关系,因此存在~B无法反推出~A的情况,需结合实际情况考虑;2)否定式逻辑和反证法非常相似,但本质上还是有些许不同的,差异就在反证法默认~B是一定可以推出~A,但多数情况下可以认为是同一种思想。

        假设检验还应用了小概率事件的发生原理,即:小概率事件是发生概率很小(接近于0)的一类事件。那么在一次试验(抽样)中是几乎不可能发生的,但在多次重复试验(抽样)中是必然发生的。

假设检验:假设样本特征能够“置信”地估计总体的参数。

这里以  t检验 (独立性、正态性、方差齐性) 为例来介绍假设检验的三个步骤:

Step 1:提出(推断性)假设

        假设检验首先需要提出待检验的假设,包括 和 。 被称为null hypothesis,常译为零假设、虚无假设等,在否定式逻辑中就是A; 为alternative hypothesis,中文译名有备择假设、对立假设等,就是否定式逻辑中的~A。 和 是一对互斥事件,且构成了样本对总体估计的完备情况。

        那么如何确定假设内容,通常有一定的原则遵循:将无差别的、不起作用的、公认的、不证自明的、符合规则的内容作为 ,将有区别的、起作用的、需要证明的、违反规则的内容作为 。这里就不深究原则是怎么形成的,通过一个例子看一下应用。

        以薯片袋重为例,已知某品牌的薯片在外包装上标明一袋的重量为 ,现通过抽样调查得到样本的平均袋重为 。由于抽样误差存在,必然有 ,现在要检验薯片的真实平均袋重 是否等于为 。提出假设:

         : ;(即A)

         : 。(即~A)

        这里 是预先决定的、计划好的、普遍认为的生产标准,因此作为 的内容。 其实也不用纠结相关的原则,直接对 取反即可。

Step 2: 计算概率

        假设检验第二步就是计算概率,那么计算什么概率?这需要先回答确定B和~B是什么。这里先抛出答案:

        B:抽样得到的样本均值为 是一个常规情况,不是小概率事件;

        ~B:抽样得到的样本均值为 是一个小概率事件。

        那么假设检验中完整的否定式逻辑就已经形成:

        A-->B:若零假设成立,那么(在零假设成立的情况下)一次抽样的结果不应该是一个小概率事件;

        ~B-->~A:若(在零假设成立的情况下)一次抽样的结果是一个小概率事件,那么零假设不成立。

        现在以薯片袋重为例,对这一逻辑进行解释:首先需要明确,由于抽样误差无法避免,样本均值与总体均值必然不会相等,即 ,因此直接比较 和 无法作出对薯条真实的总体袋重进行推断,因此需要换一个角度——概率。若总体均值确实为 ,那么抽样得到的样本均值为 应是一个正常的结果,这里的“正常”从概率上讲就是在一次抽样中能够发生的,不是小概率发生,因此只要计算这一结果出现的概率,就可对总体均值是否为 进行推断。

        那么现在就可以回答“计算什么的概率?”这一问题: 计算在零假设成立的前提下,抽样结果发生的概率P,而 P实际是一个条件概率,即P(抽样结果|零假设成立)。

Step 3:概率推断

        第三步概率推断就是对基于计算概率结果对假设的“拒绝”和“接受”进行判断,推断过程见下图:

        概率推断依据前面的推导逻辑,若零假设的成立前提下,样本在一次抽样事件中发生的条件概率 大于小概率事件的阈值 ( ),说明B成立,且有A->B,所以 不拒绝 ;若 ,则认为抽样事件为小概率事件,即~B成立,则有~B-->~A,所以 拒绝 , 接受 。

        至此,假设检验全过程基本完成。

        检验结果为什么使用的是“接受”和“拒绝”,而不是“真”和“伪”?

        答:由于无法获取总体数据,因此永远不可能知道总体参数的真实情况,也就不存在“真”和“伪”的问题。薯片例子中,这里给出的 只是预先规定的重量,本质是一个期望值,并不是真实值,而假设检验的多数情况都是对期望值的检验。

         “接受”、“拒绝”和“不拒绝”有什么区别?

        首先看 时,说明零假设 前提下,此时 不拒绝 。 但是由于无法知晓总体参数的真值,所以若 且 足够小时,必然同样可以得到 ,而这样的 可以有无数个取值,零假设 : 只是无数可能情况的一种, 因此无法确定真实情况具体是哪一种,只能“不拒绝”,而不是“接受” 。但是 时,说明零假设 : 是一种几乎不可能的情况, 可以较为确定总体真值并不是这一种,因此可以“拒绝” 。

        假设检验第二步是计算概率,这里的概率实际就是 值,通过比较 值和 的大小关系进行假设检验的判断,而 值就是根据 值计算得到的, 实际上就是在零假设的正态分布下的统计量值,如下图所示, 值就是 左侧绿色区域的面积:

        因此假设检验的第二步除了比较概率 值和 之外,还可以比较 值和 进行判断。当 值在 的外则时,即 或 ,则有 ,于是拒绝 ,接受 ;当 值在 内侧时,即 ,则有 ,于是不拒绝 。

        下图标注了以三组相反数,+/-2.58、+/-1.96和+/-1.645作为双侧检验判断边界的情况,三组边界分别对应了 去0.01、0.05和0.1的情况,边界的外部两侧即为拒绝域,拒绝域的面积即为相应的 (单侧面积为 ),当样本结果的p值落在拒绝域,等同于样本结果的发生概率小于拒绝域对应的 ,此时就拒绝 ,反之则不拒绝 。

        对于 的取值,实际是并没有一个学术上严格的规定,目前为止都是习惯地取0.01、0.05或0.1,其中0.05是较为常见的情况。对于0.05的由来,一种较为令人信服的说法是标准正态分布的4倍标准差(上图中将+/-1.96近似为+/-2)内的概率近似约为0.95(实际会更大),从范围取值和概率取值来说都是方便计算和记忆的数,同时0.05的拒绝空间也足够保证假设检验的正确性。

        然而以0.01、0.05和0.1作为判断依据具有较大的武断性,并对假设检验的结果带来了一定错误风险,即一类错误(type I error)和二类错误(type II error)。

        一类错误就是错误地拒绝 ,即“拒真”。假设检验中,以 作为是否拒绝 的标准,所以一类错误的发生概率就是 。一类错误意味着,在一次抽样中,小概率事件就这么不巧地发生了,导致错误地拒绝了 。

        二类错误就是错误地没有拒绝 ,即“纳伪”,更准确地说是“未拒伪”,犯错概率通常记为 。但一类错误中预先就知道犯错概率为 ,而二类错误却必须通过总体真值计算才能得到,实际中常以样本均值代替总体均值计算。以薯片袋重为例,犯二类错误的概率 , 是 时使得拒绝域概率为 的 值。

        从下图详细说明一下:

        使用薯片袋重的案例情境,图1(Fig 1)是基于零假设 成立时样本均值所服从的概率分布,此时分布均值为 ,蓝色实线 为双侧检验中 所对应的一对t值,那么蓝线两边外侧的黄色区域就是拒绝域,区域面积为 。

        图2(Fig 2)则是样本的总体均值实际为 时,样本均值所服从的概率分布。图1中的 在图2的分布中同样对应一个区域,即绿色区域,这部分区域的概率也就是面积就是 。

        那么 和 的实际意义是什么呢?先看 :如果样本的总体均值就是 (见图1),那么抽样结果大概率应该落在两蓝色实线之间的区域,但不巧的是这次抽样结果落在了拒绝域,所以就把 拒绝了,这就是“拒真”。那么显然拒绝域越大,也有可能发生“拒真”的情况,因此拒绝域的面积 就是“拒真”错误,也就是第一类错误发生的概率。

        再看 :如果样本的总体均值实际为 且 ),此时应该是拒绝零假设 。但是,图1总体均值为 的分布与图2总体均值为 分布在 是有重合的,即图1红色区域和图2绿色区域共用相同的t值区间(横坐标),这就意味即便总体均值为 ,但仍有可能落在总体均值为 的非拒绝域中,结果就是不拒绝 ,这就是第二类错误,而发生这种情况的概率就是图2绿色区域的面积 。

        从上图也能很明显地看出来,同一次抽样中(样本量固定、标准差固定), 和 是一种此消彼长的关系(移动 看红色和绿色区域的面积变化)。

        此外,依据抽样特性,随着样本量的增加,标准差不断减小,此时正态分布曲线会逐渐变窄,这样可以使得 和 同时减小。

        参数估计和假设检验都是推断统计学的重要部分,二者在本质上是相通:

        参数估计是考察总体均值和样本均值之间的距离是否在1.96SE范围内,而95%的置信度则代表了一种正确可能性。

        假设检验,则是将 转化为 值或 值后(即样本统计量按照抽样分布进行标准化),考察与0的距离是否超过了1.96,显著性水平 则是1-置信度水平。
相似回答