假设检验和ABTEST（一）

如题所述

第1个回答 2022-07-16

参考:
从假设检验到AB实验——面试前你要准备什么？
一文入门A/B测试（含流程、原理及示例）
A/B testing（一）：随机分配(Random Assignment)里的Why and How
第一类错误和第二类错误的关系是什么？
假设检验的逻辑是是什么？

我们在生活中经常会遇到对一个总体数据进行评估的问题，但我们又不能直接统计全部数据，这时就需要从总体中抽出一部分样本，用样本来估计总体情况。

举一个简单的例子：

学而思网校App进行了改版迭代，现在有以下两个版本

版本1:首页为一屏课程列表；版本2：首页为信息流

如果我们想区分两个版本，哪个版本用户更喜欢，转化率会更高。我们就需要对总体（全部用户）进行评估，但是并不是全部存量用户都会访问App，并且每天还会新增很多用户，所以我们无法对总体（全部用户）进行评估，我们只能从总体的用户中随机抽取样本（访问App）的用户进行分析，用样本数据表现情况来充当总体数据表现情况，以此来评估哪个版本转化率更高。

假设检验其实就是反证法，想要证明一个命题是正确的，只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。所以通常，先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

常常会假设两个命题：
H0：备受质疑的命题
原假设，也叫零假设，用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为：等于=、大于等于>=、小于等于<=。
H1：有待验证的问题
备择假设，用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为：不等于、大于>、小于<。

两者的联系：
下图中红色阴影部分的面积为α，即第一类错误犯错的概率；黑色的阴影部分的面积为β，即第二类错误犯错的概率。

通常情况下，我们关注α，因为我们是对于H0所以应的样本进行观测和做出判断的，α就是H0与H1交集且在H1的部分(拒绝H0接受H1)；而对于β，我们用的是H1对应的样本的总体(有多少样本点导致在前一步计算检验统计量时不拒绝H0)进行判断的，β就是H0与H1交集且在H0的部分(拒绝H1接受H0)。

显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者 根据业务情况定好的 。

显著性水平α越小，犯第I类错误的概率自然越小，一般取值：0.01、0.05、0.1等

当给定了检验的显著水平a=0.05时，进行双侧检验的Z值为1.96，t值为。

当给定了检验的显著水平a=0.01时，进行双侧检验的Z值为2.58 。

当给定了检验的显著水平a=0.05时，进行单侧检验的Z值为1.645 。

当给定了检验的显著水平a=0.01时，进行单侧检验的Z值为2.33

检验方式分为两种：双侧检验和单侧检验。单侧检验又分为两种：左侧检验和右侧检验。

双侧检验：备择假设没有特定的方向性，形式为“≠”这种检验假设称为双侧检验

单侧检验：备择假设带有特定的方向性形式为">""<"的假设检验，称为单侧检验 "<"称为左侧检验 ">"称为右侧检验

假设检验根据业务数据分为两种：一个总体参数的假设检验和两个总体参数的假设检验

一个总体参数 的假设检验：只有一个总体的假设检验

举个例子：学而思App原版本1转化率为 19%，学而思App版本2开发完成后，直接全量发布整体上线，过一段时间后统计转化率为27%，我们想判断版本2是否比版本1好，这时我们做的假设检验总体只有1个，全部用户。对于总体只有一个的称为一个总体参数的假设检验。

两个总体参数 的假设检验：有两个总体的假设检验

同样的例子：学而思App版本1和学而思App版本2同时上线，流量各50%，这时我们做的假设检验总体有2个，分别为命中版本1的全部用户与命中版本2的全部用户。

两种假设检验的检验统计量计算方式有所不同，所以做区分描述。

在判断用什么检验的时候，首要考虑的条件是 样本量 ，其次是 总体服从的分布 。

简单地说其实就是， 总体标准差 怎么估计的问题。检验类型确定了，检验统计量也就确定了。

（不过现在的很多软件简化了上述步骤，改为， 若总体标准差已知（无论样本大小）都用Z检验 ； 若总体标准差未知，都用T检验 。 不过当样本量够大的时候，T分布也近似于Z分布了 ，所以最后的结果不会差很多。 T分布其实是小样本的Z分布。一个样本的自由度越大，样本方差就越接近总体方差，T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化，自由度越大，越接近正态分布。）

利用假设检验来证明：
第一步: 提出原假设和被择假设：H0：中医是无效的。 H1：中医是有效的。 H0是我们希望推翻的命题，H1是希望被证实的命题。
第二步：从整体的研究样本中抽样，这里应选择两个总体：两组生理特征和疾病状况一致的人，一组人不给予治疗，另一组给予中医治疗，持续观测两组人的生理数据。
第三步：根据两组人的生理数据构造T统计量(双样本σ未知)进行T检验。
第四步：根据显著性水平确定拒绝域或者P值。
第五步：构造拒绝域，考察0与拒绝域的关系；或者计算p值，比较其与显著性水平的关系。

相似回答

A/B Test基本原理答：ABtest原理很简单。ABtest的难度主要在开发上：开发新版本、进行测试、测试数据回传保存二、AB Test步骤 ABtest本质上是一个两总体假设检验问题，要检验A、B两个版本是否有显著区别。两总体假设检验步骤：第一步：确定对象和指标。明确要检验的A、B两个对象，版本。以及要检验的指标，是CTR，还是客单...

ABtest的原理和案例答：在实践中，ABtest通常涉及为同一目标设计两个备选方案，同时让具有相似特征的用户群体随机采用一个，然后对比收集到的用户体验和业务数据。关键点在于，通过显著性检验，确定哪个版本能带来更好的效果，最后选择表现最佳的方案实施。举个实例，假设原始转化率为12%，目标提升至少2%。为了确保在5%的一类错误（...

ABtest原理及用法总结答：ABtest本质上是一个：两总体假设检验问题，要检验A、B两个版本是一样，还是有所区别。和之前介绍的单总体假设检验一样，两总体假设检验，也分步骤：第一步：明确要检验的A、B两个对象第二步：明确要检验的指标，是平均值，还是比例第三步：根据检验目的，给出原假设/备选假设第四步：根据...

ABtest深入学习--基础知识答：ABtest的定义：通过对比不同策略对样本数据的差异，评估其实际效果。统计学基础：理解χ2分布、t分布和F分布，这些是ABtest中的重要工具。区间估计：掌握置信区间的计算，包括单正态总体参数和双正态总体参数的置信区间。假设检验：理解原假设和备择假设，以及如何设定显著性水平，以及p值在检验中的应用。

ABtest知识点答：AB测试是一种科学的方法，用于在产品或策略改变后评估效果，其核心是通过随机化和假设检验来确定差异是否由新变化引起。接下来，我们来详细探讨其应用场景、样本量确定、城市选择、分流时机、结果解读，以及其适用和不适用的场景。AB Test在以下场景中尤为适用：评估新功能或策略的效果优化用户体验或营销...

大家正在搜

假设检验怎么设原假设假设检验的一般步骤假设检验第一类错误检验假设检验假设H0 t假设检验假设检验问题假设检验的5个步骤假设检验的步骤有哪些