Page 1 of 1

是不是觉得公式很复杂?别担心,我们现在会解释一切。

Posted: Tue Dec 17, 2024 7:09 am
by mimakters
n是我们要确定的受众规模。
Z是取决于置信水平的系数。
A/B测试中的置信度是一个指标,表明测试结果不是随机的,而是实际反映了测试选项之间的差异的置信程度。它以百分比表示,有助于确定您对所获得数据的信任程度。标准置信水平为 95% 和 99%,其中 Z 将为 1.96 和 1.98。

p是过去执行过目标操作的用户比例,例如通过正在测试的项目提交工单。如果没有相关信息,则简单地取值 0.5,就好像该操作是由 50% 的用户执行的。
q = 1 - p是未执行有用操作的用户比例。
Δ是最大采样误差。
A/B 测试中的边际抽样误差(或标准误差)是指示样 南非手机区号 本数据可能偏离总体真实值的程度的度量。简单来说,这个参数有助于评估测试结果的准确性,并考虑到数据的随机波动。一般认为最大值 Δ = 4%。

为清楚起见计算示例

如何将 A/B 测试速度提高 2 倍:从 A 到 Z 的整个过程
计算受访者人数的示例

因此,在示例中,样本大小 (n) 为 600 名受访者。根据测试结果做出的决策越重要,需要设置的采样误差越小:

如何将 A/B 测试速度提高 2 倍:从 A 到 Z 的整个过程
95% 置信水平下的抽样误差 (%)

Image


重要提示:您必须决定是对整个受众还是仅对部分受众运行测试。如果对整个受众进行测试,那么会更快地招募到所需的人数。但如果假设被证明是不正确的,并且修改对网站无用或有害,则可能会降低转化率和收入。

此外,值得确定您将带哪些用户进行测试 - 新用户还是常规用户。在大多数情况下,最好对新的进行测试,因为他们还不习惯界面并且可以更积极地对更改做出反应。

重要提示:同时在多个设备(计算机、智能手机、平板电脑)、屏幕分辨率和浏览器版本上进行测试。关键是你的修改可能在某些情况下看起来很好,但在其他情况下看起来很糟糕。例如,在大屏幕上,小细节可能会丢失并且变得不太容易被人们注意到。

另请阅读:
如何检验 VK Advertising 中的假设

3. 选择要测量的参数
让我们回到开头的例子中的假设:“如果将服务页面的标题对齐方式从左侧改为右侧,那么“留下请求”按钮的转化将从 4% 增加到 8% %。”在这里,我们将跟踪转化率——在一定时期内点击按钮的用户占所有访问该页面的用户的比例。

让我们提醒您一条重要规则:一个假设 - 一个元素 - 一个指标。

不要忘记,组中的用户数量并不总是相等,因此值得跟踪提及人员或活动数量的参数。例如,您不应该这样做:“如果您将服务页面上的标题对齐方式从左侧更改为右侧,那么点击“留下请求”按钮的人数将比以前多 200 人。”

4. 确定测试时间
在加速 A/B 测试之前,请确保正确计算其持续时间。它的计算公式如下:

如何将 A/B 测试速度提高 2 倍:从 A 到 Z 的整个过程

测试持续时间公式

在哪里:

μc是控制样本指标的平均值;
μt是测试样本指标的平均值;
nc是控制样本中的观测值数量;
nt是测试样本中的观测值数量;
σc是控制样本指标的标准差;
σt是测试样本指标的标准差;
k为测试样本大小与对照样本大小的比值nt/nc(通常为1);
t1-α/2、t1-β——下标为百分位数的正态函数值(显着性水平和II型误差的标准值分别为α=0.05、β=0.2、0.95和0.8) 。
如果测试组和对照组相等,则公式如下所示:

如何将 A/B 测试速度提高 2 倍:从 A 到 Z 的整个过程
公式的第二个版本

重要提示:剔除数据中的异常值——超出其他观察值范围的极值。每个这样的异常值都会增加指标的方差和测试的持续时间。

可以通过两种方式设置阈值来解决异常值问题:

分别用于测试组和对照组;
同时为两组。
如果有足够的数据进行测试,最好使用第一个选项。当对对照组进行剪枝时,我们经常会丢失一些不是异常值的测试组数据。

5.检查系统的性能:A/A和A/A/B测试
加速测试是一个复杂的过程,因此必须遵守假设的条件和正在启动的测试的参数。否则,很有可能得到扭曲的图像。

进行对比测试时要记住以下三点:

浏览器版本;
交通量;
群体之间的访问/观看分布不均匀。
重要提示:为了符合所有测试条件,在收集到最少量的统计数据之前,请勿更改广告活动的参数。

如何将 A/B 测试速度提高 2 倍:从 A 到 Z 的整个过程
将受众分配到不同组进行研究的示例

为了确保测试配置正确并正常工作,需要执行两种辅助类型的工作。

A/A 测试
在此测试中,将两个相同的选项进行比较。理想情况下,关键指标(例如点击次数、转化次数)的结果应该相同。这是合乎逻辑的,因为我们没有改变任何东西——两个群体都看到同样的事情。

A/A 测试的目的是确保测试系统正常工作,并且用户在选项之间的随机分布是真正随机的。如果结果相同,则测试系统运行正常。

A/A/B 测试
这是一种结合了两种类型测试的方法:

首先,系统自我检查——A/A;
如果结果相同,则会自动开始常规 A/B 测试,其中已经对两个不同的选项进行了比较。
这有助于在无需额外控制的情况下验证系统的正确操作,并在不浪费时间的情况下开始比较。如果您需要持续监控实验的准确性和可靠性,这尤其有用。

现阶段的主要问题是随着统计数据量的增加,数据分散性加大。方差是一种衡量标准,描述每个选项(A 和 B)的结果可能彼此之间以及与平均值的偏差程度。更多数据意味着更多可变性。参与测试的人越多,样本中的案例和情况就越多样化。

为清楚起见示例

假设我们正在测试广告横幅的两个标题选项。首先,您向 100 位用户展示每个标题并获得结果:

选项A:转化10%;
选项 B:12% 转化率。
2% 的差异似乎很显着,但由于可能存在随机波动,100 人的样本可能不足以对结果充满信心。通过将样本增加到 1000 人,您可以获得更多样化的数据:

选项A:转化10.5%;
选项B:转化率10.8%。
现在差异更小了,但数据更可靠,因为它考虑了更多情况。同时,样本的增加表明数据的分散性增加,因为样本中包含了偏好更加多样化的人。

6. 对关系度量进行线性化
比率指标是按一个数量与另一个数量的比率计算的指标。例如:

转化——申请数量与访问数量的比率;
点击率是广告点击次数与其展示次数/浏览次数的比率;
平均订单价值是总销售额与订单数的比率。
比率指标的线性化是一种用于简化分析并提高测试结果准确性的技术。线性化的思想是将非线性指标转化为更简单的线性指标,这使得它们的分析更加可靠和准确。这是通过使用各种数学方法来实现的,我们不会深入研究。

为清楚起见示例

假设我们有用户转化值(u - 用户):