如何进行A/B测试

A/B 测试，也称为拆分测试，是指一种随机实验过程，其中将变量（网页、页面元素等）的两个或多个版本同时显示给不同的网站访问者细分，以确定哪个版本留下最大的影响并推动业务指标。本文介绍了如何进行ab测试。

A/B测试对增长至关重要

在测试中，您正在测试的每件事都称为变体。例如，您的现有网站可能是变体A。与之进行比较的可能称为变体B。

因此，有了所谓“A/B”测试。

测试可以成就/破坏增长。我与许多公司合作过，这些公司无法让Facebook广告盈利，然后通过三个月的登录页面A/B测试取得了成功：他们不断使视觉效果更吸引人，信息传递更清晰。

A/B测试周期

以下是测试周期：

决定要测试的更改。
使用谷歌优化（A/B测试工具）向一半的访问者显示更改。
运行此测试，直到具有统计学意义的访问者样本。
当收集足够的数据时，Google Optimize将报告您的更改对转换产生重大影响的可能性。如果它造成了显著的正差异，您应该考虑实施它。
记录您的实验设计和结果，以便为未来的实验提供信息。

重复这些步骤，直到你用完了所有变体想法。永远不要停机；一年中的每一天，测试都应该在运行——否则你就是在浪费流量。

A/B测试不是追求每个变体的完美。这是关于迭代的。

A/B想法来源

以下是我的想法来源：

支持和销售团队——与客户互动的团队成员最了解对他们有吸引力的东西。询问他们遇到什么反对意见，然后主动解决登录页面副本中的反对意见。
用户调查——询问用户喜欢您产品的哪些功能。问问他们最大的担忧是什么。在您的消息中解决这些问题。
最佳广告——您表现最好的广告具有价值道具、文本和图像，可以用于A/B测试。
竞争对手的网站——在您的空间中识别成功的竞争对手，并研究他们的页面以获得灵感。他们的内容结构不同吗？他们和访客说话的方式不同吗？考虑测试他们的风格。
现场行为——使用Hotjar或FullStory等访问者记录工具来查找访问者参与的模式：他们点击了什么？他们在忽视什么？关于吸引他们的内容类型，这意味着什么？试着给他们更多。
过去的A/B成功和失败——在本页末尾，我将介绍如何记录A/B的成功和失败，以重新审视它们，以便进行未来的实验。

测试增长漏斗

A/B变体在增加效益时才会更好。

如果你发现一个变体能够刺激访问者多点击10倍的按钮，但点击按钮并不能真正带来更多的注册或购买，那么你的变体并不比原始版本更好。它所做的只是让用户去点击一个按钮。

对于每个A/B测试，请关注激励：您试图增加的有意义的漏斗指标是什么？通常，它是电子邮件捕获、注册、购买和保留。

其中，您更频繁地进行A/B测试，原因有二：

更大的样本——由于用户在漏斗的每个步骤中都会下降，所以早期的步骤的样本容量更大。样本量很重要，因为您需要足够的样本量来完成测试。否则，测试需要几周才能结束，并将阻止其他测试运行。
更少的执行——改变顶部漏斗资产(如广告、登陆页面和电子邮件)通常比改变产品内部体验(如产品内部体验)更少的执行工作。这就是为什么登陆页面A/B测试比产品内部功能测试更常见的原因。

产品更改与早期漏斗更改同样重要，但它们不在本手册的范围之内。

登录页面上的A/B测试是什么

有两种类型的变体：微观变体和宏观变体。

微观变体变化很小，变化很快。它们不太可能产生重大影响。例如，更改按钮的颜色（微变体）通常不会超过2%的转换影响。

另一方面，宏观变体是对资源的重大重新设计。完全重写登录页面可以增加50-300%的转化率。这经常发生。虽然，在面临回报递减之前，你通常只会得到几次提升。

您的目标是专注于重大的宏观影响——因为每次A/B测试都有机会成本：您通常一次只为每个受众运行一个测试。

宏观变体

宏观变体需要付出相当大的努力：很难反复召集需要的焦点和全公司范围的协作来全面重新考虑您的资源。

由于测试宏观变体的最大障碍是提交资源，我建议您创建一个A/B测试日历并遵守：例如，每2个月创建一个循环事件。在那一天，花几个小时集思广益，以创造增长漏斗的宏观变体。

您可以使用五种方法之一来做到这一点：

模仿竞争对手页面的部分——用周到、结构良好的页面找到竞争对手。然后模仿他们的一些部分。通过“部分”，我指的不是他们的单词选择，而是他们的布局元素，如图表、滑块、GIF和其他传递价值的方式。（不要剽窃他们的网站而是汲取灵感。）
描绘一个新的角色——量身定制你的价值道具，并针对母亲而不是青少年。也许你错误地识别了你最有价值的受众。
将页面切成两半——内容较少有时意味着最终阅读的内容更多——因为访问者会不堪重负。试着换位思考。
选择立场——选择一个你比竞争对手更合适的价值道具。创造一个变体；用真正的方式召唤出不同的竞争对手。然后向访问者展示如何带来更好的结果。
组合微量——组合六种微量，以实现一个单一目标，例如加强价值道具或使访问者采取特定行动。

微变体

现在这里有微观的想法。

文本——标题、子标题、功能标题、功能段落
图像——标题图像、内容图像、背景图像
CTA——CTA按钮设计、放置、复制
社会认同——尝试不同的公司徽标或不同形式的证明
表单——字段数量、字段布局和字段副本
顺序——页面部分的顺序
设计——间距、颜色和字体样式
优惠——引入折扣

尽管微量不那么重要，但我把它们包括在中，因为如果你拼凑了足够的微量，就能在宏观层面上出现改进。

最好的微变体

影响最大的微观部分：更改折叠内容。

每个页面都有一个折叠（ATF）部分。这是访问者在滚动到页面的其余部分之前看到的。放置在ATF中的内容部分决定了访问者是否继续滚动。

具体而言，重写标题和子标题副本。标题是您第一个吸引人的部分。因此，如果您一直在不知不觉中向访客展示不吸引人的消息，修复它也许会产生影响。

优先进行A/B测试

A/B测试有机会成本；你只有这么多访客可以测试。所以要沉着地确定优先级。

以下是我考虑的因素：

自信——你对考试成功的信心有多大？你可以通过更好地了解你的用户来建立信心：调查他们，监控他们的行为，并研究你过去的A/B。（也就是说，有时疯狂的、意想不到的测试效果最好。）
影响——如果测试成功，是否可能显著提高转化率？启动登录页面的优化越少，或者您提议的测试宏越多，潜在影响就越大。应首先运行更高的冲击测试。
实现——实现有多容易？技术或运营复杂性是否太大？如果是这样，如果您有同样强烈的想法，需要更少的实现，则取消测试的优先级。
唯一性——您的新测试是否接近之前失败的测试？例如，在页面上之前的按钮颜色更改失败后，您是否还正在页面下方更改按钮的颜色？
品牌一致性——如果添加积极的销售文案成功提高了您的注册转化率，但您是一家重视休闲和人际交往的公司，那么重心离开品牌不是正确的权衡。有时，优先考虑打造出一个优秀的品牌比不惜一切代价增加业绩更明智。

设置A/B测试

关于正确的测试设计，需要了解两件事：

一次运行一个A/B。否则，访问者可以在跨会话更改设备（例如移动到桌面）时纵横交错地进行多个测试。这使得结果即使不是毫无意义，也是模糊不清的。
并行运行A/B变体。如果您按顺序运行变体——这意味着一个变量运行5天，然后另一个变量运行5天——在这10天期间的不同流量来源，以及每周的不同日子，都不会被控制。这会使你的结果无效。

Google Optimize为您处理所有这些A/B测试逻辑。

考虑仅针对新用户

在设置测试时，请考虑应该包括哪些人。不一定是每个人。

例如，考虑只向首次到达您网站的访问者展示实验。这确保了测试中的每个人都对您的产品有相同的基本熟悉度。

要在Google Optimize中仅针对新用户，请按照以下说明中的示例1操作：

评估A/B测试结果

为了使测试结果在统计学上有效，您需要达到足够大的样本量。很简单：

为了从统计学上验证6.3%或更高的转化率增长，测试需要1000多次访问。
为了从统计上验证2%以上的增长，测试需要10,000次以上的访问。

这意味着，如果您没有大量的流量，机会成本就太大了，无法运行微变体，微变体往往显示转换率仅为1-5%的增长。与此同时，宏有潜力产生10-20%以上的改进，远高于6.3%的阈值。

以下是我使用谷歌优化运行的实验示例：

阅读谷歌的文档（第一部分和第二部分），了解如何解释这些结果。

上图，我们的页面在整个测试期间有1724次浏览。我们的测试变体比基线提高了30%（29/22）。

顺便说一句，这个30%的数字可能不准确。它只是变体最大潜力的参考。我们还没有那么多会话来肯定地验证这种转换改进。但30%可能足以验证我们至少提高了6.3%的转化率（相比之前的数字）。

注意标有“概率最佳”的谷歌优化列。如果一个变体的概率超过70%，并且有足够的会话（例如，如我在上文样本大小阈值中所指出的，1000和10,000），结果可能在统计学上是合理的，应考虑实施该变体。

现在，您可以决定劳动力和实现外部性是否值得在转换方面提高6.3%以上。

样本规模和收入

如果我们的结果不是决定性的呢？如果我们的把握不超过70%呢?

例如，如果实验结果仅增长3%，我们将不得不排除1724的样本量，因为这3%太小了，在统计上是无效的。

如果我们对此缺乏信心，我们会结束实验，或者我们会接受测试机会成本，并持续到达到10,000个会话。如果在10,000次会话后，3%的增长仍然存在，我们会得出结论，它可能是有效的。

但是，正如上一节中提到的，如果您一开始流量很少，请不要冒险等待3%的小幅改进。相反，考虑进行一个新的测试。

然而，如果这种小变化与有意义的收入目标（例如购买）有关，而不是与提供电子邮件地址的人有关，那么也许值得继续。

换句话说，实验的转换目标越接近收入，就越值得确认小的转换提升。

不要追逐微不足道的胜利

不要追求赢得微不足道的A/B变体。为了实现结果带来的未知缺点往往超过收益的预期价值。

例如，一个改变可能会引入一些无法预见的漏斗结果，而这些结果在几个月内都不会很明显。以后很难确定这是根本原因。

考虑意图程度

然而，有时微不足道的胜利值得在新用户身上重演。

考虑以下几点：在运行A/B测试以提高转换率时，对于高流量（例如有机搜索、推荐和口碑），您将获得递减的转换收益回报。那些访客来找你，是凭自己的感兴趣。你的责任是卖给他们期望的东西，而不是吓跑他们。

相比之下，对于广告流量，A/B测试有可能提供更大的回报。这些充其量是无趣、中等意图的玩意——通常是异想天开地点击你的广告的人。他们会立即离开。

这就是A/B测试的亮点：它们在显著提高中低意向流量的转换率方面更有效——因为有更大的利益差距需要弥补。

含义如下：如果您只针对高意向流量进行A/B，您可能没有注意到显著的改进，并可能错误地将您的测试视为整体失败。这种情况发生时，如果您确信该变体确实有潜力，可以在付费流量上重新进行测试。这方面的进步可能大到足以让人注意到它的重要性。

如何与您的团队共享结果

我使用任务管理工具，如Trello，来跟踪A/B测试。我注意到以下几点：

转换目标——我正在优化的内容：点击、浏览、网页停留时间等。
测试前后——我附上了正在测试内容的屏幕截图和描述，并描述了更改。
推理——我解释了为什么这个测试值得运行。我指的是早期的优先级标准：信心、影响、实施和独特性。

测试完成后，我进一步注意：

开始和结束日期。
样本大小——如A/B测试工具报告的那样。
结果——转换的变化，以及结果是中性、成功还是失败。（我依靠谷歌优化来确定置信区间。）如果成功了，我注意到变体是否已实现。
讨论——1）如果有的话，我们能从结果中学到什么?2)还有，是否存在一些混淆性问题(例如，一个巨大而奇怪的流量源并没有被排除在测试用户之外)会影响数据?

在运行新测试之前，请参考这些过去的测试。从你过去的错误中吸取教训。

重点

三个要点：

A/B测试比大多数其他营销计划杠杆率更高，成本也更低。建立团队纪律至关重要。
专注于宏变体，直到你用尽大胆的想法。在追求微观变体时，请专注于那些直接影响收入（例如购买）的变体，而不是更早的转换目标（例如注册）。
努力跟踪A/B结果，并在构思未来结果时参考它们。