为什么少即是多——Facebook 如何通过仅发送少量通知来提高用户满意度和应用程序使用率

我们是 Meta 的 Facebook 通知数据科学团队的成员。我们对用户对现场通知的感受进行了调查(当您打开应用程序并创建一个红色徽章来计算您拥有的通知数量时,Facebook 应用程序中显示的通知),发现许多用户更愿意只接收很少有通知。基于这一发现,我们进行了一项实验,我们发送的通知比平时少得多,我们将这些通知限制在我们预测被调查用户会告诉我们他们最想要的通知(例如,只有那些得分为 5,而不是 4 的通知) ,在 1-5 的范围内),而不是我们通常发送所有相关通知的操作模型(在 1-5 的范围内被评为 4 或 5)。但在实验中,我们发现人们开始使用该应用程序的频率降低了。我们得出的结论是,提高用户满意度值得以减少应用程序使用量为代价。尽管如此,如果用户满意度的提高(通过调查)增加用户从产品中获得的价值(以应用程序使用量为指标),那就更好了。经过进一步检查,我们发现我们实际上可以增加两者都具有一个重要的数据洞察力:了解长期影响与短期影响的不同程度。

我们有一种预感,这种权衡应该是可以避免的:如果用户对他们的体验更加满意,我们相信这也会反映在使用收益中。我们决定让只发送少量通知的实验持续一年。瞧瞧:Facebook 的使用量开始逐渐回升!一年后,我们发现,在更少的通知体验中,用户更多地使用 Facebook——用户行为的转变需要很长时间,更少的干扰导致更高的自然使用率,从而提高了用户满意度和应用程序使用率。我们写这篇博文来宣传这一发现,因为我们相信 Facebook 以外的其他数据科学团队可以从我们学到的相同课程中受益:

  1. 长期实验可能会显示出与短期实验不同的结果。

什么是“现场”通知?

Facebook 主屏幕上的钟形通知选项卡显示现场通知。您的朋友可能张贴了图片,或者您所属的群组中的某个人可能发表了评论。您可以点击通知查看(希望如此!)相关内容

为什么平衡通知数量很重要?

为了帮助用户从我们的产品中获得最大价值,我们关注的主要领域之一是估计应该在正确的时间发送多少通知。如果我们没有及时发送足够的通知,人们可能会错过他们感兴趣的内容。但另一方面,如果我们发送过多的通知(或用不太相关的更新通知用户),即使用户可能在短期内更频繁地访问 Facebook,他们也可能将通知视为垃圾邮件,对它们产生负面看法或使用他们拥有的控制选项选择不接收通知,这可能会使他们将来错过相关内容。我们不想以这种不可持续的短期方式优化我们的产品;相反,我们认为保证人们拥有有价值的体验的长期价值才是我们应该努力的目标。

我们如何衡量这一点?

通过用户研究,我们了解到我们的用户只想接收最相关的通知(基于用户调查,用户对他们收到的实际通知的相关性进行评分)。因此,我们设置了一个 A/B 测试来比较当用户只发送我们预测非常相关的通知与更广泛的相关通知时发生的情况(例如,我们预测用户会在 1 到 5 的范围内给他们打 5 分,而不是4,在两个测试组中,我们都没有发送我们预测不相关的通知)。

A/B 测试是业界广泛使用的技术,用于确定通知数量与目标结果(例如产品使用情况、用户满意度)之间的因果关系。因此,我们进行了一系列测试,向随机分配的用户组发送不同数量的相关通知。然后,我们测量了从产品使用到用户满意度指示指标的各种结果。

我们的测量教会了我们什么?

即使用户声称他们不喜欢收到太多通知,通常的 A/B 测试结果通常表明只发送少量通知会立即导致产品访问量减少。A/B 测试的一个缺点是实验持续时间通常很短(例如几周或几个月),因此无法检测结果是否纯粹是由于新颖性效应,或用户对我们产品满意度的真正变化. 我们选择将较少通知的实验延长数月甚至数年,以了解长期影响。当然,我们需要更长的时间才能得出结论,但这是我们应该做的,以学习重要的长期学习,这可能与短期学习有很大不同。

我们发现,最初由于通知较少而导致的访问量损失会随着时间的推移逐渐恢复,并且经过一段时间后,它已经完全恢复,甚至变成了收益。换句话说,长期影响可能与短期影响不同,甚至相反。人们可能需要时间来适应这种变化。我们的结果表明,如果改变真正改善了他们的体验,人们最终会返回并更加参与 Facebook。

好的,那么我该如何设置长期实验呢?

长期实验需要与短期实验不同。

首先,如果您进行一年的实验,初始效果和整年效果之间的差异可能不是由于时间差异造成的。例如,新用户可能在去年注册了 Facebook,或者现在的内容可能与实验开始时不同。为了区分这些“生态系统层面”的变化与真正的短期差异和长期差异,我们在第一个实验开始几个月后进行了一个新的重复实验,让它运行一段时间,然后与最初的实验进行比较趋势到原始实验,看看它是否与复制的实验一致。如果初始趋势一致,发射重现初始实验长期影响的可能性就会增加。在确认初步效果符合要求后,

但如果我等不及怎么办?

确定短期和长期影响之间差异的科学方法是进行长期实验。您将不得不等待很长时间才能获得结果,这显然是这种方法的缺点。然而,有些实验很难或不需要长时间运行,您可能不会总是有足够的时间等待。您仍然可以做一些其他的事情来研究长期影响。

首先,您可以使用从早期长期实验中获得的知识来评估短期实验。例如,我们从只有少量通知的实验中发现,访问量会出现短期损失,但会带来长期收益。我们很自然地想知道涉及发送更多通知的即时访问收益的实验是否最终会失去其即时收益甚至导致长期访问损失。为了确定增益是否有下降趋势,我们在宣布增益之前会保持谨慎,并要求这样的实验运行一段时间。

此外,您可以根据实验创建长期代理(https://medium.com/meta-analytics/estimating-the-long-run-value-we-give-to-our-users-through-experiment- meta-analysis-6ddb9073b29b) 并用它来计算短期实验的长期影响。基本思想是首先进行一些长期实验,然后使用实验数据拟合回归以确定各种处理对长期影响的系数。然后,您可以使用回归系数预测短期实验的长期影响。例如,对于结果 Y_i(例如,在一年的时间范围内衡量的用户满意度),您可以使用短期可观察指标 x_1、x_2 和 x_k 来预测它,例如发送的通知数量,

然后,您可以使用在短期实验中得出的公式。此外,定期更新公式也很重要,例如每六个月更新一次。

只有傻瓜才会冲进来……

总之,一个典型的 A/B 测试陷阱是,人们可能会根据短期实验的结果做出决定,而某些产品更改可能会产生截然不同的长期影响。当心新奇效应,并尽可能地测量它们。如果难以长时间运行实验,您可以尝试从过去的长期测试中推断学习或创建基于实验的代理来评估短期实验。您的等待是值得的,您将通过更长的实验和基于它们的 AI 模型做出更好的决策。

作者:Weijun C.、Yan Q.、Yuwen Z.、Christina B.、Akos L.