netflix测试的简单介绍

2023年 6月 28日 发表评论
腾讯云正在大促:点击直达 阿里云超级红包:点击领取
免费/便宜/高性价比服务器汇总入口(已更新):点击这里了解

netflix测试的简单介绍

目录:

  • 1、Netflix的AB测试之道
  • 2、Netflix是如何做决策的? | 2. 什么是A/B测试
  • 3、【译】Netflix是如何做A/B测试的

Netflix的AB测试之道

[国外设计第145期]

几周前,我在旧金山的 Yelp 总部参加了一场 设计师与极客们的活动 Anna Blaylock和Navin Iyengar两位都是 Netflix 的产品设计师,他们介绍了自己多年在千万级用户群中做A/B测试的经验。他们也展示了相关的产品案例,帮助与会者思考自己的设计。

下面是我关于他们演讲做的记录,其中包含我最喜欢的一些精华。

演讲的照片

我非常喜欢PPT的第一页—— 绝命毒师 里的这张图用得很聪明,能表现 实验 的概念。

在科学中,假设是指一个想法或一套解释,需要通过研究和实验来验证。在设计里,一套理论或猜想同样可以被称为假设。

假设的基本概念,是没有确定结果的。它经得起检验,这些测试也可以被重现。

“ A/B测试 背后的总体概念,是创造一套实验,有对照组和一个或更多实验组(在Netflix中这被称作‘单元’),对他们进行区别对待。在实验中,每个用户都属于唯一的单元,其中一个单元会被设计成‘默认单元’。这个单元代表着对照组,使用体验与所有没有加入实验的Netflix用户相同。” —— Netflix技术博客

Netflix的A/B测试是这样进行的:随着测试启动,它们会记录特定的重要指标。例如播放时间和留存率之类的因素。一旦测试者得出足够有意义的结论,他们就会进一步观察每组实验的效果,定义出各个版本中的优胜者。

许多像Netflix这样的公司通过实验保障用户数据。同样重要的是,投入时间和精力合理安排实验,确保数据的种类和数量足以有效地阐明他们感兴趣的问题。

你可能会注意到, Netflix首页 的焦点区域似乎随着登录状态改变。它们都是Netflix复杂实验的一部分,让你观看他们的节目。

我首次登录看到的首页。

PPT中的图片:用户注销后会看到纸牌屋的页面。

我第二次登录时看到的页面。

我换了另一个账号登录看到的页面。

我换了一个“儿童”账号登录看到的页面。

我未登录时看到的页面。

A/B测试的概念,是向不同用户群呈现不同内容,收集他们的反应,通过结果来建立未来的策略。Netflix工程师 Gopal Krishnan 写的 这篇文章 里提到:“如果不在90秒内吸引一个用户的注意力,这个用户就很可能失去兴趣,去做其他的事情。这些失败的情况,往往是因为我们没有呈现正确的内容,或者我们呈现了正确的内容但没有提供足够的观赏理由。”

Netflix早在2013年做过一个实验,用来研究是否可以通过创造一些不同版本的作品,来提高某个标题的收视率。结果如下:

图片来自 Netflix技术博客

Krishnan补充道:“这个信号很早提示我们,用户对于封面变化的敏感。这个信号也表明,还有更好的方式,可以通过Netflix的用户体验,帮助用户找到他们要的那一类故事。”

Netflix后来打造了一套 系统 ,能自动根据纵横比、裁剪、润色和不同语言的同一张背景图为作品分组。他们在TV节目上也重复这个实验,用来追踪相关作品的表现。例子如下:

图片来自 Netflix技术博客 。两张带有标记的图片明显胜过其他版本。

图片来自 Netflix技术博客 。最后一张带标记的图片明显胜过其他版本。

请看两篇博客文章,可以了解更多关于Netflix的A/B测试:

A/B测试是研究用户行为的最可靠的方式。作为设计师, 我们应该通过实验的角度,思考自己的项目 。

PPT中的图片:你的直觉未必正确。

了解用户是设计过程中最令人兴奋的部分。设计没有成品,许多的改版和迭代可以改进设计,给用户带来尽可能好的体验。

本文最初发布在 Medium 。

原文链接:

作者信息: Jessie Chen, UI/UX Designer

Jessie Chen currently works at ZapLabs , where she designs a CRM for real estate professionals. She enjoys gathering user feedback through user testing, and iterating on design ideas to solve usability issues. In her spare time, she shares ideas on Medium about how design impacts businesses.

Follow me on Twitter

Netflix是如何做决策的? | 2. 什么是A/B测试

这是关于Netflix如何基于A/B测试来做出决策并不断创新产品的系列文章的第二篇。参见 第1部分:Netflix的决策制定 。随后的文章将详细介绍A/B测试的统计数据、Netflix的实验、Netflix如何投资基础设施来支持和扩大实验、以及Netflix实验文化的重要性。

A/B测试是一个简单的控制实验。打个比方,假设我们正在考虑新的产品体验,想知道如果把所有的方框图片都颠倒过来显示在电视UI上,是不是对会员的体验更好一点。

为了进行实验,我们选取一个成员的子集(通常是一个简单的随机样本 [2] ),然后随机分配 [3] 将样本平均分成两组。“A组”,通常被称为“控制组”,继续获得基本的Netflix用户界面体验,而“B组”,通常被称为“测试组”,根据一个关于改善用户体验的特定假设(下文将详细介绍这些假设),获得不同的体验。在这里,B组收到了上下颠倒的方框图片。

等一段时间,然后比较A组和B组的各种度量值,有些度量值是特定于给定假设的。比如在UI实验中,我们着眼于新功能不同变体的用户粘性。而如果作为一项旨在在搜索体验中提供更多相关结果的实验,我们会衡量用户是否通过搜索发现了更多可观看的内容。在其他类型的实验中,我们可能会关注更多的技术指标,比如应用程序加载的时间,或者在不同网络条件下能够提供的视频质量。

在许多实验中(包括颠倒方框图片的例子),我们需要仔细思考参数告诉了我们什么。假设我们着眼于点击率,即衡量每一次用户体验中点击某款游戏的用户比例。那么作为衡量新UI是否成功的指标,这本身可能是一个误导,因为会员可能只是为了更容易阅读产品体验而点击标题。在这种情况下,我们可能还想评估有多少成员随后没有继续浏览,而是选择了离开。

在所有情况下,我们也需要着眼于更一般的指标,旨在捕捉Netflix给我们的会员带来的快乐和满足。这些指标包括对Netflix用户参与度的衡量:我们正在测试的想法是否会帮助用户在某个夜晚选择Netflix作为他们放松娱乐的方式?

这也涉及到很多统计数据——多大的差异被认为是显著的?在一个测试中,我们需要多少成员来检测一个给定大小的效应?如何最有效的分析数据?我们将在以后的文章中讨论其中的一些细节,重点是要关注高层次的直觉。

保持其他条件不变

因为我们使用随机分配的方法创建了控制组(“A”)和测试组(“B”),所以可以确保两组中的个体平均而言在所有可能对测试有意义的维度上都是平衡的。例如,随机分配可以确保两组成员的平均会员时长没有显著差异,内容偏好、主要语言选择等也没有显著差异。两组间唯一的差异是我们正在测试的新体验,从而确保我们对新体验影响的估计不存在任何偏差。

为了理解这有多重要,让我们考虑另一种做出决定的方式:我们可以向所有Netflix成员推出新的上下颠倒的方框体验,看看我们的某个指标是否会有很大的变化。如果出现了积极的变化,或者没有任何有意义的变化的证据,我们将保留新的体验,如果有负面变化的证据,我们将回到之前的产品体验。

假设我们这样做了,并在某个月的16号打开了颠倒体验的开关。如果收集到以下数据,你会如何做?

数据看起来很不错,我们发布了一款新的产品体验,会员粘性也大大提高了!但如果你有了这些数据,再加上产品B把所有UI的框图都颠倒了,新产品的体验真的对会员有好处吗?你对此真的有多大信心呢?

我们是否真的知道新产品体验是导致用户粘性增加的原因?还有其他可能的解释吗?

如果你知道就在(假设的)上下颠倒产品体验推出的同一天,Netflix发布了新的热门剧集,比如新一季的《怪奇物语》(Stranger Things) [4] 或《行尸走肉》(Bridgerton) [5] ,或者《死亡军团》(Army of the Dead) [6] 这样的热门电影,你会如何想?现在我们对用户粘性的增加有了不止一种可能的解释:可能是新的产品体验,可能是社交媒体上的热门大片,也可能两者兼而有之,也可能是别的什么东西。关键是,我们不知道新产品体验是否导致了用户粘性的增加。

如果我们用上下颠倒产品体验进行A/B测试,让一组成员收到当前产品(“A”),另一组收到上下颠倒产品(“B”),并收集以下数据:

在这种情况下,我们得出了一个不同的结论:上下颠倒产品的用户粘性普遍较低(这并不奇怪!),而这两组用户粘性都随着大片的发行而增加。

A/B测试让我们能够做出因果陈述。我们将会员随机分配到A组和B组,两个组之间的其他一切都保持不变,只将上下颠倒的产品体验引入到B组,因此,我们很有可能得出这样的结论(更多细节将在下次讨论):颠倒产品导致了用户参与度的降低。

这是个极端假设的例子,但总的来说,总有一些事情是我们无法控制的。如果我们向所有人呈现一种体验,并只是在改变之前和之后测量一个指标,那么这两个时间段之间就会存在相关差异,从而阻止我们做出因果结论。也许是一部新剧集,也许是一个新的产品合作伙伴关系,让更多的用户可以享受Netflix,总有一些我们不知道的事情。运行A/B测试,在可能的情况下,让我们能够证实因果关系,并自信的对产品进行更改,因为我们的会员已经通过他们的行动投了票。

一切都始于一个想法

A/B测试开始于一个想法——一些UI的改变,帮助会员发现内容的个性化系统,新会员的注册流程,或任何其他想法,基于我们在Netflix的经验,我们认为这些想法有可能对成员产生积极的效果。我们测试的一些想法是渐进性的创新,比如改进出现在Netflix产品中的文本,有些则更有野心,比如Netflix现在在UI上显示的“Top 10”列表的测试。

就像Netflix在全球范围内推出的所有创新一样,Top10最初只是一个想法,后来变成了一个可验证的假设。这里的核心理念是,在每个**都很受欢迎的节目将从两方面让我们的会员受益。首先,通过呈现热门节目,可以帮助会员介绍感受,并通过讨论热门节目与他人建立联系。其次,可以通过满足人们参与共享对话的内在欲望来帮助用户选择一些很棒的内容。

接下来,我们将这个想法转化为一个可测试的假设,即“如果我们改变X,它将以一种能够提高度量Y的方式改善会员体验。”对于Top 10的例子,假设是:“向用户展示Top 10的体验将帮助他们找到值得观看的内容,增加用户的乐趣和满意度。”这个测试(和许多其他测试)的主要决策指标是衡量用户对Netflix的参与度:我们正在测试的想法是否会帮助用户在某个特定的夜晚选择Netflix作为他们的娱乐方式?研究表明,从长远来看,这个指标(细节省略)与会员续订的概率是相关的。我们也在其他领域运行测试,如注册页面体验或服务器端基础设施,主要决策指标有所不同,但原理是一样的:在测试期间,我们需要衡量是否给长期会员提供了更多价值?

除了测试的主要决策指标,还需要考虑一些次要指标,以及它们将如何受到我们正在测试的产品特性的影响。这里的目标是阐明因果链,从用户行为将如何响应新产品体验到我们主要决策指标的变化。

明确产品变化和主要决策指标变化之间的因果链,并监控这条链上的次要指标,有助于我们建立信心,相信主要指标的任何变化都是我们假设的因果链的结果,而不是新功能带来的意外结果(或者是错误的结果——在后面的文章中会有更多讨论)。对于Top 10的测试,用户粘性是我们的主要决策指标——但我们也会关注出现在Top 10列表中的那些节目的观看率,通过这一列表产生的观看率与界面其他部分产生的观看率,等等。如果Top 10的体验真的对成员有好处,那么我们就会期待测试组能够增加出现在Top 10列表中的节目的观看量,并获得更强的粘性。

最后,因为并非所有我们所测试的想法都是正确的(有时候新功能也会有漏洞!),我们也会将指标视为“护栏”。我们的目标是限制任何不良后果,并确保新产品体验不会对会员体验产生意想不到的影响。例如,我们可以比较控制组和测试组的客服联系,以检查新功能是否增加了对客服的联系率,这可能表明会员的困惑或不满。

总结

这篇文章的重点是建立A/B测试的基础,了解为什么运行A/B测试比推出功能更重要,在做出改变之前和之后查看指标,以及如何将一个想法变成一个可测试的假设。接下来我们将讨论在比较测试组和控制组的指标时所使用的基本统计概念。

【译】Netflix是如何做A/B测试的

文章的一开始是一些客套话,我就不翻译了,大致意思是作者参加了一个活动,活动中两个Netflix的产品设计师(product designers)做了关于A/B测试的介绍,这篇文章就是作者听完之后的一些总结和思考。

首先提了一个“实验”的概念,用了“绝命毒师”的图片来解释什么是实验。确实很生动形象,也和Netflix搭上勾。这个概念很简单,以至于作者就说了她很喜欢这张幻灯片,觉得这个比喻很机智,然后就没有了。之后提了一个“科学的方法”,应该就是指A/B测试是一种科学的方法。

第三个概念是假设(Hypothesis),或者说猜想。在科学上,是指一个想法或者解释,之后可以通过分析和实验对其进行验证。在设计中,往往指的是一种理论或者猜测。假设的基本特征是事先不知道最后的结果是啥,但是可以通过实验得出,而且实验是可以被重复。就像韩春雨。

所谓的A/B测试,就是设置两组或者多组用户进行测试,其中一组为控制组,其余的为实验组。控制组使用的版本一般是默认的,或者说是原来的,没有修改的,跟其他普通的没有参与测试的用户的版本一致。而实验组的使用的版本则是修改过的。每个用户只能加入一个组。

测试进行时,需要跟踪一些重要的指标,比如时间流(streaming hours),留存率(retention)等,一旦参与者提供的数据足够得出有意义的结论,就可以在各个不同的组之间进行对比,以此来判断哪个组的表现更好,就像下面这种图,在test1中,第二个实验组表现最后,称为winner,胜利者。

公司需要通过实验来获取用户数据,因此,花费一定的时间和精力对实验方法进行整理以确保获取的数据在类型和数量上能满足要求,这样数据才能尽可能有效地解决相应的问题。如果你有注意的话,每次登陆Netflix,主页的显示是不同的,这其实就是Netflix的实验之一,用来确保你收看他们的节目。就像Netflix的一位工程师说的,如果你不能在90秒内引起用户的注意力,用户就会失去兴趣并转移到另外的活动上去。这种情况可能是由于网站没有展示出正确的内容,也有可能是展示出正确的内容,但是没有提供足够的吸引力来让读者觉得自己应该收看这个节目。

这种情况下,就可以通过A/B测试进行实验,判断出真实的原因。

早在2013年,Netflix就做了实验去验证不同的背景图像是否对观看者的数量有影响,结论是肯定的,如下图。

Netflix之后还开发了一个系统,可以自动将具有相同背景,但有不同的长宽比、裁剪、小装饰、标题的位置等的各个图像组合在一起,然后可以在其他不同的电视节目中追踪这些作品的表现。下面是一些例子,其中有绿色箭头的是表现比较好的。

最后是作者写的几点自己的体会。

当你的设计方案进入开发环节的时候,就可以使用A/B测试来调整设计方案,同时关注两个关键的指标:留存率和利润。在A/B测试中,对产品做出一些改变,然后追踪用户的使用情况,看是否这个改变能够提高留存率和收入,如果可以,就确认在产品中使用这个改变,反之,则尝试别的修改方案。这样不断通过A/B测试,就可以持续提高产品的商业指标。

很多时候用户不能想你期望的那样快速完成任务,有时候他们会找不到你放在页面上的按钮。原因可以有很多,可能是这个设计不够直观,颜色不够鲜艳,或者是技术不够娴熟,不知道如何在一个页面的众多选项中做出决定等等。

不幸的是,在预测用户行为方面,我们的直觉可能是错误的,唯一可以证明的方法就是通过A/B测试,这是用来验证一个用户体验设计方案是否比另一个更加有效的最好的办法。这种说法在工作中得到了验证。举个例子,有一次我们想验证是否能够通过一些设计上的改变,从而提高用户点击广告之后的注册率。为此我们做出几个设计方案。一开始认为只隐藏property image(这个不知道如何翻译,感觉是一个广告相关的,应该不是简单的图片属性之类)的方案会是最好的,但最后发现同时隐藏property image和价格的方案有最高的转化率。

最好的想法来自于源源不断的探索。在工作中,我们的产品团队一起合作完成了各种不同的项目,团队中包括了设计师、产品经理、开发者,我们一起进行探索。一些最好的想法是产品经理或者开发者试用了原型之后提出来的,而不是由设计师自己。

与用户交流的时候,要时刻记住,他们说的往往和做的不一样。这里有一个很好的例子来说明,这周我进行了一个用户测试,是关于一个联系人列表的原型。我询问用户是否经常使用分类和筛选的功能,用户说不,因为他不需要这些功能。但是当用户发现有了一个新的下拉菜单用于筛选时,他惊奇地发现这样的设计让分类和筛选变得非常方便,并且马上问到,为什么不在产品中加入这个功能。

最后这六个点是作者自己的收获,应该是听的过程中一些比较深刻的内容,所以也不是啥总结或者归纳,内容上也显得比较随意,不过确实都是一些值得思考的问题。

文中作者还附上了两个Netflix的相关链接,这里补上。

以上。

【netflix测试】的内容来源于互联网,若引用不当,请发邮件usgpt@qq.com联系删除

小咸鱼

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: