合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
公司名称Statsig,取自于统计学显著性的英文简称。我们提供A/B实验以及相应的功能管理平台,现在也开始做一些用户分析方面的内容。公司使命就是民主化A/B实验,用数据来驱动决策,脱离传统的“老板说了算”这种模式。服务的客户中不乏著名的创业公司,如Figma、Notion、OpenAI等。
我们企业工程团队主要服务企业级用户,宗旨是让所有在Statsig签约的用户,跑更多更好的实验。我们的工作内容横跨售前和售后,比如帮助销售介绍公司产品和实验文化,也会参加用户的实验设计和结果评审等。
Statsig在2021年2月创立于美国西雅图,整个团队都是前Facebook西雅图的员工,包含6名工程师和1名数据科学家。创立时正处于新冠高峰期,但还是要求全员去公司上班,因为早期每天都要做很多新的决定,只有这样才能有更强的执行力。
我们的CEO,是前Facebook的副总裁,也是西雅图分部的负责人。他在 Facebook 任职的10年内,西雅图分部从刚开始十几个员工,一直做到 8000 个员工。他在公司内部也是一个比较有名的连续创业者,曾经带领过很多成功的项目,这些项目现在给公司贡献了上百亿美金的收入。
从第一天上班,到第一版产品上线,我们花了大概3-4周时间。之后我们又等了3周的时间,才有了第一个新加坡的注册用户。同年10月份,我们收到了第一笔用户付款,虽然只有几美金,但确是一个非常重要的里程碑。
我们曾经在Facebook做一款小游戏,一个项目经理提出要花时间去优化游戏的加载速度,从而提高玩家的转化率。这听起来理所当然,没有任何问题,当天就开会讨论具体要做什么。讨论出来的方案几乎都是大工程,估计需要好几个月才能完成。
其中有个成员就提出了一个大胆的想法,减少加载时间很困难,但人工增加游戏加载时间很简单,我们可以先测一下增加游戏加载时间对用户带来的影响,然后用这个结果来评估要不要投入几个月时间去减少。最后的结论是这个优化带来的增益,远远不值得投入这么大的精力,然后我们就用这个时间去做更有效的事情了。
花了几个小时工作量,省下了团队几个月的时间,这件事情让我深刻地认识到,每个公司都应该有这样的实验平台和文化,这也是我们后来创业的初衷。
他们能够放心地去发布新的功能,不需要很多的反复测试流程。如果你有自助化的数据,就可以观察新功能是否达到预期,APP闪退频率以及用户延时的变化情况。各种内部SDK的升级,在我们的实验平台都可以轻易做到。
一方面减少了他们写SQL取数和验算实验结果的时间,这种事情往往繁琐枯燥;另一方面由于实验结果都是自助化的,也省去了团队其他成员,因为不愿意相信实验结果所带来的一些冲突和麻烦。他们可以把这些省下的时间和精力花在更有意义的事情上,比如通过数据去帮助团队寻找产品发展的方向,或者是推荐更有用的实验目标之类的事情。
用数据结果说话,可以减少一些非常主观的辩论。当大家对于一个新的想法意见不统一时,就跑一个实验,让结果说话。这样还可以鼓励团队去尝试更多未知冒险的想法,这些想法往往可以带来出其不意的回报。
好的实验运作应该像流水线一样,是每天工作的一部分,可以让员工的工作效率翻倍。但大部分公司做实验更像是科学研究,从实验设计实现到数据采集解读,端到端做一个完整实验是一种奢侈,不可能作为日常工作的一部分。造成这种情况主要有以下三个原因:
现在企业对数据分析方面的需求,可以用下图中的需求金字塔来描述, Statsig的重点在上面两层:
推动A/B实验民主化,最重要的就是实验的极简化,Statsig在这方面下了非常大的功夫。从UI到SDK的设计,都尽量做到极简,下图展示的就是我们产品里面的一个功能开关。你做任何的新功能,只要一个功能开关,把功能放到这个开关里面,然后写基本的一个如果从句,就可以把它变成一个实验。
这个功能开关只要设置到0-100之间的百分比,我们就会自动把这个做成A/B 实验,给你分析这个功能的存在与否,对用户行为上面产生的一些影响。只要把功能放到这个开关,就可以看到你所关心的所有指标。不需要数据科学家做任何额外的工作,就可以一目了然,看到这个产品或功能产生的效果。
对于稍微复杂一点的场景,也可以把实验的变量做成参数。我们的SDK可以让你在一个参数上跑不同的实验,可以同时也可以不同时,这样显而易见的好处就是,测一个参数的不同数值,不需要再改动代码,不需要移动端开发的等待时间,直接在UI界面上改就生效了,就可以直接开始新的实验。
至于实验的数据收集,不管是从我们的 SDK 直接发过来,还是通过数据采集器或者数据仓库,我们的宗旨就是数据存在哪里都可以兼容。而且无论是记录原始事件,还是预先设计好的计算指标,我们也都可以用。换而言之,数据在哪,实验结果就可以在哪。
逐步揭示数据的复杂性(Progressive Disclosure of Complexity),就是希望让我们的平台能够适用于不同岗位、不同背景的用户,而不仅仅是数据科学家。我们的实验结果面板,基本上都可以看懂。红色的就是显著的不好,绿色就是显著的提升,灰色就是没有显著性。这里面数据指标含义,也都是顾名思义、一目了然。所以普通的工程师和项目经理也可以通过数据面板来读懂实验结果。
我们的平台还支持更多深层次的需求,比如指标的具体计算逻辑,在实验中某个指标每天的变化等等。还可以从平台里面导出计算结果的原始数据,不少用户都会这样来验算显示数据的正确性,或者拿到他们自己的数据仓库里面去做更多的分析。
很多用户烦恼的问题就是不知道怎么证明一个团队跑很多实验,是不是值得的,给公司带来了怎么样的业绩。可以试一下我们平台内置的这个实验保留功能,可以随机选择一小部分用户,让他们不参与任何的一个产品实验。然后会自动计算这一段时间以来你们产品里面所有的实验,所有的功能产生的总体影响。很多用户用这个来当作他们整个团队一段时间的业绩面板。
再来着重介绍下我们企业工程团队,我们与其他平台最大的不同可以总结为四点,这也是我们能够推动A/B 实验民主化一个非常重要的因素:
最后介绍两个民主化实验推行的成功案例:
TOP