试验管理
前置条件
开始创建实验前,需根据实验设计,先完成实验所需数据埋点”海纳嗨数埋点SDK”接入,需集成 A/B Testing SDK,确认客户分流方式后开启使用,详情参见技术对接文档:ABTestSDK
1 概述
试验管理为ABTest核心组件,为客户提供新增试验、编辑试验、查看试验报告等服务。
2 位置和使用权限
操作位置:ABTest—试验管理
使用权限:不同的项目角色操作权限如下
项目角色 | 权限 | 权限明细 |
管理员 | 查看、编辑、复制、删除 | 新增试验,包含输入基本信息、选取试验受众、配置分组规则、添加试验指标 |
分析师 | 无权限 | 无权限 |
普通用户 | 无权限 | 无权限 |
3 页面概览
用户可以对一个试验进行全生命周期管理。包含试验创建、试验编辑、试验上线、试验结束和试验数据等,同时以列表的形式展示试验的历史记录。
4 功能结构
4.1 试验列表页
试验列表页包括以下信息:试验ID、试验名称、试验层及占比、试验状态、试验类型、时长、创建人、创建日期、操作栏(编辑/复制/删除)
不同试验状态的作用如下表:
试验状态 | 试验状态操作栏 | 试验状态变更时机和作用 |
调试中 | 上线 | 创建试验时,点击“完成配置”,试验状态显示为“调试中” 此时调试设备会被强制分配到已经配置好的试验分组内,可以使用调试设备验证试验分流结果。 |
运行中 | 发布、暂停、下线 | 在“调试中”状态下,点击“上线”,试验状态变更为“运行中”。 此时目标试验用户开始进入试验,试验报告会进行实时统计数据。 |
运行中(暂停) | 继续、发布、下线 | 在“运行中”状态下,点击“暂停”,试验状态变更为“运行中(暂停)”。 此时不再有新用户参与分流,已命中试验的用户仍将保持命中状态 *点击继续,回到“运行中”状态 |
已发布 | 暂停 | 试验状态变更时机:在“运行中”或“运行中(暂停)”状态下,点击“发布”,试验状态变更为“已发布” |
已发布(暂停) | 继续 | “已发布”状态下点击暂停,试验状态变为“已发布(暂停)” *点击继续,回到“已发布”状态 如果试验为粘性试验,发布暂停后,已经发布用户将保持之前策略,不会继续扩大发布 |
已下线 | 试验状态变更时机:在“运行中”或“运行中(暂停)”状态下,点击“下线”,试验状态变更为“已下线” 下线试验后将终止运行,状态无法回退、无法发布。 |
4.2 新增试验
在试验列表中,点击“新增试验”按钮,进入试验创建页面。
4.2.1 输入基本信息
名称:试验名称不可重复。
类型:默认编程试验,不可编辑。
描述:用于描述试验信息,比如试验目标、预期效果等信息。
运行时长:也叫试验时长、试验周期,是指试验开启的时长,考虑工作日与周末影响时,实验周期至少需要一周。
为了避免不同时间段(工作日与周末)的用户行为差异,建议至少观察 2 个完整的实验周期,那试验开启时长建议至少为14天。
4.2.2 选取试验受众
选取试验层:
为新建试验选择一个试验层,在同一层的试验流量互斥,同一个用户进入试验层时只能命中该试验层中的一个试验,以保证试验间互不干扰。建议提前根据业务情况规划试验层。
占用试验层流量:
只能为1-100整数,且不超过已选择试验层的【剩余可用流量】。
在选取的受众用户范围内,设置总共能参与试验的用户比例。试验上线初期一般选择小部分流量进行试验,后续再根据试验数据反馈酌情调整。
选取受众
【全部受众】:当日活跃用户作为目标受众,所有进入试验流程的用户,都将参与分流。
【自定义受众】:自添加筛选条件,支持且或关系,只有符合条件的用户进入试验流程,才会参与分流。
注*筛选条件:支持按照用户分群、用户标签、用户属性三种条件混合筛选。
- 用户分群:在用户分群中创建好的已有分群,可选择属于或者不属于该分群。
- 用户标签:在用户标签中创建好的已有标签,可按“最新版本”选择带有或者不带有该标签。
- 用户属性:支持海纳嗨数用户表的全部用户属性作为目标受众筛选条件。
用户变更:
- 随属性变更动态分流:指根据用户的实时属性(包括分群和标签)每次请求分流,当用户属性发生变更时,用户可能会命中不同分组。
- 分流不受属性变更影响:用户在命中试验后,即使属性(包括分群和标签)发生变化,也仍将保持之前的命中结果。
建议:如果触达的试验受众,需要随地点、会员等级变化展示不同的内容时,可选择开启随属性变更动态分流。
4.2.3 配置分组规则
默认平均分配,可以根据业务和试验情况合理规划试验分组数量,对照组+试验组的数量不超过 10 个。
- 平均分配:将 100% 的流量均匀自动分配到每个组。
- 手动分配:手动分配每个分组的流量,流量总和为100%。
分组信息
组名:默认对照组、试验组,可重命名组名。
组描述信息:支持输入中文、英文和数字,不支持特殊字符,文本长度最多支持300个字符。
组调试设备:调试设备用于测试试验分组的策略是否正确被下发,一旦设备被加入对应的试验分组,将固定命中当前的分组策略。一个调试设备只能被添加到试验的一个分组中,但不受试验层策略的影响。
试验参数:支持数值型、文本型、布尔型参数。用户在A/B测试平台运行试验时,试验的策略通过参数进行下发到对应的应用端,不同的参数对应不同的功能或者业务策略。一般在应用发版前,需要根据规划的试验策略将参数提前预置到应用代码中,即可在A/B测试平台使用对应的参数来创建并运行试验。
4.2.4 添加试验指标
创建指标
指标名称:长度不超过100字符,首尾不能为空格,指标名称不能重复。
指标描述:长度不超过256个字符。
指标分组:用户可以新增一个指标分组,对指标进行分类。
指标指向:正向、负向、中性共三种指向。
指标类型:
- 检验类指标:通过严格的、可经由统计学进行置信度检验的指标,衡量参与试验样本的服从统计分布,从微观角度,按试验样本/试验单元维度去观察试验对单个样本的影响,用以判断试验结果的成败。比如,人均点击次数、人均交易金额、点击按钮转化率等。
- 业务类指标:通过稳定的、易理解的、公司内通用的业务指标,从中观角度,去观测试验阶段的整体数据表现,平衡地观测试验过程中的业务数据变化,洞察试验的影响。比如,DAU、GMV、「APP启动」总次数等。
生成方式:
检验类指标,按生成方式分为以下六类:转化率、人均值、人均事件均值、人均事件比值、漏斗分析、留存率。
业务类指标,按生成方式分为以下两类:事件分析、留存分析。
添加已有指标
用户可从已有的指标管理中选择适合的指标,绑定到该试验,可多选。
*请注意该部分详细可参考 :试验指标管理
4.2.5 完成配置
点击“完成配置”按钮,即表示成功创建一个新试验。将填写的信息和选项加入试验列表,并跳转到试验列表。
*校验所有必填项是否填写,对应错误会有提示。
4.3 试验发布
用户在新增试验并完成配置后,试验即进入“调试中”状态,点击“上线”操作,目标试验用户进入试验阶段。
针对运行中一段时间的试验,客户想要快速将更优版本发布至全量用户,或者在保证试验各项指标稳定时,逐渐向更多用户推出新版本,可以使用发布操作。
试验发布支持逐级扩量,若产生异常业务数据指标异常或者产品功能bug,可以快速进行回滚切换版本,实现线上问题用户无感知,最大程度降低损失。
4.3.1 创建发布计划
仅针对正在运行的试验,支持创建发布计划,已下线的试验不支持发布。
(1)通过试验列表创建
在试验列表选择一个「运行中」状态要进行发布的试验,点击“发布”操作,即可开始创建发布计划。发布后,试验状态变为「已发布」。
(2)通过试验报告快速发布
选择一个「运行中」状态要进行发布的试验,在试验报告中,可以选择要发布的试验分组,进行快速发布。
发布规则
- 发布策略:选择一个试验优胜版本作为发布策略,发布后用户将按照发布比例命中策略,策略一经发布,将不支持修改。
- 默认策略:在发布阶段,按照发布比例未命中发布策略的用户,将执行默认策略,一般建议默认策略为对照组策略。发布策略与默认策略不能相同。
- 发布周期:发布周期最多支持90天。
发布比例
发布用户范围:仅支持对当前A/B试验中所选择的受众用户范围进行发布。例如A/B试验中选择了某个分群作为试验目标用户,则发布范围为满足当前分群的用户。
发布比例:选择一定的比例进行发布。在发布后,可以根据线上数据指标情况,逐步扩量。
发布方式
方式一:试验用户在命中发布策略前,继续执行试验阶段命中的分组策略(推荐)
例如:一个试验有A、B、C 三组,在发布时选择 B 组作为发布策略、A 组作为默认策略。
在发布后:
① 试验中已经命中 B 组的用户,仍将保持在发布策略 B 组中;
② 试验中已经命中 C 组的用户若未命中发布策略,则会继续命中 C 组。直到发布比例逐渐扩大后,C组命中发布策略后,才会进入 B 组。方式二:未命中发布策略的用户都将执行默认策略
例如:一个试验有A、B、C 三组,在发布时选择 B 组作为发布策略、A 组作为默认策略。
① 试验中已经命中 B 组的用户,仍将保持在发布策略 B 组中;
② 试验中已经命中 C 组的用户若未命中发布策略,则会命中默认策略A组,直到发布比例逐渐扩大后,会再次命中发布策略 B 组。
注意:
由于非粘性试验不记录历史命中结果,因此在试验发布后,未命中发布策略的用户都将执行默认策略(方式二)
4.3.2 修改发布计划
在发布过程中,可以修改发布计划。其中:
发布策略:不支持修改。
发布周期:可以在允许范围内进行调整,时间范围需大于当前已发布的天数。
发布比例:修改发布计划时,只能调大发布比例。
4.4 查看试验报告
试验概述
试验概述部分呈现试验运行基本信息以及在试验运行周期内重要指标的表现情况。
数据总览
报告总览用于呈现试验整体运行数据,包括试验概述、试验重要指标对比、统计检验分析数据和每日新进组用户数。
试验总览统计数据周期为试验上线至(T-1日)的数据。支持对试验数据进行时间维度筛选和用户维度筛选,分析试验在不同时段、不同用户群体下的表现。
试验重要指标数据
在报告总览中,能够直接查看报告进组情况,并通过设定的重要指标变化,评估试验方案对业务的影响。
注:统计学检验分析
综合试验运行时间、样本量、置信区间、统计功效等因素进行计算,客户可查看设置的多个支持统计学检验的指标中试验版本对比对照版本的表现。
置信区间的解读
置信区间用于描述试验组指标相比于对照组的提升范围。随着参与试验的样本量逐渐增加,数据指标波动趋于稳定,置信区间会逐渐收窄。
- 如果置信区间上下限均为正值,即图示选段在 0 的右侧,则表明试验结果为正向显著;
- 如果置信区间上下限均为负值,即图示选段在 0 的左侧,则表明试验结果为负向显著;
- 如果置信区间一正一负,即图示选段包含 0,则表明试验结果差异不显著
P-value的解读
P值就是 当对照组和试验组指标事实上相同(零假设成立)时,在A/B测试中用样本数据观测到的“试验组和最对照组指标不同”的概率。统计学上,将5%作为一个小概率事件,所以一般用5%来对比计算出来的P值。当P值小于5%时,拒绝零假设,即两组指标不同;反过来,当P值大于5%时,接受零假设,两组指标相同。
在AB测试中,P值越小说明统计结果越显著。
统计功效的解读
在统计理论中,统计功效Power = 1–β,因为 β表示发生第二类错误的概率,也就是说如果试验组和对照组的指标事实上是不同的,那么Power就表征能够探测到两者不同的概率(证明显著性是真实存在的概率)。
在 A/B 测试中,统计功效越大,说明试验结果越是真实可信的。
剩余样本量
在统计学意义上,通常认为试验功效达到80%,试验结果就足够可信。在保持试验指标不变的情况下,提升试验样本量能够提升统计功效。
当试验中发现试验指标已经显著(或结果不显著证明策略无效),但功效还不足80%或低于预期目标,则一定程度说明样本量可能积累不足。此时报告中基于当前试验策略的指标提升,计算试验策略达到80%功效所需要的剩余样本量。
统计功效和剩余样本量应用建议:
试验指标提升(或下降)幅度越小,则达到80%功效所需的样本量就越大。
在实际试验中,往往不必刻意追求80%功效而过度延长试验周期,以免并且造成错过决策优胜策略的最佳时机,同时也避免试验流量的过度浪费。
最后编辑:超级管理员 更新时间:2024-11-22 16:31