样本大小和统计能力

我可以相信我的统计结果吗?
当我的结果不显着时,是否真的没有效果,还是该研究无法检测到它?

或者,相反地,当我获得显着结果时,它们真的是那么阳性吗?还是实验高估了治疗效果?

最后,我们应该如何计划研究计划,以更好地发现重大影响?

当然,在某些时候您偶然发现了这些问题。 谁不! 所有这些都与统计能力有关,今天我将在这篇文章中尝试向您解释。

什么是统计功效?
描述测试正确识别出真实,真实效果的可能性。 简而言之,它是区分信号与噪声的能力。 我们正在寻找的信号是治疗对我们感兴趣的某些结果的影响。
想象您想研究一种新药对流感的有效性。 我们试图测试其有效性(信号)。 与我们有关的噪音来自数据的复杂性(可变性如何)。 例如,如果药物的有效性在很大程度上取决于个人的年龄或性别,则结果中会有噪音。

可接受的功率值是多少?
通常,功率值为0.80是可以接受的,并且可以用作基准。研究人员通常以这样的方式设计实验,即他们的结果在80%的时间内都是有效的。

如何提高效能?
治疗噪声(实验或仪器问题)和背景(响应高度可变)无法控制,但是我们可以通过适当设计实验来获得高功率。

统计检验的功效与以下方面有关:

样本量“ n”:参与研究的病例或受试者的数量。
重要性的“ alpha”级别:在原假设为真(I类错误或假阳性)时拒绝原假设的概率。通常假定为5%,或者相同,为95%(1-alpha)。
效果大小“ d”或“ r”:是对响应变化的度量。简单地说,根据我们的目标,我们可以计算出反映组之间均值差异的度量(均值差异除以标准偏差),或表示变量之间的关系的度量(相关系数)。
低功率可能表示样本量较小,alpha值较小或效果量较小,而高功率则相反。

同一枚硬币的两侧
我们可以通过两种替代方法来解决统计能力问题:

先验的方法。我们假设显着性水平(例如5%),所需功率的值(例如80%),并且从以前的研究中我们知道要检测到的效应的大小的估计值。因此,目的是确定在研究中我们需要考虑多少个学科才能达到这些标准。
后验方法。我们假设显着性水平(例如5%),我们有一定规模的样本(我们已经能够做到),并且我们计算了在研究中观察到的效应的大小。我们想知道我们的分析在我们进行的研究中检测该效应大小的能力有多强。

示例:先验和后验计算
以下示例摘自Robert Kabacoff(2011)的著作《 R in Action》。

想象一下,我们测量了人们对模拟器中发生的变化的反应时间。我们有两组主题,一组主题都在讲电话,而另一组则不在。

先验。我们想比较两组参与者的平均反应时间。
从文献中我们知道反应时间的标准偏差(SD)为1.25秒,反应时间的1秒差异被认为是重要的差异(效果大小为d = 1 / 1.25 = 0.8-均值之差除以SD-)。对于90%的能力和95%的置信度,我们需要多少参与者参与研究?
例如,如果使用R中的软件包“ pwr”进行计算,则会得到:

库(pwr)
pwr.t.test(d = .8,sig.level = .05,功率= .9,类型=“ two.sample”,替代=“ two.side”)
每组中有34位受试者(总共68位受试者)检测到的效应大小为0.8,功效为90%,置信度为95%。

后验。现在假设我们认为,在总体均值之间的差异中检测到0.5的影响就足够了,我们只能包括40名参与者,并且我们将使用99%的置信度。检测总体均值之间差异的概率是多少?
假设每种情况下的参与者人数相同:

pwr.t.test(n = 20,d = .5,sig.level = .01,类型=“ two.sample”,替代=“ two.side”)
我们发现每组20名参与者的差异为0.625秒或更短(d = 0.5 = 0.625 / 1.25)的概率不到14%,显着性水平为0.01。也就是说,我们有86%的概率没有检测到我们想要的效果。这使我们重新考虑计划的学习时间和精力。

本帖steem首发
标准化的PoW算力通证

Coin Marketplace

STEEM 0.15
TRX 0.12
JST 0.026
BTC 56787.81
ETH 2507.96
USDT 1.00
SBD 2.24