间隔和置信度

定义,公式和局限性:您需要了解的内容

Maxime LE MOIGNIC avatar
作者:Maxime LE MOIGNIC
一周前更新

当OpenHealth及其欧洲合作伙伴没有覆盖其销售点的普查时,他们的客户可以在全国范围内跟踪建模数据,即也就是从销售点样本中推断出来。尽管这些推断的数据为我们的用户提供了非常坚实的市场分析基础,但仍带有统计上的不确定性,其不确定性取决于以下几个因素。

定义

置信区间:

置信区间构成一个真实值,我们试图使用随机过程进行的测量来估计该真实值。该概念使得可以定义统计不确定性余量。

置信度:

置信度表示确定性,并以百分比表示。统计研究中最常使用95%的置信度。

影响给定置信度的区间大小的因素

有4个因素决定给定置信度水平的置信区间大小:

  • 样本量

  • 百分比

  • 人口规模

  • 时间段

样本大小

样本量越大,结果就越能真实反映出总体。这表明对于给定的置信度,样本量越大,置信区间越小。但是,该关系不是线性的(即,使样本大小加倍不会使置信区间减半)。

百分比

精度还取决于选择特定答案的样本百分比。如果99%的样本回答“是”,而1%回答“否”,则与样本大小无关,统计不确定性的可能性很小。但是,如果百分比分别为51%和49%,则统计不确定性的可能性会更大。与中间响应相比,极端响应更容易确定。

人口规模

人口规模仅在与相对较小的人口打交道时才可能是一个因素。

时间段

销售数字发行将取决于研究的时间段。 DNV每天会降低,因此不确定性会更大。

样本大小公式

  • Z = Z值(例如对于95%的置信度为1.96)

  • p =选择选项的百分比,用十进制表示(.5用于表示所需的样本量)

  • c =置信区间,用十进制表示(例如.04 =±4)

有限人口的校正公式

限制

置信区间计算假定您具有受影响人群的真实随机样本。

如果您的样本不是真正随机的,则您将无法信任间隔。

插图

对于除科西嘉岛以外的法国大陆:

  • 如果我的产品的DNV为 100% 并且推断的销售量为100件,则置信区间 0.68% 意味着有95%的幸运的是,我的实际销量在99.32到100.68之间。不确定性很低。

  • 如果我的产品的DNV为 1% 且推断销售100个单位,则置信区间 9.05% 表示有95个我的实际销售在90.95到109.05之间的百分比百分比。不确定性更大。

这是否解答了您的问题?