当OpenHealth及其欧洲合作伙伴没有覆盖其销售点的普查时,他们的客户可以在全国范围内跟踪建模数据,即也就是从销售点样本中推断出来。尽管这些推断的数据为我们的用户提供了非常坚实的市场分析基础,但仍带有统计上的不确定性,其不确定性取决于以下几个因素。
定义
置信区间:
置信区间构成一个真实值,我们试图使用随机过程进行的测量来估计该真实值。该概念使得可以定义统计不确定性余量。
置信度:
置信度表示确定性,并以百分比表示。统计研究中最常使用95%的置信度。
影响给定置信度的区间大小的因素
有4个因素决定给定置信度水平的置信区间大小:
样本量
百分比
人口规模
时间段
样本大小
样本量越大,结果就越能真实反映出总体。这表明对于给定的置信度,样本量越大,置信区间越小。但是,该关系不是线性的(即,使样本大小加倍不会使置信区间减半)。
百分比
精度还取决于选择特定答案的样本百分比。如果99%的样本回答“是”,而1%回答“否”,则与样本大小无关,统计不确定性的可能性很小。但是,如果百分比分别为51%和49%,则统计不确定性的可能性会更大。与中间响应相比,极端响应更容易确定。
人口规模
人口规模仅在与相对较小的人口打交道时才可能是一个因素。
时间段
销售数字发行将取决于研究的时间段。 DNV每天会降低,因此不确定性会更大。
样本大小公式
Z = Z值(例如对于95%的置信度为1.96)
p =选择选项的百分比,用十进制表示(.5用于表示所需的样本量)
c =置信区间,用十进制表示(例如.04 =±4)
有限人口的校正公式
限制
置信区间计算假定您具有受影响人群的真实随机样本。
如果您的样本不是真正随机的,则您将无法信任间隔。
插图
对于除科西嘉岛以外的法国大陆:
如果我的产品的DNV为 100% 并且推断的销售量为100件,则置信区间 0.68% 意味着有95%的幸运的是,我的实际销量在99.32到100.68之间。不确定性很低。
如果我的产品的DNV为 1% 且推断销售100个单位,则置信区间 9.05% 表示有95个我的实际销售在90.95到109.05之间的百分比百分比。不确定性更大。