Alla samlingar
Modellerna
DataKVALITET
Intervall och konfidensnivå
Intervall och konfidensnivå

Definitioner, formler och begränsningar: vad du behöver veta

Maxime LE MOIGNIC avatar
Skrivet av Maxime LE MOIGNIC
Uppdaterad för mer än en vecka sedan

När de inte har folkräkningen över de försäljningsställen som de täcker, tillåter OpenHealth och dess europeiska partner sina kunder att följa modellerade uppgifter på nationell basis, extrapolerad från ett urval av försäljningsställen. Även om dessa extrapolerade data ger våra användare en mycket solid grund för sina marknadsanalyser, har den ändå en marginal för statistisk osäkerhet, vars storlek beror på flera faktorer som beskrivs nedan.

Definitioner

Konfidensintervall:

Ett konfidensintervall ramar in ett verkligt värde som vi försöker uppskatta med hjälp av mätningar som gjorts av en slumpmässig process. Detta koncept gör det möjligt att definiera en statistisk osäkerhetsmarginal.

Konfidensnivå:

En konfidensnivå representerar säkerhetsnivån och uttrycks i%. En 95% konfidensnivå används oftast i statistiska studier.

Faktorer som påverkar intervallets storlek för en given konfidensnivå

Det finns fyra faktorer som bestämmer konfidensintervallets storlek för en given konfidensnivå:

  • Provstorlek

  • Andelen

  • Befolkningens storlek

  • Tidsperioden

Storleken på provet

Ju större urvalsstorlek, desto mer kommer resultaten verkligen att spegla befolkningen. Detta indikerar att ju större konfidensnivå är, desto mindre är konfidensintervallet för en viss konfidensnivå. Förhållandet är emellertid inte linjärt (dvs att fördubbla provstorleken halverar inte konfidensintervallet).

Andelen

Precision beror också på procentandelen av provet som väljer ett visst svar. Om 99% av urvalet svarade "Ja" och 1% svarade "Nej" är chansen för statistisk osäkerhet låg, oavsett urvalsstorlek. Men om procentsatserna är 51% och 49% är chanserna för statistisk osäkerhet mycket större. Extrema svar är lättare att vara säkra än mellanliggande svar.

Befolkningens storlek

Befolkningsstorlek är sannolikt bara en faktor när man arbetar med en relativt liten befolkning.

Tidsperioden

Den digitala distributionen som säljs beror på den studerade tidsperioden. En DNV kommer att vara lägre dagligen och därmed större osäkerhet.

Formel för

  • Z = Z-värde (t.ex. 1,96 för 95% konfidensnivå)

  • p = procentuell plockning av ett val, uttryckt som decimal (0,5 används för provstorlek som behövs)

  • c = konfidensintervall, uttryckt som decimal (t.ex. .04 = ± 4)

Korrigeringsformel för den ändliga befolkningen

Begränsningar

Beräkningar av konfidensintervall förutsätter att du har ett riktigt slumpmässigt urval av den drabbade populationen.

Om ditt prov inte är riktigt slumpmässigt kan du inte lita på intervallen.

illustrationer

För Frankrike på fastlandet utom Korsika:

  • Om min produkt har en DNV på 100% och extrapolerad försäljning på 100 enheter, betyder ett konfidensintervall på 0,68% att det är 95% av tur att min faktiska försäljning är mellan 99,32 enheter och 100,68 enheter. Osäkerheten är låg.

  • Om min produkt har en DNV på 1% och extrapolerad försäljning på 100 enheter, betyder ett konfidensintervall på 9,05% att det finns 95 % chans att min faktiska försäljning är mellan 90,95 och 109,05 enheter. Osäkerheten är större.

Fick du svar på din fråga?