Alle collecties
Interval en betrouwbaarheidsniveau
Interval en betrouwbaarheidsniveau
Maxime LE MOIGNIC avatar
Geschreven door Maxime LE MOIGNIC
Meer dan een week geleden bijgewerkt

Wanneer zij niet beschikken over een telling van de verkooppunten die zij bestrijken, stellen OpenHealth en zijn Europese partners hun klanten in staat om gegevens te volgen die zijn gemodelleerd op nationaal niveau, d.w.z. geëxtrapoleerd uit een steekproef van verkooppunten. Hoewel deze geëxtrapoleerde gegevens onze gebruikers een zeer solide basis bieden voor hun marktanalyses, bevatten ze een marge van statistische onzekerheid, waarvan de grootte afhangt van verschillende factoren die hieronder worden beschreven.

Definities

Betrouwbaarheidsinterval :

Een betrouwbaarheidsinterval omringt een reële waarde die we proberen te schatten aan de hand van metingen door een willekeurig proces. Dit concept wordt gebruikt om een statistische onzekerheidsmarge te definiëren.

Betrouwbaarheidsniveau :

Een betrouwbaarheidsniveau geeft de mate van zekerheid weer en wordt uitgedrukt in %. Een betrouwbaarheidsniveau van 95% wordt het meest gebruikt in statistische studies.

Factoren die de grootte van het interval voor een bepaald betrouwbaarheidsniveau beïnvloeden

Er zijn 4 factoren die de grootte van het betrouwbaarheidsinterval voor een bepaald betrouwbaarheidsniveau bepalen:

  • Steekproefgrootte

  • Het percentage

  • Bevolkingsgrootte

  • De tijdsperiode

Steekproefgrootte

Hoe groter de steekproefomvang, hoe waarheidsgetrouwer de resultaten de populatie weerspiegelen. Dit geeft aan dat voor een gegeven betrouwbaarheidsniveau, hoe groter de steekproefgrootte, hoe kleiner het betrouwbaarheidsinterval. Het verband is echter niet lineair (d.w.z. een verdubbeling van de steekproefgrootte halveert het betrouwbaarheidsinterval niet).

Het percentage

Precisie hangt ook af van het percentage van de steekproef dat een bepaald antwoord kiest. Als 99% van de steekproef "Ja" antwoordt en 1% "Nee", is de kans op statistische onzekerheid klein, ongeacht de grootte van de steekproef. Als de percentages echter 51% en 49% zijn, is de kans op statistische onzekerheid veel groter. Het is gemakkelijker om zeker te zijn van extreme antwoorden dan van tussenliggende antwoorden.

Bevolkingsgrootte

Populatiegrootte is waarschijnlijk alleen een factor als je met een relatief kleine populatie werkt.

De tijdsperiode

De Selling Digital Distribution hangt af van de bestudeerde tijdsperiode. Een DNV zal lager zijn op dagbasis en daarom zal de onzekerheid groter zijn.

Formule voor steekproefgrootte

  • Z = Z-waarde (bijv. 1,96 voor 95% betrouwbaarheidsniveau)

  • p = percentage dat een keuze maakt, uitgedrukt als decimaal getal (.5 gebruikt voor benodigde steekproefgrootte)

  • c = betrouwbaarheidsinterval, uitgedrukt als decimaal getal (bijvoorbeeld .04 = ±4)

Eindige populatie correctieformule

Beperkingen

Betrouwbaarheidsintervalberekeningen gaan ervan uit dat je een echte aselecte steekproef hebt van de populatie in kwestie.

Als je steekproef niet echt willekeurig is, kun je niet vertrouwen op de intervallen.

Betrouwbaarheidsintervallen zijn voornamelijk van toepassing op verkopen naar waarde en volume.

Als u betrouwbaarheidsintervallen wilt toepassen voor voorlopende indicatoren op basis van klanttype-uitsplitsingen, kan de representativiteitsvertekening van uw selectie in termen van het gewicht van apotheken in elk stratum vergeleken met de verdeling over alle apotheken leiden tot conclusies die statistisch onbetrouwbaar zijn.

illustraties

Voor het Franse vasteland met uitzondering van Corsica :

  • Als mijn product een DNV heeft van100,5281923 en geëxtrapoleerde verkoop van 100 eenheden, een betrouwbaarheidsinterval op0.68% betekent dat er 95% kans is dat mijn werkelijke verkoop tussen 99,32 eenheden en 100,68 eenheden zal liggen. De onzekerheid is laag.

  • Als mijn product een DNV heeft van1. Open deen geëxtrapoleerde verkoop van 100 eenheden, een betrouwbaarheidsinterval op9,052026938 betekent dat er 95% kans is dat mijn werkelijke verkoop tussen 90,95 eenheden en 109,05 eenheden zal liggen. De onzekerheid is groter.

Wat is het gemiddelde betrouwbaarheidsinterval?

Om een gemiddeld betrouwbaarheidsinterval te berekenen, moeten we een 'gemiddelde' numerieke verkoopverdeling voor alle producten definiëren.

Deze indicator kan worden geschat door een numerieke distributie te berekenen die wordt gewogen door het volume. Om deze berekening uit te voeren, moeten we over een bepaalde periode de numerieke verkoopverdeling en het volume van elk product kennen om een gewogen numerieke verdeling te berekenen die het product is van deze 2 indicatoren. De som van de gewogen numerieke verkoopverdelingen over het overeenkomstige totale volume geeft je de totale gewogen numerieke verkoopverdeling.

Op basis van deze methode is de totale gewogen numerieke verdeling voor 2019 48%.

Het gemiddelde betrouwbaarheidsinterval, dat overeenkomt met een numerieke verkoopverdeling van 48%, is± 1.17 %.

Illustratie van het betrouwbaarheidsinterval per CA-stratum

De betrouwbaarheidsintervallen zijn wiskundig breder omdat de populatie kleiner is.

Het was precies deze statistische benadering die OpenHealth's keuze voor sectorale herallocatie leidde.

Door te beginnen met een nationale extrapolatie en dan opnieuw toe te wijzen per sector of klanttype, worden fouten tot een minimum beperkt.

Als er eerst voor wordt gekozen om geëxtrapoleerde gegevens te berekenen voor fijnere populaties (zoals een klanttype of geografische sector), die vervolgens worden geaggregeerd, zullen de betrouwbaarheidsintervallen minder nauwkeurig zijn.

In het onderstaande artikel kun je meer lezen over de sectorherschikking van OpenHealth:

Hieronder vindt u de tabel die van toepassing is op de omzetstrata van apotheken, waarbij dezelfde methode is gebruikt als voor de landelijke cijfers, maar met kleinere populatiegroottes:

Interpretatie:

Voor een bepaald product, met een numerieke verkoopverdeling van 50% in het stratum met een apotheekomzet van €5 miljoen, zal het betrouwbaarheidsinterval ± 8,18% zijn.

Voor een beter begrip is het belangrijk bekend te zijn met de berekening van de numerieke distributies die in een rayon worden verkocht, d.w.z. de noemer is het aantal apotheken in het rayon en niet het totale aantal apotheken.

Het tijdsverschil in de vertrouwensindex.

Bij OpenHealth werken we dagelijks metgegevens op D+1 die na een periode van 5 dagen worden bevroren. ( Link naar het artikel op het OpenHealth panel:hier )

Elke dag sturen apotheken ons kassabonnen, en voor een bepaalde verkoopdag ontvangen we 77% van de kassabonnen van deze verkopen op D+1.

Dus bij D+2 hebben we 94% van de kaartjes, 97% bij D+3, 98% bij D+4 en 99% bij D+5.

Was dit een antwoord op uw vraag?