Toutes les collections
Les MODELES
La Data Quality
Intervalle et niveau de confiance
Intervalle et niveau de confiance

Définitions, formules et limitations : ce qu'il faut savoir

Maxime LE MOIGNIC avatar
Écrit par Maxime LE MOIGNIC
Mis à jour il y a plus d’une semaine

Lorsqu’ils ne possèdent pas le census des points de vente qu’ils couvrent, OpenHealth et ses partenaires Européens permettent à leurs clients de suivre des données modélisées au national, c’est-à-dire extrapolées depuis un échantillon de points de vente. Si ces données extrapolées offrent à nos utilisateurs une base très solide pour leurs analyses de marché, elle comportent toutefois une marge d’incertitude statistique, dont l’amplitude dépend de plusieurs facteurs détaillés ci-dessous.

Définitions

Intervalle de confiance : 

Un intervalle de confiance encadre une valeur réelle que l’on cherche à estimer à l’aide de mesures prises par un procédé aléatoire. Cette notion permet de définir une marge d’incertitude statistique. 

Niveau de confiance :

Un niveau de confiance représente le niveau de certitude et est exprimé en %. Un niveau confiance à 95% est le plus couramment utilisé dans les études statistiques. 

Facteurs impactant la taille de l’intervalle pour un niveau de confiance donnée

Il y a 4 facteurs qui déterminent la taille de l'intervalle de confiance pour un niveau de confiance donnée :

  • La taille de l’échantillon

  • Le pourcentage

  • La taille de la population

  • La période temporelle 

La taille de l’échantillon

Plus la taille de l’échantillon est importante, plus les résultats refléteront vraiment la population. Cela indique que pour un niveau de confiance donnée, plus la taille de l’échantillon est grande, plus l’intervalle de confiance est petit. Toutefois, la relation n'est pas linéaire (c.-à-d. que le fait de doubler la taille de l'échantillon ne réduit pas de moitié l'intervalle de confiance).

Le pourcentage

La précision dépend également du pourcentage de l’échantillon qui choisit une réponse particulière. Si 99 % de l’échantillon a répondu " Oui " et 1 % a répondu " Non ", les chances d’incertitude statistique sont faibles, quelle que soit la taille de l'échantillon. Cependant, si les pourcentages sont de 51 % et 49 %, les chances d’incertitude statistique sont beaucoup plus grandes. Il est plus facile d'être sûr des réponses extrêmes que des réponses intermédiaires.

La taille de la population

La taille de la population n'est susceptible d'être un facteur que lorsqu’on travaille sur une population relativement petite.

La période temporelle 

La Distribution Numérique Vendante va dépendre de la période temporelle étudiée. Une DNV sera plus faible à la journée et donc l'incertitude plus grande.

Formule de la taille de l’échantillon

  • Z = Z value (e.g. 1.96 for 95% confidence level) 

  • p = percentage picking a choice, expressed as decimal (.5 used for sample size needed)

  • c = confidence interval, expressed as decimal (e.g., .04 = ±4)

Formule de la correction pour la population finie

Limitations

Les calculs de l'intervalle de confiance supposent que vous disposiez d'un véritable échantillon aléatoire de la population concernée. 

Si votre échantillon n'est pas vraiment aléatoire, vous ne pouvez pas vous fier aux intervalles. 

Les intervalles de confiance s'appliquent essentiellement pour les ventes en valeur et en volume.

Si vous souhaiter appliquer des intervalles de confiance pour des indicateurs avancés sur des découpages par customer-type, les biais de représentativité de votre sélection en poids de pharmacies dans chacune des strates par rapport à la répartition sur l'ensemble des pharmacies, peuvent vous amener à des conclusions qui ne seront statistiquement pas fiables.

illustrations

Pour la France métropolitaine hors Corse :

  • Si mon produit à une DNV de 100% et des ventes extrapolées de 100 unités, un intervalle de confiance à 0.68% signifie qu'il y a 95% de chance que mes ventes réelles se situent entre 99,32 unités et 100,68 unités. L'incertitude est faible.

  • Si mon produit à une DNV de 1% et des ventes extrapolées de 100 unités, un intervalle de confiance à 9,05% signifie qu'il y a 95% de chance que mes ventes réelles se situent entre 90,95 unités et 109,05 unités. L'incertitude est plus grande.

Quel est l'intervalle de confiance moyen ?

Pour calculer un intervalle de confiance moyen, il convient de définir une distribution numérique vendante "moyenne" de tous les produits.

Cet indicateur peut être estimé par le calcul d'une distribution numérique vendante pondérée par les volumes. Pour réaliser ce calcul, il faut connaître, sur une période donnée, la distribution numérique vendante et le volume de chaque produit pour calculée une distribution numérique pondérée qui soit le produit de ces 2 indicateurs. La somme des distributions numériques vendantes pondérées sur le volume total correspondant, vous donne la distribution numérique vendante pondéré globale.

En se basant sur cette méthode, pour l'année 2019, la distribution numérique pondérée globale est de 48 %.

L'intervalle de confiance moyen, correspondant à une distribution numérique vendante de 48 %, est de ± 1.17 %.

Illustration de l'intervalle de confiance par strate de CA

Pour aller à un niveau plus fin dans les intervalles de confiance, les tailles de populations étant plus réduites, les intervalles de confiance seront mathématiquement plus larges.

C'est exactement cette approche statistique qui a guidé le choix d'OpenHealth pour la réallocation sectorielle.

En effet, en partant d'abord sur une extrapolation nationale, puis de réaliser une réallocation sectorielle ou par customer-type, les erreurs sont minimisées.

Un choix se portant d'abord sur un calcul de données extrapolées sur des populations plus fines (comme un customer-type ou une sectorisation géographique) et qui sont ensuite agrégées engendrera des intervalles de confiance avec une moins bonne précision.

Vous trouverez plus de détails sur la réallocation sectorielle OpenHealth dans l'article ci-dessous :

Vous trouverez ci-dessous, le tableau s'appliquant aux strates de CA officinal, en appliquant la même méthode que pour le national, donc sur des tailles de populations plus petites :

En interprétation :

Pour un produit donné, dont la distribution numérique vendante dans la strate de CA de pharmacie > 5 M€ est de 50%, l'intervalle de confiance sera de ± 8.18 %.

Pour une bonne compréhension, il est important de bien maîtriser le calcul des distributions numériques vendantes sur un territoire, à savoir que le dénominateur est le nombre de pharmacies du territoire et pas le nombre de pharmacies total.

Le lag temporel dans l'indice de confiance.

Chez OpenHealth, nous travaillons au quotidien avec des données à J+1 qui sont figées après une période de 5 jours. ( Lien vers l'article sur le panel OpenHealth : ici )

Chaque jour, les pharmacies nous transmettent des tickets de ventes, et pour un jour de vente J, nous recevons 77 % des tickets issus de ces ventes en J+1.

Ainsi en J+2 nous disposons de 94 % des tickets, 97 % en J+3, 98 % en J+4 et 99 % en J+5.

Avez-vous trouvé la réponse à votre question ?