Ir para conteúdo principal
Todas as coleçõesOs MODELOSQualidade dos dados
Intervalo e nível de confiança
Intervalo e nível de confiança
Maxime LE MOIGNIC avatar
Escrito por Maxime LE MOIGNIC
Atualizado há mais de um ano

Quando não dispõem de um censo dos estabelecimentos que cobrem, a OpenHealth e os seus parceiros europeus permitem aos seus clientes rastrear dados modelados a nível nacional, ou seja, extrapolados a partir de uma amostra de estabelecimentos. Embora estes dados extrapolados forneçam aos nossos utilizadores uma base muito sólida para a sua análise do mercado, estão sujeitos a incerteza estatística, cuja magnitude depende de vários factores detalhados abaixo.

Definições

Intervalo de confiança :

Um intervalo de confiança enquadra um valor real que se procura estimar utilizando medições feitas por um processo aleatório. Este conceito torna possível definir uma margem de incerteza estatística.

Nível de confiança :

Um nível de confiança representa o nível de certeza e é expresso em %. Um nível de confiança de 95% é mais comummente utilizado em estudos estatísticos.

Factores que afectam o tamanho do intervalo para um determinado nível de confiança

Há quatro factores que determinam o tamanho do intervalo de confiança para um determinado nível de confiança:

  • Tamanho da amostra

  • A percentagem

  • O tamanho da população

  • O período de tempo

Tamanho da amostra

Quanto maior for o tamanho da amostra, mais os resultados reflectirão verdadeiramente a população. Isto indica que para um dado nível de confiança, quanto maior o tamanho da amostra, mais pequeno o intervalo de confiança. Contudo, a relação não é linear (ou seja, duplicar o tamanho da amostra não reduz para metade o intervalo de confiança).

A percentagem

A precisão também depende da percentagem da amostra que escolhe uma determinada resposta. Se 99% da amostra respondeu "Sim" e 1% respondeu "Não", as hipóteses de incerteza estatística são baixas, independentemente do tamanho da amostra. Contudo, se as percentagens forem de 51% e 49%, as probabilidades de incerteza estatística são muito maiores. É mais fácil ter a certeza das respostas extremas do que das respostas intermédias.

O tamanho da população

É provável que a dimensão da população seja apenas um factor quando se trabalha com uma população relativamente pequena.

O período de tempo

A DNV dependerá do período de tempo estudado. Uma DNV será mais baixa numa base diária e, portanto, a incerteza será maior.

Fórmula do tamanho da amostra

  • Z = valor Z (por exemplo, 1,96 para 95% de nível de confiança)

  • p = percentagem de escolha, expressa como decimal (.5 utilizada para o tamanho da amostra necessária)

  • c = intervalo de confiança, expresso como decimal (por exemplo, .04 = ±4)

Fórmula de correcção da população finita

Limitações

Os cálculos dos intervalos de confiança pressupõem que se tem uma verdadeira amostra aleatória da população em questão.

Se a sua amostra não for verdadeiramente aleatória, não pode contar com os intervalos.

Os intervalos de confiança aplicam-se principalmente ao valor e volume de vendas.

Se desejar aplicar intervalos de confiança para os principais indicadores de desagregação do tipo de cliente, o enviesamento de representatividade da sua selecção em termos do peso das farmácias em cada estrato, em comparação com a distribuição por todas as farmácias, pode levar a conclusões que não são estatisticamente fiáveis.

ilustrações

Para a França metropolitana, excluindo a Córsega :

  • Se o meu produto tem uma DNV de100 produtos em 2017 e vendas extrapoladas de 100 unidades, um intervalo de confiança de0.68% significa que existe uma probabilidade de 95% de as minhas vendas reais se situarem entre 99,32 unidades e 100,68 unidades. A incerteza é pequena.

  • Se o meu produto tem uma DNV de1%e vendas extrapoladas de 100 unidades, um intervalo de confiança de9,05% significa que existe uma probabilidade de 95% de as minhas vendas reais se situarem entre 90,95 unidades e 109,05 unidades. A incerteza é maior.

Qual é o intervalo de confiança médio?

Para calcular um intervalo de confiança médio, deve ser definida uma distribuição numérica "média" de vendas de todos os produtos.

Este indicador pode ser estimado através do cálculo de uma distribuição numérica de vendas ponderada por volumes. Para efectuar este cálculo, é necessário conhecer, durante um determinado período, a distribuição numérica de vendas e o volume de cada produto, a fim de calcular uma distribuição numérica ponderada que é o produto destes dois indicadores. A soma das distribuições numéricas ponderadas de vendas sobre o volume total correspondente dá-lhe a distribuição numérica ponderada global de vendas.

Com base neste método, para o ano de 2019, a distribuição numérica global ponderada é de 48%.

O intervalo de confiança médio, correspondente a uma distribuição numérica de 48%, é± 1.17 %.

Ilustração do intervalo de confiança por estrato CA

Para ir a um nível mais fino nos intervalos de confiança, uma vez que as dimensões da população são menores, os intervalos de confiança serão matematicamente mais amplos.

Foi exactamente esta abordagem estatística que orientou a escolha da reatribuição de sectores pela OpenHealth.

De facto, ao começar com uma extrapolação nacional e depois reafectar por sector ou por tipo de cliente, os erros são minimizados.

A escolha de calcular primeiro dados extrapolados sobre populações mais finas (tais como um tipo de cliente ou uma sectorização geográfica) e depois agregá-los resultará em intervalos de confiança com menos precisão.

Mais detalhes sobre a realocação do sector OpenHealth podem ser encontrados no artigo abaixo:

Encontrará abaixo, o quadro aplicável aos estratos do volume de negócios das farmácias, aplicando o mesmo método que para o nacional, ou seja, a população de menor dimensão:

Em interpretação :

Para um determinado produto, cuja distribuição numérica de vendas no estrato &gt do volume de negócios da farmácia; 5 milhões de euros é 50%, o intervalo de confiança será de ± 8,18 %.

Para uma boa compreensão, é importante estar familiarizado com o cálculo das distribuições numéricas vendidas num território, ou seja, o denominador é o número de farmácias no território e não o número total de farmácias.

O desfasamento temporal no índice de confiança.

Na OpenHealth, trabalhamos diariamente comdados em D+1 que são congelados após um período de 5 dias. ( Link para o artigo sobre o painel OpenHealth:aqui )

Todos os dias, as farmácias enviam-nos recibos de vendas, e para um dia de vendas D, recebemos 77% dos recibos destas vendas em D+1.

Assim, em D+2 temos 94% dos bilhetes, 97% em D+3, 98% em D+4 e 99% em D+5.

Isto respondeu à sua pergunta?