Définition
Un test d'indépendance permet de vérifier l'absence de lien statistique entre deux variables X et Y. Les deux sont dites indépendantes lorsqu'il n'existe aucun lien statistique entre elles, dit autrement, la connaissance de X ne permet en aucune manière de se prononcer sur Y.
On peut vérifier l'indépendance entre deux variables par un test χ2 (chi-2) d'indépendance ou χ2 de Pearson.
Réalisation d'un test de χ2 d'indépendance
Formulation d'une hypothèse
Une hypothèse nulle (H0) est formulée, cette dernière est les variables X et Y sont indépendantes entre elles.
Calcul d'une distance
L'hypothèse formulée implique que les variables X et Y ne sont pas reliées entre elles, sous cette condition, l'espérance d'une classe peut être définie de la manière suivante :
Sachant qu'une classe est définie par un couple de valeurs des variables X et Y.
E est l'espérance, O est la valeur observée, I est le nombre de valeurs de la variable X, J est le nombre de valeurs de la variable Y, et N est le nombre d'échantillons.
Une mesure de distance χ2 est effectuée entre la valeur espérée ci-dessus et la valeur observée.
Analyse des résultats
La distance χ2 est comparée selon le degré de liberté à une table de référence. On considère généralement qu'une hypothèse est validée lorsque la valeur-p associée à la distance χ2 est inférieure à 0.05.
Si la valeur est en dessous de ce seuil alors l'hypothèse est validée, dans le cas contraire, l'hypothèse est infirmée.
Si l'hypothèse d'indépendance est confirmée, il n'est pas possible de trouver de lien entre les deux variables.
Si l'hypothèse est infirmée, on peut déduire une variable grâce aux valeurs de la seconde variable.
Condition de réalisation du test de χ2 d'indépendance
Le test de χ2 d'indépendance ne peut être effectué que lorsque le nombre d'échantillons est supérieur à 30.
Le critère de Cochran doit être respecté également, il stipule que :
Toutes les classes ont une espérance non nulle
80 % des classes ont une espérance supérieure à 5