Definicja
Test niezależności umożliwia zweryfikowanie braku statystycznego związku między dwiema zmiennymi X i Y . O tych dwóch mówi się, że są niezależne, gdy nie ma między nimi statystycznego powiązania, innymi słowy, znajomość X w żaden sposób nie pozwala na wyrażenie opinii na temat Y .
Niezależność między dwiema zmiennymi możemy sprawdzić testem niezależności χ2 (chi-2) lub χ2 Pearsona.
Przeprowadzanie testu niezależności χ2
Sformułowanie hipotezy
Sformułowano hipotezę zerową (H0), przy czym ta ostatnia oraz zmienne X i Y są od siebie niezależne.
Oblicz odległość
Z sformułowanej hipotezy wynika, że zmienne X i Y nie są ze sobą powiązane, pod tym warunkiem oczekiwanie klasy można zdefiniować następująco:
Wiedza, że klasa jest definiowana przez kilka wartości zmiennych X i Y.
E to oczekiwanie, O to obserwowana wartość, I to liczba wartości zmiennej X, J to liczba wartości zmiennej Y, a N to liczba d próbki.
Pomiar odległości χ2 jest dokonywany między wartością oczekiwaną powyżej a wartością obserwowaną.
Analiza wyników
Odległość χ2 jest porównywana zgodnie ze stopniem swobody z tabela referencyjna . Ogólnie uważa się, że hipoteza jest weryfikowana, gdy wartość p związana z odległością χ2 jest mniejsza niż 0,05.
Jeśli wartość jest poniżej tego progu, hipoteza jest weryfikowana, w przeciwnym razie hipoteza zostaje unieważniona.
Jeśli hipoteza niezależności zostanie potwierdzona, nie jest możliwe znalezienie związku między dwiema zmiennymi.
Jeśli hipoteza zostanie unieważniona, możemy wydedukować zmienną dzięki wartościom drugiej zmiennej.
Warunek wykonania testu niezależności χ2
Test niezależności χ2 można przeprowadzić tylko wtedy, gdy liczba próbek jest większa niż 30.
Kryterium Cochrana również musi być przestrzegane, stanowi ono, że:
Wszystkie klasy mają niezerowe oczekiwanie
80% klas ma oczekiwania większe niż 5