Chapitre 3 Tests du khi-deux

Les slides associés à ce chapitre sont disponibles ici

La famille des tests du khi-deux regroupe des tests d’objectifs variés (ajustement, indépendance, homogénéité, …) mais qui ont en commun de mesurer l’écart à l’hypothèse nulle via une “divergence du khi-deux” et dont les statistiques de test associées suivent asymptotiquement une loi du khi-deux. Les tests du khi-deux sont valables pour l’étude de données qualitatives (ou discrètes) à support fini. Cependant, en pratique, ces tests sont aussi appliqués à des données discrètes à support infini ou continues après regroupement en classes.

3.1 Test d’ajustement du khi-deux

3.1.1 Objectif et principe du test

Soit \(X\) une variable aléatoire qualitative ou quantitative discrète à \(K>1\) modalités \(\{a_1,\ldots,a_K\}\), de loi \(\boldsymbol{\pi}=(\pi_1,\ldots,\pi_K)\) inconnue, où \[ \pi_k = \mathbb{P}(X=a_k)>0,\ \forall k\in\{1,\ldots,K\}. \] On dispose d’un \(n\)-échantillon \((X_1, \ldots X_n)\) de même loi que \(X\). On se donne par ailleurs une loi de probabilité \(\mathcal L_0\) sur \(\{a_1,\ldots,a_K\}\) connue caractérisée par \(\mathbf{p}^0=(p_1^0,\ldots,p_K^0)\) tels que \[ \forall k,\ p_k^0\in]0,1[ \textrm{ et } \sum_{k=1}^K p_k^0 =1. \]

On souhaite tester : \(\mathcal{H}_0 : X \sim \mathcal L^0\) contre \(\mathcal{H}_1\) : \(X\) ne suit pas la loi \(\mathcal L^0\). On peut donc retraduire ces hypothèses de test par \[ \mathcal{H}_0 : \forall k,\ \pi_k = p_k^0 \textrm{ contre } \mathcal{H}_1 : \exists k,\ \pi_k \neq p_k^0. \]

Une idée naturelle consiste à estimer la loi de probabilité \(\boldsymbol{\pi}\) de X à l’aide de l’échantillon \((X_1,\ldots,X_n)\) et de comparer cet estimateur avec la loi \(\mathbf{p}^0\). On va donc noter \(N_k= \sum_{i=1}^n \mathbb{1}_{X_i = a_k}\) le nombre de fois que l’on obtient la valeur \(a_k\) dans l’échantillon et on estime \(\pi_k\) par \(\hat{\pi}_k = \frac{N_k}{n}\). On considère alors la statistique \[ T_{n}= n \sum_{k=1}^K \frac{\left(\hat{\pi}_k - p_k^0\right)^2}{p_k^0} = \sum_{k=1}^K \frac{\left(N_k - n p_k^0\right)^2}{n p_k^0}. \] Cette statistique est appelée divergence du khi-deux entre les lois \(\hat{\boldsymbol{\pi}}\) et \(\mathbf{p}^0\). Elle mesure la “distance” entre les proportions observées et les proportions théoriques sous \(\mathcal{H}_0\). Mais ce n’est pas une distance car il n’y a pas la propriété de symétrie.

3.1.2 Lien avec la loi multinomiale

Proposition 3.1 La v.a. \(N=(N_{1},\ldots,N_{K})'\) suit une loi multinomiale \(\mathcal{M}(n,\boldsymbol{\pi})\) sur \(\mathbb{N}^K\), c’est-à-dire que pour tout \((n_1,\ldots,n_K)\in \mathbb{N}^K\) on a \[ \mathbb{P}(N_{1}=n_1,\ldots,N_{K}=n_K)=\left\{ \begin{array}{cl} \frac{n!}{n_1!\ldots n_K!} \pi_1^{n_1}\ldots \pi_K^{n_K}& \ \mbox{ si } \sum_{k=1}^K n_k=n\\ \\ 0 & \ \mbox{ sinon. } \end{array} \right. \]

Ainsi les hypothèses du test peuvent se traduire par \[ \mathcal{H}_0 : N \sim \mathcal M (n,\mathbf{p}^0) \textrm{ contre } \mathcal{H}_1 : N \textrm{ ne suit pas } \mathcal M(n,\mathbf{p}^0). \]

Proposition 3.2 Soit \(\sqrt{\boldsymbol{\pi}}=\left(\sqrt{\pi_1},\ldots,\sqrt{\pi_K}\right)'\). On a \[Y_n=\left(\frac{N_{1}-n \pi_1}{\sqrt{n \pi_1}},\ldots,\frac{N_{K}-n \pi_K}{\sqrt{n \pi_K}}\right) \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}} \mathcal{N}_K\left(0,\Gamma\right),\]\(\Gamma= I_K - (\sqrt{\boldsymbol{\pi}}) (\sqrt{\boldsymbol{\pi}})'\) est la matrice de projection orthogonale sur \(\mbox{Vect}(\sqrt{\boldsymbol{\pi}})^{\perp}\).

Sous l’hypothèse que \(X_1,\ldots, X_n\) sont i.i.d. de loi \(\boldsymbol{\pi}=(\pi_1,\ldots,\pi_K)\), \[Z_n=\sum_{k=1}^K \frac{\left(N_{k}-n \pi_k\right)^2}{n \pi_k} \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}} \chi^2(K-1).\]

3.1.3 Procédure de test

On est maintenant en mesure de définir la procédure de test.

Proposition 3.3 Le test d’ajustement du \(\chi^2\) consiste à rejeter l’hypothèse nulle \(\boldsymbol{\pi}= \mathbf{p}^0\) au niveau \(\alpha\) si \[T_{n}= \sum_{k=1}^K \frac{\left(N_{k}-n p^0_k\right)^2}{n p^0_k} >x_{K-1,1-\alpha}\]\(x_{K-1,1-\alpha}\) est le \(1-\alpha\) quantile d’un \(\chi^2\) à \(K-1\) degrés de liberté. Ce test est de niveau asymptotique \(\alpha\).

On considère en pratique que l’approximation de la loi de \(T_n\) sous l’hypothèse nulle par une loi du \(\chi^2\) à \(K-1\) degrés de liberté est bonne dès lors que \(n p^0_k\geq 5\) pour tout \(k\). Lorsque ce n’est pas le cas, on regroupe des classes jusqu’à ce que ces conditions soient vérifiées. Mais lorsqu’on regroupe des modalités, la région de rejet change car la loi limite dépend du nombres de modalités.

Que peut-on dire de la puissance du test?

On peut remarquer que \[ \frac{T_n}{n}\geq \| N/n - \mathbf{p}^0\|^2 \stackrel{p.s}{\longrightarrow} \|\boldsymbol{\pi} - \mathbf{p}^0\|^2 \] par la loi des grands nombres et donc \(T_n \stackrel{p.s}{\longrightarrow} +\infty\). La puissance du test tend donc vers 1 quand \(n\) tend vers \(+\infty\).

3.1.4 Exemple de Mendel

Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles J et v correspondant aux couleurs jaune et vert. Le jaune est dominant et le vert récessif. Le caractère de forme, rond ou ridé, est porté par un autre gène à deux allèles R (dominant) et r (récessif). On croise 2 populations (pures) de pois: l’une jaune et ronde, l’autre verte et ridée. Selon la prédiction de Mendel, au bout de 2 croisements, la proportion de pois

  • [JR] jaunes et ronds est \(9/16\)
  • [Jr] jaunes et ridés est \(3/16\)
  • [vR] verts et ronds est \(3/16\)
  • [vr] verts et ridés est \(1/16\)

Dans ses expériences, Mendel a obtenu les résultats suivants : \(N_{JR}=315\), \(N_{Jr}=101\), \(N_{vR}=108\), \(N_{vr}=32\). Ici \(K=4\) et l’on obtient que \((T_n)^{obs}=0.47\) et \(x_{3,0.95}=7.82\). On accepte donc très largement l’hypothèse de Mendel.

Nk=c(315,101,108,32)
n = sum(Nk)
ptheo = c(9,3,3,1)/16
chisq.test(Nk,p=ptheo) 

    Chi-squared test for given probabilities

data:  Nk
X-squared = 0.47002, df = 3, p-value = 0.9254
sum(((Nk - (n*ptheo))^2) / (n*ptheo)) 
[1] 0.470024
qchisq(0.95,3)
[1] 7.814728

3.2 Test du \(\chi^2\) d’adéquation à une famille de lois

3.2.1 Principe du test

Soit \(\Theta\) un ouvert de \(\mathbb{R}^d\) avec \(1\leq d<K\). Etant donnée une famille de lois de probabilités \((\mathcal L(\theta))_{\theta\in\Theta}\) définies sur \(\{a_1,\ldots,a_K\}\), on veut tester \[ \mathcal{H}_0 : \exists \theta\in\Theta,\ X\sim \mathcal L(\theta) \] contre \[ \mathcal{H}_1 : \textrm{la loi de } X \textrm{ n'appartient pas à } (\mathcal L(\theta))_{\theta\in\Theta}. \]

Les lois \((\mathcal L(\theta))_{\theta\in\Theta}\) sont caractérisées par les vecteurs de probabilités sur \(\{a_1,\ldots,a_K\}\) \[ \mathcal P(\Theta)=\left\{ \mathbf{p}(\theta)=(p_1(\theta),\ldots,p_K(\theta));\ \theta\in\Theta \right\}. \] On souhaite donc tester \[ \mathcal{H}_0 : \boldsymbol{\pi}\in \mathcal P(\Theta) \textrm{ contre } \mathcal{H}_1 : \boldsymbol{\pi}\notin {\mathcal P}(\Theta). \]

L’idée du test est de remplacer \(\mathbf{p}^0\) dans \(T_n\) par la loi de \(\mathcal P(\Theta)\) “la plus proche” de \(\boldsymbol{\pi}\) au vu des données, c’est-à-dire la loi \(\mathbf{p}(\hat\theta)\)\(\hat\theta\) est l’estimateur du maximum de vraisemblance pour le paramètre \(\theta\) basé sur l’échantillon \((X_1,\ldots,X_n)\) sous \(\mathcal{H}_0\). On considère donc la statistique suivante : \[ \hat T_n = n \sum_{k=1}^K \frac{\left(\hat{\pi}_k - p_k(\hat\theta)\right)^2}{p_k(\hat\theta)} = \sum_{k=1}^K \frac{\left(N_k - n p_k(\hat\theta)\right)^2}{n p_k(\hat\theta)}. \]

Or, on a le résultat (admis) suivant :

Theorem 3.1 Supposons que

  • Pour tout \(k=1,\ldots,K\), \(\theta\mapsto p_k(\theta)\) est \({\mathcal C}^2\) sur \(\Theta\) et vérifie pour tout \(\theta\in \Theta\), \(p_k(\theta)\neq 0\).
  • Pour tout \(\theta\in \Theta\), les vecteurs \(v_i=\left(\partial_i p_1(\theta), \ldots,\partial_i p_K(\theta)\right))'\) pour \(i=1,\ldots, d\) forment une famille libre de \(\mathbb{R}^K\) (bonne paramétrisation).
  • Pour tout \(\theta\), si \(X_1,\ldots, X_n\) sont i.i.d. de loi \(\mathbf{p}(\theta)\) alors l’estimateur du maximum de vraisemblance \(\hat \theta\) est consistant vers \(\theta\).

Sous ces conditions, si \(X_1,\ldots, X_n\) sont i.i.d. de loi \(\mathbf{p}(\theta)\) alors \[ \hat T_n \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}}\chi^2(K-d-1). \]

On construit le test du \(\chi^2\) d’adéquation à \({\mathcal P}(\Theta)\) de la manière suivante:

on rejette l’hypothèse nulle si
\[\hat T_n= \sum_{k=1}^K \frac{\left(N_k - n p_k(\hat\theta)\right)^2}{n p_k(\hat\theta)} > x_{K-d-1,1-\alpha}.\] La p-valeur vaut \[ p( (\hat T_n)^{obs}) = \mathbb{P}_{\mathcal{H}_0}(\hat T_n \geq (\hat T_n)^{obs}) \underset{n \rightarrow +\infty}{\longrightarrow} \mathbb{P}( \chi^2(K-d-1) \geq (\hat T_n)^{obs}). \] Sous l’alternative:
\[ \frac{\hat T_n}{n} \geq \rm{d}^2( N/n, {\mathcal P}(\Theta)) \stackrel{p.s}{\longrightarrow} \rm{d}^2 (\boldsymbol{\pi}, {\mathcal P}(\Theta)), \] et donc la puissance tend vers 1 dès que \(\rm{d}^2(\boldsymbol{\pi},{\mathcal P}(\Theta))>0\).

Remark. Le nombre de degrés de liberté de la loi asymptotique est donné par “nombre de modalités - 1 - nombre de paramètres à estimer sous \(\mathcal{H}_0\).”

3.2.2 Exemple

Pour \(10000\) fratries de \(4\) enfants, on a relevé le nombre de garçons :

Nb de garçons \((k)\) 0 1 2 3 4
Effectifs \((N_k)\) 572 2329 3758 2632 709

On décide de modéliser les naissances en supposant qu’elles sont indépendantes et que la probabilité d’avoir un garçon vaut \(\theta\in]0,1[\). On note \(X_i\) le nombre de garçons dans la \(i\)ème fratrie. On souhaite donc tester \[ \mathcal{H}_0 : X_i \sim \mathcal Bin(4,\theta) \textrm{ contre } \mathcal{H}_1 : X_i \textrm{ ne suit pas une loi } \mathcal Bin(4,\theta), \theta\in]0,1[. \] Sous \(\mathcal{H}_0\), l’estimateur du maximum de vraisemblance pour \(\theta\) est donné par \(\hat \theta = \frac{\overline{X}_n}{4}\). On peut alors calculer \(\mathbf{p}(\hat\theta) = (p_0(\hat\theta),\ldots,p_4(\hat\theta))\) avec \(p_k(\hat\theta) = \mathbb{P}( U = k)\) pour \(U\sim \mathcal Bin(4,\hat\theta)\). Sous \(\mathcal{H}_0\), la statistique de test \[ \hat T_n = \sum_{k=0}^4 \frac{\left(N_k - n p_k(\hat\theta)\right)^2}{n p_k(\hat\theta)} \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}}\chi^2(5-1-1) =\chi^2(3). \]

classes = c(0,1,2,3,4)
Nk = c(572,2329,3758,2632,709)
n = sum(Nk)
pihat = Nk / n
thetahat = sum(Nk * classes) / (n*4)
ptheo = dbinom(0:4,4,thetahat)
Tobs = sum(((Nk - (n*ptheo))^2) / (n*ptheo)) 
print(Tobs)
[1] 0.9882779
val = chisq.test(Nk,p=ptheo)  # Attention aux degrés de liberté ! 
print(val)

    Chi-squared test for given probabilities

data:  Nk
X-squared = 0.98828, df = 4, p-value = 0.9116
pval = 1 - pchisq(val$statistic,3)
print(pval)
X-squared 
0.8040883 

3.3 Test du \(\chi^2\) d’indépendance

3.3.1 Principe du test

Soient \(X\) et \(Y\) deux variables aléatoires admettant un nombre fini de modalités, \(\{a_1,\ldots,a_K\}\) et \(\{b_1,\ldots,b_L\}\) respectivement. On considère \(n\) couples aléatoires \((X_1,Y_1),\ldots,(X_n,Y_n)\) indépendants et de même loi que \((X,Y)\). On souhaite tester \[ \mathcal{H}_0 : X \textrm{ et } Y \textrm{ sont indépendantes contre } \mathcal{H}_1 : X \textrm{ et } Y \textrm{ ne sont pas indépendantes}. \]

On va ici donner une idée de la construction de la statistique de test. On rappelle tout d’abord que la loi du couple \((X,Y)\) est caractérisée par les probabilités \[ \mathbb{P}(X=a_k,Y=b_l) \textrm{ pour tout } k=1,\ldots,K,\ l=1,\ldots,L. \] On est sous \(\mathcal{H}_0\) quand \(\forall (k,l),\ \mathbb{P}(X=a_k, Y=b_l) = \mathbb{P}(X=a_k) \mathbb{P}(Y=b_l)\) et sous \(\mathcal{H}_1\) si \(\exists (k,l),\ \mathbb{P}(X=a_k, Y=b_l) \neq \mathbb{P}(X=a_k) \mathbb{P}(Y=b_l)\).

On introduit les variables aléatoires suivantes :

  • \(N_{k,l} = \sum_{i=1}^n \mathbb{1}_{X_i = a_k, Y_i = b_l}\)
  • \(N_{k,.} = \sum_{i=1}^n \mathbb{1}_{X_i = a_k} = \sum_{l=1}^L N_{k,l}\)
  • \(N_{.,l} = \sum_{i=1}^n \mathbb{1}_{Y_i = b_l} = \sum_{k=1}^K N_{k,l}\)

On peut alors estimer \(\mathbb{P}(X=a_k, Y=b_l)\) par \(N_{k,l}/n\) et \(\mathbb{P}(X=a_k) \mathbb{P}(Y=b_l)\) par \(N_{k,.} N_{.,l} / n^2\). En reprenant le même raisonnement que dans les sections précédentes, on obtient la statistique de test suivante : \[ I_n = n \sum_{k=1}^K \sum_{l=1}^L \frac{\left(\frac{N_{k,l}}{n} - \frac{N_{k,.} N_{.,l}}{n^2} \right)^2}{ \frac{N_{k,.} N_{.,l}}{n^2} } = \sum_{k=1}^K \sum_{l=1}^L \frac{\left(N_{k,l} - \frac{N_{k,.} N_{.,l}}{n} \right)^2}{ \frac{N_{k,.} N_{.,l}}{n} }. \]

3.3.2 Procédure de test

On suppose que \(\forall k,\ \mathbb{P}(X=a_k)>0\) et \(\forall l,\ \mathbb{P}(Y=b_l)>0\). Alors, sous \(\mathcal{H}_0\), \[ I_n \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}}\chi^2((K-1)(L-1)). \]

Remark. Pour retrouver rapidement le nombre de degrés de liberté, il faut remarquer que le nombre de modalités du couple \((X, Y)\) vaut \(K L\). Et sous \(\mathcal{H}_0\), comme \(\forall (k,l),\ \mathbb{P}(X=a_k, Y=b_l) = \mathbb{P}(X=a_k)\mathbb{P}(Y=b_l)\), il faut estimer les \(\mathbb{P}(X=a_k)\) pour \(k=1,\ldots,K-1\) et les \(\mathbb{P}(Y=b_l)\) pour \(l=1,\ldots, L-1\). Ainsi le nombre de degrés de liberté est \((KL-1) - [(K-1)+(L-1)] = (K-1)(L-1)\).

Proposition 3.4 Soit \(\alpha\in]0,1[\). Le test de région de rejet \[ \mathcal R_\alpha = \{ I_n > x_{(K-1)(L-1),1-\alpha} \} \] est un test de niveau asymptotique \(\alpha\) pour tester \(\mathcal{H}_0\) contre \(\mathcal{H}_1\).

3.3.3 Exemple

Une enquête a été réalisée auprès d’un échantillon de \(250\) personnes au sujet de l’abaissement à 16 ans du droit de vote. Les réponses ont été classées suivant le niveau d’instruction des personnes interrogées :

Niveau d’instruction Pour Contre \(N_{k.}\)
Brevet 10 15 25
Bac 20 85 105
Bac +2 et plus 20 100 120
\(N_{.l}\) 50 200 250

Peut-on affirmer, au risque d’erreur de \(5\%\), qu’il existe une relation entre l’opinion d’une personne sur cette question et son niveau d’instruction ?

contingence = matrix(c(10,20,20,15,85,100),ncol=2)
chisq.test(contingence)

    Pearson's Chi-squared test

data:  contingence
X-squared = 7.1429, df = 2, p-value = 0.02812

3.4 Test d’homogénéité

3.4.1 Principe du test

Soit \(E_1, \ldots, E_L\) \(L\)-échantillons indépendants de lois discrètes sur le même support \(\{a_1,\ldots,a_K\}\). On note \(\boldsymbol{\pi}_l\) la loi discrète de l’échantillon \(E_l=(X_{l,1},\ldots,X_{l,n_l})\) de taille \(n_l\). On veut tester \[ \mathcal{H}_0: \textrm{ les échantillons sont issus de la même loi } (\boldsymbol{\pi}_1=\ldots=\boldsymbol{\pi}_L) \] contre \[ \mathcal{H}_1: \textrm{ les échantillons ne sont pas issus de la même loi } (\exists j\neq l,\ \boldsymbol{\pi}_j \neq \boldsymbol{\pi}_l) \]

3.4.2 Procédure de test

On note \(N_{k,l} = \sum_{i=1}^{n_l} \mathbb{1}_{X_{l,i} = a_k}\), \(N_{k,.}= \sum_{l=1}^{L} N_{k,l}\) et \(N_{.,l}=\sum_{k=1}^K N_{k,l}=n_\ell\). On considère alors la statistique de test : \[ J_n = \sum_{k=1}^K \sum_{\ell=1}^L \frac{\left(N_{k,l} - \frac{N_{k,.} N_{.,l}}{n} \right)^2}{ \frac{N_{k,.} N_{.,l}}{n} }. \]

On suppose que \(\forall k,\forall l, \boldsymbol{\pi}_{l,k}=\mathbb{P}(X_{l,i}=a_k)>0\). Alors, sous \(\mathcal{H}_0\), \[ J_n \underset{n\rightarrow +\infty}{\stackrel{\mathcal L}{\longrightarrow}}\chi^2((K-1)(L-1)). \]

Proposition 3.5 Soit \(\alpha\in]0,1[\). Le test de région de rejet \[ \mathcal R_\alpha = \{ J_n > x_{(K-1)(L-1),1-\alpha} \} \] est un test de niveau asymptotique \(\alpha\) pour tester \(\mathcal{H}_0\) contre \(\mathcal{H}_1\).

3.4.3 Exemple

Dans cet exemple, on souhaite savoir si le taux de participation à un club sportif des élèves de deux collèges \(A\) et \(B\) est identique ou pas. On a donc deux échantillons \(E_1=(X_{1,1},\ldots,X_{1,n_1})\) et \(E_2=(X_{2,1},\ldots,X_{2,n_2})\) avec \[ X_{l,i}= \textrm{ participation du } i \textrm{ème élève du collège } l \in \{a_1,a_2\}=\{"oui","non"\}. \] On veut tester \[ \mathcal{H}_0 : \textrm{ les 2 populations sont homogènes (même taux de participation)} \] contre \[ \mathcal{H}_1 : \textrm{ les 2 populations ne sont pas homogènes}. \]

On a les effectifs observés suivants :

Partic. / Ech collège A collège B \(N_{k,.}\)
oui 12 26 38
non 38 34 72
\(N_{.,l}\) 50 60 \(n=110\)

et les effectifs théoriques sont :

Partic. / Ech collège A collège B
oui 17,27 20,73
non 32,73 39,27

La statistique de test observée vaut donc \[(J_n)^{obs} = \frac{(12-17,27)^2}{17,27} + \ldots + \frac{(34-39,27)^2}{39,27}=4,504 > x_{1,0.95}=3.84\] donc on rejette \(\mathcal{H}_0\), le taux de participation à un club sportif est différent entre les deux collèges.