Chapitre 4 Test de Fisher-Snedecor
Nous allons nous intéresser dans ce chapitre à un certain nombre de tests pouvant être mis en oeuvre sur le modèle linéaire. Nous supposerons pendant toute cette partie que les hypothèses H1-H4 sont vérifiées. Les tests présentés ci-dessous ne peuvent être utilisés si ces hypothèses ne sont pas satisfaites.
4.1 Hypothèses testées
On considère un modèle linéaire gaussien \[\begin{equation} \tag{4.1} Y=X\theta +\varepsilon \, \mbox{ avec } \varepsilon \sim \mathcal{N}_n\left(0_n,\sigma^2 I_n\right) \end{equation}\]
et on s’intéresse à examiner la nullité de certaines composantes du paramètre \(\theta\) ou de certaines combinaisons linéaires des composantes de \(\theta\), par exemple : \(\theta_j=0 \, ; \, \theta_j=\theta_k=0\) ou \(\theta_j=\theta_k\). Ces hypothèses reposent sur la notion de modèles emboîtés : deux modèles sont dits emboîtés si l’un peut être considéré comme un cas particulier de l’autre. Cela revient à comparer un modèle de référence à un modèle réduit ou contraint. Cette approche vise donc à déterminer si le modèle utilisé peut être oui ou non simplifié. Voici deux exemples de sous-modèles : \[ \begin{array}{ll} \mbox{Modèle général de la régression linéaire simple : } & Y_i=a+bX_i+\varepsilon_i\\ \mbox{Sous-modèle avec nullité de la pente : } & Y_i=a+\varepsilon_i\\ & \\ \mbox{Modèle général de l'analyse de variance à 1 facteur : } & Y_{ij}=\mu_i+\varepsilon_{ij}\\ \mbox{Sous-modèle avec égalité des groupes : } & Y_{ij}=\mu+\varepsilon_{ij} \end{array} \]
Par la suite, nous allons considérer deux écritures équivalentes de l’hypothèse nulle \(\mathcal{H}_0\).
4.1.1 Première écriture
Pour spécifier la nullité de certaines composantes du paramètre \(\theta\), on introduit la matrice \(C \in \mathcal{M}_{qk}(\mathbb{R})\) où \(k\) désigne le nombre de paramètres du modèle de référence et \(q\) le nombre de contraintes testées \((1 \leq q \leq k)\) telle que \[\mathcal{H}_0 : C\theta = 0_{q}.\] La matrice \(C\) sera supposée être de rang \(q\).
Example 4.1 On suppose un modèle à \(k=3\) paramètres. Voici trois exemples :
- Tester l’hypothèse \(\mathcal{H}_0 : \theta_2=0\) revient à poser \(\mathcal{H}_0 : C'\theta=0\) avec \(C'=\left(\begin{array}{ccc} 0 & 1 & 0 \end{array} \right)\) et \(q=1\).
- Tester l’hypothèse \(\mathcal{H}_0 : \theta_3=\theta_2\) revient à poser \(\mathcal{H}_0 : C'\theta= 0\) avec \(C'= \left(\begin{array}{ccc} 0 & -1 & 1 \end{array} \right)\) ou \(C'=\left(\begin{array}{ccc} 0 & 1 & -1 \end{array} \right)\) et \(q=1\).
- Tester l’hypothèse \(\mathcal{H}_0 : \theta_3=\theta_2=0\) revient à poser \(\mathcal{H}_0 : C'\theta=0_{2}\) avec \(\displaystyle C'=\left(\begin{array}{ccc} 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right)\) et \(q=2\).
4.1.2 Seconde écriture
Plaçons-nous dans le cadre général du modèle linéaire. Soit le modèle (4.1) et soit \(Z\) une matrice telle que \(Im(Z) \subset Im(X)\) et \(k_0=dim( Im(Z) ) <k=dim( Im (X))\). Le modèle défini par \[\begin{equation} Y= Z \beta +\varepsilon, \tag{4.2} \end{equation}\] est appelé sous-modèle issu du modèle linéaire défini en (4.1). Le plus souvent, \(Z\) est la matrice constituée de \(k_0\) vecteurs colonnes de \(X\) avec \(k_0<k\) et \(\beta\) est un vecteur de longueur \(k_0\). Nous notons alors \(SSR_0\) la somme des carrés des résidus de ce sous-modèle, associée à \(n-k_0\) degrés de liberté et définie de la façon suivante \[SSR_0=\|Y-Z\widehat{\beta}\|^2,\] où \(\widehat{\beta}\) est l’estimateur des moindres carrés issus du modèle (4.2) pour \(\beta\). Dans la mesure où \(Im(Z) \subset Im(X)\) et par définition des estimateurs des moindre carrés, nous pouvons remarquer que \(SSR_0 \geq SSR\).
Il peut être parfois intéressant d’essayer de savoir si les observations sont issues du modèle (4.1) ou (4.2). Soit le modèle défini par : \[Y= R+ \varepsilon.\] Tester la présence d’un sous-modèle revient donc à tester : \[ \mathcal{H}_0 : R \in Im (Z) \textrm{ contre } \mathcal{H}_1 : R \in Im(X) \backslash Im(Z). \]
4.2 Le test de Fisher-Snedecor
4.2.1 Principe
Le test de Fisher-Snedecor est la règle de décision qui permet de décider si on rejette ou ne rejette pas \(\displaystyle \mathcal{H}_0 : C\theta =0_{q}\), c’est-à-dire \(\mathcal{H}_0: R \in Im(Z)\) :
- Rejeter \(\mathcal{H}_0\), c’est décider que \(C\theta \neq 0_{q}\), c’est-à-dire que certaines composantes de \(C\theta\) ne sont pas nulles. Nous n’avons donc pas confiance dans le sous-modèle et nous préfèrerons continuer à travailler avec le modèle de référence.
- Ne pas rejeter \(\mathcal{H}_0\), c’est ne pas exclure que toutes les composantes de \(C\theta\) sont nulles. Dans ce cas, il n’est pas nécessaire de conserver un modèle trop compliqué et nous préfèrerons conserver le modèle contraint pour expliquer les données.
4.2.2 La statistique de test
Theorem 4.1 Dans le cadre du modèle linéaire général (4.1) avec les hypothèses H1-H4 et les notations précédentes, sous l’hypothèse nulle \(\mathcal{H}_0\) (le sous-modèle (4.2) est vrai), la variable \[F =\frac{(SSR_0- SSR)/(k-k_0)}{SSR/(n-k)} = \frac{\|X\widehat{\theta} - Z\widehat{\beta}\|^2 / (k-k_0)}{\|Y - X\widehat \theta\|^2 / (n-k)} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(k-k_0,n-k)\] (loi de Fisher de paramètres \((k-k_0,n-k)\)).
De plus, \(F\) est indépendante de \(Z\widehat{\beta}\) (calculé sous l’hypothèse \(\mathcal{H}_0\)).
Exercise 4.1 Le but de l’exercice est de démontrer le théorème 4.1.
- Montrez que \(SSR = \|P_{[X]^\perp}\varepsilon\|^2 \sim \sigma^2 \chi^2(n-k)\)
- Soit \(A\) un sous-espace vectoriel de \(Im(X)=[X]\) tel que \(A \stackrel{\perp}{\oplus} Im(Z) = Im(X)\), \(dim(A)=k-k_0\). Montrez que \(SSR_0-SSR = \| P_{A}\varepsilon\|^2 \underset{\mathcal{H}_0}{\sim} \sigma^2 \chi^2(k-k_0)\)
- Déduisez-en que \(F\underset{\mathcal{H}_0}{\sim} \mathcal{F}(k-k_0,n-k)\).
- Montrez que \(F\) est indépendante de \(Z \widehat{\beta}\) et \(\widehat{\beta}\).
Cette statistique de test peut s’écrire sous une autre forme donnée dans la proposition suivante :
Proposition 4.1 En suivante la première écriture, la statistique de test de Fisher-Snedecor peut également s’écrire sous la forme suivante : \[ F=\frac{ [C\widehat{\theta}]' \left[C(X'X)^{-1}C'\right]^{-1} [C\widehat{\theta}] }{q\widehat{\sigma^2}} \textrm{ avec } q=k-k_0. \]
Proof. La preuve de cette proposition est donnée en annexe B.1.
Cette dernière expression a l’avantage de ne pas nécessiter l’estimation du modèle contraint pour tester \(\mathcal{H}_0 : C\theta=0_{q}\) contre \(\mathcal{H}_1 : C\theta \neq 0_{q}.\)
Par la suite, on notera \(F^{obs}\) la valeur observée de la statistique de test \(F\).
4.2.3 Règle de décision
La quantité d’importance dans notre construction du test de Fisher est \(SSR_0- SSR\). Intuitivement, si la valeur observée de \(SSR_0- SSR\) est très grande, il y a peu de chance que les observations \(Y\) soient “issues” du sous-modèle. À l’opposé, si la valeur observée \(SSR_0- SSR\) est petite, il est fort possible que le modèle initial puisse être simplifié : le sous-modèle explique aussi bien les observations dans la mesure où \(SSR_0\) est comparable à \(SSR\). Par conséquent, la zone de rejet avec un risque de première espèce \(\alpha\) s’écrit \[ \mathcal{R}_\alpha = \{ F > f_{q,n-k,1-\alpha}\} \] où \(f_{q,n-k,1-\alpha}\) est le \((1-\alpha)\)-quantile de la distribution de Fisher de degrés de liberté \(q=k-k_0\) et \(n-k\).
4.2.4 Cas particulier où \(q=1\) : Test de Student
Dans le cas particulier où l’on teste la nullité d’une seule combinaison linéaire des composantes du paramètre \(\theta\), i.e. \(q=1\) et \(C \in \mathcal{M}_{1,k}(\mathbb{R})\), alors l’hypothèse nulle s’écrit : \[\mathcal{H}_0 : C\theta=0.\] On a donc \(C(X'X)^{-1}C' \in \mathbb{R}\) et la variable aléatoire \(F\) s’écrit alors de la façon suivante : \[ F=\frac{(C\widehat{\theta})^2}{\widehat{\sigma}^2 C(X'X)^{-1}C'}. \]
\(F\) suit une loi de Fisher à 1 et \(n-k\) degrés de liberté. Or une propriété de la distribution de Fisher-Snedecor est qu’une distribution de Fisher-Snedecor à 1 et \(m_2\) degrés de liberté est le carré d’une distribution de Student à \(m_2\) degrés de liberté. Par conséquent, on obtient l’égalité suivante : si \(A\sim \mathcal{F}(1,n-k)\) et \(T\sim \mathcal{T}(n-k)\), \[\mathbb{P}\left(A \geq f_{1,n-k,1-\alpha}\right)=\alpha=\mathbb{P}\left(T^2\geq f_{1,n-k,1-\alpha}\right).\] On en déduit donc la propriété suivante sur les quantiles : \[f_{1,n-k,1-\alpha}=t_{n-k,1-\alpha/2}^2.\] Selon le test de Fisher, on rejette l’hypothèse \(\mathcal{H}_0\) si \(F \geq f_{1,n-k,1-\alpha}\). Or on a les équivalences suivantes :
\[\begin{eqnarray*} F \leq f_{1,n-k,1-\alpha} &\Longleftrightarrow& |C\widehat{\theta}| \leq t_{n-k,1-\alpha/2} \sqrt{\widehat{\sigma}^2C(X'X)^{-1}C'} \\ &\Longleftrightarrow& -t_{n-k,1-\alpha/2} \sqrt{\widehat{\sigma}^2C(X'X)^{-1}C'} \leq C \widehat{\theta} \leq t_{n-k,1-\alpha/2} \sqrt{\widehat{\sigma}^2C(X'X)^{-1}C'}. \end{eqnarray*}\]
Donc au final, on rejette \(\mathcal{H}_0\) si \(\left| \frac{C\widehat{\theta}} {\sqrt{\widehat{\sigma}^2C(X'X)^{-1}C'}}\right| > t_{n-k,1-\alpha/2}\). On retrouve le classique test de Student de nullité.
Exercise 4.2 Construisez directement le test de Student de nullité du paramètre \(\theta_j\) au niveau \(\alpha\).
4.3 Intervalle (région) de confiance pour \(C\theta\)
4.3.1 IC pour \(C\theta \in \mathbb{R}\)
Commençons par l’intervalle de confiance pour une combinaison linéaire \(C\theta \in \mathbb{R}\). Nous reprenons les notations de la section 4.2.4. Comme \(\widehat{\theta}\sim\mathcal{N}_k(\theta,\sigma^2 (X'X)^{-1})\), on a \(C\widehat{\theta} \sim\mathcal{N}(C \theta,\sigma^2 \Delta)\) avec \(\Delta=C(X'X)^{-1} C' \in\mathbb{R}\). De plus \((n-k)\widehat{\sigma}^2 / \sigma^2 \sim \chi^2(n-k)\) et \(\widehat{\theta}\) et \(\widehat{\sigma}^2\) sont indépendantes. Ainsi, \[ \frac{C\widehat{\theta} - C\theta}{\widehat{\sigma} \sqrt{\Delta}} \sim \mathcal{T}(n-k). \] On obtient ainsi l’intervalle de confiance suivant au niveau de confiance \(1-\alpha\) : \[ IC_{1-\alpha}(C\theta)=\left[C\widehat{\theta} \pm t_{n-k,1-\alpha/2}\sqrt{\widehat{\sigma}^2 C (X'X)^{-1} C'}\right]. \] Rappelons le lien entre test et intervalle de confiance : l’ensemble des \(c_0\) acceptés pour un test \[ \mathcal{H}_0 : C\theta = c_0 \textrm{ contre } \mathcal{H}_1 : C\theta \neq c_0 \] au niveau \(\alpha\), définit un intervalle de confiance au niveau de confiance \(1-\alpha\).
4.3.2 Région de confiance pour \(C\theta \in \mathbb{R}^q\)
Si maintenant, comme dans la partie 4.2.2, \(C\theta\) est de dimension \(q>1\) et si \(c_0\) est une valeur particulière appartenant à \(\mathbb{R}^q\), nous pouvons généraliser la construction de l’intervalle de confiance. Dans ce cas, \(C\widehat{\theta} - C\theta \sim \mathcal{N}_q(0_q,\sigma^2 \Delta)\) avec \(\Delta = C(X'X)^{-1} C' \in \mathcal{M}_q(\mathbb{R})\). Ainsi \[ \frac{[C\widehat{\theta} - C\theta] ' \Delta^{-1} [C\widehat{\theta} - C\theta]}{\sigma^2} \sim \chi^2(q). \] On a aussi \((n-k)\widehat{\sigma}^2 / \sigma^2 \sim \chi^2(n-k)\) et les deux statistiques sont indépendantes. On en déduit donc que \[ A:= \frac{[C\widehat{\theta} - C\theta] ' \Delta^{-1} [C\widehat{\theta} - C\theta]}{q\ \widehat{\sigma}^2} \sim \mathcal{F}(q,n-k). \] Finalement, \[\begin{eqnarray*} & &\mathbb{P}(A\leq f_{q,n-k,1-\alpha} ) = 1-\alpha\\ \Leftrightarrow& &\mathbb{P}([C\widehat{\theta} - C\theta] ' \Delta^{-1} [C\widehat{\theta} - C\theta] \leq q \widehat{\sigma}^2 f_{q,n-k,1-\alpha} ) = 1-\alpha\\ \Leftrightarrow& & \mathbb{P}(C\theta \in RC) = 1 - \alpha \end{eqnarray*}\] où \(RC\) est l’ellipsoïde de confiance défini par : \[ RC= \left\{u \in \mathbb{R}^q; \, (C \widehat{\theta} -u )' [C (X' X)^{-1} C']^{-1} (C \widehat{\theta}- u) \leq q \widehat{\sigma}^2 f_{q,n-k,1-\alpha}\right\}.\]
L’ensemble des \(c_0\in\mathbb{R}^q\) acceptés par le test \[ \mathcal{H}_0 : C \theta=c_0 \textrm{ contre } \mathcal{H}_1 : C \theta \neq c_0 \] au niveau \(\alpha\) forme l’ellipsoïde de confiance \(RC\) défini ci-dessus.
4.4 En résumé
- Savoir écrire les hypothèses d’un test de Fisher de sous-modèle
- Savoir justifier qu’un modèle est sous-modèle d’un autre
- Connaitre la forme de la statistique du test de Fisher, sa loi sous \(\mathcal{H}_0\) et savoir définir les quantités qui la composent selon le contexte (Théorème 4.1)
- Savoir mener la construction d’un test de Fisher de sous-modèle
- Savoir mener la construction d’un test de Student quand \(q=1\)
- Savoir mener la construction d’un intervalle de confiance pour \(C\theta\). Ne pas apprendre la formule !