B Preuves de quelques résultats du cours
B.1 Preuve pour le test de Fisher
On reprend les notations du chapitre 4. Rappelons la nature de chaque objet : \(\theta\in\mathbb{R}^k\), \(C\in\mathcal{M}_{qk}(\mathbb{R})\), \(X_0\in\mathcal{M}_{nk_0}(\mathbb{R})\) et \(X\in\mathcal{M}_{nk}(\mathbb{R})\) avec \(Im(X_0)\subset Im(X)\).
Proposition B.1 On veut tester \[ \mathcal{H}_0 : Y = X_0\beta + \varepsilon \hspace{0.3cm}(M_0) \textrm{ contre } \mathcal{H}_1 : Y=X\theta +\varepsilon \hspace{0.3cm}(M_1) \] i.e \[ \mathcal{H}_0 : C\theta = 0 \textrm{ contre } \mathcal{H}_1 : C\theta \neq 0. \]
Test 1 : La statistique de test \[ F = \frac{SCR_0 - SCR / (k-k_0)}{SCR/(n-k)} = \frac{\|X \widehat{\theta} - X_0 \widehat{\beta}\|^2 / (k-k_0)}{\|Y - X \widehat{\theta}\|^2 / (n-k)}\underset{\mathcal{H}_0}{\sim} \mathcal{F}(k-k_0,n-k) \] et la zone de rejet est donnée par \[ \mathcal{R} =\{F \geq f_{1-\alpha,k-k_0,n-k}\}. \]
Test 2 : La statistique de test \[ \tilde{F} = \frac{[C\widehat{\theta}]' [C (X'X)^{-1} C']^{-1} [C\widehat{\theta}] /q}{SCR/(n-k)} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k) \] et la zone de rejet est donnée par \[ \mathcal{R} =\{\tilde F \geq f_{1-\alpha,q,n-k}\}. \] Ces deux tests sont identiques.
Proof. Nous allons prouver le résultat du test de Fisher, en particulier que ces deux tests sont équivalents.
- Montrons que \(\tilde{F} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k)\)
L’application \(C : \mathbb{R}^k \to \mathbb{R}^q\) est surjective car \(rg(C)=q\) par hypothèse.
On a \(C\widehat{\theta} \sim \mathcal{N}_q(C\theta,\sigma^2 \Delta)\) avec \(\Delta = C(X'X)^{-1}C'\). La matrice \((X'X)^{-1}\) étant inversible, elle peut s’écrire sous la forme \(AA'\) où \(A\in\mathcal{M}_k(\mathbb{R})\) inversible. De plus, \(rg(\Delta)=rg(CAA'C')=rg(A'C') = q - dim(Ker(A'C'))\). Or \(A'C'x=0_k \Leftrightarrow C'x=0_k \Rightarrow x=0_q\) car \(A\) inversible et \(C'\) injective. Ainsi \(rg(\Delta)=q\) et \(\Delta = (CA)(CA)'\in\mathcal{M}_q(\mathbb{R})\). \(\Delta\) étant inversible, elle se décompose en \(\Delta=BB'\) avec \(B\in\mathcal{M}_q(\mathbb{R})\) inversible.
Sous \(\mathcal{H}_0\), \(C\widehat{\theta}\sim \mathcal{N}_q(0_q,\sigma^2 \Delta)\) donc \(B^{-1} C\widehat{\theta} \sim\mathcal{N}_q(0_q,\sigma^2 I_q)\). On en déduit donc que \([B^{-1} C\widehat{\theta}]' [B^{-1} C\widehat{\theta}] / \sigma^2 \sim \chi^2(q).\) De plus \(SCR= (n-k) \widehat{\sigma^2}\sim \sigma^2 \chi^2(n-k)\) et \(\widehat{\theta}\) et \(\widehat{\sigma^2}\) sont indépendants. On en conclut que \[ \frac{[B^{-1} C\widehat{\theta}]' [B^{-1} C\widehat{\theta} ] /q}{SCR/(n-k)} = \frac{[C\widehat{\theta}]' [C(X'X)^{-1}C']^{-1} [C\widehat{\theta} ] /q}{SCR/(n-k)} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k). \]
- Montrons que \(F=\tilde F\)
Tout d’abord, \[\begin{eqnarray*} \|Y - X_0 \widehat{\beta}\|^2 &=& \underset{\beta\in\mathbb{R}^q}{\min} \|Y - X_0 \beta\|^2\\ &=& \underset{u\in Im(X_0)}{\min} \|Y - u\|^2\\ &=& \underset{u\in X (Ker(C)) }{\min} \|Y - u\|^2\\ &=& \underset{\theta\in Ker(C) }{\min} \|Y - X\theta\|^2\\ &=&\|Y - X \tilde \theta\|^2. \end{eqnarray*}\]
Le vecteur \(\tilde \theta\) minimise \(\|Y - X\theta\|^2\) sous la contrainte \(\theta\in Ker(C)\). Soit \(\lambda \in\mathbb{R}^q\). Pour déterminer \(\tilde \theta\) on résout, \[\begin{eqnarray*} && \frac{\partial }{\partial \theta} [(Y-X\theta)' (Y-X\theta) + \lambda' C\theta ] = 0_k\\ \Leftrightarrow&& \frac{\partial }{\partial \theta} [Y'Y - \theta'X'Y - Y'X\theta + \theta' X' X \theta + \lambda' C\theta ] = 0_k\\ \Leftrightarrow& &-2X'Y + 2 X' X \theta + C'\lambda =0_k \end{eqnarray*}\] donc \(\tilde \theta = (X'X)^{-1}X'Y - \frac 1 2 (X'X)^{-1} C'\lambda\). En utilisant la contrainte \(C \tilde \theta=0_q\), on obtient que \(\frac 1 2 \lambda = \Delta^{-1} C(X'X)^{-1} X'Y\) car \(\Delta\) est inversible. Finalement, \(\tilde \theta = (X'X)^{-1}X'Y - (X'X)^{-1} C' \Delta^{-1} C (X'X)^{-1} X'Y = \widehat{\theta} - (X'X)^{-1} C' \Delta^{-1} C\widehat{\theta}\).
Ainsi \[\begin{eqnarray*} \|X \widehat{\theta} - X_0 \widehat{\beta}\|^2 &=& \|X \widehat{\theta} - X \tilde \theta\|^2\\ &=& \|X(X'X)^{-1} C' \Delta^{-1}C \widehat{\theta}\|^2\\ &=& (C \widehat{\theta})' \Delta^{-1} C(X'X)^{-1} X'X (X'X)^{-1} C' \Delta^{-1} (C \widehat{\theta})\\ &=& (C \widehat{\theta})' \Delta^{-1}(C \widehat{\theta}). \end{eqnarray*}\]
- Montrons que \(q=k-k_0\) Soit \((e_1,\ldots,e_{k-q})\) une base de \(Ker(C)\) donc \((Xe_1,\ldots,Xe_{k-q})\) est une famille génératrice de \(X(Ker(C))\). On montre ensuite facilement que c’est une famille libre car \(X\) est injective. Ainsi \(dim(X(Ker(C))) = dim(Im(X_0))=k-q=k_0\).
B.2 Preuve de la proposition 7.5
Proof. On considère un modèle d’ANOVA à deux facteurs de la forme générale \[ Y = X \theta + \varepsilon = (\mathbb{1}_n, X_{(\alpha)}, X_{(\beta)}, X_{(\gamma)}) \theta + \varepsilon \] avec \(\theta=(\mu,\alpha,\beta,\gamma)'\), \(\alpha=(\alpha_1,\ldots,\alpha_I)\), \(\beta=(\beta_1,\ldots,\beta_J)\) et \(\gamma=(\gamma_{11}, \ldots, \gamma_{IJ})\).
On considère les sous-espaces vectoriels suivants de \(\mathbb{R}^n\) : \[ \begin{array}{l} E_\mu = Vect(\mathbb{1}_n) \\ E_\alpha=\{X_{(\alpha)} \alpha; \sum_{i=1}^I n_{i+}\alpha_i =0\} \\ E_\beta=\{X_{(\beta)} \beta; \sum_{j=1}^J n_{+j}\beta_j =0\} \\ E_\gamma=\{X_{(\gamma)} \gamma; \sum_{i=1}^I n_{ij}\gamma_{ij} =\sum_{j=1}^J n_{ij}\gamma_{ij}=0\} \end{array} \] On introduit les ensembles \(A_{(\alpha)}=\{\alpha;\ \sum_{i=1}^I n_{i+} \alpha_i =0\}\) et \(A_{(\beta)}=\{\beta;\ \sum_{j=1}^J n_{+j} \beta_j =0\}\)
Commençons par caractériser que \(E_\mu\), \(E_\alpha\), \(E_\beta\) et \(E_\gamma\) sont orthogonaux : \ soit \(v^{(\mu)}\in E_\mu\), \(v^{(\alpha)}\in E_\alpha\), \(v^{(\beta)}\in E_\beta\) et \(v^{(\gamma)}\in E_\gamma\). On a donc \[ \begin{array}{l} <v^{(\mu)},v^{(\alpha)} > =\sum_{i,j,\ell} \mu \alpha_i = \mu \sum_{i=1}^I n_{i+} \alpha_i = 0 \\ <v^{(\mu)},v^{(\beta)} > =\sum_{i,j,\ell} \mu \beta_j = \mu \sum_{j=1}^J n_{+j} \beta_j = 0 \\ <v^{(\mu)},v^{(\gamma)} > =\sum_{i,j,\ell} \mu \gamma_{ij} = \mu \sum_{i=1}^I \sum_{j=1}^J n_{ij} \gamma_{ij} = 0 \\ <v^{(\alpha)},v^{(\gamma)} > =\sum_{i,j,\ell} \alpha_i \gamma_{ij} = \sum_{i=1}^I \alpha_i (\sum_{j=1}^J n_{ij} \gamma_{ij}) = 0 \\ <v^{(\beta)},v^{(\gamma)} > =\sum_{i,j,\ell} \beta_j \gamma_{ij} = \sum_{j=1}^J \beta_j (\sum_{i=1}^In_{ij} \gamma_{ij}) = 0 \\ <v^{(\alpha)},v^{(\beta)} > =\sum_{i,j,\ell} \alpha_i \beta_{j} = \sum_{i=1}^I \sum_{j=1}^J n_{ij} \alpha_i \beta_{j} \end{array} \] On remarque que si \(n_{ij}= n_{i+} n_{+j} / n\), alors \[ <v^{(\alpha)},v^{(\beta)} > = \sum_{i=1}^I \frac{n_{i+}}{n} \alpha_i \left(\sum_{j=1}^J n_{+j} \beta_{j} \right) =0. \] Réciproquement, supposons que \(E_\alpha\) et \(E_\beta\) sont orthogonaux : \[\begin{equation} \tag{B.1} \sum_{i=1}^I \sum_{j=1}^J n_{ij} \alpha_i \beta_{j} = 0,\ \forall \alpha\in A_{(\alpha)},\ \forall \beta\in A_{(\beta)}. \end{equation}\]
Fixons \(\alpha\). est vrai pour tout \(\beta\in A_{(\beta)}\) et \(\sum_{j=1}^J n_{+j} \beta_j=0\) donc
\[
\sum_{j=1}^J \left(\sum_{i=1}^I n_{ij} \alpha_i \right) \beta_{j} = 0 = \sum_{j=1}^J n_{+j} \beta_j.
\]
Ainsi, \(\sum_{i=1}^I n_{ij} \alpha_i = c_j n_{+j}\) où \(c_j\) constante pour \(j=1,\ldots,J\).
En sommant sur \(j\),
\[
\sum_{j=1}^J \left(\sum_{i=1}^I n_{ij} \alpha_i \right) = \sum_{j=1}^J c_j n_{+j} = \sum_{i=1}^I n_{i+} \alpha_i =0
\]
d’où \(c_j=0\) pour tout \(j\) donc \(\sum_{i=1}^I n_{ij} \alpha_i =0\).
A nouveau, pour tout \(\alpha\in A_{(\alpha)}\) et pour tout \(j\), \[ \sum_{i=1}^I n_{ij} \alpha_i = 0 = \sum_{i=1}^I n_{i+} \alpha_i \] donc \(n_{ij}\) et \(n_{i+}\) sont proportionnels pour tout \(i\) : \[n_{ij} = d_j n_{i+} \textrm{ avec } d_j \textrm{ constante}.\] Ainsi ${i=1}^I n{ij} = {i=1}^I d_j n{i+} = c_j n = n_{+j} $ d’où \(d_j = n_{+j}/n\) et \(n_{ij} = (n_{+j}/n ) n_{i+}\).
B.3 Preuve de la proposition 6.2
Proof. \[\begin{eqnarray*} \mathcal{R}(m,m^\star) &=& \mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star\|^2\right] \\ &=& \mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)} + \mu^\star_{(m)} - \mu^\star\|^2\right] \hspace*{0.5cm} \textrm{ avec } \mu^\star_{(m)}=P_{[X_{(m)}]}\mu^\star\\ &=&\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] + \mathbb{E}\left[\|\mu^\star_{(m)} - \mu^\star\|^2\right] \hspace*{0.5cm} \textrm{ par Pythagore }\\ &=&\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] + \|\mu^\star_{(m)} - \mu^\star\|^2. \end{eqnarray*}\] Or \[ X_{(m)} \hat\theta_{(m)} = P_{[X_{(m)}]} Y = P_{[X_{(m)}]} \left(X_{(m^\star)} \theta_{(m^\star)} + \varepsilon_{(m^\star)}\right) = \mu^\star_{(m)} + P_{[X_{(m)}]} \varepsilon_{(m^\star)}, \] donc \[ \|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2 = \|P_{[X_{(m)}]} \varepsilon_{(m^\star)}\|^2 \sim (\sigma{^\star})^2 \chi^2(|m|+1) \] d’après le théorème de Cochran. Ainsi \(\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] = (\sigma{^\star})^2 (|m|+1)\).
B.4 Preuve de la proposition 6.3
Proof. Sous le modèle \(m^\star\), la densité de \(Y=(Y_1,\ldots,Y_n)'\) vaut \[ f^\star(Y) = (2\pi\sigma^{\star\,2})^{-n/2} \exp\left(-\frac{1}{2\sigma^{\star\,2}} \|Y - \mu^\star\|^2\right). \] Sous le modèle \(m\), la densité de \(Y\) vaut \[ f_{(m)}(Y) = (2\pi\sigma_{(m)}^{2})^{-n/2} \exp\left(-\frac{1}{2\sigma_{(m)}^{2}} \|Y - \mu_{(m)}\|^2\right). \] Ainsi \[ \ln\left(\frac{f^\star(Y)}{f_{(m)}(Y)}\right) = \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{\|Y - \mu_{(m)}\|^2}{2 \sigma_{(m)}^2} - \frac{\|Y - \mu^\star\|^2}{2 \sigma^{\star\,2}}. \] D’où \[\begin{eqnarray*} KL(m^\star,m) &=& \mathbb{E}_{f^\star}\left[\ln\left(\frac{f^\star(Y)}{f_{(m)}(Y)}\right)\right]\\ &=& \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{1}{2 \sigma_{(m)}^2} \mathbb{E}_{f^\star}\left[\|Y - \mu_{(m)}\|^2\right] - \frac{1}{2 \sigma^{\star\,2}} \mathbb{E}_{f^\star}\left[ \|Y - \mu^\star\|^2\right]. \end{eqnarray*}\] Or \(\mathbb{E}_{f^\star}\left[ \|Y - \mu^\star\|^2\right] = \mathbb{E}_{f^\star}\left[ \|\varepsilon^\star\|^2\right] = n \sigma^{\star\,2}\) et \[\begin{eqnarray*} \mathbb{E}_{f^\star}\left[\|Y - \mu_{(m)}\|^2\right] &=& \mathbb{E}_{f^\star}\left[\|Y - \mu^\star + \mu^\star - \mu_{(m)}\|^2\right] \\ &=& \mathbb{E}_{f^\star}\left[\|Y - \mu^\star \|^2 \right] + \|\mu^\star - \mu_{(m)}\|^2 + 2 \mathbb{E}_{f^\star}\left[(\mu^\star - \mu_{(m)})' (Y - \mu^\star)\right]\\ &=& n\sigma^{\star\,2} + \|\mu^\star - \mu_{(m)}\|^2 \end{eqnarray*}\] car \(\mathbb{E}_{f^\star}\left[Y\right] = \mu^\star\). Finalement, on obtient que \[\begin{eqnarray*} KL(m^\star,m) &=& \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{n\sigma^{\star\,2} + \|\mu^\star - \mu_{(m)}\|^2 }{2 \sigma_{(m)}^2} - \frac{n\sigma^{\star\,2} }{2 \sigma^{\star\,2}} \\ &=& \frac n 2 \left[ \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{\sigma^{\star\,2} }{ \sigma_{(m)}^2} -1 \right] + \frac{ \|\mu^\star - \mu_{(m)}\|^2 }{2 \sigma_{(m)}^2}. \end{eqnarray*}\]
B.5 Critère du \(C_p\) de Mallows
Soit \(m\in \mathcal{M}\) fixé. On rappelle que d’après la proposition 6.2, le risque quadratique entre \(m\) et \(m^\star\) vaut : \[\mathcal{R}(m,m^\star)= \|\mu^\star_{(m)} - \mu^\star\|^2 + (\sigma{^\star})^2 (|m|+1).\] Commençons par essayer d’estimer le terme de biais. D’après le théorème de Pythagore et le théorème de Cochran, on a : \[\begin{eqnarray*} \mathbb{E}\left[ \| Y - \widehat{Y}_{(m)} \|^2\right] & = & \mathbb{E}\left[\| Y - \mu_{(m)}^{\star} \|^2\right] - \mathbb{E}\left[ \| \widehat{Y}_{(m)} - \mu_{(m)}^{\star}\|^2\right], \\ & = & \mathbb{E}\left[\|Y-\mu^{\star}+\mu^{\star}-\mu_{(m)}^\star\|^2\right]- \mathbb{E}\left[ \| \widehat{Y}_{(m)} - \mu_{(m)}^{\star} \|^2\right], \\ & = & \mathbb{E}\left[\| Y - \mu^{\star} \|^2\right] +\| \mu^{\star} - \mu_{(m)}^{\star} \|^2 - (|m|+1) \sigma^{\star\,2},\\ & = & \| \mu^\star - \mu_{(m)}^\star \|^2 + n\sigma^{\star\,2} - (|m|+1) \sigma^{\star\,2}, \end{eqnarray*}\] ou encore \[\begin{equation} \| \mu^\star- \mu_{(m)}^\star \|^2 = \mathbb{E}\left[\left\| Y - \widehat{Y}_{(m)} \right\|^2\right] + (|m|+1) \sigma^{\star\,2} - n\sigma^{\star\,2}. \tag{B.2} \end{equation}\]
D’après (B.2), le terme de biais \(\| \mu^\star - \mu_{(m)}^\star \|^2\) peut donc ^etre estimé par \(\| Y - \widehat{Y}_{(m)} \|^2 + (|m|+1) \sigma^{\star\,2}\) (on néglige le terme en \(n\sigma^{\star\,2}\) puisque ce dernier ne dépend pas de \(m\) et n’interviendra donc pas dans la minimisation).
Si la variance est connue, on obtient alors le critère : \[ C_p(m)= \| Y - \widehat{Y}_{(m)} \|^2 + 2|m| \sigma^{\star\,2}.\] On retiendra alors le modèle \(\hat m_{CP}\) vérifiant : \[ \hat m_{CP} = \mathrm{arg} \min_{m\in \mathcal{M}} C_p(m).\] Dans le cas où la variance est inconnue, on utilisera l’estimateur \(\widehat{\sigma^2} = \widehat{\sigma^2}_{(m_p)}\) où \(m_p=\lbrace 1,\dots, p \rbrace\) est le modèle prenant en compte tous les régresseurs.
B.6 Preuve de la proposition ??
Dans le cas d’une famille exponentielle, \[ l(\underline{Y};\theta) = \underset{i=1}{\stackrel{n}{\sum}} \left\{ \frac{Y_i \omega_i - b(\omega_i)}{\gamma(\phi)} + c(Y_i,\phi) \right\} = \underset{i=1}{\stackrel{n}{\sum}} \ell_i \] avec \(\mu_i=b'(\omega_i)\), \(\eta_i=g(\mu_i)=\textbf{x}_i \theta\), \(Var(Y_i)=b''(\omega_i) \gamma(\phi)\).
Calculons \[ \frac{\partial\ell_i}{\partial\theta_j}=\frac{\partial\ell_i}{\partial\omega_i}\frac{\partial\omega_i}{\partial\mu_i}\frac{\partial\mu_i}{\partial\eta_i}\frac{\partial\eta_i}{\partial\theta_j} : \] Comme \[\begin{eqnarray*} \frac{\partial\ell_i}{\partial\omega_i}&=&[Y_i-b'(\omega_i)]/\gamma(\phi)=(Y_i-\mu_i)/\gamma(\phi),\\ \frac{\partial\omega_i}{\partial\mu_i}&=&1/b''(\omega_i)=\gamma(\phi) / \text{Var}(Y_i),\\ \frac{\partial\eta_i}{\partial\theta_j}&=&x_{i}^{(j)} \quad \text{car}\quad \eta_i=\mathbf{x}_i\bs{\theta},\\ \frac{\partial\mu_i}{\partial\eta_i}&\quad& \text{dépend de la fonction lien}\quad\eta_i=g(\mu_i), \end{eqnarray*}\] on obtient que \[ S_j = \frac{\partial l(\underline{Y}; \theta)}{\partial \theta_j} = \sum_{i=1}^n\frac{(Y_i-\mu_i)x_{i}^{(j)}}{\text{Var}(Y_i)}\ \frac{\partial\mu_i}{\partial\eta_i}\quad \forall j=0,\ldots,p. \]