B Preuves de quelques résultats du cours

B.1 Preuve pour le test de Fisher

On reprend les notations du chapitre 4. Rappelons la nature de chaque objet : $\theta\in\mathbb{R}^k$, $C\in\mathcal{M}_{qk}(\mathbb{R})$, $X_0\in\mathcal{M}_{nk_0}(\mathbb{R})$ et $X\in\mathcal{M}_{nk}(\mathbb{R})$ avec $Im(X_0)\subset Im(X)$.

Proposition B.1 On veut tester \[ \mathcal{H}_0 : Y = X_0\beta + \varepsilon \hspace{0.3cm}(M_0) \textrm{ contre } \mathcal{H}_1 : Y=X\theta +\varepsilon \hspace{0.3cm}(M_1) \] i.e \[ \mathcal{H}_0 : C\theta = 0 \textrm{ contre } \mathcal{H}_1 : C\theta \neq 0. \]

Test 1 : La statistique de test \[ F = \frac{SCR_0 - SCR / (k-k_0)}{SCR/(n-k)} = \frac{\|X \widehat{\theta} - X_0 \widehat{\beta}\|^2 / (k-k_0)}{\|Y - X \widehat{\theta}\|^2 / (n-k)}\underset{\mathcal{H}_0}{\sim} \mathcal{F}(k-k_0,n-k) \] et la zone de rejet est donnée par \[ \mathcal{R} =\{F \geq f_{1-\alpha,k-k_0,n-k}\}. \]
Test 2 : La statistique de test \[ \tilde{F} = \frac{[C\widehat{\theta}]' [C (X'X)^{-1} C']^{-1} [C\widehat{\theta}] /q}{SCR/(n-k)} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k) \] et la zone de rejet est donnée par \[ \mathcal{R} =\{\tilde F \geq f_{1-\alpha,q,n-k}\}. \] Ces deux tests sont identiques.

Proof. Nous allons prouver le résultat du test de Fisher, en particulier que ces deux tests sont équivalents.

Montrons que $\tilde{F} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k)$

L’application $C : \mathbb{R}^k \to \mathbb{R}^q$ est surjective car $rg(C)=q$ par hypothèse.

On a $C\widehat{\theta} \sim \mathcal{N}_q(C\theta,\sigma^2 \Delta)$ avec $\Delta = C(X'X)^{-1}C'$. La matrice $(X'X)^{-1}$ étant inversible, elle peut s’écrire sous la forme $AA'$ où $A\in\mathcal{M}_k(\mathbb{R})$ inversible. De plus, $rg(\Delta)=rg(CAA'C')=rg(A'C') = q - dim(Ker(A'C'))$. Or $A'C'x=0_k \Leftrightarrow C'x=0_k \Rightarrow x=0_q$ car $A$ inversible et $C'$ injective. Ainsi $rg(\Delta)=q$ et $\Delta = (CA)(CA)'\in\mathcal{M}_q(\mathbb{R})$. $\Delta$ étant inversible, elle se décompose en $\Delta=BB'$ avec $B\in\mathcal{M}_q(\mathbb{R})$ inversible.

Sous $\mathcal{H}_0$, $C\widehat{\theta}\sim \mathcal{N}_q(0_q,\sigma^2 \Delta)$ donc $B^{-1} C\widehat{\theta} \sim\mathcal{N}_q(0_q,\sigma^2 I_q)$. On en déduit donc que $[B^{-1} C\widehat{\theta}]' [B^{-1} C\widehat{\theta}] / \sigma^2 \sim \chi^2(q).$ De plus $SCR= (n-k) \widehat{\sigma^2}\sim \sigma^2 \chi^2(n-k)$ et $\widehat{\theta}$ et $\widehat{\sigma^2}$ sont indépendants. On en conclut que \[ \frac{[B^{-1} C\widehat{\theta}]' [B^{-1} C\widehat{\theta} ] /q}{SCR/(n-k)} = \frac{[C\widehat{\theta}]' [C(X'X)^{-1}C']^{-1} [C\widehat{\theta} ] /q}{SCR/(n-k)} \underset{\mathcal{H}_0}{\sim} \mathcal{F}(q,n-k). \]

Montrons que $F=\tilde F$

Tout d’abord, \[\begin{eqnarray*} \|Y - X_0 \widehat{\beta}\|^2 &=& \underset{\beta\in\mathbb{R}^q}{\min} \|Y - X_0 \beta\|^2\\ &=& \underset{u\in Im(X_0)}{\min} \|Y - u\|^2\\ &=& \underset{u\in X (Ker(C)) }{\min} \|Y - u\|^2\\ &=& \underset{\theta\in Ker(C) }{\min} \|Y - X\theta\|^2\\ &=&\|Y - X \tilde \theta\|^2. \end{eqnarray*}\]

Le vecteur $\tilde \theta$ minimise $\|Y - X\theta\|^2$ sous la contrainte $\theta\in Ker(C)$. Soit $\lambda \in\mathbb{R}^q$. Pour déterminer $\tilde \theta$ on résout, \[\begin{eqnarray*} && \frac{\partial }{\partial \theta} [(Y-X\theta)' (Y-X\theta) + \lambda' C\theta ] = 0_k\\ \Leftrightarrow&& \frac{\partial }{\partial \theta} [Y'Y - \theta'X'Y - Y'X\theta + \theta' X' X \theta + \lambda' C\theta ] = 0_k\\ \Leftrightarrow& &-2X'Y + 2 X' X \theta + C'\lambda =0_k \end{eqnarray*}\] donc $\tilde \theta = (X'X)^{-1}X'Y - \frac 1 2 (X'X)^{-1} C'\lambda$. En utilisant la contrainte $C \tilde \theta=0_q$, on obtient que $\frac 1 2 \lambda = \Delta^{-1} C(X'X)^{-1} X'Y$ car $\Delta$ est inversible. Finalement, $\tilde \theta = (X'X)^{-1}X'Y - (X'X)^{-1} C' \Delta^{-1} C (X'X)^{-1} X'Y = \widehat{\theta} - (X'X)^{-1} C' \Delta^{-1} C\widehat{\theta}$.

Ainsi \[\begin{eqnarray*} \|X \widehat{\theta} - X_0 \widehat{\beta}\|^2 &=& \|X \widehat{\theta} - X \tilde \theta\|^2\\ &=& \|X(X'X)^{-1} C' \Delta^{-1}C \widehat{\theta}\|^2\\ &=& (C \widehat{\theta})' \Delta^{-1} C(X'X)^{-1} X'X (X'X)^{-1} C' \Delta^{-1} (C \widehat{\theta})\\ &=& (C \widehat{\theta})' \Delta^{-1}(C \widehat{\theta}). \end{eqnarray*}\]

Montrons que $q=k-k_0$ Soit $(e_1,\ldots,e_{k-q})$ une base de $Ker(C)$ donc $(Xe_1,\ldots,Xe_{k-q})$ est une famille génératrice de $X(Ker(C))$. On montre ensuite facilement que c’est une famille libre car $X$ est injective. Ainsi $dim(X(Ker(C))) = dim(Im(X_0))=k-q=k_0$.

B.2 Preuve de la proposition 7.5

Proof. On considère un modèle d’ANOVA à deux facteurs de la forme générale \[ Y = X \theta + \varepsilon = (\mathbb{1}_n, X_{(\alpha)}, X_{(\beta)}, X_{(\gamma)}) \theta + \varepsilon \] avec $\theta=(\mu,\alpha,\beta,\gamma)'$, $\alpha=(\alpha_1,\ldots,\alpha_I)$, $\beta=(\beta_1,\ldots,\beta_J)$ et $\gamma=(\gamma_{11}, \ldots, \gamma_{IJ})$.

On considère les sous-espaces vectoriels suivants de $\mathbb{R}^n$ : \[ \begin{array}{l} E_\mu = Vect(\mathbb{1}_n) \\ E_\alpha=\{X_{(\alpha)} \alpha; \sum_{i=1}^I n_{i+}\alpha_i =0\} \\ E_\beta=\{X_{(\beta)} \beta; \sum_{j=1}^J n_{+j}\beta_j =0\} \\ E_\gamma=\{X_{(\gamma)} \gamma; \sum_{i=1}^I n_{ij}\gamma_{ij} =\sum_{j=1}^J n_{ij}\gamma_{ij}=0\} \end{array} \] On introduit les ensembles $A_{(\alpha)}=\{\alpha;\ \sum_{i=1}^I n_{i+} \alpha_i =0\}$ et $A_{(\beta)}=\{\beta;\ \sum_{j=1}^J n_{+j} \beta_j =0\}$

Commençons par caractériser que $E_\mu$, $E_\alpha$, $E_\beta$ et $E_\gamma$ sont orthogonaux : \ soit $v^{(\mu)}\in E_\mu$, $v^{(\alpha)}\in E_\alpha$, $v^{(\beta)}\in E_\beta$ et $v^{(\gamma)}\in E_\gamma$. On a donc \[ \begin{array}{l} <v^{(\mu)},v^{(\alpha)} > =\sum_{i,j,\ell} \mu \alpha_i = \mu \sum_{i=1}^I n_{i+} \alpha_i = 0 \\ <v^{(\mu)},v^{(\beta)} > =\sum_{i,j,\ell} \mu \beta_j = \mu \sum_{j=1}^J n_{+j} \beta_j = 0 \\ <v^{(\mu)},v^{(\gamma)} > =\sum_{i,j,\ell} \mu \gamma_{ij} = \mu \sum_{i=1}^I \sum_{j=1}^J n_{ij} \gamma_{ij} = 0 \\ <v^{(\alpha)},v^{(\gamma)} > =\sum_{i,j,\ell} \alpha_i \gamma_{ij} = \sum_{i=1}^I \alpha_i (\sum_{j=1}^J n_{ij} \gamma_{ij}) = 0 \\ <v^{(\beta)},v^{(\gamma)} > =\sum_{i,j,\ell} \beta_j \gamma_{ij} = \sum_{j=1}^J \beta_j (\sum_{i=1}^In_{ij} \gamma_{ij}) = 0 \\ <v^{(\alpha)},v^{(\beta)} > =\sum_{i,j,\ell} \alpha_i \beta_{j} = \sum_{i=1}^I \sum_{j=1}^J n_{ij} \alpha_i \beta_{j} \end{array} \] On remarque que si $n_{ij}= n_{i+} n_{+j} / n$, alors \[ <v^{(\alpha)},v^{(\beta)} > = \sum_{i=1}^I \frac{n_{i+}}{n} \alpha_i \left(\sum_{j=1}^J n_{+j} \beta_{j} \right) =0. \] Réciproquement, supposons que $E_\alpha$ et $E_\beta$ sont orthogonaux : \[\begin{equation} \tag{B.1} \sum_{i=1}^I \sum_{j=1}^J n_{ij} \alpha_i \beta_{j} = 0,\ \forall \alpha\in A_{(\alpha)},\ \forall \beta\in A_{(\beta)}. \end{equation}\]

Fixons $\alpha$. est vrai pour tout $\beta\in A_{(\beta)}$ et $\sum_{j=1}^J n_{+j} \beta_j=0$ donc \[ \sum_{j=1}^J \left(\sum_{i=1}^I n_{ij} \alpha_i \right) \beta_{j} = 0 = \sum_{j=1}^J n_{+j} \beta_j. \] Ainsi, $\sum_{i=1}^I n_{ij} \alpha_i = c_j n_{+j}$ où $c_j$ constante pour $j=1,\ldots,J$. En sommant sur $j$,
\[ \sum_{j=1}^J \left(\sum_{i=1}^I n_{ij} \alpha_i \right) = \sum_{j=1}^J c_j n_{+j} = \sum_{i=1}^I n_{i+} \alpha_i =0 \] d’où $c_j=0$ pour tout $j$ donc $\sum_{i=1}^I n_{ij} \alpha_i =0$.

A nouveau, pour tout $\alpha\in A_{(\alpha)}$ et pour tout $j$, \[ \sum_{i=1}^I n_{ij} \alpha_i = 0 = \sum_{i=1}^I n_{i+} \alpha_i \] donc $n_{ij}$ et $n_{i+}$ sont proportionnels pour tout $i$ : \[n_{ij} = d_j n_{i+} \textrm{ avec } d_j \textrm{ constante}.\] Ainsi ${i=1}^I n{ij} = {i=1}^I d_j n{i+} = c_j n = n_{+j} $ d’où $d_j = n_{+j}/n$ et $n_{ij} = (n_{+j}/n ) n_{i+}$.

B.3 Preuve de la proposition 6.2

Proof. \[\begin{eqnarray*} \mathcal{R}(m,m^\star) &=& \mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star\|^2\right] \\ &=& \mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)} + \mu^\star_{(m)} - \mu^\star\|^2\right] \hspace*{0.5cm} \textrm{ avec } \mu^\star_{(m)}=P_{[X_{(m)}]}\mu^\star\\ &=&\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] + \mathbb{E}\left[\|\mu^\star_{(m)} - \mu^\star\|^2\right] \hspace*{0.5cm} \textrm{ par Pythagore }\\ &=&\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] + \|\mu^\star_{(m)} - \mu^\star\|^2. \end{eqnarray*}\] Or \[ X_{(m)} \hat\theta_{(m)} = P_{[X_{(m)}]} Y = P_{[X_{(m)}]} \left(X_{(m^\star)} \theta_{(m^\star)} + \varepsilon_{(m^\star)}\right) = \mu^\star_{(m)} + P_{[X_{(m)}]} \varepsilon_{(m^\star)}, \] donc \[ \|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2 = \|P_{[X_{(m)}]} \varepsilon_{(m^\star)}\|^2 \sim (\sigma{^\star})^2 \chi^2(|m|+1) \] d’après le théorème de Cochran. Ainsi $\mathbb{E}\left[\|X_{(m)} \hat\theta_{(m)} - \mu^\star_{(m)}\|^2\right] = (\sigma{^\star})^2 (|m|+1)$.

B.4 Preuve de la proposition 6.3

Proof. Sous le modèle $m^\star$, la densité de $Y=(Y_1,\ldots,Y_n)'$ vaut \[ f^\star(Y) = (2\pi\sigma^{\star\,2})^{-n/2} \exp\left(-\frac{1}{2\sigma^{\star\,2}} \|Y - \mu^\star\|^2\right). \] Sous le modèle $m$, la densité de $Y$ vaut \[ f_{(m)}(Y) = (2\pi\sigma_{(m)}^{2})^{-n/2} \exp\left(-\frac{1}{2\sigma_{(m)}^{2}} \|Y - \mu_{(m)}\|^2\right). \] Ainsi \[ \ln\left(\frac{f^\star(Y)}{f_{(m)}(Y)}\right) = \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{\|Y - \mu_{(m)}\|^2}{2 \sigma_{(m)}^2} - \frac{\|Y - \mu^\star\|^2}{2 \sigma^{\star\,2}}. \] D’où \[\begin{eqnarray*} KL(m^\star,m) &=& \mathbb{E}_{f^\star}\left[\ln\left(\frac{f^\star(Y)}{f_{(m)}(Y)}\right)\right]\\ &=& \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{1}{2 \sigma_{(m)}^2} \mathbb{E}_{f^\star}\left[\|Y - \mu_{(m)}\|^2\right] - \frac{1}{2 \sigma^{\star\,2}} \mathbb{E}_{f^\star}\left[ \|Y - \mu^\star\|^2\right]. \end{eqnarray*}\] Or $\mathbb{E}_{f^\star}\left[ \|Y - \mu^\star\|^2\right] = \mathbb{E}_{f^\star}\left[ \|\varepsilon^\star\|^2\right] = n \sigma^{\star\,2}$ et \[\begin{eqnarray*} \mathbb{E}_{f^\star}\left[\|Y - \mu_{(m)}\|^2\right] &=& \mathbb{E}_{f^\star}\left[\|Y - \mu^\star + \mu^\star - \mu_{(m)}\|^2\right] \\ &=& \mathbb{E}_{f^\star}\left[\|Y - \mu^\star \|^2 \right] + \|\mu^\star - \mu_{(m)}\|^2 + 2 \mathbb{E}_{f^\star}\left[(\mu^\star - \mu_{(m)})' (Y - \mu^\star)\right]\\ &=& n\sigma^{\star\,2} + \|\mu^\star - \mu_{(m)}\|^2 \end{eqnarray*}\] car $\mathbb{E}_{f^\star}\left[Y\right] = \mu^\star$. Finalement, on obtient que \[\begin{eqnarray*} KL(m^\star,m) &=& \frac n 2 \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{n\sigma^{\star\,2} + \|\mu^\star - \mu_{(m)}\|^2 }{2 \sigma_{(m)}^2} - \frac{n\sigma^{\star\,2} }{2 \sigma^{\star\,2}} \\ &=& \frac n 2 \left[ \ln\left(\frac{\sigma_{(m)}^2}{\sigma^{\star\,2}}\right) + \frac{\sigma^{\star\,2} }{ \sigma_{(m)}^2} -1 \right] + \frac{ \|\mu^\star - \mu_{(m)}\|^2 }{2 \sigma_{(m)}^2}. \end{eqnarray*}\]

B.5 Critère du $C_p$ de Mallows

Soit $m\in \mathcal{M}$ fixé. On rappelle que d’après la proposition 6.2, le risque quadratique entre $m$ et $m^\star$ vaut : \[\mathcal{R}(m,m^\star)= \|\mu^\star_{(m)} - \mu^\star\|^2 + (\sigma{^\star})^2 (|m|+1).\] Commençons par essayer d’estimer le terme de biais. D’après le théorème de Pythagore et le théorème de Cochran, on a : \[\begin{eqnarray*} \mathbb{E}\left[ \| Y - \widehat{Y}_{(m)} \|^2\right] & = & \mathbb{E}\left[\| Y - \mu_{(m)}^{\star} \|^2\right] - \mathbb{E}\left[ \| \widehat{Y}_{(m)} - \mu_{(m)}^{\star}\|^2\right], \\ & = & \mathbb{E}\left[\|Y-\mu^{\star}+\mu^{\star}-\mu_{(m)}^\star\|^2\right]- \mathbb{E}\left[ \| \widehat{Y}_{(m)} - \mu_{(m)}^{\star} \|^2\right], \\ & = & \mathbb{E}\left[\| Y - \mu^{\star} \|^2\right] +\| \mu^{\star} - \mu_{(m)}^{\star} \|^2 - (|m|+1) \sigma^{\star\,2},\\ & = & \| \mu^\star - \mu_{(m)}^\star \|^2 + n\sigma^{\star\,2} - (|m|+1) \sigma^{\star\,2}, \end{eqnarray*}\] ou encore \[\begin{equation} \| \mu^\star- \mu_{(m)}^\star \|^2 = \mathbb{E}\left[\left\| Y - \widehat{Y}_{(m)} \right\|^2\right] + (|m|+1) \sigma^{\star\,2} - n\sigma^{\star\,2}. \tag{B.2} \end{equation}\]

D’après (B.2), le terme de biais $\| \mu^\star - \mu_{(m)}^\star \|^2$ peut donc ^etre estimé par $\| Y - \widehat{Y}_{(m)} \|^2 + (|m|+1) \sigma^{\star\,2}$ (on néglige le terme en $n\sigma^{\star\,2}$ puisque ce dernier ne dépend pas de $m$ et n’interviendra donc pas dans la minimisation).

Si la variance est connue, on obtient alors le critère : \[ C_p(m)= \| Y - \widehat{Y}_{(m)} \|^2 + 2|m| \sigma^{\star\,2}.\] On retiendra alors le modèle $\hat m_{CP}$ vérifiant : \[ \hat m_{CP} = \mathrm{arg} \min_{m\in \mathcal{M}} C_p(m).\] Dans le cas où la variance est inconnue, on utilisera l’estimateur $\widehat{\sigma^2} = \widehat{\sigma^2}_{(m_p)}$ où $m_p=\lbrace 1,\dots, p \rbrace$ est le modèle prenant en compte tous les régresseurs.

B.6 Preuve de la proposition ??

Dans le cas d’une famille exponentielle, \[ l(\underline{Y};\theta) = \underset{i=1}{\stackrel{n}{\sum}} \left\{ \frac{Y_i \omega_i - b(\omega_i)}{\gamma(\phi)} + c(Y_i,\phi) \right\} = \underset{i=1}{\stackrel{n}{\sum}} \ell_i \] avec $\mu_i=b'(\omega_i)$, $\eta_i=g(\mu_i)=\textbf{x}_i \theta$, $Var(Y_i)=b''(\omega_i) \gamma(\phi)$.

Calculons \[ \frac{\partial\ell_i}{\partial\theta_j}=\frac{\partial\ell_i}{\partial\omega_i}\frac{\partial\omega_i}{\partial\mu_i}\frac{\partial\mu_i}{\partial\eta_i}\frac{\partial\eta_i}{\partial\theta_j} : \] Comme \[\begin{eqnarray*} \frac{\partial\ell_i}{\partial\omega_i}&=&[Y_i-b'(\omega_i)]/\gamma(\phi)=(Y_i-\mu_i)/\gamma(\phi),\\ \frac{\partial\omega_i}{\partial\mu_i}&=&1/b''(\omega_i)=\gamma(\phi) / \text{Var}(Y_i),\\ \frac{\partial\eta_i}{\partial\theta_j}&=&x_{i}^{(j)} \quad \text{car}\quad \eta_i=\mathbf{x}_i\bs{\theta},\\ \frac{\partial\mu_i}{\partial\eta_i}&\quad& \text{dépend de la fonction lien}\quad\eta_i=g(\mu_i), \end{eqnarray*}\] on obtient que \[ S_j = \frac{\partial l(\underline{Y}; \theta)}{\partial \theta_j} = \sum_{i=1}^n\frac{(Y_i-\mu_i)x_{i}^{(j)}}{\text{Var}(Y_i)}\ \frac{\partial\mu_i}{\partial\eta_i}\quad \forall j=0,\ldots,p. \]

Modèle linéaire général et modèle linéaire généralisé