Chapitre 3 Estimation des paramètres

Dans ce chapitre, nous allons nous intéresser à l’estimation des paramètres dans un modèle linéaire général régulier : \[ Y = X \theta +\varepsilon \textrm{ avec } \varepsilon\sim\mathcal N(0_n, \sigma^2 I_n) \] où \(X\in\mathcal M_{n,k}(\mathbb{R})\), \(rg(X)=k\).

3.1 Estimation de \(\theta\)

Dans cette section, nous nous intéressons à l’estimation du vecteur de paramètres \(\theta\). Pour cela, nous allons utiliser la méthode des moindres carrés. Il s’agit ici de trouver le vecteur \(\hat\theta\) qui va minimiser la distance entre l’image de la matrice \(X\) et les observations \(Y\). Autrement dit, l’estimateur de \(\theta\) par la méthode des moindres carrés est défini par : \[\begin{eqnarray*} \widehat{\theta} &=& \mathrm{arg} \, \underset{\vartheta}{\mathrm{min}}\, \| Y - X\vartheta \|^2 \\ &=&\mathrm{arg} \ \underset{\vartheta}{\mathrm{min}}\ SCR(\vartheta). \end{eqnarray*}\] où \(\| . \|\) est la norme issue du produit scalaire usuel dans \(\mathbb{R}^n\): \(\| u\|^2=\langle u,u \rangle= \sum_{i=1}^n u_i^2=u'u, \, \forall u \in \mathbb{R}^n.\)

Sous forme matricielle, il est possible d’écrire : \[\begin{equation*} \widehat{\theta}= \mathrm{arg} \ \underset{\vartheta}{\mathrm{min}}\ (Y - X\vartheta)' (Y - X\vartheta) . \end{equation*}\]

Theorem 3.1 Soit un modèle linéaire régulier \(Y=X\theta+\varepsilon\). L’estimateur \(\widehat{\theta}\) obtenu par la méthode des moindres carrés est \[\begin{equation} \tag{3.1} \widehat{\theta}= (X' X)^{-1} X' Y. \end{equation}\]

Proof. On cherche le vecteur \(X\hat\beta\) appartenant au sous-espace vectoriel de \(\mathbb{R}^n\) engendré par les vecteurs colonnes de la matrice \(X\) (c’est à dire l’image de \(X\) noté \([X]\)). On a: \[ \min_{\vartheta} \| Y- X\vartheta \|^2= \min_{u \in [X]} \| Y- u \|^2 = \| Y - P_{[X]} Y \|^2,\] où \(P_{[X]}\) désigne la projection orthogonale sur \(Im(X)=[X]\). Ainsi \(X \hat \theta = P_{[X]}Y = X(X'X)^{-1} X' Y\).
Le modèle étant supposé régulier, \(X\) est injective. On en déduit donc que \(\hat \theta = (X'X)^{-1} X' Y\).

Ce premier théorème nous donne donc une formule explicite pour l’estimateur du vecteur \(\theta\) par la méthode des moindres carrés. Il est intéressant de noter que cette dernière est purement géométrique et ne demande aucune connaissance de la loi des erreurs. En effet, l’estimateur \(\widehat{\theta}\) obtenu par la méthode des moindres carrés vérifie la propriété suivante : \[X\widehat{\theta} = P_{[X]} Y.\]

Remark. Dans le cas particulier où les erreurs sont gaussiennes, l’estimateur des moindres carrés \(\widehat{\theta}\) correspond exactement à l’estimateur du maximum de vraisemblance. En effet, l’estimation par maximum de vraisemblance est basée sur la vraisemblance du modèle linéaire gaussien : \[L(\theta, \sigma^2; y) = \prod_{i=1}^nf(y_i; \theta)\] où \(f(y_i; \theta)\) est la densité de la loi normale de la variable aléatoire \(Y_i\) . Ainsi \[L(\theta,\sigma^2; (Y_1,\cdots,Y_n))=\frac{1}{(2\pi)^{n/2}\sigma^n}\exp\left(-\frac{\|Y-X\theta\|^2}{2\sigma^2}\right).\] Pour obtenir l’estimateur \(\widehat{\theta}\) du maximum de vraisemblance, on maximise sa logvraisemblance selon \(\theta\). On remarque que par croissance de la fonction exponentielle cela revient à minimiser \(\|Y-X\theta\|^2\).

Le résultat suivant explicite les performances de l’estimateur des moindres carrés.

Theorem 3.2 Soit un modèle linéaire régulier \(Y=X\theta+\varepsilon\) et \(\hat\theta\) l’estimateur de \(\theta\) par la méthode des moindres carrés défini par (3.1). Alors \[\mathbb{E}\left [\widehat{\theta}\right]= \theta \quad \mathrm{et} \quad \mathrm{Var}\left(\widehat{\theta}\right)= \sigma^2 (X'X)^{-1}.\] De plus, si les variables \(\varepsilon_i\) sont i.i.d, gaussiennes centrées, \(\widehat{\theta}\) est le meilleur estimateur parmi tous les estimateurs sans biais de \(\theta\), i.e. \[ \mathrm{Var}( C'\widetilde\theta) \geq \mathrm{Var}( C' \widehat{\theta}),\] pour tout \(\widetilde\theta\) estimateur sans biais de \(\theta\) et toute combinaison linéaire \(C' \theta\), où \(C \in \mathbb{R}^k\).

Dans ce cas \(\widehat{\theta}\) est un vecteur gaussien : \[\widehat{\theta} \sim \mathcal{N}_k\left(\theta, \sigma^2 (X'X)^{-1}\right).\]

Exercise 3.1 L’exercice suivant vous guide pour déontrer les points clés du théorème 3.2.

Montrez que \(\mathbb{E}\left [\widehat{\theta}\right]= \theta\) (rappel : \(\mathbb{E}\left [Y\right]= X \theta\))
Montrez que \(\mathrm{Var}\left(\widehat{\theta}\right)= \sigma^2 (X'X)^{-1}\) (rappel : \(\mathrm{Var}(AY) = A \mathrm{Var}(Y) A'\))
Pourquoi \(\widehat\theta\) est un vecteur gaussien ?

3.2 Valeurs ajustées et résidus

Definition 3.1 Soit un modèle linéaire \(Y=X\theta+\varepsilon\) et \(\widehat{\theta}\) l’EMC pour \(\theta\).

On appelle valeurs prédites (ou ajustées) \(\widehat Y_i\) par le modèle pour chaque \(Y_i\) les valeurs suiavntes :

\[ \widehat{Y} =(\widehat Y_1,\cdots,\widehat Y_n)' = X \widehat \theta = X(X'X)^{-1}X' Y = P_{[X]} Y = H Y. \]

On estime les erreurs \(\varepsilon_i\) par les quantités suivantes appelées les résidus : \[ \hat \varepsilon = (\hat \varepsilon_1,\ldots,\hat \varepsilon_n)' = Y - \widehat Y = (I_n - P_{[X]}) Y = (I_n - H) Y. \]

Ayant des réalisations \(y_i\), on obtient alors des valeurs prédites observées \(\hat y_i=(\hat Y_i)^{obs} = (X\widehat \theta^{obs})_i\) et des résidus calculés \((\hat \varepsilon_i)^{obs}=y_i-\hat y_i\).

Proposition 3.1 Les valeurs ajustées et les résidus vérifient les propriétés suivantes :

\(\widehat{Y} \sim \mathcal{N}_n\left(X\theta, \sigma^2 P_{[X]} \right)\) où \(P_{[X]} = X(X'X)^{-1}X'\)
\(\widehat{\varepsilon} \sim \mathcal{N}_n\left(0_{n}, \sigma^2(I_n- P_{[X]})\right)\)
Les variables aléatoires \(\widehat{Y}\) et \(\widehat{\varepsilon}\) sont indépendantes.
Les variables aléatoires \(\widehat{\theta}\) et \(\widehat{\varepsilon}\) sont indépendantes.

Exercise 3.2 Preuve de la proposition 3.1

Pour démontrer le premier point, utilisez la loi de \(\widehat \theta\)
Pour démontrer le deuxième point, on peut remarquer que \(\widehat{\varepsilon} = (I_n - P_{[X]}) Y\) et \(Y\sim \mathcal N(X\theta, \sigma^2 I_n)\).
Pour démontrer le troisième point, pensez au théorème de Cochran!
Pour démontrer le quatrième point, on peut remarquer que \(\widehat{\theta} = (X'X)^{-1} X' X \widehat{\theta}\).

3.3 Estimation de \(\sigma^2\)

Dans cette section, on s’intéresse à l’estimation de la variance des erreurs \(\sigma^2\), appelée variance résiduelle. Par définition du modèle linéaire, la variance résiduelle \(\sigma^2\) est également donnée comme la variance de \(Y\) pour \(X\) fixé. Dans le cadre de la régression linéaire, cela s’interprète comme la variance de \(Y\) autour de la droite de régression théorique. Cette définition de \(\sigma^2\) suggère que son estimation est calculée à partir des écarts entre les valeurs observées \(Y_i\) et les valeurs ajustées \(\widehat{Y}_i\).

Theorem 3.3 Soit \(\widehat{\theta}\) l’estimateur de \(\theta\) par la méthode des moindres carrés. Sous les hypothèses H1-H4, et si \(X \in \mathcal{M}_{nk}(\mathbb{R})\), alors \[ \widehat{\sigma}^2 = \frac{ \|\widehat{\varepsilon}\|^2}{n-k} = \frac{ \|Y - \widehat{Y}\|^2}{n-k}=\frac{ \| Y - X\widehat{\theta} \|^2}{n-k} = \frac{SSR(\widehat{\theta})}{n-k}\] est un estimateur sans biais optimal de \(\sigma^2\), indépendant de \(\widehat{\theta}\).

De plus, \[ \widehat{\sigma}^2 \sim \frac{\sigma^2}{n-k}\ \chi^2(n-k).\]

Exercise 3.3 Preuve du théorème 3.3

Montrez que \(SSR(\widehat{\theta}) : = \|Y - X\widehat{\theta}\|^2 = \|P_{[X]^{\perp}}\varepsilon\|^2\)
A l’aide du théorème de Cochran, montrez que \(SSR(\widehat{\theta})\sim \sigma^2 \chi^2(n-k)\).
Déduisez-en que \(\widehat{\sigma}^2\) est un estimateur sans biais de \(\sigma^2\).
Comme \(X\widehat{\theta} = X\theta + P_{[X]}\varepsilon\), montrez que \(X\widehat{\theta}\) et \(\widehat{\sigma}^2\) sont indépendants.
Déduisez-en que \(\widehat{\theta}\) et \(\widehat{\sigma}^2\) sont indépendants.

L’estimation de \(\sigma^2\) est donc \[(\widehat{\sigma}^2)^{obs}=\frac{ \| (\widehat{\varepsilon})^{obs} \|^2}{n-k} =\frac{ \| y - \widehat{y}\|^2}{n-k}.\]

Le dénominateur \((n-k)\) provient du fait que l’on a déjà estimé \(k\) paramètres dans le modèle.

3.4 Erreurs standards

On va ici s’interesser aux erreurs standard associées à \(\hat{\theta_j}\), \(\hat{Y_i}\) et \(\hat{\varepsilon_i}\).

La matrice de variance-covariance de \(\widehat{ \theta}\) notée \(\Gamma_{\widehat{\theta}}=\sigma^2(X'X)^{-1}\) est estimée par \[\widehat{\Gamma_{\widehat{\theta}}}=\widehat{\sigma}^2(X'X)^{-1}.\]

Ainsi \(Var\left(\widehat{\theta_j}\right)\) est estimée par \(\widehat{\sigma}^2[(X'X)^{-1}]_{jj}\).

Par conséquent, l’erreur standard de \(\widehat{ \theta}_j\), notée \(se_j\), vaut \[se_j=\sqrt{\widehat{\sigma}^2[(X'X)^{-1}]_{jj}}.\]

La matrice des corrélations de \(\widehat{\theta}\) a pour élément \(j,j'\) : \[r(\widehat{\theta}_j, \widehat{\theta}_{j'}) = \frac{\widehat{\sigma}^2[(X'X)^{-1}]_{jj'}}{se_j \times se_{j'}} = \frac{ [(X'X)^{-1}]_{jj'}}{\sqrt{[(X'X)^{-1}]_{jj}[(X'X)^{-1}]_{j'j'}}}.\]

La variance \(Var(\widehat{Y}) = \sigma^2\ P_{[X]}=\sigma^2 X(X'X)^{-1}X'\) est estimée par \(\widehat{\sigma}^2 P_{[X]}\).

Par conséquent, \(\sqrt{\widehat{\sigma}^2\ (P_{[X]})_{ii}}\) est l’erreur standard de \(\widehat{Y_i}\).

De même, \(\sqrt{\widehat{\sigma}^2(1-(P_{[X]})_{ii})}\) correspond à l’erreur de \(\widehat{\varepsilon_i}\).

Ainsi \(\widehat{\varepsilon_i} / \sqrt{\widehat{\sigma^2}}\) désigne le résidu standardisé et \(\widehat{\varepsilon_i} / \sqrt{\widehat{\sigma}^2(1-(P_{[X]})_{ii})}\) désigne le résidu studentisé.

3.5 Intervalle de confiance de \(\theta_j\), de \((X\theta)_i\) et de \(X_0\theta\)

3.5.1 Intervalle de confiance de \(\theta_j\)

Sachant que \(\widehat{\theta} \sim \mathcal{N}_k(\theta,\sigma^2 (X'X)^{-1})\), on a \(\widehat{\theta_j} \sim \mathcal{N}(\theta_j,\sigma^2 [(X'X)^{-1}]_{jj})\). Par conséquent \[ \frac{\widehat{\theta_j}-\theta_j}{\sqrt{\sigma^2[(X'X)^{-1}]_{jj}}}\sim\mathcal{N}(0,1)\] et la variable aléatoire \((n-k)\widehat{\sigma}^2 / \sigma^2\) est distribuée selon une loi \(\chi^2(n-k)\).

D’après le théorème de Cochran, \(\widehat{\theta}\) et \(\widehat{\sigma}^2\) étant indépendantes, on en déduit que \[T=\frac{\widehat{\theta_j}-\theta_j}{\sqrt{\sigma^2[(X'X)^{-1}]_{jj}}} \Big / \sqrt{\frac{(n-k)\widehat{\sigma}^2}{(n-k)\sigma^2}} = \frac{\widehat{\theta_j}-\theta_j}{\sqrt{\widehat{\sigma}^2[(X'X)^{-1}]_{jj}}}\sim \mathcal{T}(n-k).\] Si on note \(t_{n-k,1-\frac{\alpha}{2}}\) le \((1-\alpha/2)\)-quantile de la loi de Student à \((n-k)\) ddl, alors \[ \mathbb{P}\left(\left|\frac{\widehat{\theta_j}-\theta_j}{\sqrt{\widehat{\sigma}^2[(X'X)^{-1}]_{jj}}}\right|\leq t_{n-k,1-\frac{\alpha}{2}}\right)=1-\alpha. \] Ainsi, l’intervalle de confiance du paramètre \(\theta_j\) de sécurité \(1-\alpha\) est défini par : \[IC_{1-\alpha}(\theta_j)=\left[\widehat{\theta_j}\pm t_{n-k,1-\frac{\alpha}{2}}\sqrt{\widehat{\sigma}^2[(X'X)^{-1}]_{jj}}\right] = \left[\widehat{\theta_j}\pm t_{n-k,1-\frac{\alpha}{2}}\ se_j\right].\]

3.5.2 Intervalle de confiance de \((X\theta)_i\)

Soit \(\mathbb{E}[Y_i] =(X\theta)_i\) la réponse moyenne de \(Y_i\). On l’estime par \(\displaystyle \widehat{Y_i}=(X\widehat{\theta})_i\). Puisque \(\widehat{\theta} \sim \mathcal{N}_{k}(\theta,\sigma^2 (X'X)^{-1})\), d’après les propriétés des vecteurs gaussiens (Corollaire A.1), la loi de \(\widehat{Y_i}\) est \(\mathcal N\left((X\theta)_i, \sigma^2 [X(X'X)^{-1}X']_{ii}\right)\). De plus, \((n-k) \hat \sigma^2 \sim \sigma^2 \chi^2(n-k)\) et \(\hat \theta\) et \(\hat \sigma^2\) sont indépendants. On obtient donc que \[ \frac{\widehat Y_i - (X\theta)_i}{\sqrt{ \widehat\sigma^2 [X(X'X)^{-1}X']_{ii}}} \sim \mathcal T(n-k). \] L’intervalle de confiance de \((X\theta)_i\) au niveau de confiance de \(1-\alpha\) est donc donné par : \[ IC_{1-\alpha}((X\theta)_i) = \left[\widehat{Y_i}\pm t_{n-k,1-\alpha/2} \times \sqrt{ \widehat\sigma^2 [X(X'X)^{-1}X']_{ii}}\right]. \]

3.5.3 Intervalle de confiance de \(X_0\theta\)

On considère des nouvelles valeurs pour les variables explicatives, rassemblées dans le vecteur ligne \(X_{0} \in \mathcal{M}_{1k}(\mathbb{R})\). \(X_0\theta\) représente alors la réponse moyenne de ce nouvel individu. \(X_0\theta\) est estimé par \(\widehat{Y_0}=X_0\widehat{\theta}\). Puisque \(\widehat{\theta} \sim \mathcal{N}_{k}(\theta,\sigma^2 (X'X)^{-1})\), d’après les propriétés des vecteurs gaussiens (Théorème ??), la loi de cet estimateur est \[\widehat{Y_0}=X_0\widehat{\theta}\sim \mathcal{N}(X_0\theta,\sigma^2 X_0(X'X)^{-1}X'_0).\] De plus, \((n-k) \hat\sigma^2 \sim \sigma^2 \chi^2(n-k)\) et \(\hat \theta\) et \(\hat \sigma^2\) sont indépendants par le théorème de Cochran. Ainsi l’intervalle de confiance de \(X_0\theta\) au niveau de confiance de \(1-\alpha\) s’écrit : \[ IC_{1-\alpha}(X_0\theta) = \left[\widehat{Y_0}\pm t_{n-k,1-\alpha/2} \times \sqrt{\widehat{\sigma}^2X_0(X'X)^{-1}X'_0}\right]. \]

3.6 Intervalles de prédiction

Avant toute chose, il est important de comprendre la différence entre l’intervalle de confiance de \(X_0\theta\) et l’intervalle de prédiction. Dans les deux cas, on suppose un nouveau jeu de valeurs pour les variables explicatives donnant le vecteur ligne \(X_0\). Dans le premier cas, on veut prédire une réponse moyenne correspondant à ces variables explicatives alors que dans le second cas, on cherche à prédire une nouvelle valeur “individuelle”. Par exemple, si on étudie la liaison entre le poids et l’âge d’un animal, on peut prédire la valeur du poids à 20 jours soit comme le poids moyen d’animaux à 20 jours, soit comme le poids à 20 jours d’un nouvel animal. Pour le nouvel animal, on doit prendre en compte la variabilité individuelle, ce qui augmente la variance de l’estimateur et donc la largeur de l’intervalle.

Si on veut prédire dans quel intervalle se trouvera le résultat d’un nouvel essai \(X_0\in \mathcal{M}_{1k}(\mathbb{R})\), on doit tenir compte de deux facteurs d’incertitude :

l’incertitude sur l’estimation du résultat moyen\(X_0\theta\),
l’incertitude sur le terme d’erreur \(\varepsilon_0\) du nouvel individu.

Le vecteur de paramètres \(\theta\) est estimé par \[\widehat{\theta}=(X'X)^{-1}X'Y\] où \(Y=(Y_1,\ldots,Y_n)'\).
Une nouvelle réponse \(Y_0\), correspondant à \(X_0\), s’écrit : \[ Y_0=X_0\theta+\varepsilon_0, \] où \(\varepsilon_0\) est supposé indépendant des \(\varepsilon_i, \, 1 \leq i \leq n\) et \(\varepsilon_0 \sim \mathcal{N}(0,\sigma^2)\).

Le modèle linéaire prédit la valeur \[ \widehat{Y_0}=X_0\widehat{\theta} \sim \mathcal{N}(X_0\theta, \sigma^2X_0(X'X)^{-1}X'_0). \]

D’après les hypothèses sur \(\varepsilon_0\), on a que \(Y_0\sim\mathcal{N}(X_0\theta,\sigma^2)\) et \(Y_0\) est indépendant de \(\hat Y_0\). On a donc

\[Y_0-\widehat{Y_0} \sim \mathcal{N}(0,\sigma^2\left(1+X_0(X'X)^{-1}X'_0\right)).\] Par ailleurs, d’après le Théorème 3.3 \[ \widehat{\sigma}^2= \frac{1}{n-k}\sum_{i=1}^n (Y_i-X\widehat{\theta})^2 \sim \frac{\sigma^2}{n-k}\chi^2(n-k) \] et comme \(\widehat\sigma^2\) est indépendant de \(\widehat{\theta}\) et de \(\varepsilon_0\) (car \(\varepsilon_0\) indépendant des \(\varepsilon_i\)), la variable aléatoire \[ \frac{ Y_0-\widehat{Y_0}}{\widehat\sigma \sqrt{1+X_0(X'X)^{-1}X'_0}} \sim \mathcal{T}(n-k). \] Au final, en notant \(t_{n-k,1-\alpha/2}\) le \(1-\alpha/2\) quantile d’une loi de Student à \(n-k\) degrés de liberté, on obtient \[ \mathbb{P}\left(Y_0\in \left[ \widehat{Y_0} \pm t_{n-k,1-\alpha/2}\widehat\sigma \sqrt{1+X_0(X'X)^{-1}X'_0} \right]\right) = 1-\alpha. \] Par conséquent, l’intervalle de prédiction pour une nouvelle observation au point \(X_0\) est défini par \[IC_{1-\alpha}(Y_0)=\left[\ \widehat{Y_0} \pm t_{n-k,1-\alpha/2}\times\widehat\sigma \sqrt{1+X_0(X'X)^{-1}X'_0}\ \right].\]

Notez bien la différence entre \(IC_{1-\alpha}(Y_0)\) et \[ IC_{1-\alpha}(X_0\theta) = \left[\widehat{Y_0}\pm t_{n-k,1-\alpha/2} \times \widehat{\sigma} \sqrt{X_0(X'X)^{-1}X'_0}\right]. \]

3.7 Qualité d’ajustement

La mise en oeuvre d’un modèle linéaire a pour objectif d’expliquer la variabilité d’une variable \(Y\) par d’autres variables. On note :

\(\displaystyle SST=\|Y - \bar Y \mathbb{1}_n\|^2 = \sum_{i=1}^n(Y_i-\overline Y)^2= n\ var(Y)\) la variabilité totale de \(Y\) (Total sum of squares).
\(\displaystyle SSE = \|\widehat{Y} - \bar Y \mathbb{1}_n\|^2 =\sum_{i=1}^n(\widehat{Y_i}-\overline Y)^2=n\ var(\widehat{Y})\) la variabilité expliquée par le modèle, c’est-à-dire par les prédicteurs (Explained sum of squares).
\(\displaystyle SSR= \|Y - \widehat{Y}\|^2 = \sum_{i=1}^n(\widehat{\varepsilon_i})^2=\sum_{i=1}^n (Y_i-\widehat{Y_i})^2 = n\ var(\widehat{\varepsilon})\) la variabilité résiduelle non expliquée par le modèle (Residual sum of squares).

La variance totale de \(Y\) admet alors la décomposition suivante : \[var(Y)=var(\widehat{Y})+ var(\widehat{\varepsilon})\] c’est-à-dire \[SST= SSE + SSR.\]

Exercise 3.4 Démontrez ce résultat avec Pythagore.

On verra par la suite que selon le modèle étudié, cette décomposition amène à des définitions spécifiques à chaque modèle.

D’après le critère des moindres carrés utilisé pour estimer les paramètres, on cherche à minimiser \(SSR\) et donc à maximiser \(SSE\). Pour juger de la qualité d’ajustement du modèle aux données, on définit donc le critère \(R^2\) suivant.

Definition 3.2 On appelle coefficient \(R^2\) la quantité suivante \[R^2=\frac{SCE}{SCT}=\frac{var(\widehat{Y})}{var(Y)}\in[0,1]\] Il représente la part de variance de \(Y\) expliquée par le modèle : Plus \(R^2\) est proche de \(1\), plus le modèle s’ajuste aux données.

Nous discuterons de l’efficacité de ce critère dans les chapitres suivants.

3.8 En résumé

Dans le cadre d’un modèle linéaire régulier,

\(\widehat{\theta} = (X'X)^{-1} X' Y \sim \mathcal{N}_k(\theta,\sigma^2 (X'X)^{-1})\)
\(\widehat{\sigma^2} = \frac{\|Y - X \widehat{\theta}\|^2}{n-k} \sim \frac{\sigma^2}{n-k}\chi^2(n-k)\)
\(\widehat{\theta}\) et \(\widehat{\sigma}^2\) sont indépendants
Connaitre les définitions de valeurs ajustées \(\widehat{Y} = X\widehat{\theta}=P_{[X]}Y\) et de résidus \(\widehat{\varepsilon}=Y-\widehat{Y}\)
Savoir refaire la construction
- d’un IC pour un paramètre
- d’un IC pour une réponse moyenne
- d’un intervalle de prédiction pour une nouvelle réponse

Surtout, ne pas apprendre par coeur les formules ! - Décomposition de la variance \[ \underbrace{\|Y - \bar Y \mathbb{1}_n\|^2}_{SST} = \underbrace{\|Y - \widehat{Y}\|^2}_{SSR} + \underbrace{\|\widehat{Y} - \bar Y \mathbb{1}_n\|^2}_{SSE} \]
et \(R^2 = \frac{SSE}{SST}\).