Chapitre 2 Définitions générales
2.1 Modèle linéaire régulier
Definition 2.1 Soit \(Y=(Y_1,\ldots,Y_n)'\) une variable réponse. \(Y\) suit un modèle linéaire statistique si \(Y\) peut être écrite sous la forme : \[\begin{equation} Y= X\theta + \varepsilon, \tag{2.1} \end{equation}\] où
- \(X\) est une matrice réelle à \(n\) lignes et \(k\) colonnes avec \(\mathbf{k<n}\), \(X \in \mathcal{M}_{n,k}(\mathbb{R})\),
- \(\theta\) est un vecteur réel inconnu de taille \(k\),
- le vecteur \(\varepsilon\in\mathbb{R}^n\) représente l’erreur du modèle.
Cette définition est très générale et dépasse largement le cadre de la régression et de l’analyse de variance. L’hypothèse \(k<n\) signifie que le nombre d’observations doit être supérieur au nombre de paramètres à estimer. C’est en quelque sorte une hypothèse d’identifiabilité.
Definition 2.2 Le modèle linéaire (2.1) est dit régulier si la matrice \(X\) est régulière, c’est-à-dire de rang \(k\). Dans le cas contraire (\(X\) est de rang \(r<k\)), on parle de modèle singulier.
Proposition 2.1 Soit \(X \in \mathcal{M}_{n,k}(\mathbb{R})\). Les propositions suivantes sont équivalentes :
- \(X\) est une matrice de rang \(k\).
- L’application \(X : \mathbb{R}^k \rightarrow \mathbb{R}^n\) est injective.
- La matrice \(X'X\) est inversible.
Ainsi, si \(X\) est régulière alors par injectivité de l’application \(X\), \(X\theta=0_{n} \Rightarrow \theta=0_{k}\) pour tout \(\theta\in\mathbb{R}^k\). Cette propriété assure que les colonnes de \(X\) sont linéairement indépendantes dans \(\mathbb{R}^n\) et garantit l’unicité de \(\theta\). Dans certaines situations, la matrice considérée \(X\) ne pourra être régulière. Nous verrons cependant (cf section 5.2) qu’il est parfois possible de pallier ce problème en rajoutant des contraintes dites d’identifiabilité sur les paramètres à estimer. À moins que cela ne soit mentionné explicitement, la matrice \(X\) sera supposée régulière par la suite.
Proposition 2.2 Soit \(X \in \mathcal{M}_{n,k}(\mathbb{R})\) une matrice régulière. Alors la matrice de projection sur \([X]=Im(X)\) est donnée par \(P_{[X]}=X(X'X)^{-1}X'\). Cette matrice \(P_{[X]}\), souvent notée \(H\), est appelée la matrice chapeau ou Hat Matrix.
Proof. Soit \(P_{[X]}:=X(X'X)^{-1}X'\) où \(X \in \mathcal{M}_{n,k}(\mathbb{R})\) une matrice régulière. Pour tout \(u\in\mathbb{R}^n\), on a \(u = P_{[X]} u + u - P_{[X]}u\) et \(P_{[X]}u = X (X'X)^{-1}X'u\in [X]\). On va montrer que \(u-P_{[X]}u \in [X]^{\perp}\) :
\[\begin{eqnarray*} \forall v\in\mathbb{R}^k,\ \ (Xv)'(u-P_{[X]}u) &=& v'X'(u - X(X'X)^{-1}X' u) \\ &=& v'X'u - v'(X' X)(X'X)^{-1}X'u = 0 \end{eqnarray*}\]
Afin de pouvoir travailler plus simplement et d’aller plus loin dans l’étude de ce modèle, nous allons maintenant imposer quelques restrictions concernant le vecteur des erreurs \(\varepsilon\) :
- Hypothèse H1 : Les erreurs sont centrées \(\mathbb{E}[\varepsilon]=0_{n}\).
Cette hypothèse est relativement importante et assure que le modèle est correctement défini. En effet, s’il s’avérait que \(\mathbb{E}[\varepsilon] \not= 0_{n}\), cela pourrait signifier qu’une partie de l’information n’a pas été prise en compte dans la modélisation de \(\mathbb{E}[Y]\). En fait cette hypothèse suppose que \[\mathbb{E}[Y]=X\theta = \sum_{j=1}^k\theta_j X^{(j)}\] où \(X^{(j)}\) désigne la colonne \(j\) de la matrice \(X\). En d’autres termes, l’écriture de ce modèle suppose que l’ensemble des variables \(X^{(j)}\) est censé expliquer \(Y\) par une relation de cause à effet. Ainsi les variables \(X^{(j)}\) sont appelées variables explicatives ou prédicteurs. Au final, en moyenne \(Y\) s’écrit donc comme une combinaison linéaire des \(X^{(j)}\) : la liaison entre les \(X^{(j)}\) et \(Y\) est de nature linéaire. C’est la raison pour laquelle ce modèle est appelé modèle linéaire.
- Hypothèse H2 : La variance des erreurs est constante : \[\forall i=1,\dots,n,\ \ \mathbb{E}[\varepsilon_i^2]=\sigma^2\] où \(\sigma^2\) est un paramètre inconnu, à estimer. Cette hypothèse impose que \(Var(Y_i)=\sigma^2\) pour tout \(i=1,\ldots,n\).
Il est souvent raisonnable de supposer que H2 est bien vérifiée. Dans le cas contraire, il est possible de mettre en place un traitement statistique du modèle linéaire… mais cela nécessite bien plus de travail.
- Hypothèse H3 : Les variables \(\varepsilon_i\) sont indépendantes.
Nous considèrerons que cette hypothèse est vérifiée lorsque chaque donnée correspond à un échantillonnage indépendant ou à une expérience physique menée dans des conditions indépendantes. Il existe un certain nombre de cas où ce postulat ne peut s’appliquer. On pourra par exemple penser aux séries temporelles : l’erreur du passé peut avoir une influence sur l’erreur future. Ces dernières font appel à un traitement statistique particulier (processus ARMA par exemple).
- Hypothèse H4 : Les données suivent des lois gaussiennes \[\varepsilon_i \sim \mathcal{N}(0,\sigma^2), \, \forall i \in \{1,\cdots,n\}.\]
L’hypothèse de normalité des erreurs peut se justifier :
- par un argument théorique : les erreurs sont caractérisables comme des erreurs de mesure. Ce sont une accumulation de petits aléas non-maîtrisables et indépendants. Par exemple, la mesure du poids d’un animal peut être soumise à des fluctuations dues à des erreurs de mesure à la pesée, à l’état de santé de l’animal, à son bagage génétique, à l’effet individuel de l’animal à prendre plus ou moins du poids. D’après le Théorème Central Limite, si tous ces effets sont indépendants de même moyenne nulle et de même “petite” variance, leur somme tend vers une variable gaussienne. La distribution gaussienne modélise assez bien toutes les situations où le hasard est la résultante de plusieurs causes indépendantes les unes des autres ; les erreurs de mesure suivent généralement assez bien la loi gaussienne.
- par un argument pratique : il est facile de contrôler si une variable aléatoire suit une loi normale. En étudiant a posteriori la distribution des résidus calculés (erreurs estimées) et en la comparant à la distribution théorique (normale), on constate souvent qu’elle peut être considérée comme s’approchant de la loi gaussienne.
Il découle des hypothèses H1-H4 la normalité de \(Y\) : \[Y \sim \mathcal{N}_n\left(X\theta,\sigma^2 I_n\right)\]
Dans la littérature statistique, un certain nombre de méthodes, souvent graphiques, sont proposées afin de vérifier la satisfaction des hypothèses H1-H4. Nous les aborderons à la section 6.6.
2.2 Exemples de modèle linéaire gaussien
2.2.1 Le modèle de régression linéaire
On cherche à modéliser une variable quantitative \(Y\) en fonction de variables explicatives quantitatives \(x^{(1)}, \cdots, x^{(p)}\). Sous l’hypothèse gaussienne, le modèle de régression linéaire s’écrit :
\[Y_i = \theta_0 + \theta_1 x^{(1)}_i+\cdots + \theta_p x^{(p)}_i+\varepsilon_i,\] avec \(\theta_0, \theta_1, \cdots, \theta_p\) paramètres inconnus et \(\varepsilon_1, \cdots, \varepsilon_n\) i.i.d de loi \(\mathcal{N}(0,\sigma^2)\) avec \(\sigma^2\) à estimer.
Matriciellement, le modèle peut se réécrire sous la forme \[ Y = X \theta + \varepsilon \] avec \(\theta=(\theta_0,\theta_1,\cdots,\theta_p)'\) et \(X=(\mathbb{1}_n,x^{(1)},\ldots,x^{(p)})\in \mathcal{M}_{n,(p+1)}(\mathbb{R})\).
Le modèle de régression linéaire sera étudié en détail dans le chapitre 6.
Exercise 2.1 Soit \(Y_i = \theta_0 + \theta_1 x^{(1)}_i+\cdots + \theta_p x^{(p)}_i+\varepsilon_i,\ \forall i=1,\ldots,n\) avec \(\varepsilon_1, \cdots, \varepsilon_n\) i.i.d de loi \(\mathcal{N}(0,\sigma^2)\).
- Quelle est la loi de \(Y_i\) ?
- Quelle est la loi de \(Y\) ?
2.2.2 Le modèle d’analyse de la variance
On cherche à modéliser une variable quantitative \(Y\) en fonction d’une (ou de plusieurs) variable(s) explicative(s) qualitative(s) (appelée facteur). Sous l’hypothèse gaussienne, le modèle à un facteur à \(I\) modalités s’écrit : \[\begin{equation} Y_{ij} = \mu_i + \varepsilon_{ij} \mbox{ pour } i = 1, \cdots, I \,;\, j = 1, \cdots, n_i, \tag{2.2} \end{equation}\] avec \(\mu_1, \cdots, \mu_I\) des paramètres inconnus et \(\varepsilon_{11}, \cdots, \varepsilon_{In_I}\) \(n\) observations indépendantes de loi \(\mathcal{N}(0,\sigma^2)\) avec \(\sigma^2\) à estimer.
Le modèle d’analyse de la variance sera étudié en détail dans le chapitre 7.
Exercise 2.2 Afin d’écrire sous forme matricielle ce modèle, les observations sont rangées par modalité du facteur \[Y=(Y_{11}, \cdots, Y_{1,n_1}, Y_{2,1},\cdots ,Y_{2n_2}, \cdots,Y_{I1},\cdots, Y_{In_I})'.\] Soit \(\displaystyle n=\sum_{i=1}^In_i\). Ecrivez le modèle (2.2) sous la forme \(Y = X\theta + \varepsilon\) en précisant la matrice de design \(X\in\mathcal{M}_{nI}(\mathbb{R})\) et \(\theta\in\mathbb{R}^I\).
Quelle est la loi de \(Y_{ij}\), de \(Y_i=(Y_{i1},\ldots,Y_{in_i})'\) et de \(Y\) ?
2.3 En résumé
- Modéle linéaire : \[ Y = X\theta + \varepsilon \textrm{ avec } \varepsilon\sim\mathcal{N}_n(0_n,\sigma^2 I_n) \] avec \(Y\in\mathbb{R}^n\), \(X\in\mathcal{M}_{n,k}(\mathbb{R})\), \(\theta\in\mathbb{R}^k\), \(\varepsilon\in\mathbb{R}^n\)
- Modèle régulier si \(\mbox{rg}(X)=k\), sinon il est singulier
- Modèle régulier \(\Leftrightarrow\) \(X\) injective \(\Leftrightarrow\) \(X'X\) inversible
- Matrice de projection orthogonale sur \([X]=Im(X)\) : \[P_{[X]}=X(X'X)^{-1}X'\]