Préface

Ce polycopié reprend les notions abordées dans la partie modèle linéaire et modèle linéaire généralisé de l’UF “Elements de modélisation statistique” en modIA 4A. J’ai également enseigné ce cours en 4ème année de la spécialité Mathématiques appliquées (dans différentes versions selon l’évolution de la maquette). Je remercie ici les collègues du GMM qui ont permis l’évolution de ce cours (support de prédécesseurs, échanges oraux, …).

Organisation des chapitres de ce cours

Ce cours va débuter par un chapitre introductif 1. Dans la partie I, nous allons nous intéresser au modèle linéaire général. Les chapitres 2, 3, 4 et 5 sont des chapitres “théoriques” définissant le cadre du modèle linéaire général, traite le problème de l’estimation des paramètres et du test de sous-modèle de Fisher. Les chapitres 6, 7 et 8 sont dédiés à la régression linéaire, l’ANOVA et l’ANCOVA respectivement. Ils permettront d’illustrer les notions vues précédemment dans ces exemples classiques du modèle linéaire général. La partie II est dédiée au modèle linéaire généralisé. Après avoir donné les pincipes dans la chapitre 9, on détaillera l’exemple de la régression logistique dans le chapitre 10 et de la régression loglinéaire (Poisson) dans le chapitre 11.

Notations :

Les notations suivantes seront utilisées dans ce polycopié :

  • \(A'\) est la transposée de la matrice \(A\)
  • \(0_n=(0,\ldots,0)'\in \mathbb{R}^n\) avec \(n\in\mathbb{N}^\star\)
  • \(\mathbb{1}_n=(1,\ldots,1)'\in \mathbb{R}^n\) avec \(n\in\mathbb{N}^\star\)
  • \(I_n\) désigne la matrice identité de \(\mathcal M_n(\mathbb{R})\)
  • \(Var(A)\) est la variance pour une variable aléatoire \(A\)
  • \(Cov(A,B)\) est la covariance entre deux variables aléatoires \(A\) et \(B\)
  • Soit \(x=(x_1,\ldots,x_n)\) une série de mesures. On note \(\bar x_n=\frac 1 n \sum_{i=1}^{n} x_i\) la moyenne des mesures et \(var(x)=\frac 1 n \sum_{i=1}^n (x_i-\bar x_n)^2\) la variance.
  • Soit \(x=(x_1,\ldots,x_n)\) et \(y=(y_1,\ldots,y_n)\) deux séries de mesures. La covariance est définie par \(cov(x,y)=\frac 1 n \sum_{i=1}^{n} (x_i - \bar x_n) (y_i-\bar y_n)\).
  • On utilisera la même notation pour désigner la matrice et l’application linéaire associée à cette matrice

Illustrations du cours :

Les illustrations de ce polycopié sont principalement réalisées sous R. Les packages R suivants ont été utilisés.

AER, bestglm, boot, corrplot, GGally, ggfortify, ggplot2, gridExtra, ISLR, leaps, MASS, nnet, VGAM

Quelques codes python sont également proposés.