A Rappels de probabilités, statistiques et d’optimisation
A.1 Rappels sur les échantillons gaussiens
A.1.1 La loi normale
Definition A.1 On dit que la variable aléatoire \(X\) suit une loi normale de paramètres \((m, \sigma^2)\), notée \(\mathcal{N}(m, \sigma^2)\), si la loi de \(X\) a pour densité \[ f(x)=\frac{1}{\sigma \sqrt{2 \pi}}\exp \left[-\frac{1}{2\sigma^2}(x-m)^2\right]. \]
Proposition A.1 Propriétés de la loi gaussienne
- Si \(X\) suit une loi \(\mathcal{N}(m, \sigma^2)\) alors \(\mathbb{E}[X]=m\), \(\mbox{Var}(X)=\sigma^2\) et \((X-m) / \sigma \mbox{ suit la loi } \mathcal{N}(0,1).\)
De plus, la fonction caractéristique de la loi de \(X\) est définie par \[ \forall t\in\mathbb{R},\ \Phi_X(t)= \mathbb{E}\left[e^{itX}\right]=\exp\left( itm-\frac{\sigma^2 t^2}{2}\right). \]
- Si \(X_1,\ldots,X_n\) sont des variables aléatoires gaussiennes indépendantes, telles que, pour \(i=1,\cdots,n,\ X_i \mbox{ suit la loi } \mathcal{N}(m_i, \sigma_i^2)\), alors pour tout \((\alpha_1, \ldots, \alpha_n) \in \mathbb{R}^n,\) \[\begin{equation} \tag{A.1} \alpha_1 X_1 + \ldots +\alpha_n X_n \mbox{ suit la loi } \mathcal{N}(\alpha_1 m_1 + \ldots +\alpha_n m_n,\alpha_1^2 \sigma_1^2 + \ldots +\alpha_n^2 \sigma_n^2). \end{equation}\]
A.1.2 Vecteurs gaussiens
Definition A.2 Un vecteur aléatoire \(X\) à valeurs dans \(\mathbb{R}^d\) est dit gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire gaussienne.
Si \(X=(X_1,\cdots,X_d)'\) est un vecteur gaussien, on définit son vecteur moyenne \(\mathbb{E}[X]\) par : \[\mathbb{E}[X]=(\mathbb{E}[X_1],\cdots,\mathbb{E}[X_d])'\] et sa matrice de variance-covariance \(\mbox{Var}(X)\) par \[\begin{eqnarray*} \mbox{Var}(X)&=&\mathbb{E}\left[\left(X-\mathbb{E}(X)\right)\left(X-\mathbb{E}(X)\right)'\right]\\ &=&\left(\begin{array}{cccc} \mbox{Var}(X_1) & \mbox{Cov}(X_1,X_2) & \cdots & \mbox{Cov}(X_1,X_d)\\ \mbox{Cov}(X_2,X_1) & \mbox{Var}(X_2) & \cdots & \mbox{Cov}(X_2,X_d)\\ \vdots & \ddots & \cdots & \vdots\\ \mbox{Cov}(X_d,X_1) & \mbox{Cov}(X_d,X_2) & \cdots & \mbox{Var}(X_d) \end{array}\right). \end{eqnarray*}\]
Remark. On peut noter que
La matrice \(\mbox{Var}(X)\) est symétrique puisque l’on a pour tout \(i \neq j\) : \[\mbox{Var}(X)_{i,j}=\mbox{Cov}(X_i,X_j)=\mbox{Cov}(X_j,X_i)=\mbox{Var}(X)_{j,i}.\]
Si \((X_1,\cdots,X_n)\) est un n-échantillon de loi gaussienne, i.e. \(X_1,\cdots, X_n\) sont \(n\) variables aléatoires indépendantes et identiquement distribuées selon une loi \(\mathcal{N}(\mu,\sigma^2)\), alors on a évidemment que \(X=(X_1,\cdots,X_n)'\) est un vecteur gaussien de vecteur moyenne \(\mathbb{E}[X]=(\mu,\cdots,\mu)'\) et de matrice de variance-covariance \(\mbox{Var}(X)=\sigma^2I_n\) où \(I_n\) désigne la matrice identité.
On va s’intéresser à la fonction caractéristique d’un vecteur gaussien et aux conséquences importantes qui en découlent.
Theorem A.1 Soit \(X=(X_1,\cdots,X_d)'\) un vecteur gaussien. On note \(m=\mathbb{E}[X] \in \mathbb{R}^d\) et \(\Sigma=\mbox{Var}(X) \in \mathcal{M}_d(\mathbb{R})\). On a que \(X\) admet pour fonction caractéristique la fonction \[\forall u \in \mathbb{R}^d, \, \Phi_X(u)=\mathbb{E}\left[\mbox{exp}(iu'X)\right]=\mbox{exp}\left(iu'm-\frac{1}{2}u'\Sigma u\right).\] La loi de \(X\) est entièrement déterminée par la donnée de \(m\) et de \(\Sigma\). On note \(X \sim \mathcal{N}_d(m,\Sigma)\).
Corollary A.1 (Propriété de linéarité) Soit \(X=(X_1,\cdots,X_d)'\sim \mathcal{N}_d(m,\Sigma)\). On a pour toute matrice \(A\) de \(\mathcal{M}_{pd}(\mathbb{R})\) et pour tout vecteur \(b\) de \(\mathbb{R}^p\) \[AX+b \sim \mathcal{N}_p(Am+b,A\Sigma A').\]
Remark. Soient \((X_i)_{i=1,\cdots,n}\) des variables aléatoires indépendantes de loi \(\mathcal{N}(m_i,\sigma^2_i)\). Alors on a \[X =(X_1,\cdots,X_n)'\sim \mathcal{N}_n(m,\Sigma) \mbox{ avec } m=(m_1,\cdots,m_n)' \mbox{ et } \Sigma=\left(\begin{array}{cccc} \sigma^2_1 & 0 & \cdots & 0\\ 0 & \sigma^2_2 & 0 & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & \sigma^2_n \end{array} \right).\] En prenant \(A=(\alpha_1,\cdots,\alpha_n)\) et \(b=0_{n}\), on retrouve la Proposition A.1, équation (A.1). En effet, on a \(\displaystyle Am+b=\sum_{i=1}^n \alpha_i m_i\) et \(\displaystyle A\Sigma A'=\sum_{i=1}^n \alpha_i^2 \sigma^2_i\).
Corollary A.2 (Propriété d'indépendance) Soit \(X=(X_1,\cdots,X_d)'\) un vecteur gaussien. Alors les trois propriétés suivantes sont équivalentes :
- Les composantes \(X_1,\cdots, X_d\) sont mutuellement indépendantes.
- Les composantes \(X_1,\cdots, X_d\) sont deux à deux indépendantes.
- La matrice de variance-covariance \(\Sigma\) est diagonale, i.e. \(\forall i\neq j, \, \mbox{Cov}(X_i,X_j)=0.\)
Remark. Les composantes d’un vecteur gaussien sont des variables aléatoires gaussiennes mais la réciproque est fausse. En effet, on considère \(X\) et \(Y\) deux variables indépendantes telles que \(X \sim \mathcal{N}(0,1)\) et \(Y \sim \mathcal{B}(0.5)\). Alors \(X_1=X\) et \(X_2=(2Y-1)X\) sont des variables gaussiennes mais \((X_1,X_2)'\) n’est pas un vecteur gaussien. On note que dans cet exemple, \(\mbox{Cov}(X_1,X_2)=0\) mais que \(X_1\) et \(X_2\) ne sont pas indépendantes.
A.1.3 Loi du khi-deux, loi de Student, loi de Fisher
Definition A.3 Soient \(Y_1, \ldots,Y_n\) des variables aléatoires indépendantes et de même loi \(\mathcal{N}(0,1).\) La loi de \(Y_1^2+ \ldots + Y_n^2\) est appelée loi du khi-deux à \(n\) degrés de liberté, et notée \(\chi^2(n).\)
Proposition A.2 Propriétés de la loi du khi-deux :
Si \(V \sim \chi^2(n)\) alors \(\mathbb{E}[V]=n\) et \(\mbox{Var}(V)=2n.\)
Si \(V_1 \sim \chi^2(n_1)\), si \(V_2 \sim \chi^2(n_2)\) et si \(V_1\) et \(V_2\) sont des variables aléatoires indépendantes, alors \(V_1+V_2 \sim \chi^2(n_1+n_2)\).
Definition A.4 Soient \(U\) et \(V\) deux variables aléatoires telles que \(U\sim \mathcal{N}(0,1)\), \(V \sim \chi^2(n)\) et, \(U\) et \(V\) sont indépendantes. Alors la loi de \[ \frac{U}{\sqrt{V/n}}=\sqrt{n}\frac{U}{\sqrt{V}}\] est appelée loi de Student à \(n\) degrés de liberté, notée \(\mathcal{T}(n)\).
Definition A.5 Soient \(V_1\) et \(V_2\) deux variables aléatoires indépendantes, respectivement de loi \(\chi^2(n_1)\) et \(\chi^2(n_2)\). La loi de \[ \frac{V_1/n_1}{V_2/n_2}\] est appelée loi de Fisher de paramètres \((n_1, n_2)\). Elle est notée \(\mathcal{F}(n_1,n_2)\).
A.1.4 Estimation de la moyenne et de la variance d’un échantillon gaussien
Soient \(X_1, \ldots, X_n\) \(n\) variables aléatoires indépendantes et de même loi (i.i.d.), de loi \(\mathcal{N}(m, \sigma^2)\). À partir de l’observation d’une réalisation de l’échantillon \((X_1, \ldots, X_n)\), on souhaite estimer les paramètres inconnus \(m\) et \(\sigma^2\).
Estimateur de \(m\) : La moyenne empirique \[\bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i\] est un estimateur de \(m\).
\(\bar{X}_n\) est un estimateur sans biais de \(m\) : \(\mathbb{E}[\bar{X}_n]= \frac{1}{n} \underset{i=1}{\stackrel{n}{\sum}} \mathbb{E}[X_i]=m\).
\(\mbox{Var}(\bar{X}_n)=\frac{1}{n^2} \underset{i=1}{\stackrel{n}{\sum}} \mbox{Var}(X_i)=\frac{\sigma^2}{n}\underset{n \rightarrow \infty}{\longrightarrow} 0.\)
D’après l’inégalité de Bienaymé-Tchebytchev, \(\bar{X}_n\) converge en probabilité quand \(n\) tend vers \(+\infty\) vers \(m\), i.e. \[ \bar{X}_n \underset{n\rightarrow \infty}{\stackrel{\mathbb{P}}{\longrightarrow}}m. \]
D’après la Proposition A.1, équation (A.1), \(\bar{X}_n \sim \mathcal{N}\left(m, \frac{\sigma^2}{n}\right)\).
Il en résulte que la variable aléatoire \[\sqrt{n} \frac{( \bar{X}_n -m)}{\sigma} \sim \mathcal{N}(0,1).\]
Estimateur de \(\sigma^2\) \[ S^2=\frac{1}{n-1} \sum_{i=1}^n (X_i-\bar{X}_n)^2=\frac{1}{n-1} \left\{ \sum_{i=1}^nX_i^2- n \bar{X}_n^2\right\}\] est un estimateur sans biais de \(\sigma^2\).
De plus par la loi des grands nombres, on peut démontrer que \(S^2\) converge en probabilité quand \(n\) tend vers \(+\infty\) vers \(\sigma ^2\), c’est-à-dire \[\begin{equation} \tag{A.2} S^2 \underset{n\rightarrow\infty}{\stackrel{\mathbb{P}}{\longrightarrow}}\sigma^2. \end{equation}\]
Theorem A.2 (Théorème de Cochran) Soient \(X_1, \ldots, X_n\) i.i.d. de loi \(\mathcal{N}(0,\sigma^2)\). On note \(X\) le vecteur \((X_1, \ldots, X_n) \in \mathbb{R}^n\). Soit \(E_1 \oplus E_2 \oplus \ldots \oplus E_p\) une décomposition de \(\mathbb{R}^n\) en \(p\) sous-espaces orthogonaux de dimensions respectives \(r_1, \ldots, r_p\). On note \(X_{E_i}\) la projection orthogonale de \(X\) sur \(E_i\). Alors les vecteurs \(X_{E_1},X_{E_2},\ldots,X_{E_p}\) sont indépendants, de plus, pour tout \(i\), la variable \(\|X_{E_i}\|^2\) a pour loi \(\sigma^2\chi^2(r_i)\).
Proposition A.3 Soient \(X_1,\ldots,X_n\) i.i.d. de loi \(\mathcal{N}(m,\sigma^2)\).
Les variables aléatoires \[\begin{equation} \tag{A.3} \bar{X}_n=\frac{1}{n}\sum_{i=1}^n X_i {\mbox{ et }} S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X}_n)^2 \end{equation}\] sont indépendantes.
\(\bar{X}_n\sim \mathcal{N}(m,\sigma^2/n),\)
\(S^2\sim \frac{\sigma^2}{n-1}\chi^2(n-1).\)
Il en résulte que la variable aléatoire \[\begin{equation} \tag{A.4} \sqrt{n}\ \frac{\bar{X}_n-m}{S} \sim \mathcal{T}(n-1). \end{equation}\]
A.1.5 Construction d’intervalles de confiance
Notons \(t_{1-\alpha/2}\) le \((1-\alpha/2)\)-quantile de la loi de Student à \(n-1\) degrés de liberté.
Il résulte de la Proposition A.3, équation (A.4), que \[ \mathbb{P}\left( - t_{1-\alpha/2} \leq \frac{\sqrt{n} (\bar{X}_n-m)}{S} \leq t_{1-\alpha/2}\right) =1-\alpha. \] Ceci fournit l’intervalle de confiance pour \(m\) avec coefficient de sécurité \(1-\alpha\) :
\[ \left[\bar{X}_n - t_{1-\alpha/2} \frac{S}{\sqrt{n}} \,; \, \bar{X}_n + t_{1-\alpha/2} \frac{S}{\sqrt{n}}\right]. \]
Afin de construire un intervalle de confiance pour \(\sigma^2\), nous introduisons les \(\alpha/2\) et \(1-\alpha/2\) quantiles de la loi du khi-deux à \(n-1\) degrés de liberté, notés respectivement \(u_{\alpha/2}\) et \(u_{1-\alpha/2}\).
On obtient l’intervalle de confiance pour \(\sigma^2\) avec coefficient de sécurité \(1-\alpha\) : \[ \left[\frac{(n-1)S^2}{u_{1-\alpha/2}} \, ; \, \frac{(n-1)S^2}{u_{\alpha/2}}\right] . \]
A.2 Estimation sans biais de variance minimale
Tous les résultats de cette section sont admis et nous renvoyons pour les détails à des ouvrages plus théoriques comme Saporta (2006) ou Castelle and Duflo (1994).
Definition A.6 Soit \(U\) une statistique fonction de \(X_1,\cdots,X_n\) de loi \(g(u,\beta)\) (densité dans le cas continu ou \(\mathbb{P}(U=u)\) dans le cas discret). \(U\) est dite exhaustive si l’on a \(L(X,\beta)=g(u,\beta)h(X)\) (principe de factorisation).
Cela signifie que la loi conditionnelle de l’échantillon est indépendante du paramètre. Par conséquent, une fois connue \(U\), aucune valeur de l’échantillon, ni aucune autre statistique ne nous apportera de renseignements supplémentaires sur \(\beta\).
Theorem A.3 S’il existe un estimateur de \(\beta\) sans biais, de variance minimale, alors il est unique presque sûrement.
Theorem A.4 (Rao-Blackwell) Soit \(T\) un estimateur quelconque sans biais de \(\beta\) et soit \(U\) une statistique exhaustive pour \(\beta\). Alors \(T^*=\mathbb{E}[T/\beta]\) est un estimateur sans biais de \(\beta\) au moins aussi bon que \(T\).
Theorem A.5 S’il existe une statistique exhaustive \(U\), alors l’estimateur \(T\) sans biais de \(\beta\) de variance minimale (unique d’après le théorème A.3) ne dépend que de \(U\).
Definition A.7 On dit qu’une statistique \(U\) est complète pour une famille de lois de probabilités \(f(x,\beta)\) si \(\mathbb{E}\left[h(U)\right]=0, \forall \beta \Rightarrow h=0\ \mbox{ps.}\)
Nous pouvons montrer que la statistique exhaustive des familles exponentielles est complète.
Theorem A.6 (Lehmann-Scheffé) Si \(T^*\) est un estimateur sans biais de \(\beta\) dépendant d’une statistique exhaustive complète \(U\) alors \(T^*\) est l’unique estimateur sans biais de variance minimale de \(\beta\). En particulier si l’on dispose déjà de \(T\), estimateur sans biais de \(\beta\), alors \(T^*=\mathbb{E}\left[T/U\right]\).
En conclusion, si on dispose d’un estimateur sans biais fonction d’une statistique exhaustive complète alors c’est le meilleur estimateur possible.
A.3 La méthode de Newton-Raphson
Soit \(t:\mathbb{R}\rightarrow \mathbb{R}\) une fonction \(\mathcal{C}^1\) donnée. La problématique consiste à trouver \(Z^{\star}\) tel que \(t(Z^{\star})=0\). Par définition de la dérivée, on a \[ t'(Z^{\star}) = \lim_{h\rightarrow 0} \frac{t(Z^{\star}+h)-t(Z^{\star})}{h}.\] La méthode de Newton est basée sur l’heuristique suivante. Si \(x\) est suffisamment ‘proche’ de \(Z^{\star}\), alors moralement \[ t'(x) \simeq \frac{t(x) - t(Z^{\star})}{x-Z^{\star}} \ \Leftrightarrow \ x- Z^{\star} \simeq \frac{t(x)}{t'(x)}, \] par définition de \(Z^{\star}\). On va utiliser cette méthode de manière itérative en initialisant un \(x_0\) puis en posant, pour tout \(n\in\mathbb{N}\), \[ x_n = x_{n-1} - \frac{t(x_{n-1})}{t'(x_{n-1})}.\] Sous des hypothèses assez souples (fonction \(t\) deux fois différentiable au voisinage de \(Z^{\star}\) par exemple), on peut démontrer que \(x_n \rightarrow Z^{\star}\) quand \(n\rightarrow +\infty\).
A.4 Théorème central limite: condition de Lindeberg
Le théorème suivant généralise le Théorème central limite à des suites de variables indépendantes mais non identiquement distribuées. Ce type de résultat est particulièrement intéressant pour le modèle linéaire généralisé.
Theorem A.7 Soient \(X_1,\dots,X_n\) des variables aléatoires indépendantes d’espérances et de variances respectives \(m_i\) et \(\sigma_i^2\). Soient \(S_n^2 = \sum_{i=1}^n \sigma_i^2\) et pour tout \(i\in \lbrace 1,\dots,n \rbrace\), \(F_i\) la fonction de répartition des variables \(X_i-m_i\). Si \[\begin{equation} \forall \varepsilon>0, \ \lim_{n\to +\infty} \left[ \frac{1}{S_n^2} \sum_{i=1}^n \int _{|x|>\varepsilon S_n} x^2dF_i(x) \right] = 0, \tag{A.5} \end{equation}\] alors, \[\frac{ \sum_{i=1}^n (X_i - m_i)}{\sqrt{S_n^2}} \stackrel{\mathcal{L}}{\longrightarrow} \mathcal{N}(0,1) \ \mathrm{quand} \ n\rightarrow + \infty.\]
References
Castelle, Didier Dacunha, and Marie Duflo. 1994. Probabilités et Statistiques: Tome 1: Problèmes à Temps Fixe. Masson.
Saporta, Gilbert. 2006. Probabilités, Analyse Des Données et Statistique. Editions Technip.