A Rappels de probabilités, statistiques et d’optimisation

A.1 Rappels sur les échantillons gaussiens

A.1.1 La loi normale

Definition A.1 On dit que la variable aléatoire X suit une loi normale de paramètres (m,σ2), notée N(m,σ2), si la loi de X a pour densité f(x)=1σ2πexp[12σ2(xm)2].

Proposition A.1 Propriétés de la loi gaussienne

  • Si X suit une loi N(m,σ2) alors E[X]=m, Var(X)=σ2 et (Xm)/σ suit la loi N(0,1).

De plus, la fonction caractéristique de la loi de X est définie par tR, ΦX(t)=E[eitX]=exp(itmσ2t22).

  • Si X1,,Xn sont des variables aléatoires gaussiennes indépendantes, telles que, pour i=1,,n, Xi suit la loi N(mi,σ2i), alors pour tout (α1,,αn)Rn, α1X1++αnXn suit la loi N(α1m1++αnmn,α21σ21++α2nσ2n).

A.1.2 Vecteurs gaussiens

Definition A.2 Un vecteur aléatoire X à valeurs dans Rd est dit gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire gaussienne.

Si X=(X1,,Xd) est un vecteur gaussien, on définit son vecteur moyenne E[X] par : E[X]=(E[X1],,E[Xd]) et sa matrice de variance-covariance Var(X) par Var(X)=E[(XE(X))(XE(X))]=(Var(X1)Cov(X1,X2)Cov(X1,Xd)Cov(X2,X1)Var(X2)Cov(X2,Xd)Cov(Xd,X1)Cov(Xd,X2)Var(Xd)).

Remark. On peut noter que

  • La matrice Var(X) est symétrique puisque l’on a pour tout ij : Var(X)i,j=Cov(Xi,Xj)=Cov(Xj,Xi)=Var(X)j,i.

  • Si (X1,,Xn) est un n-échantillon de loi gaussienne, i.e. X1,,Xn sont n variables aléatoires indépendantes et identiquement distribuées selon une loi N(μ,σ2), alors on a évidemment que X=(X1,,Xn) est un vecteur gaussien de vecteur moyenne E[X]=(μ,,μ) et de matrice de variance-covariance Var(X)=σ2InIn désigne la matrice identité.

On va s’intéresser à la fonction caractéristique d’un vecteur gaussien et aux conséquences importantes qui en découlent.

Theorem A.1 Soit X=(X1,,Xd) un vecteur gaussien. On note m=E[X]Rd et Σ=Var(X)Md(R). On a que X admet pour fonction caractéristique la fonction uRd,ΦX(u)=E[exp(iuX)]=exp(ium12uΣu). La loi de X est entièrement déterminée par la donnée de m et de Σ. On note XNd(m,Σ).

Corollary A.1 (Propriété de linéarité) Soit X=(X1,,Xd)Nd(m,Σ). On a pour toute matrice A de Mpd(R) et pour tout vecteur b de Rp AX+bNp(Am+b,AΣA).

Remark. Soient (Xi)i=1,,n des variables aléatoires indépendantes de loi N(mi,σ2i). Alors on a X=(X1,,Xn)Nn(m,Σ) avec m=(m1,,mn) et Σ=(σ21000σ220000σ2n). En prenant A=(α1,,αn) et b=0n, on retrouve la Proposition A.1, équation (A.1). En effet, on a Am+b=ni=1αimi et AΣA=ni=1α2iσ2i.

Corollary A.2 (Propriété d'indépendance) Soit X=(X1,,Xd) un vecteur gaussien. Alors les trois propriétés suivantes sont équivalentes :

  1. Les composantes X1,,Xd sont mutuellement indépendantes.
  2. Les composantes X1,,Xd sont deux à deux indépendantes.
  3. La matrice de variance-covariance Σ est diagonale, i.e. ij,Cov(Xi,Xj)=0.

Remark. Les composantes d’un vecteur gaussien sont des variables aléatoires gaussiennes mais la réciproque est fausse. En effet, on considère X et Y deux variables indépendantes telles que XN(0,1) et YB(0.5). Alors X1=X et X2=(2Y1)X sont des variables gaussiennes mais (X1,X2) n’est pas un vecteur gaussien. On note que dans cet exemple, Cov(X1,X2)=0 mais que X1 et X2 ne sont pas indépendantes.

A.1.3 Loi du khi-deux, loi de Student, loi de Fisher

Definition A.3 Soient Y1,,Yn des variables aléatoires indépendantes et de même loi N(0,1). La loi de Y21++Y2n est appelée loi du khi-deux à n degrés de liberté, et notée χ2(n).

Proposition A.2 Propriétés de la loi du khi-deux :

  • Si Vχ2(n) alors E[V]=n et Var(V)=2n.

  • Si V1χ2(n1), si V2χ2(n2) et si V1 et V2 sont des variables aléatoires indépendantes, alors V1+V2χ2(n1+n2).

Definition A.4 Soient U et V deux variables aléatoires telles que UN(0,1), Vχ2(n) et, U et V sont indépendantes. Alors la loi de UV/n=nUV est appelée loi de Student à n degrés de liberté, notée T(n).

Definition A.5 Soient V1 et V2 deux variables aléatoires indépendantes, respectivement de loi χ2(n1) et χ2(n2). La loi de V1/n1V2/n2 est appelée loi de Fisher de paramètres (n1,n2). Elle est notée F(n1,n2).

A.1.4 Estimation de la moyenne et de la variance d’un échantillon gaussien

Soient X1,,Xn n variables aléatoires indépendantes et de même loi (i.i.d.), de loi N(m,σ2). À partir de l’observation d’une réalisation de l’échantillon (X1,,Xn), on souhaite estimer les paramètres inconnus m et σ2.

  • Estimateur de m : La moyenne empirique ˉXn=1nni=1Xi est un estimateur de m.

    • ˉXn est un estimateur sans biais de m : E[ˉXn]=1nni=1E[Xi]=m.

      Var(ˉXn)=1n2ni=1Var(Xi)=σ2nn0.

    • D’après l’inégalité de Bienaymé-Tchebytchev, ˉXn converge en probabilité quand n tend vers + vers m, i.e. ˉXnPnm.

    • D’après la Proposition A.1, équation (A.1), ˉXnN(m,σ2n).

    • Il en résulte que la variable aléatoire n(ˉXnm)σN(0,1).

  • Estimateur de σ2 S2=1n1ni=1(XiˉXn)2=1n1{ni=1X2inˉX2n} est un estimateur sans biais de σ2.

De plus par la loi des grands nombres, on peut démontrer que S2 converge en probabilité quand n tend vers + vers σ2, c’est-à-dire S2Pnσ2.

Theorem A.2 (Théorème de Cochran) Soient X1,,Xn i.i.d. de loi N(0,σ2). On note X le vecteur (X1,,Xn)Rn. Soit E1E2Ep une décomposition de Rn en p sous-espaces orthogonaux de dimensions respectives r1,,rp. On note XEi la projection orthogonale de X sur Ei. Alors les vecteurs XE1,XE2,,XEp sont indépendants, de plus, pour tout i, la variable a pour loi \sigma^2\chi^2(r_i).

Proposition A.3 Soient X_1,\ldots,X_n i.i.d. de loi \mathcal{N}(m,\sigma^2).

  • Les variables aléatoires \begin{equation} \tag{A.3} \bar{X}_n=\frac{1}{n}\sum_{i=1}^n X_i {\mbox{ et }} S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X}_n)^2 \end{equation} sont indépendantes.

  • \bar{X}_n\sim \mathcal{N}(m,\sigma^2/n),

  • S^2\sim \frac{\sigma^2}{n-1}\chi^2(n-1).

  • Il en résulte que la variable aléatoire \begin{equation} \tag{A.4} \sqrt{n}\ \frac{\bar{X}_n-m}{S} \sim \mathcal{T}(n-1). \end{equation}

A.1.5 Construction d’intervalles de confiance

Notons t_{1-\alpha/2} le (1-\alpha/2)-quantile de la loi de Student à n-1 degrés de liberté.

Il résulte de la Proposition A.3, équation (A.4), que \mathbb{P}\left( - t_{1-\alpha/2} \leq \frac{\sqrt{n} (\bar{X}_n-m)}{S} \leq t_{1-\alpha/2}\right) =1-\alpha. Ceci fournit l’intervalle de confiance pour m avec coefficient de sécurité 1-\alpha :

\left[\bar{X}_n - t_{1-\alpha/2} \frac{S}{\sqrt{n}} \,; \, \bar{X}_n + t_{1-\alpha/2} \frac{S}{\sqrt{n}}\right].

Afin de construire un intervalle de confiance pour \sigma^2, nous introduisons les \alpha/2 et 1-\alpha/2 quantiles de la loi du khi-deux à n-1 degrés de liberté, notés respectivement u_{\alpha/2} et u_{1-\alpha/2}.

On obtient l’intervalle de confiance pour \sigma^2 avec coefficient de sécurité 1-\alpha : \left[\frac{(n-1)S^2}{u_{1-\alpha/2}} \, ; \, \frac{(n-1)S^2}{u_{\alpha/2}}\right] .

A.2 Estimation sans biais de variance minimale

Tous les résultats de cette section sont admis et nous renvoyons pour les détails à des ouvrages plus théoriques comme Saporta (2006) ou Castelle and Duflo (1994).

Definition A.6 Soit U une statistique fonction de X_1,\cdots,X_n de loi g(u,\beta) (densité dans le cas continu ou \mathbb{P}(U=u) dans le cas discret). U est dite exhaustive si l’on a L(X,\beta)=g(u,\beta)h(X) (principe de factorisation).

Cela signifie que la loi conditionnelle de l’échantillon est indépendante du paramètre. Par conséquent, une fois connue U, aucune valeur de l’échantillon, ni aucune autre statistique ne nous apportera de renseignements supplémentaires sur \beta.

Theorem A.3 S’il existe un estimateur de \beta sans biais, de variance minimale, alors il est unique presque sûrement.

Theorem A.4 (Rao-Blackwell) Soit T un estimateur quelconque sans biais de \beta et soit U une statistique exhaustive pour \beta. Alors T^*=\mathbb{E}[T/\beta] est un estimateur sans biais de \beta au moins aussi bon que T.

Theorem A.5 S’il existe une statistique exhaustive U, alors l’estimateur T sans biais de \beta de variance minimale (unique d’après le théorème A.3) ne dépend que de U.

Definition A.7 On dit qu’une statistique U est complète pour une famille de lois de probabilités f(x,\beta) si \mathbb{E}\left[h(U)\right]=0, \forall \beta \Rightarrow h=0\ \mbox{ps.}

Nous pouvons montrer que la statistique exhaustive des familles exponentielles est complète.

Theorem A.6 (Lehmann-Scheffé) Si T^* est un estimateur sans biais de \beta dépendant d’une statistique exhaustive complète U alors T^* est l’unique estimateur sans biais de variance minimale de \beta. En particulier si l’on dispose déjà de T, estimateur sans biais de \beta, alors T^*=\mathbb{E}\left[T/U\right].

En conclusion, si on dispose d’un estimateur sans biais fonction d’une statistique exhaustive complète alors c’est le meilleur estimateur possible.

A.3 La méthode de Newton-Raphson

Soit t:\mathbb{R}\rightarrow \mathbb{R} une fonction \mathcal{C}^1 donnée. La problématique consiste à trouver Z^{\star} tel que t(Z^{\star})=0. Par définition de la dérivée, on a t'(Z^{\star}) = \lim_{h\rightarrow 0} \frac{t(Z^{\star}+h)-t(Z^{\star})}{h}. La méthode de Newton est basée sur l’heuristique suivante. Si x est suffisamment ‘proche’ de Z^{\star}, alors moralement t'(x) \simeq \frac{t(x) - t(Z^{\star})}{x-Z^{\star}} \ \Leftrightarrow \ x- Z^{\star} \simeq \frac{t(x)}{t'(x)}, par définition de Z^{\star}. On va utiliser cette méthode de manière itérative en initialisant un x_0 puis en posant, pour tout n\in\mathbb{N}, x_n = x_{n-1} - \frac{t(x_{n-1})}{t'(x_{n-1})}. Sous des hypothèses assez souples (fonction t deux fois différentiable au voisinage de Z^{\star} par exemple), on peut démontrer que x_n \rightarrow Z^{\star} quand n\rightarrow +\infty.

A.4 Théorème central limite: condition de Lindeberg

Le théorème suivant généralise le Théorème central limite à des suites de variables indépendantes mais non identiquement distribuées. Ce type de résultat est particulièrement intéressant pour le modèle linéaire généralisé.

Theorem A.7 Soient X_1,\dots,X_n des variables aléatoires indépendantes d’espérances et de variances respectives m_i et \sigma_i^2. Soient S_n^2 = \sum_{i=1}^n \sigma_i^2 et pour tout i\in \lbrace 1,\dots,n \rbrace, F_i la fonction de répartition des variables X_i-m_i. Si \begin{equation} \forall \varepsilon>0, \ \lim_{n\to +\infty} \left[ \frac{1}{S_n^2} \sum_{i=1}^n \int _{|x|>\varepsilon S_n} x^2dF_i(x) \right] = 0, \tag{A.5} \end{equation} alors, \frac{ \sum_{i=1}^n (X_i - m_i)}{\sqrt{S_n^2}} \stackrel{\mathcal{L}}{\longrightarrow} \mathcal{N}(0,1) \ \mathrm{quand} \ n\rightarrow + \infty.

References

Castelle, Didier Dacunha, and Marie Duflo. 1994. Probabilités et Statistiques: Tome 1: Problèmes à Temps Fixe. Masson.

Saporta, Gilbert. 2006. Probabilités, Analyse Des Données et Statistique. Editions Technip.