Chapitre 1 Rappels sur les tests

Dans ce chapitre, le vocabulaire de base de la théorie des tests est rappelé. L’ensemble des tests paramétriques vus en 3ème année ne seront pas rappelés ici, une feuille de TD leur sera dédiée pour révision.

1.1 Rappels généraux sur les tests statistiques

1.1.1 Hypothèse nulle et hypothèse alternative

Soit \((\Omega,\mathcal A, \mathbb{P})\) un espace probabilisé et \(X\) une v.a de \((\Omega,\mathcal A)\) dans \((E,{\mathcal E})\). On se donne un modèle statistique, c’est-à-dire une famille de probabilité sur \((E,{\mathcal E})\): \(\left\{P_\theta,\ \theta\in\Theta\right\}\). On considère un \(n\)-échantillon \(\mathcal{X}=(X_1,\ldots,X_n)\) dont la loi est supposée appartenir à \(\left\{P_\theta,\ \theta\in\Theta\right\}\).

Se poser un problème de test consiste tout d’abord à définir deux hypothèses \(\mathcal{H}_0\) et \(\mathcal{H}_1\), appelées hypothèse nulle et hypothèse alternative respectivement. On considère donc deux sous-ensembles disjoints \(\Theta_0\) et \(\Theta_1\) de \(\Theta\) et on dit que l’on teste \[ \mathcal{H}_0: \theta\in\Theta_0 \textrm{ contre } \mathcal{H}_1: \theta\in\Theta_1. \] A partir de l’échantillon \(\mathcal{X}\), on souhaite alors construire une règle de décision (région de rejet) pour décider entre ces deux hypothèses.

Rappelons que les hypothèses \(\mathcal{H}_0\) et \(\mathcal{H}_1\) ne jouent pas un rôle symétrique. L’hypothèse nulle est l’hypothèse que l’on privilégie car elle est présumée vraie tant que l’échantillon observé ne conduit pas à la rejeter au profit de l’hypothèse alternative. On parlera d’hypothèse simple lorsque le sous-ensemble associé est un singleton et d’hypothèse composite sinon.

1.1.2 Tests statistiques

Definition 1.1 Un test statistique consiste en une partition de \(\Omega\) en deux ensembles : l’ensemble \(\mathcal R\) des valeurs possibles de l’échantillon qui conduisent au rejet de \(\mathcal{H}_0\) au profit de \(\mathcal{H}_1\), appelée région de rejet (ou région critique) du test, et son complémentaire.

Definition 1.2 On appelle fonction de test de région de rejet \(\mathcal R\) la statistique \[ \phi(x) = \mathbb{1}_{x\in \mathcal R}. \] Autrement dit, si \(\phi(x)=1\), on rejette \(\mathcal{H}_0\), et si \(\phi(x)=0\), on ne rejette pas \(\mathcal{H}_0\).

1.1.3 Erreur de première espèce et p-valeur

Definition 1.3 Etant donné un test de \(\mathcal{H}_0\) contre \(\mathcal{H}_1\) de région de rejet \(\mathcal R\) , la fonction erreur de première espèce est définie pour tout \(\theta_0\in\Theta_0\) par \[ \underline{\alpha}(\theta_0) = \mathbb{P}_{\theta_0}(\mathcal{X}\in \mathcal R). \] La taille du test correspond à l’erreur de première espèce maximale \[ \alpha^{\star} = \sup_{\theta_0\in \Theta_0}\mathbb{P}_{\theta_0}\left(\mathcal{X}\in \mathcal R\right). \]

Definition 1.4 Soit \(\alpha\in[0,1]\) et soit un test de région de rejet \(\mathcal R\) pour tester \(\mathcal{H}_0\) contre \(\mathcal{H}_1\). On dit que ce test est

  • de niveau \(\alpha\) s’il est de taille au plus \(\alpha\) (\(\alpha^{\star} \leq \alpha\))
  • de niveau exactement \(\alpha\) s’il est de taille \(\alpha\) (\(\alpha^{\star} = \alpha\))
  • de niveau asymptotique \(\alpha\) si \(\alpha^{\star} \underset{n\rightarrow +\infty}{\longrightarrow} \alpha\)

Definition 1.5 Supposons avoir construit pour tout \(\alpha\in]0,1[\) un test de niveau \(\alpha\) de \(\mathcal{H}_0\) contre \(\mathcal{H}_1\) de région de rejet \(\mathcal R_\alpha\). On appelle p-valeur de la famille de tests le plus petit seuil à partir duquel on rejette \(\mathcal{H}_0\) à partir de l’échantillon observé \(\mathcal{X}^{obs}\) \[ p(\mathcal{X}^{obs}) = \inf\{\alpha\in]0,1[;\ \mathcal{X}^{obs}\in\mathcal R_\alpha\}. \]

1.1.4 Erreur de seconde espèce et puissance

Definition 1.6 Soit un test de région de rejet \(\mathcal R\) pour tester \(\mathcal{H}_0\) contre \(\mathcal{H}_1\). La fonction erreur de seconde espèce de ce test est définie pour tout \(\theta_1\in\Theta_1\) par \[ \underline{\beta}(\theta_1) = \mathbb{P}_{\theta_1}(\mathcal{X}\notin \mathcal R) \] et l’erreur de seconde espèce maximale vaut \[ \beta^\star = \underset{\theta_1\in\Theta_1}{\sup}\ \mathbb{P}_{\theta_1}(\mathcal{X}\notin \mathcal R). \]

Definition 1.7 On appelle fonction puissance du test basé sur la région de rejet \(\mathcal R\) l’application \[ \pi:\theta_1\in\Theta_1 \mapsto \mathbb{P}_{\theta_1}\left(\mathcal{X}\in \mathcal R\right) = 1 - \beta(\theta_1) \in[0,1]. \]

Parmi les tests de même niveau on préfère toujours celui qui est le plus puissant.

Definition 1.8 On dira que le test basé sur la région de rejet \(\mathcal R\) est meilleur que celui basé sur la région de rejet \(\mathcal R'\) s’ils sont tous les deux de niveau \(\alpha\) et que \[\forall \theta\in \Theta_1, \ \mathbb{P}_{\theta}\left(\mathcal{X}\in \mathcal R\right)\geq \mathbb{P}_{\theta}\left(\mathcal{X}\in \mathcal R'\right).\]

Definition 1.9 On dit que le test basé sur la région de rejet \(\mathcal R_{\alpha}\) est uniformément plus puissant (UPP) au niveau \(\alpha\) si :

  1. \(\sup_{\theta \in \Theta_0}\mathbb{P}_{\theta}(\mathcal{X}\in \mathcal R_{\alpha})\leq \alpha\) .
  2. Pour toute région de rejet \(\mathcal R'_{\alpha}\) telle que \(\sup_{\theta \in \Theta_0}\mathbb{P}_{\theta}(\mathcal{X}\in \mathcal R'_{\alpha})\leq \alpha\), on a \[ \forall \theta \in \Theta_1, \ \mathbb{P}_{\theta}(\mathcal{X}\in \mathcal R_{\alpha}) \geq \mathbb{P}_{\theta}(\mathcal{X}\in \mathcal R'_{\alpha}).\]

1.2 Tests paramétriques (MIC3)

Dans l’UF de statistique de MIC3, les tests suivants ont été étudiés :

  • Avec un échantillon gaussien,
    • Test de conformité de la moyenne avec variance connue
    • Test de conformité de la moyenne avec variance inconnue
    • Test de conformité de la variance
  • Avec un échantillon non gaussien,
    • Test de conformité de la moyenne
  • Avec deux échantillons gaussiens
    • Test de comparaison des deux moyennes
    • Test de comparaison des deux variances

Pour la construction de tous ces tests, on suppose que la loi de(s) échantillon(s) appartient à un modèle paramétrique c’est-à-dire une famille de lois donnée décrite par un nombre fini de paramètres. On parle alors de tests paramétriques, mais en général, cette hypothèse est difficilement vérifiée en pratique. On parle de test non-paramétrique quand il est valable quelque soit la loi de l’échantillon. Dans la suite, nous allons étudier quelques tests non-paramétriques pour répondre à différents objectifs : test d’ajustement, test d’indépendance de deux échantillons, test d’homogénéité, …