En statistiques, plus particulièrement dans les tests d'hypothèses, la loi T2 de Hotelling, proposée par Harold Hotelling[1], est une loi de probabilité multivariée qui est étroitement liée à la loi de Fisher et qui se distingue surtout par le fait qu'elle apparaît comme la loi d'un ensemble de statistiques d'échantillon qui sont des généralisations naturelles des statistiques sous-jacentes à la loi t de Student. La statistique t2 de Hotelling est une généralisation de la statistique t de Student qui est utilisée dans les tests d'hypothèses multivariées[2].
Motivation
La loi apparaît dans les statistiques multivariées lors de la réalisation de tests sur les différences entre les moyennes (multivariées) de différentes populations, où les tests pour les problèmes univariés utiliseraient un test t . La loi porte le nom de Harold Hotelling, qui l'a développée comme une généralisation de la loi t de Student[1].
Définition
Si le vecteur est une loi normale multivariée avec une moyenne nulle et une matrice de covariance unitaire et est une matrice aléatoire suivant un loi de Wishart avec une matrice d'échelle unitaire et à m degrés de liberté, et d et M sont indépendants l'un de l'autre, alors la forme quadratique suit une loi de Hotelling (de paramètres et [3])
On peut montrer que si une variable aléatoire X suit la loi T2 de Hotelling, , alors[1]:
où est la loi de Fisher de paramètres p et m − p + 1.
Statistique t2 d'Hotelling
Soit la covariance de l'échantillon :
où l'exposant T désigne la transposition. On peut montrer que est une matrice semi-définie positive et suit une loi de Wishart p-variée à n − 1 degrés de liberté[4]. L'échantillon de matrice de covariance de la moyenne s'obtient par .
La statistique t2 de Hotelling est alors définie comme[5]:
qui est proportionnelle à la distance de Mahalanobis entre la moyenne de l'échantillon et . Pour cette raison, on devrait s’attendre à ce que la statistique prenne des valeurs faibles si , et des valeurs élevées si elles sont différentes.
Par la définition de la loi,
où est la loi de Fisher avec les paramètres p et n − p .
Afin de calculer une valeur p (sans rapport avec la variable p ici), il faut remarquer que la loi de implique de manière équivalente que
Ensuite, on utilise la quantité sur le côté gauche pour évaluer la valeur p correspondant à l'échantillon, qui provient de la loi de Fisher. Un ellipsoïde de confiance peut également être déterminé en utilisant une logique similaire.
Toute matrice semi-définie positive symétrique a une racine carrée semi-définie positive symétrique , et si elle est non singulière, son inverse à une racine carrée définie positive .
Puisque , on a Ainsi ce qui correspond à la somme des carrés de variables aléatoires normales standard indépendantes, donc suivant une loi du χ2(p).
On peut aussi utiliser les fonctions de densité et les fonctions caractéristiques.
Démonstration
On utilise le fait que dont on dérive la fonction caractéristique de la variable aléatoire . On reprend les notations usuelles de pour le déterminant de la matrice.
Par définition de la fonction caractéristique, on a[6]:
On remarquant que , on a :
Cependant, le temr esous l'intégrale est précisément la densité d'une loi normale multivariée de matrice de covariance et de moyenne , dont l'intégrale (qui existe car la matrice est définie positive) vaut 1.
qui est la fonction caractéristique d'une loi du χ2 à degrés de liberté.
Statistique sur deux échantillons
Si on définit et , avec les échantillons tirés indépendamment de deux lois normales multivariées indépendantes avec la même moyenne et la même covariance, et on pose
comme les moyennes des échantillons, et
comme les matrices de covariance d'échantillon respectives. Alors
est l'estimateur non biaisé de la matrice de covariance groupée (une extension de la variance composite).
Enfin, la statistique t2à deux échantillons de Hotelling est
Notions associées
Cela peut être lié à la loi de Fisher par [4]
La loi non nulle de cette statistique est la loi de Fisher non centrée (le rapport d'une variable aléatoire suivant la loi du χ² non centrée et d'une variable aléatoire centrale indépendante suivant une loi du χ² )
avec
où est le vecteur de différence entre les moyennes de la population.
Dans le cas à deux variables, la formule se simplifie bien, permettant d'apprécier comment la corrélation entre les variables affecte . Si l'on définit
et
alors
Ainsi, si les différences entre les deux lignes du vecteur sont du même signe, en général, devient plus petit à mesure devient plus positif. Si les différences sont de signes opposés, devient plus grand à mesure devient plus positif.
Un cas particulier univarié peut être trouvé dans le test t de Welch.
Des tests plus robustes et plus puissants que le test à deux échantillons de Hotelling ont été proposés dans la littérature, voir par exemple les tests basés sur la distance entre points qui peuvent également être appliqués lorsque le nombre de variables est comparable, voire supérieur, au nombre de sujets[7],[8].
Loi de Fisher (généralement tabulée ou disponible dans les bibliothèques numériques, et donc utilisée pour tester la statistique T2 en utilisant la relation donnée ci-dessus)
Loi du lambda de Wilks (dans les statistiques multivariées, la loi du lambda (en) de Wilks est au T2 de Hotelling ce que la loi de Snedecor est à la loi de Student dans les statistiques univariées)
Références
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Hotelling's T-squared distribution » (voir la liste des auteurs).
↑ ab et c(en) Hotelling, « The generalization of Student's ratio », Annals of Mathematical Statistics, vol. 2, no 3, , p. 360–378 (DOI10.1214/aoms/1177732979)
↑Johnson, R.A. et Wichern, D.W., Applied multivariate statistical analysis, vol. 5, Prentice hall (no 8),
↑(en) Billingsley, P., Probability and measure, Wiley, (ISBN978-0-471-00710-4), « 26. Characteristic Functions »
↑(en) Marozzi, « Multivariate tests based on interpoint distances with application to magnetic resonance imaging », Statistical Methods in Medical Research, vol. 25, no 6, , p. 2593–2610 (PMID24740998, DOI10.1177/0962280214529104)
↑(en) Marozzi, « Multivariate multidistance tests for high-dimensional low sample size case-control studies », Statistics in Medicine, vol. 34, no 9, , p. 1511–1526 (PMID25630579, DOI10.1002/sim.6418)