Loi T² d'Hotelling

Loi T² d'Hotelling
Densité de probabilité


Fonction de répartition

Paramètres	p - dimension des variables aléatoires m - nombre de variables
Support	$x\in (0,+\infty )\;$ si $p=1$ $x\in [0,+\infty )\;$ sinon.
modifier

En statistiques, plus particulièrement dans les tests d'hypothèses, la loi T² de Hotelling, proposée par Harold Hotelling^[1], est une loi de probabilité multivariée qui est étroitement liée à la loi de Fisher et qui se distingue surtout par le fait qu'elle apparaît comme la loi d'un ensemble de statistiques d'échantillon qui sont des généralisations naturelles des statistiques sous-jacentes à la loi t de Student. La statistique t² de Hotelling est une généralisation de la statistique t de Student qui est utilisée dans les tests d'hypothèses multivariées^[2].

Motivation

La loi apparaît dans les statistiques multivariées lors de la réalisation de tests sur les différences entre les moyennes (multivariées) de différentes populations, où les tests pour les problèmes univariés utiliseraient un test t . La loi porte le nom de Harold Hotelling, qui l'a développée comme une généralisation de la loi t de Student^[1].

Définition

Si le vecteur $d$ est une loi normale multivariée avec une moyenne nulle et une matrice de covariance unitaire ${\mathcal {N}}(\mathbf {0} _{p},\mathbf {I} _{p,p})$ et $M$ est une matrice $p\times p$ aléatoire suivant un loi de Wishart $W(\mathbf {I} _{p,p},m)$ avec une matrice d'échelle unitaire et à m degrés de liberté, et d et M sont indépendants l'un de l'autre, alors la forme quadratique $X$ suit une loi de Hotelling (de paramètres $p$ et $m$ ^[3])

{\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}

On peut montrer que si une variable aléatoire X suit la loi T² de Hotelling, $X\sim T_{p,m}^{2}$ , alors^[1]:

t^{2}\sim T_{p,n-1}^{2}={\frac {p(n-1)}{n-p}}F_{p,n-p},

où $F_{p,m-p+1}$ est la loi de Fisher de paramètres p et m − p + 1.

Statistique t² d'Hotelling

Soit ${\hat {\mathbf {\Sigma } }}$ la covariance de l'échantillon :

{\hat {\mathbf {\Sigma } }}={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})^{T}

où l'exposant T désigne la transposition. On peut montrer que ${\hat {\mathbf {\Sigma } }}$ est une matrice semi-définie positive et $(n-1){\hat {\mathbf {\Sigma } }}$ suit une loi de Wishart p-variée à n − 1 degrés de liberté^[4]. L'échantillon de matrice de covariance de la moyenne s'obtient par ${\hat {\mathbf {\Sigma } }}_{\overline {\mathbf {x} }}={\hat {\mathbf {\Sigma } }}/n$ .

La statistique t² de Hotelling est alors définie comme^[5]:

t^{2}=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})^{\mathrm {T} }{\hat {\mathbf {\Sigma } }}_{\overline {\mathbf {x} }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }}),

qui est proportionnelle à la distance de Mahalanobis entre la moyenne de l'échantillon et ${\boldsymbol {\mu }}$ . Pour cette raison, on devrait s’attendre à ce que la statistique prenne des valeurs faibles si ${\overline {\mathbf {x} }}\approx {\boldsymbol {\mu }}$ , et des valeurs élevées si elles sont différentes.

Par la définition de la loi,

X=md^{T}M^{-1}d\sim T^{2}(p,m).

où $F_{p,n-p}$ est la loi de Fisher avec les paramètres p et n − p .

Afin de calculer une valeur p (sans rapport avec la variable p ici), il faut remarquer que la loi de $t^{2}$ implique de manière équivalente que

{\frac {n-p}{p(n-1)}}t^{2}\sim F_{p,n-p}.

Ensuite, on utilise la quantité sur le côté gauche pour évaluer la valeur p correspondant à l'échantillon, qui provient de la loi de Fisher. Un ellipsoïde de confiance peut également être déterminé en utilisant une logique similaire.

Motivation

Soit ${\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ une loi normale p-variée de vecteur moyenne ${\boldsymbol {\mu }}$ et matrice de covariance connue ${\mathbf {\Sigma } }$ . Soient

{\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })

n variables aléatoires indépendantes identiquement distribuées (iid), qui peuvent être représentées comme $p\times 1$ vecteurs colonnes de nombres réels. On pose

{\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}

comme la moyenne de l'échantillon avec de covariance ${\mathbf {\Sigma } }_{\overline {\mathbf {x} }}={\mathbf {\Sigma } }/n$ . On peut montrer que

({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})^{\mathrm {T} }{\mathbf {\Sigma } }_{\overline {\mathbf {x} }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},

où $\chi _{p}^{2}$ est la loi du chi carré avec p degrés de liberté.

Preuves

Démonstration

Toute matrice semi-définie positive symétrique ${\textstyle {\boldsymbol {M}}}$ a une racine carrée semi-définie positive symétrique ${\boldsymbol {M}}^{1/2}$ , et si elle est non singulière, son inverse à une racine carrée définie positive ${\textstyle {\boldsymbol {M}}^{-1/2}}$ .

Puisque ${\textstyle \operatorname {var} \left({\overline {\boldsymbol {x}}}\right)=\mathbf {\Sigma } _{\overline {\mathbf {x} }}}$ , on a ${\begin{aligned}\operatorname {var} \left(\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}{\overline {\boldsymbol {x}}}\right)&=\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}{\Big (}\operatorname {var} \left({\overline {\boldsymbol {x}}}\right){\Big )}\left(\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}\right)^{T}\\[5pt]&=\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}{\Big (}\operatorname {var} \left({\overline {\boldsymbol {x}}}\right){\Big )}\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}{\text{ car }}\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}{\text{ est symétrique}}\\[5pt]&=\left(\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{1/2}\right)\left(\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{1/2}\mathbf {\Sigma } _{\overline {\boldsymbol {x}}}^{-1/2}\right)\\[5pt]&=\mathbf {I} _{p}.\end{aligned}}$ Ainsi ${\overline {\boldsymbol {x}}}^{T}\mathbf {\Sigma } _{\overline {x}}^{-1}{\overline {\boldsymbol {x}}}=\left(\mathbf {\Sigma } _{\overline {x}}^{-1}{\overline {\boldsymbol {x}}}\right)^{T}\left(\mathbf {\Sigma } _{\overline {x}}^{-1}{\overline {\boldsymbol {x}}}\right)$ ce qui correspond à la somme des carrés de ${\textstyle p}$ variables aléatoires normales standard indépendantes, donc suivant une loi du χ²(p).

On peut aussi utiliser les fonctions de densité et les fonctions caractéristiques.

Démonstration

On utilise le fait que ${\overline {\mathbf {x} }}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } }/n)$ dont on dérive la fonction caractéristique de la variable aléatoire $\mathbf {y} =({\bar {\mathbf {x} }}-{\boldsymbol {\mu }})^{T}{\mathbf {\Sigma } }_{\bar {\mathbf {x} }}^{-1}({\bar {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})=({\bar {\mathbf {x} }}-{\boldsymbol {\mu }})'({\mathbf {\Sigma } }/n)^{-1}({\bar {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})$ . On reprend les notations usuelles de $|\cdot |$ pour le déterminant de la matrice.

Par définition de la fonction caractéristique, on a^[6]:

{\begin{aligned}\varphi _{\mathbf {y} }(\theta )&=\mathbb {E} ({\rm {e}}^{i\theta \mathbf {y} }),\\[5pt]&=\mathbb {E} ({\rm {e}}^{{\rm {i}}\theta ({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\mathbf {\Sigma } }/n)^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})})\\[5pt]&=\int {\rm {e}}^{i\theta ({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})^{T}n{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}(2\pi )^{-p/2}|{\boldsymbol {\Sigma }}/n|^{-1/2}\,{\rm {e}}^{-(1/2)({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})^{T}n{\boldsymbol {\Sigma }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,{\rm {d}}x_{1}\cdots {\rm {d}}x_{p}&=\int (2\pi )^{-p/2}|{\boldsymbol {\Sigma }}/n|^{-1/2}\,{\rm {e}}^{-(1/2)({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})^{T}n({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,{\rm {d}}x_{1}\cdots {\rm {d}}x_{p}\end{aligned}}

On remarquant que $I=|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{1/2}\;\cdot \;|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{-1/2}$ , on a :

{\begin{aligned}\varphi _{\mathbf {y} }(\theta )&=|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{1/2}|{\boldsymbol {\Sigma }}/n|^{-1/2}\int (2\pi )^{-p/2}|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{-1/2}\,{\rm {e}}^{-(1/2)n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,{\rm {d}}x_{1}\cdots {\rm {d}}x_{p}\end{aligned}}

Cependant, le temr esous l'intégrale est précisément la densité d'une loi normale multivariée de matrice de covariance $({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n=\left[n({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})\right]^{-1}$ et de moyenne $\mu$ , dont l'intégrale (qui existe car la matrice est définie positive) vaut 1.

{\begin{aligned}&=\left|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}\cdot {\frac {1}{n}}\right|^{1/2}|{\boldsymbol {\Sigma }}/n|^{-1/2}\\&=\left|({\boldsymbol {\Sigma }}^{-1}-2{\rm {i}}\theta {\boldsymbol {\Sigma }}^{-1})^{-1}\cdot {\frac {1}{\cancel {n}}}\cdot {\cancel {n}}\cdot {\boldsymbol {\Sigma }}^{-1}\right|^{1/2}\\&=\left|\left[({\cancel {{\boldsymbol {\Sigma }}^{-1}}}-2{\rm {i}}\theta {\cancel {{\boldsymbol {\Sigma }}^{-1}}}){\cancel {\boldsymbol {\Sigma }}}\right]^{-1}\right|^{1/2}\\&=|\mathbf {I} _{p}-2{\rm {i}}\theta \mathbf {I} _{p}|^{-1/2}\end{aligned}}

où $\mathbf {I} _{p}$ désigne la matrice identité de taille $p$ . On conclut :

{\begin{aligned}&=(1-2{\rm {i}}\theta )^{-p/2}\end{aligned}}

qui est la fonction caractéristique d'une loi du χ² à $p$ degrés de liberté.

Statistique sur deux échantillons

Si on définit ${\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n_{x}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ et ${\mathbf {y} }_{1},\dots ,{\mathbf {y} }_{n_{y}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ , avec les échantillons tirés indépendamment de deux lois normales multivariées indépendantes avec la même moyenne et la même covariance, et on pose

{\hat {\mathbf {\Sigma } }}_{\mathbf {x} }={\frac {1}{n_{x}-1}}\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})^{T}

{\hat {\mathbf {\Sigma } }}_{\mathbf {y} }={\frac {1}{n_{y}-1}}\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})^{T}

comme les moyennes des échantillons, et

{\hat {\mathbf {\Sigma } }}={\frac {(n_{x}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {x} }+(n_{y}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {y} }}{n_{x}+n_{y}-2}}

comme les matrices de covariance d'échantillon respectives. Alors

t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})^{T}{\hat {\mathbf {\Sigma } }}^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)

est l'estimateur non biaisé de la matrice de covariance groupée (une extension de la variance composite).

Enfin, la statistique t² à deux échantillons de Hotelling est

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p).

Notions associées

Cela peut être lié à la loi de Fisher par ^[4]

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p;\delta ),

La loi non nulle de cette statistique est la loi de Fisher non centrée (le rapport d'une variable aléatoire suivant la loi du χ² non centrée et d'une variable aléatoire centrale indépendante suivant une loi du χ² )

\delta ={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}{\boldsymbol {d}}^{T}\mathbf {\Sigma } ^{-1}{\boldsymbol {d}},

avec

d_{1}={\overline {x}}_{1}-{\overline {y}}_{1},\qquad d_{2}={\overline {x}}_{2}-{\overline {y}}_{2}

où ${\boldsymbol {d}}=\mathbf {{\overline {x}}-{\overline {y}}}$ est le vecteur de différence entre les moyennes de la population.

Dans le cas à deux variables, la formule se simplifie bien, permettant d'apprécier comment la corrélation $\rho$ entre les variables affecte $t^{2}$ . Si l'on définit

d_{1}={\overline {x}}_{1}-{\overline {y}}_{1},\qquad d_{2}={\overline {x}}_{2}-{\overline {y}}_{2}

s_{1}={\sqrt {\Sigma _{11}}}\qquad s_{2}={\sqrt {\Sigma _{22}}}\qquad \rho =\Sigma _{12}/(s_{1}s_{2})=\Sigma _{21}/(s_{1}s_{2})

alors

t^{2}={\frac {n_{x}n_{y}}{(n_{x}+n_{y})(1-\rho ^{2})}}\left[\left({\frac {d_{1}}{s_{1}}}\right)^{2}+\left({\frac {d_{2}}{s_{2}}}\right)^{2}-2\rho \left({\frac {d_{1}}{s_{1}}}\right)\left({\frac {d_{2}}{s_{2}}}\right)\right]

Ainsi, si les différences entre les deux lignes du vecteur $\mathbf {d} ={\overline {\mathbf {x} }}-{\overline {\mathbf {y} }}$ sont du même signe, en général, $t^{2}$ devient plus petit à mesure $\rho$ devient plus positif. Si les différences sont de signes opposés, $t^{2}$ devient plus grand à mesure $\rho$ devient plus positif.

Un cas particulier univarié peut être trouvé dans le test t de Welch.

Des tests plus robustes et plus puissants que le test à deux échantillons de Hotelling ont été proposés dans la littérature, voir par exemple les tests basés sur la distance entre points qui peuvent également être appliqués lorsque le nombre de variables est comparable, voire supérieur, au nombre de sujets^[7]^,^[8].

Voir également

Test de Student pour les statistiques univariées
Loi de Student pour les probabilités univariées
Loi de Student multivariée
Loi de Fisher (généralement tabulée ou disponible dans les bibliothèques numériques, et donc utilisée pour tester la statistique T² en utilisant la relation donnée ci-dessus)
Loi du lambda de Wilks (dans les statistiques multivariées, la loi du lambda (en) de Wilks est au T ² de Hotelling ce que la loi de Snedecor est à la loi de Student dans les statistiques univariées)

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Hotelling's T-squared distribution » (voir la liste des auteurs).

↑ ^{a b et c} (en) Hotelling, « The generalization of Student's ratio », Annals of Mathematical Statistics, vol. 2, n^o 3,‎ 1931, p. 360–378 (DOI 10.1214/aoms/1177732979)
↑ Johnson, R.A. et Wichern, D.W., Applied multivariate statistical analysis, vol. 5, Prentice hall (n^o 8), 2002
↑ (en) Eric W. Weisstein, « Hotelling T-Squared Distribution », sur MathWorld
↑ ^{a et b} (en) K. V. Mardia, J. T. Kent et J. M. Bibby, Multivariate Analysis, Academic Press, 1979 (ISBN 978-0-12-471250-8)
↑ « 6.5.4.3. Hotelling's T squared »
↑ (en) Billingsley, P., Probability and measure, Wiley, 1995 (ISBN 978-0-471-00710-4), « 26. Characteristic Functions »
↑ (en) Marozzi, « Multivariate tests based on interpoint distances with application to magnetic resonance imaging », Statistical Methods in Medical Research, vol. 25, n^o 6,‎ 2016, p. 2593–2610 (PMID 24740998, DOI 10.1177/0962280214529104)
↑ (en) Marozzi, « Multivariate multidistance tests for high-dimensional low sample size case-control studies », Statistics in Medicine, vol. 34, n^o 9,‎ 2015, p. 1511–1526 (PMID 25630579, DOI 10.1002/sim.6418)

Liens externes

(en) « Hotelling T²-distribution », dans Michiel Hazewinkel, Encyclopædia of Mathematics, Springer, 2002 (ISBN 978-1556080104, lire en ligne)
(en) Eric W. Weisstein, « Hotelling T-Squared Distribution », sur MathWorld