Academia.eduAcademia.edu

ESTADÍSTICA MULTIVARIANTE2

ESTADÍSTICA MULTIVARIANTE2 ESTADÍSTICA MULTIVARIANTE2

100 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (IMPLEMENTADOS EN MATLAB) A cerca de las autoras Amparo Baíllo Moreno es licenciada y doctora en Matemáticas por la Universidad Autónoma de Madrid, donde trabaja actualmente como investigadora postdoctoral del programa SIMUMAT financiado por la Comunidad de Madrid. Posee un máster en Finanzas Cuantitativas por la Escuela de Finanzas Aplicadas y ha trabajado en el área de Riesgos del Grupo Santander. Cuenta con varias publicaciones científicas en revistas internacionales de impacto y ha participado en distintos proyectos de I+D financiados en convocatorias públicas nacionales. Desde 1998 ha impartido docencia en las universidades Autónoma de Madrid y Carlos III de Madrid. Aurea Grané Chávez es licenciada y doctora en Matemáticas por la Universidad de Barcelona. Forma parte del Grupo de Análisis Multivariante y Clasificación, vinculado a la SEIO. Cuenta con varias publicaciones científicas en revistas internacionales de impacto y ha participado en distintos proyectos de I+D financiados por la Generalitat de Catalunya y en convocatorias públicas nacionales. En 1994 empezó a impartir docencia en el Departamento de Estadística de la Universidad de Barcelona y actualmente es profesora del Departamento de Estadística de la Universidad Carlos III de Madrid, donde imparte la asignatura Estadística Multivariante en la Diplomatura de Estadística. 10 0 PROBLEM AS RESUELTOS DE ESTADÍSTICA M ULTIVARIANTE (IM PLEM ENTADOS EN M ATLAB) AMPARO BAILLO MORENO Facultad de Ciencias UNIVERSIDAD AUTÓNOMA DE MADRID AUREA GRANÉ CHÁVEZ Facultad de Ciencias Jurídicas y Sociales UNIVERSIDAD CARLOS III DE MADRID 100 EJERCICIOS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (IMPLEMENTADOS EN MATLAB) AMPARO BAILLO MORENO AUREA GRANÉ CHÁVEZ Editor gerente Diseño de cubierta Preimpresión Impresión Fernando M. García Tomé Mizar Publicidad, S.L. Delta Publicaciones Jacaryan Avda. Pedro Díez, 3. Madrid (España) Copyright © 2008 Delta, Publicaciones Universitarias. Primera edición C/Luarca, 11 28230 Las Rozas (Madrid) Dirección Web: www.deltapublicaciones.com © 2008 La autora Reservados todos los derechos. De acuerdo con la legislación vigente podrán ser castigados con penas de multa y privación de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artística o científica fijada en cualquier tipo de soporte sin la preceptiva autorización. Ninguna de las partes de esta publicación, incluido el diseño de cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea electrónico, químico, mecánico, magneto-óptico, grabación, fotocopia o cualquier otro, sin la previa autorización escrita por parte de la editorial. ISBN 84-96477-73-8 Depósito Legal (0907-60) A Manolo y Pep Presentación El análisis estadístico multivariante es una herramienta de investigación y generación de conocimiento extraordinariamente valiosa, tanto en las ciencias naturales como en las ciencias sociales. Este libro es una valiosa aportación a la literatura en español sobre este tema. Muchos de los interesantes problemas que contiene ayudan a comprender y apreciar el potencial de las técnicas clásicas de análisis multivariante, mientras que otros guían al lector para profundizar en aspectos metodológicos de interés de las técnicas estudiadas. Un atractivo especial de este libro es la inclusión de numerosas rutinas de Matlab que permiten aplicar de forma fácil y flexible las técnicas consideradas a distintos conjuntos de datos reales. Las autoras, Amparo Baíllo y Aurea Grané, tienen gran experiencia en la enseñanza de estas técnicas y el libro muestra claramente su gran experiencia en el análisis de datos reales y en la presentación de los resultados del análisis. Recomiendo este libro a todos los interesados en las aplicaciones del análisis multivariante y, muy especialmente, a las personas que deseen disponer de un lenguaje potente y flexible, como Matlab, que les permita escribir sus propias rutinas de programación, liberándose del esquema rígido de los programas convencionales. Estoy seguro de que encontrarán este libro muy útil para este objetivo. Daniel Peña Catedrático de Estadística Universidad Carlos III de Madrid Introducción El objetivo de este libro es ayudar a comprender todo un conjunto de técnicas exploratorias y estadísticas que permiten sintetizar, representar e interpretar los datos obtenidos de la observación simultánea de varias variables estadísticas. Así pues el libro se centra en el análisis estadístico de matrices de datos, con el fin de extraer de forma rápida la información más relevante contenida en ellas. Los datos de tipo multivariado aparecen actualmente en contextos muy diversos, como son el mundo de la Economía y las Finanzas, las Ciencias Experimentales y la Ingeniería o también en las Ciencias Humanas y Sociales. Los temas que se tratan pueden clasificarse en tres apartados: • Inferencia multivariante. • Técnicas de representación y de reducción de la dimensión. • Técnicas de clasificación: análisis de conglomerados y análisis discriminante. Los problemas intentan recoger la diversidad de los campos de aplicación mencionados anteriormente y, en este sentido, se ha procurado buscar conjuntos de datos que fueran interesantes para un público de procedencia muy diversa. Este libro es fruto de las experiencias docentes de las autoras en la Diplomatura en Estadística y la Licenciatura en Administración y Dirección de Empresas de la Universidad Carlos III de Madrid y en la Diplomatura en Estadística, la Licenciatura en Matemáticas y la Licenciatura en Biología de la Universidad de Barcelona. En general, este libro está dirigido a estudiantes y docentes de cualquier disciplina en la que sea necesario extraer información de un conjunto de datos multivariantes. Para un seguimiento adecuado del libro se requieren conocimientos básicos de Cálculo de Probabilidades y de Inferencia Estadística. Además son deseables buenos conocimientos de álgebra lineal, más allá de la resolución de sistemas de ecuaciones lineales o de un leve contacto con formas cuadráticas en el contexto del cálculo de extremos de una función real de varias variables. Es quizá demasiado suponer este conocimiento previo y por ello se añade un tema adicional necesario para el desarrollo del libro. X PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Este libro consta de nueve capítulos. Los tres primeros son introductorios y están dedicados, respectivamente, a una ampliación de conceptos de álgebra lineal, a familiarizarse con las matrices de datos y una introducción a la inferencia normal multivariante. El resto de capítulos están dedicados al estudio de técnicas multivariantes clásicas, como son: el análisis de componentes principales, el escalado multidimensional, el análisis de conglomerados, el análisis factorial, el análisis canónico de poblaciones y el análisis discriminante. Soporte informático El volumen de cálculo requerido para el análisis de datos multivariantes hace impracticable su realización manual, no sólo para los cálculos con datos reales, sino incluso si se trata de ejemplos sencillos con datos simulados que ilustren y motiven los conceptos teóricos. Ya desde los años 70, coincidiendo con la evolución de los ordenadores y la aparición de los primeros paquetes comerciales de programas de Estadística (SPSS, BMDP, SAS), algunos de los autores de libros dedicados al Análisis Multivariante, conscientes de esta situación, han incluido listados de programas para realizar los cálculos correspondientes a las técnicas expuestas. Por ello hemos creído conveniente disponer de un software que permita programar de forma muy sencilla las técnicas que el usuario desea implementar. Esto es posible a través de programas comerciales como MATLAB1 y S-Plus, o bien sus clónicos gratuitos como OCTAVE y R, por citar algunos. Todos ellos tienen incorporadas estructuras y operaciones matriciales, fundamentales en el Análisis Multivariante, además de innumerables subrutinas para cálculos más específicos. Puede parecer que el uso de estos programas añade complicaciones a la comprensión de las técnicas expuestas. Pero, en base a la experiencia, hay que decir que ocurre justamente lo contrario: el lenguaje de programación que utilizan se asemeja considerablemente a la notación matricial, lo que contribuye a una mayor asimilación y aprendizaje de las mismas. Amparo y Aurea 1 Matlab es una marca registrada de The MathWorks, Inc., http://www.mathworks.com Contenido C APÍTULO 1 Álgebra matricial básica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 C APÍTULO 2 Estadísticos descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 C APÍTULO 3 Distribuciones multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 C APÍTULO 4 Análisis de componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 C APÍTULO 5 Distancias estadísticas y escalado multidimensional (MDS) . . . . . . . . . . 93 C APÍTULO 6 Análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 C APÍTULO 7 Análisis factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 C APÍTULO 8 Análisis canónico de poblaciones (MANOVA) . . . . . . . . . . . . . . . . . . . . . . . 143 C APÍTULO 9 Análisis discriminante y clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Índice de funciones y código Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Índice de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 CAPÍTULO 1 Álgebra matricial básica En este primer capítulo se repasan algunos conceptos de álgebra matricial que serán extremadamente útiles para el tratamiento de datos multivariantes. Las matrices ayudan a plantear los métodos de estadística multivariante de manera concisa y facilitan su implementación en programas de ordenador. Comenzaremos trabajando con normas de vectores, productos escalares y proyecciones ortogonales. A continuación recordaremos el cálculo de matrices inversas, determinantes, autovalores y autovectores y otros conceptos básicos del álgebra de matrices. El capítulo concluye determinando el signo de algunas formas cuadráticas. PROBLEMA 1.1 Sean u = (1, 2)′ , v = (−2, 3)′ y w = (3, −5)′ tres vectores de R2 . Evalúense las siguientes expresiones, donde a · b denota el producto escalar entre los vectores a y √ b y a = a · a denota la norma o longitud del vector a. (a) (u − 2v) · w (c) u + v + w (b) u + v + w (d) (u − v) · (v − w) ✞ ✝ SOLUCIÓN ☎ ✆ Para introducir los vectores en Matlab escribimos u = [1 ; 2]; v = [-2 ; 3]; w = [3 ; -5]; (a) (u − 2 v) · w = (u − 2 v)′ w = 35. Para calcularlo en Matlab escribimos (u-2*v)’*w 2 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) u + v + w = 2. Para calcular la norma de un vector u podremos utilizar la orden de Matlab norm(u). También podemos escribir el código nosotros mismos mediante una función Matlab, que denominaremos, por ejemplo, norma. Para utilizar esta función dentro de Matlab, la guardaremos en un fichero con el mismo nombre y extensión .m, en este caso norma.m : function nu = norma(u) u = u(:) ; nu = sqrt(u’*u) ; Para resolver este apartado, en la ventana de comandos de Matlab escribiremos: norma(u+v+w) Compruébese que se llega al mismo resultado utilizando la función interna de Matlab norm. (c) u + v + w = 2.2361. En Matlab norm(u) + norm(v) + norm(w) (d) (u − v) · (v − w) = (u − v)′ (v − w) = −23. Con Matlab se calcularía así (u-v)’*(v-w) PROBLEMA 1.2 Dados dos vectores de Rp , u y a, encuéntrese la proyección ortogonal del vector u sobre el vector a, para: (a) u = (8, 3)′ , a = (4, −5)′ , (b) u = (2, 1, −4)′ , ✞ ✝ SOLUCIÓN a = (−5, 3, 11)′ . ☎ ✆ La proyección ortogonal de u sobre la dirección determinada por a viene dada por el vector (Figura 1.1): u·a v= a = (u · c) c, a2 donde c = a/a es el vector de longitud 1 en la dirección de a. Por tanto, u · c es la longitud de la proyección v (esto lo utilizaremos en el Problema 2.9). El siguiente código (que debe guardarse en el fichero ProyOrto.m) permite calcular la proyección ortogonal de un vector u sobre a: function v = ProyOrto(u,a) u = u(:); a = a(:); v = (u’*a)*a /norm(a) ; ÁLGEBRA MATRICIAL BÁSICA 3 u u a v Figura 1.1. El vector v es la proyección ortogonal de u sobre a. (a) Dentro de Matlab escribimos: u = [8,3]’; a = [4,-5]’; v = ProyOrto(u) y obtenemos v = (1.6585, −2.0732)′. (b) Análogamente, haciendo: u = [2,1,-4]’; a = [-5,3,11]’; v = ProyOrto(u,a) obtenemos v = (1.6452, −0.9871, −3.6194)′. PROBLEMA 1.3 Calcúlense los valores de k que hacen que los siguientes vectores u y v sean ortogonales. ✞ (a) u = (−2, k, −4)′ , v = (−1, 3, k)′ , (b) u = (−2, k, −k)′ , v = (1, 3, k)′ . ✝ SOLUCIÓN ☎ ✆ Los vectores u y v son ortogonales (o perpendiculares) entre sí, si su producto escalar u · v = u′ v = v′ u es 0. Estableciendo esta condición sobre los vectores u y v del enunciado, obtendremos una ecuación de la que despejaremos k. 4 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ⎛ ⎞ −1 (a) 0 = u′ v = (−2, k, −4) ⎝ 3 ⎠ = 2 + 3k − 4k = 2 − k ⇒ k = 2. k  3 ± 9 − 4(−1)(−2) ′ 2 = 2 ó 1. (b) 0 = u v = −k + 3k − 2 ⇒ k = 2 PROBLEMA 1.4 Calcúlese la inversa de las matrices ⎛ ⎞ 1 0 0 ⎜ 1 ⎟ A = ⎝ 3 4 0 ⎠, 1 2 3 2 ✞ ✝ SOLUCIÓN ⎛ 9 ⎜ 0 B=⎜ ⎝ 0 0 ⎞ 1 0 0 8 −2 0 ⎟ ⎟. 0 7 −3 ⎠ 0 0 6 ☎ ✆ Uno de los objetivos de este ejercicio es comprobar que la inversa de una matriz triangular inferior (resp. superior) es también una matriz triangular inferior (resp. superior). Recordemos que la inversa de una matriz se calcula mediante la fórmula A−1 = |A|−1 adj(A′ ) , donde | · | y adj(·) denotan, respectivamente, el determinante y la matriz adjunta. Concretamente |A| = 8 y ⎛ ⎞ 8 0 0 1 A−1 = ⎝ − 32 2 0 ⎠. 8 −1 −3 4 Para hacer estos cálculos en Matlab escribimos las siguientes líneas de código A = [ 1 0 0 1/3 4 0 1/2 3 2 ] ; Inv_A = inv(A) El determinante se calcula mediante det(A). Análogamente, |B| = 3024 y B−1 ⎛ ⎞ 168 −21 −6 −3 ⎟ 1 ⎜ ⎜ 0 189 54 27 ⎟ . = ⎝ 0 0 216 108 ⎠ 1512 0 0 0 252 ÁLGEBRA MATRICIAL BÁSICA 5 PROBLEMA 1.5 Considérense las matrices 4 4.001 4.001 4.002 A= y B= 4 4.001 4.001 4.002001 . Obsérvese que estas matrices son casi idénticas excepto por una pequeña diferencia en el elemento (2,2). Sin embargo, compruébese que A−1 ≃ −3B−1 , es decir, que pequeños cambios (tal vez debidos al redondeo en las operaciones) pueden dar lugar a inversas muy diferentes. ✞ ✝ SOLUCIÓN ☎ ✆ Calculamos las inversas con Matlab A = [ Inv_A B = [ Inv_B 4 = 4 = 4.001 ; 4.001 4.002 ] ; inv(A) 4.001 ; 4.001 4.002001] ; inv(B) y obtenemos −4.0020 4.0010 4.0010 −4.0000 A−1 = 106 , B−1 = 106 1.3340 −1.3337 −1.3337 1.3333 . PROBLEMA 1.6 Calcúlense la ecuación característica y los autovalores de las siguientes matrices ⎛ ⎞ 2 2 2 1 2 (c) A3 = ⎝ 1 1 1 ⎠, (a) A1 = , 2 −2 1 1 1 ⎞ ⎛ ⎞ ⎛ −2 0 3 2 1 1 (b) A2 = ⎝ 2 4 0 ⎠, (d) A4 = ⎝ 1 2 1 ⎠. 1 0 0 1 1 2 ✞ ✝ SOLUCIÓN ☎ ✆ (a) Los autovalores de A1 son las raíces de su polinomio característico P (λ) = |A1 − λI| = 1−λ 2 = (1 − λ)(−2 − λ) − 4 = λ2 + λ − 6. 2 −2 − λ 6 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE El polinomio P (λ) toma el valor 0 para λ1 = 2 ó λ2 = −3. Éstos son los autovalores de A1 (conviene ya acostumbrarse a ordenarlos de mayor a menor, pues más adelante, al calcular componentes principales, será necesario). La ecuación característica es la que se obtiene de igualar el polinomio característico a cero P (λ) = 0, es decir, la ecuación λ2 + λ − 6 = 0. (b) El polinomio característico de A2 es P (λ) = |A2 − λI| −2 − λ 0 3 = 2 4−λ 0 1 0 −λ = (λ − 4)(3 − 2λ − λ2 ) = (λ − 4)(λ + 3)(1 − λ). Por tanto, la ecuación característica de A2 es (λ − 4)(λ + 3)(1 − λ) = 0. Los autovalores de A2 son la solución de la ecuación anterior: λ1 = 4, λ2 = 1 y λ3 = −3. (c) La ecuación característica de A3 es 0 = P (λ) = |A3 − λI| = λ2 (4 − λ). Entonces los autovalores de A3 son λ1 = 4 (autovalor simple) y λ2 = λ3 = 0 (autovalor doble). (d) La ecuación característica de A4 es 0 = (λ − 1)2 (λ − 4), por lo que sus autovalores son λ1 = 4 y λ2 = λ3 = 1 (autovalor doble). PROBLEMA 1.7 Genérese una matriz X, de dimensión 4 × 3 y un vector u, 4 × 1, ambos de números aleatorios y constrúyanse las matrices simétricas A = X′ X y B = u u′ . (a) Calcúlense la traza y el determinante de A y B. (b) Obténganse los autovalores y autovectores de A y B. (c) Compruébese que la traza y el determinante de A coinciden respectivamente con la suma y el producto de los autovalores de A. (d) Obténganse los rangos de A y B y compruébese que coinciden, respectivamente, con el número de autovalores no nulos de A y B. ✞ ✝ SOLUCIÓN ☎ ✆ Empezamos construyendo las matrices A y B a partir de la generación aleatoria de X y u: X u A B = = = = rand[4,3]; rand[4,1]; X’*X; u*u’; ÁLGEBRA MATRICIAL BÁSICA 7 (a) Las instrucciones trace(A) y det(A) permiten obtener la traza y el determinante de A. Haremos lo mismo para B. (b) La instrucción [T,D]=eig(A) permite encontrar la descomposición espectral de A, es decir, A = T D T′ , donde D y T son matrices de la misma dimensión que A, tales que: D es una matriz diagonal que contiene los autovalores de A, y T es una matriz ortogonal (es decir, T T′ = T′ T = I) cuyas columnas son los autovectores de A. Utilizando la misma instrucción obtendremos los autovalores y autovectores de B. Observad que la matriz diagonal que contiene los autovalores de B tiene solamente un elemento diagonal no nulo. (c) Hay que comprobar que la suma y el producto de la diagonal de la matriz D, es decir, sum(diag(D)) y prod(diag(D)), coinciden con trace(A) y det(A), respectivamente. (d) La instrucción rank(A) permite obtener el rango de A, que debe coincidir con el número de elementos no nulos de la diagonal de D. Haremos lo mismo para B. Observad que B es una matriz de rango uno, tal como cabía esperar, puesto que la hemos construido a partir de un único vector. PROBLEMA 1.8 Considérense las matrices siguientes: ⎛ ⎞ 2 1 4 A = ⎝ −1 4 1 ⎠, 2 −1 4 (a) ¿Son idempotentes? ⎛ ⎞ 1 1 −1 B=⎝ 0 1 0 ⎠, −1 0 1 ⎛ ⎞ 2 1 1 C=⎝ 1 2 −1 ⎠ . −1 −1 2 (b) Calcúlese su determinante. (c) ¿Son definidas positivas? (d) ¿Son ortogonales? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Una matriz cuadrada A es idempotente si A2 = A. En este caso, o bien A es la matriz identidad, o bien A es singular (es decir, |A| = 0). Asímismo, si A es idempotente entonces rg(A) = tr(A). Puesto que |A| = 12 = 0 y |C| = 6 = 0, entonces ni A, ni C son idempotentes. Por otro lado, aunque |B| = 0, la matriz B tampoco es idempotente, porque tr (B) = 3 = rg (B) = 2. (b) Está respondido en el apartado anterior. 8 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (c) Los menores principales de A son |2| = 2 > 0 ; 2 1 = 9>0; −1 4 |A| = 12 > 0. Por tanto, por el criterio de Sylvester, A es definida positiva. En cambio, B no lo es puesto que |B| = 0. Para ver que C es definida positiva podemos calcular sus autovalores con Matlab: C = [ 2 1 1 ; 1 2 -1 ; -1 -1 2 ]; eig(C) y vemos que todos son positivos λ1 = 3, λ2 = 2 y λ3 = 1. Por tanto, C es definida positiva. (d) Una matriz cuadrada A es ortogonal si A A′ = A′ A = I . Con el código A*A’, B*B’, C*C’, comprobamos que ninguna de las tres matrices verifica esta condición y, por tanto, ni A, ni B, ni C son ortogonales. Por ejemplo, ⎛ ⎞ 21 6 19 A A′ = ⎝ 6 18 −2 ⎠ . 19 −2 21 PROBLEMA 1.9 Calcúlese la descomposición espectral de ⎞ ⎛ 3 2 2 A = ⎝ 2 3 2 ⎠. 2 2 3 ✞ ✝ SOLUCIÓN ☎ ✆ La descomposición espectral de una matriz simétrica A de dimensión k × k consiste en expresar A de la siguiente manera: A = λ1 e1 e′1 + λ2 e2 e′2 + . . . + λk ek e′k , (1.1) donde λ1 , . . . , λk son los autovalores de A y e1 , . . . , ek son autovectores normalizados de A asociados respectivamente a λ1 , . . . , λk y ortogonales entre sí. Recordemos que esta última condición se cumple automáticamente en una matriz simétrica cuando todos sus autovalores son distintos. Sin embargo, cuando hay algún autovalor múltiple (como en este caso) hay que escoger los autovectores adecuadamente. ÁLGEBRA MATRICIAL BÁSICA 9 Los autovalores de A son las raíces de la ecuación característica 0 = |A − λI| = (λ − 1)2 (7 − λ), es decir, son λ1 = 7 y λ2 = λ3 = 1. Un autovector x de A asociado al autovalor λ es un vector que verifica la ecuación (A − λI)x = 0 . Por ejemplo, para λ1 = 7, buscamos un vector x = (x1 , x2 , x3 )′ tal que ⎛ ⎞ ⎛⎛ ⎞ ⎛ 0 3 2 2 1 ⎝ 0 ⎠ = ⎝⎝ 2 3 2 ⎠ − 7 ⎝ 0 0 2 2 3 0 ⎛ ⎞⎛ −4 2 2 x1 2 ⎠ ⎝ x2 = ⎝ 2 −4 x3 2 2 −4 lo cual equivale al sistema de ecuaciones ⎞ ⎞⎞ ⎛ 0 0 x1 1 0 ⎠⎠ ⎝ x2 ⎠ x3 0 1 ⎞ ⎠, 0 = −2x1 + x2 + x3 , 0 = x1 − 2x2 + x3 . De este sistema deducimos que un autovector x correspondiente al autovalor λ1 = 7 debe cumplir la condición x1 = x2 = x3 . Por ejemplo, podríamos tomar el vector (1, 1, 1)′ . Un√autovector normalizado de A correspondiente al autovalor λ1 = 8 es, pues, e1 = (1, 1, 1)′ / 3. Respecto al autovalor λ2 = 1, la ecuación (A − λ2 I) x = 0 implica x1 + x2 + x3 = 0. (1.2) Observemos que el número de condiciones que debe cumplir un autovector de A es rg(A), el rango de A, menos la multiplicidad del autovalor correspondiente. En este caso hay sólo una ecuación, pues rg(A) = 3 y λ = 1 es un autovalor doble. Para la descomposición espectral es necesario que todos los autovectores ei sean ortogonales entre sí, luego debemos buscar dos vectores que verifiquen la condición √ (1.2) y cuyo producto escalar sea cero. Por ejemplo, √ e2 = (1, −1, 0)′ / 2 y e3 = (1, 1, −2)′ / 6. Así pues la descomposición espectral de la matriz A es: ⎛ ⎛ ⎛ ⎞ ⎞ ⎞ 1 1 1 1⎝ 1 7 A= −1 ⎠ (1, −1, 0) + ⎝ 1 ⎠ (1, 1, −2) + ⎝ 1 ⎠ (1, 1, 2). 2 6 3 0 −2 2 Observación. La definición 1.1 admite una expresión en forma matricial, tal y como vimos en el Problema 1.7. Dejamos al lector que escriba la descomposición espectral de A como un producto de 3 matrices cuadradas. 10 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 1.10 Dada la matriz ⎛ ⎞ 3 2 0 A=⎝ 2 3 0 ⎠ 0 0 3 (a) Calcúlense sus autovalores, los de A2 y los de A−1 . (b) Calcúlese una base ortogonal que la diagonalice. ✞ ✝ SOLUCIÓN ☎ ✆ Puesto que A es una matriz simétrica, el teorema de descomposición espectral asegura que existen una matriz ortogonal T y una matriz diagonal Λ tales que A = T Λ T′ . La matriz Λ contiene los autovalores de A y la matriz T contiene los autovectores de A. Además se verifica la siguiente propiedad: Ap = T Λp T′ , para p ∈ Z. Mediante Matlab, obtenemos la descomposición espectral de A y comprobamos la propiedad anterior para p = 2 y p = −1 A = [3 2 0; 2 3 0; 0 0 3]; [T,Lambda] = eig(A); Los resultados que se obtienen son: ⎛ −0.7071 0 T = ⎝ 0.7071 0 0 1 ⎞ 0.7071 0.7071 ⎠ , 0 ⎛ 1 Λ=⎝ 0 0 ⎞ 0 0 3 0 ⎠ 0 5 Observad que las columnas de T forman una base ortogonal que diagonaliza a la matriz A. Calculamos los autovalores de A2 y de A−1 con: Lambda2 = eig(A*A); Lambdainv = eig(inv(A)); y obtenemos que los autovalores de A2 son 1, 9 y 25 y los de A−1 son 1, 0.33 y 0.2. Podéis comprobar que las instrucciones: T*diag(Lambda2)*T’ T*diag(Lambdainv)*T’ permiten recuperar las matrices A2 y A−1 respectivamente. ÁLGEBRA MATRICIAL BÁSICA 11 PROBLEMA 1.11 Considérese la matriz A= 2 a a 2 . (a) Calcúlense los autovalores y autovectores de A. (b) ¿Para qué valores de a es la matriz A definida positiva? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Los autovalores de A son λ1 = 2√+ |a| y λ2 = 2 − |a|. Los correspondientes autovectores √ normalizados son e1 = (sgn(a), 1)′ / 2 y e2 = (1, −sgn(a))′ / 2, siendo sgn(a) = a/|a| el signo de a. (b) A es definida positiva si y sólo si sus autovalores son ambos positivos, es decir, si |a| < 2. PROBLEMA 1.12 Considérese la siguiente matriz ⎛ ⎞ 6 10 A = ⎝ 10 6 ⎠ . 1 5 (a) Encuéntrese la inversa generalizada de Moore-Penrose, A− , de A. (b) Compruébese que se cumple la propiedad AA− A = A. (1.3) (c) Compruébese que se cumplen las propiedades (i) A− AA− = A− , (ii) A− A es simétrica, (iii) AA− es simétrica. ✞ ✝ SOLUCIÓN ☎ ✆ (a) La inversa de Moore-Penrose es aquella matriz A− que verifica las condiciones (1.3) y (i)–(iii) del apartado (c). La matriz A− se obtiene a partir de la descomposición en valores singulares de A = UD1/2 V′ , 12 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE es decir, A− = VD−1/2 U′ . La función Matlab que calcule esta inversa podría ser function B = ginvMP(A) [U,D,V] = svd(A,0) ; B = V*inv(D)*U’ ; También podemos utilizar directamente la función B = pinv(A) implementada ya en Matlab. El resultado es: −0.0442 0.1337 −0.0721 A− = . 0.0964 −0.0665 0.0871 (b) La expresión (1.3) es la propiedad que tiene que cumplir cualquier inversa generalizada. Para comprobar con Matlab que se cumple escribimos: B = ginvMP(A) ; A*B*A (c) Las propiedades (i)–(iii) del apartado (c) se comprueban escribiendo las instrucciones B*A*B, B*A y A*B. El primer producto proporciona la matriz B y el segundo y tercero dan, respectivamente: ⎛ ⎞ 0.6990 0.1368 0.4378 0.9378 −0.1990 ⎠ , B A = I, A B = ⎝ 0.1368 0.4378 −0.1990 0.3632 que son matrices simétricas, donde I es la matriz identidad 2 × 2. PROBLEMA 1.13 Calcúlese la matriz simétrica asociada a cada una de las siguientes formas cuadráticas y determínese si es definida positiva. (a) Q(x1 , x2 ) = 2x21 − 3x1 x2 + 3x22 , (b) Q(x1 , x2 , x3 ) = x21 + x1 x3 + 0.25x23 + 1.6x1 x2 + 0.6x22 + 0.8x2 x3 . ✞ ✝ SOLUCIÓN ☎ ✆ (a) La matriz simétrica A= a11 a12 a12 a22 asociada a Q es la que verifica Q(x) = x′ Ax, donde x = (x1 , x2 )′ . Como x′ Ax = (x1 , x2 )A x1 x2 = a11 x21 + a22 x22 + 2a12 x1 x2 , ÁLGEBRA MATRICIAL BÁSICA 13 tenemos que a11 = 2, a22 = 3, 2 a12 = −3. Por tanto, 2 −3/2 −3/2 3 A= . Para comprobar que A es definida positiva, en Matlab escribimos: A = [2 -3/2 ; -3/2 3] ; lambda = eig(A)’ que nos proporciona los autovalores 0.9189 y 4.0811, ambos positivos. (b) La matriz simétrica ⎛ a11 A = ⎝ a12 a13 a12 a22 a23 ⎞ a13 a23 ⎠ a33 asociada a Q es la que verifica Q(x) = x′ Ax, donde x = (x1 , x2 , x3 )′ . Como x′ A x = a11 x21 + a22 x22 + a33 x23 + 2a12 x1 x2 + 2a13 x1 x3 + 2a23 x2 x3 , tenemos que: ⎛ ⎞ 1 0.8 0.5 A = ⎝ 0.8 0.6 0.4 ⎠ . 0.5 0.4 0.25 Calculando los autovalores de A obtenemos que uno de ellos es negativo, -0.0266, por lo que A no es definida positiva. PROBLEMA 1.14 Sean x = (x1 , x2 )′ un vector y Q(x) = m x22 − 4 x1 x2 + x21 una forma cuadrática, donde m ∈ R. (a) Determínese la matriz simétrica A asociada a Q(x). (b) Determínense los valores de m para que A sea definida positiva. (c) Hállense los autovalores y los autovectores asociados a A en el caso de que m = −2. ✞ ✝ SOLUCIÓN (a) A = ☎ ✆ 1 −2 −2 m . (b) A es definida positiva si y sólo si todos los menores principales tienen determinante positivo. Por tanto, m > 4. (c) Para el caso m = −2, los autovalores de A √ son λ1 = 2 y λ2 = √ −3. Los autovectores normalizados son respectivamente e1 = (−2, 1)′ / 5 y e2 = (1, 2)′ / 5. 14 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 1.15 Considérense las siguientes matrices simétricas de dimensión 3 × 3: ⎞ ⎛ ⎞ ⎛ 0 0 0 3 1 0 A = ⎝ 1 3 0 ⎠ y B = ⎝ 0 0 0 ⎠. 0 0 3 0 0 2 (a) Decídase el signo de la forma cuadrática q(x) = x′ Ax, donde x ∈ R3 . (b) Escríbase la expresión explícita de la forma cuadrática Q(x) = q(x) + x′ Bx. Sin calcular los autovalores de A + B decídase el signo de Q(x). ✞ ✝ SOLUCIÓN ☎ ✆ (a) Con el mismo código que utilizamos en el Problema 1.13 podemos ver que los autovalores de A son λ1 = 4, λ2 = 3 y λ3 = 2. Por tanto, A y su forma cuadrática, q, son definidas positivas. (b) La forma Q es definida positiva porque q lo es y B es semidefinida positiva. Es decir, puesto que q(x) > 0 y x′ Bx ≥ 0 para x = 0, entonces se verifica que Q(x) > 0 para x = 0. CAPÍTULO 2 Estadísticos descriptivos Los objetivos de este capítulo son sencillos, pero fundamentales (en cuanto a notación y conceptos) para la posterior comprensión de los capítulos restantes. Aprenderemos a manejar datos multivariantes de manera matricial y a representarlos gráficamente. Calcularemos las medidas resumen más utilizadas de localización, dispersión y dependencia muestrales: el vector de medias, la matriz de varianzas-covarianzas y la matriz de correlaciones. A lo largo del tema se insiste en la interpretación intuitiva de estos estadísticos y de los gráficos. Quedará patente la utilidad de Matlab para el tratamiento de datos multidimensionales. También se hace especial hincapié en el cálculo de combinaciones lineales de los vectores observados. PROBLEMA 2.1 Se define la matriz de centrado de dimensión n como H = I − n1 1 1′ , donde I es la matriz identidad de dimensión n×n y 1 es un vector n×1 de unos. La utilidad de esta matriz H radica en que, como su nombre indica, se usa para centrar configuraciones de datos: si X es una matriz de datos de dimensión n × p, entonces H X es una matriz cuyas columnas tienen media cero. Utilícese Matlab para comprobar las dos siguientes propiedades de la matriz de centrado (tomando, por ejemplo, n = 5): (a) H es idempotente,. (b) rg(H) = tr(H) = n − 1. ✞ ✝ SOLUCIÓN ☎ ✆ Construimos la matriz de centrado de dimensión n = 5: n = 5; H = eye(n)-ones(n,n)/n; y comprobamos que Hˆ 2 coincide con H. Las instrucciones trace(H) y rank(H) permiten obtener su traza y su rango, que deben ser n − 1 = 4. 16 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 2.2 Los datos de la Tabla 2.1 corresponden a chalets construidos por diez promotoras que operan a lo largo de la costa española. Tabla 2.1. Diez promotoras de la costa española (Problema 2.2) Promotora 1 2 3 4 5 6 7 8 9 10 X1 =Duración media hipoteca (años) 8.7 14.3 18.9 19.0 20.5 14.7 18.8 37.3 12.6 25.7 X2 =Precio medio (millones euros) 0.3 0.9 1.8 0.8 0.9 1.1 2.5 2.7 1.3 3.4 X3 =Superficie media (m2 ) de cocina 3.1 7.4 9.0 9.4 8.3 7.6 12.6 18.1 5.9 15.9 (a) Dibújese el diagrama de dispersión múltiple y coméntese el aspecto del gráfico. (b) Para X1 y X2 calcúlense, respectivamente, las medias muestrales x̄1 y x̄2 , las varianzas muestrales s11 y s22 , la covarianza entre X1 y X2 , s12 , y la correlación entre ambas, r12 . Interprétese el valor obtenido de r12 . (c) Utilizando la matriz de datos X y la de centrado H definida en el Problema 2.1, calcúlense el vector de medias muestrales x̄ y la matriz de covarianzas muestrales S. A partir de ésta obténgase la matriz de correlaciones R. ✞ ✝ SOLUCIÓN ☎ ✆ (a) En la Figura 2.1 se puede ver el diagrama de dispersión múltiple de las tres variables. Se observa que todas ellas están positivamente correladas entre sí y que el grado de correlación es muy alto. Por tanto, una sola de esas variables debería poder servir para predecir cualquiera de las otras dos. Las instrucciones en Matlab para introducir los datos y realizar el gráfico son X = [ 8.7 14.3 18.9 19.0 20.5 14.7 18.8 37.3 12.6 25.7 0.3 0.9 1.8 0.8 0.9 1.1 2.5 2.7 1.3 3.4 plotmatrix(X) 3.1 7.4 9.0 9.4 8.3 7.6 12.6 18.1 5.9 15.9]; ESTADÍSTICOS DESCRIPTIVOS 17 x1 0 20 x2 x3 40 0 2 4 0 10 20 Figura 2.1. Datos de chalets construidos por promotoras (Problema 2.2) (b) Para calcular con Matlab los valores de x̄1 = 1 10 10 xi1 = 19.05 y x̄2 = i=1 1 10 10 xi2 = 1.57 i=1 escribimos el siguiente código: [n,p] = size(X) ; m1 = sum(X(:,1))/n ; m2 = sum(X(:,2))/n ; o también m1 = mean(X(:,1)) ; m2 = mean(X(:,2)) ; Las varianzas s11 = 1 10 10 i=1 x2i1 − x̄21 = 56.97 y s22 = 1 10 10 i=1 x2i2 − x̄22 = 0.89 se calculan con s11 = sum(X(:,1).^2)/n - m1^2; s22 = sum(X(:,2).^2)/n - m2^2; o bien con 18 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE s11 = var(X(:,1),1) ; s22 = var(X(:,2),1) ; Por último, con las instrucciones s12 = sum(X(:,1).*X(:,2))/n - m1*m2 ; r12 = s12/sqrt(s11*s22) ; obtenemos s12 = 1 10 10 i=1 xi1 xi2 − x̄1 x̄2 = 5.17 s12 r12 = √ = 0.72. s11 s22 y El valor de la correlación entre las variables X1 y X2 es positivo y alto, como ya permitía deducir el diagrama de dispersión del apartado (a). (c) Los valores que acabamos de calcular en el apartado (b) para medias, varianzas, covarianzas y correlaciones se pueden obtener matricialmente. La instrucción de Matlab que calcula x̄ = n1 X′ 1n = (19.32, 1.51, 9.76)′ es: m = X’ * ones(n,1)/n ; Para comprobar que ⎛ escribiremos: ⎞ 56.97 5.17 30.48 1 S = X′ HX = ⎝ 0.89 3.65 ⎠ n 18.76 H = eye(n)-ones(n,n)/n ; S = X’*H*X/n ; Por último, la matriz ⎛ ⎞ 1 0.71 0.95 1 0.85 ⎠ D−1/2 , R = D−1/2 ⎝ 1 −1/2 donde D−1/2 = diag(s11 −1/2 , s22 −1/2 , s33 ), se obtiene mediante: d = diag(S).^(-0.5) ; R = diag(d) * S * diag(d) ; Podéis comprobar que las funciones internas de Matlab: m = mean(X) ; S = cov(X,1) ; R = corrcoef(X) producen los mismos resultados. Si, en cambio, escribimos cov(X) Matlab calcula la matriz 1 de dispersión S̃ = n−1 X′ HX, que a veces se denomina matriz de varianzas-covarianzas corregida. ESTADÍSTICOS DESCRIPTIVOS 19 PROBLEMA 2.3 La contaminación por mercurio de peces de agua dulce comestibles es una amenaza directa contra nuestra salud. Entre 1990 y 1991 se llevó a cabo un estudio en 53 lagos de Florida con el fin de examinar los factores que influían en el nivel de contaminación por mercurio. Las variables que se midieron fueron: X1 = número de identificación, X2 = nombre del lago, X3 = alcalinidad (mg/l de carbonato de calcio), X4 = pH, X5 = calcio (mg/l), X6 = clorofila (mg/l), X7 = concentración media de mercurio (partes por millón) en el tejido múscular del grupo de peces estudiados en cada lago, X8 = número de peces estudiados por lago, X9 = mínimo de la concentración de mercurio en cada grupo de peces, X10 = máximo de la concentración de mercurio en cada grupo de peces, X11 = estimación (mediante regresión) de la concentración de mercurio en un pez de 3 años (o promedio de mercurio cuando la edad no está disponible), X12 = indicador de la edad de los peces. La Tabla 2.2 contiene los datos de este estudio, disponible en la página web http://lib.stat.cmu.edu/DASL. (a) Represéntense de forma conjunta las variables X3 , X6 , X7 y véase cómo se modifica su dispersión cuando se producen transformaciones (lineales y no lineales) sobre las variables. Considérense como medidas de dispersión global la traza y el determinante de la matriz de covarianzas . (b) Dibújese el histograma tridimensional correspondiente a X3 y X7 . Elíjanse sendas transformaciones no lineales para estas variables de entre las utilizadas en el apartado anterior y dibújese el histograma tridimensional de las variables transformadas. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Supongamos que tenemos un fichero de texto, de nombre mercurio.txt que contiene los datos de la Tabla 2.2, cuya primera fila contiene los nombres de las variables, de manera que 20 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 2.2. Datos del ejercicio 2.3 (http://lib.stat.cmu.edu/DASL/Datafiles/MercuryinBass.html) X1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 X2 Alligator Annie Apopka Blue Cypress Brick Bryant Cherry Crescent Deer Point Dias Dorr Down Eaton East Tohopekaliga Farm-13 George Griffin Harney Hart Hatchineha Iamonia Istokpoga Jackson Josephine Kingsley Kissimmee Lochloosa Louisa Miccasukee Minneola Monroe Newmans Ocean Pond Ocheese Pond Okeechobee Orange Panasoffkee Parker Placid Puzzle Rodman Rousseau Sampson Shipp Talquin Tarpon Trafford Trout Tsala Apopka Weir Tohopekaliga Wildcat Yale X3 5.9 3.5 116.0 39.4 2.5 19.6 5.2 71.4 26.4 4.8 6.6 16.5 25.4 7.1 128.0 83.7 108.5 61.3 6.4 31.0 7.5 17.3 12.6 7.0 10.5 30.0 55.4 3.9 5.5 6.3 67.0 28.8 5.8 4.5 119.1 25.4 106.5 53.0 8.5 87.6 114.0 97.5 11.8 66.5 16.0 5.0 81.5 1.2 34.0 15.5 25.6 17.3 71.8 X4 6.1 5.1 9.1 6.9 4.6 7.3 5.4 8.1 5.8 6.4 5.4 7.2 7.2 5.8 7.6 8.2 8.7 7.8 5.8 6.7 4.4 6.7 6.1 6.9 5.5 6.9 7.3 4.5 4.8 5.8 7.8 7.4 3.6 4.4 7.9 7.1 6.8 8.4 7.0 7.5 7.0 6.8 5.9 8.3 6.7 6.2 8.9 4.3 7.0 6.9 6.2 5.2 7.9 X5 3.0 1.9 44.1 16.4 2.9 4.5 2.8 55.2 9.2 4.6 2.7 13.8 25.2 5.2 86.5 66.5 35.6 57.4 4.0 15.0 2.0 10.7 3.7 6.3 6.3 13.9 15.9 3.3 1.7 3.3 58.6 10.2 1.6 1.1 38.4 8.8 90.7 45.6 2.5 85.5 72.6 45.5 24.2 26.0 41.2 23.6 20.5 2.1 13.1 5.2 12.6 3.0 20.5 X6 0.7 3.2 128.3 3.5 1.8 44.1 3.4 33.7 1.6 22.5 14.9 4.0 11.6 5.8 71.1 78.6 80.1 13.9 4.6 17.0 9.6 9.5 21.0 32.1 1.6 21.5 24.7 7.0 14.8 0.7 43.8 32.7 3.2 3.2 16.1 45.2 16.5 152.4 12.8 20.1 6.4 6.2 1.6 68.2 24.1 9.6 9.6 6.4 4.6 16.5 27.7 2.6 8.8 X7 1.23 1.33 0.04 0.44 1.20 0.27 0.48 0.19 0.83 0.81 0.71 0.50 0.49 1.16 0.05 0.15 0.19 0.77 1.08 0.98 0.63 0.56 0.41 0.73 0.34 0.59 0.34 0.84 0.50 0.34 0.28 0.34 0.87 0.56 0.17 0.18 0.19 0.04 0.49 1.10 0.16 0.10 0.48 0.21 0.86 0.52 0.27 0.94 0.40 0.43 0.65 0.25 0.27 X8 5 7 6 12 12 14 10 12 24 12 12 12 7 43 11 10 40 6 10 6 12 12 12 12 10 36 10 8 11 10 10 10 12 13 12 13 13 4 12 10 14 12 10 12 12 12 6 10 12 11 44 12 12 X9 0.85 0.92 0.04 0.13 0.69 0.04 0.30 0.08 0.26 0.41 0.52 0.10 0.26 0.50 0.04 0.12 0.07 0.32 0.64 0.67 0.33 0.37 0.25 0.33 0.25 0.23 0.17 0.59 0.31 0.19 0.16 0.16 0.31 0.25 0.07 0.09 0.05 0.04 0.31 0.79 0.04 0.05 0.27 0.05 0.36 0.31 0.04 0.59 0.08 0.23 0.30 0.15 0.15 X10 1.43 1.90 0.06 0.84 1.50 0.48 0.72 0.38 1.40 1.47 0.86 0.73 1.01 2.03 0.11 0.18 0.43 1.50 1.33 1.44 0.93 0.94 0.61 2.04 0.62 1.12 0.52 1.38 0.84 0.69 0.59 0.65 1.90 1.02 0.30 0.29 0.37 0.06 0.63 1.41 0.26 0.26 1.05 0.48 1.40 0.95 0.40 1.24 0.90 0.69 1.10 0.40 0.51 X11 1.53 1.33 0.04 0.44 1.33 0.25 0.45 0.16 0.72 0.81 0.71 0.51 0.54 1.00 0.05 0.15 0.19 0.49 1.02 0.70 0.45 0.59 0.41 0.81 0.42 0.53 0.31 0.87 0.50 0.47 0.25 0.41 0.87 0.56 0.16 0.16 0.23 0.04 0.56 0.89 0.18 0.19 0.44 0.16 0.67 0.55 0.27 0.98 0.31 0.43 0.58 0.28 0.25 X12 1 0 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 los datos propiamente dichos empiezan en la segunda fila, escritos por columnas y separados uno de otro mediante tabulación. Para leer los datos desde Matlab utilizaremos la función dlmread. Observemos que las dos primeras columnas del fichero no son relevantes para los cálculos que queremos hacer, por lo que no se leerán. Sin embargo hay que tener en cuenta que Matlab interpreta que un fichero de texto empieza en la fila 0 columna 0. Por tanto, el primer dato a leer es 5.9, que se encuentra en la fila 1 columna 2, y el último dato a leer es 1, que se encuentra en la fila 53 columna 11: M = dlmread(’mercurio.txt’,’\t’,[1 2 53 11]); El símbolo ’\t’ indica que los datos están separados por tabulación. ESTADÍSTICOS DESCRIPTIVOS 21 Sólo queremos representar de forma conjunta las variables X3 , X6 , X7 , que son las columnas 1, 4, 5 de la matriz M. Así pues construimos una matriz X que contenga solamente estas columnas: X = [M(:,1) M(:,4:5)]; det(cov(X,1)) trace(cov(X,1)) plotmatrix(X) La Figura 2.2 muestra la dispersión de las columnas de la matriz X. 150 100 50 0 200 150 100 50 0 1.5 1 0.5 0 0 50 100 150 0 100 200 0 0.5 1 1.5 Figura 2.2. Datos de contaminación por mercurio (Problema 2.3) Consideremos la siguiente transformación lineal sobre X3 y X6 : Y3 = X3 /1000, Y6 = X6 /1000, que corresponde al cambio de unidades de medida g/l en lugar de mg/l. Y estudiemos ahora la dispersión entre Y3 , Y6 , X7 . Y=[X(:,1)/1000 X(:,2)/1000 X(:,3)]; det(cov(Y,1)) trace(cov(Y,1)) plotmatrix(Y) La Figura 2.3 muestra la dispersión entre las columnas de la matriz Y. Observad que si no se tienen en cuenta las unidades de medida, las formas de las nubes de puntos entre las Figuras 2.2 y 2.3 son muy parecidas. Consideremos ahora las siguientes transformaciones no lineales sobre X3 , X6 y X7 :  W3 = log(X3 ), W6 = log(X6 ), W7 = X7 , 22 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 0.2 0.15 0.1 0.05 0 0.2 0.15 0.1 0.05 0 1.5 1 0.5 0 0 0.1 0.2 0 0.1 0.2 0 0.5 1 1.5 Figura 2.3. Datos de contaminación por mercurio. Transformaciones lineales (Problema 2.3) que intentan simetrizar los datos, y estudiemos la dispersión entre ellas: W=[log(X(:,1)) log(X(:,2)) sqrt(X(:,3))]; det(cov(W,1)) trace(cov(W,1)) plotmatrix(W) La Figura 2.4 muestra la dispersión entre las columnas de la matriz W. La Tabla 2.3 resume las medidas de dispersión global para las tres matrices X, Y, W: Tabla 2.3. Medidas de dispersión global para las matrices del Problema 2.3 matriz X Y W tr (S) 2.3638e + 003 0.1165 3.1223 det(S) 6.9503e + 004 6.9503e − 008 0.0490 √ (b) Hemos elegido las transformaciones log(X3 ) y X7 . El código que dibuja los histogramas tridimensionales de la Figura 2.5 se detalla a continuación (Observación: la función hist3 de Matlab sólo está disponible en la Toolbox Statistics de la versión 7 y superiores). Suponemos que la matriz M es la misma que en (a). ESTADÍSTICOS DESCRIPTIVOS 23 6 4 2 0 6 4 2 0 −2 1.5 1 0.5 0 0 2 4 6 −5 0 5 10 0 0.5 1 1.5 Figura 2.4. Datos de contaminación por mercurio. Transformaciones no lineales (Problema 2.3) X = M(:,[5,1]); figure(1) hist3(X) ylabel(’x_3=alcalinidad’) xlabel(’x_7=mercurio’) view(50,50) Y = [sqrt(X(:,1)),log(X(:,2))] ; figure(2) hist3(Y) ylabel(’log(x_3)’) xlabel(’x_7^{1/2}’) view(50,50) Figura 2.5. Datos de contaminación por mercurio. Histograma tridimensional (Problema 2.3) 24 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 2.4 Considérese la muestra x1 , . . . , xn de vectores de Rp . Pruébese que la matriz de covarianzas n 1 S= (xi − x̄)(xi − x̄)′ n i=1 se puede expresar como 1 n ✞ ✝ SOLUCIÓN n i=1 xi x′i − x̄ x̄′ . ☎ ✆ Utilizando la propiedad distributiva de la multiplicación de matrices y que la traspuesta de la suma es la suma de las traspuestas, tenemos que n n i=1 (xi − x̄)(xi − x̄)′ = i=1 n = i=1 n = i=1 n = i=1 [xi (xi − x̄)′ − x̄(xi − x̄)′ ] (xi x′i − xi x̄′ − x̄x′i + x̄x̄′ ) i=1 n n n xi x′i − xi x̄′ − x̄ x̄x̄′ x′i + i=1 i=1 xi x′i − nx̄x̄′ − nx̄x̄′ + nx̄x̄′ . PROBLEMA 2.5 Considérese la matriz de datos ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ −2 1 4 3 0 −1 5 1 2 −1 3 6 2 −7 4 −1 0 −1 ⎞ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎠ que recoge n = 6 observaciones de un vector aleatorio X = (X1 , X2 , X3 )′ . (a) Calcúlense el vector de medias x̄ y la matriz de covarianzas muestrales Sx . ESTADÍSTICOS DESCRIPTIVOS 25 (b) Calcúlese la matriz de covarianzas muestrales de los datos estandarizados a media cero y varianza unidad. (c) Sea el vector aleatorio Y = (Y1 , Y2 ), donde Y1 = −X1 + 2X2 − X3 e Y2 = X1 + X2 . Calcúlense el vector de medias ȳ y la matriz de covarianzas muestrales Sy de Y. Calcúlese la matriz de observaciones de Y mediante una operación matricial en la que aparezca la matriz de datos de X. (d) Calcúlese √ la matriz de covarianzas del vector aleatorio Z = (Z1 , Z2 ), donde √ Z1 = Y1 / 6 y Z2 = Y2 / 2. (e) Calcúlense las matrices de correlaciones de X, Y, Z y de la matriz de datos obtenida en el apartado (b). ✞ ✝ SOLUCIÓN ☎ ✆ (a) El vector de medias muestrales de X es 1 x= 6 6 6 6 i=1 x3i x2i , x1i , i=1 i=1 ′ = (1, −0.33, 2.33)′ . La matriz de covarianzas muestrales de X es ⎛ ⎞ 6.33 −2.0000 −2.0000 9.8889 0.1111 ⎠ . Sx = ⎝ −2.00 −2.00 0.1111 6.8889 A continuación indicamos las instrucciones en Matlab que sirven para calcular estos estadísticos. Sea X la matriz de datos, que supondremos que ya tenemos introducida, y sean m el vector (fila) de medias, H la matriz de centrado y Sx la matriz de covarianzas . Entonces [n,p] = size(X); m = ones(n,1)’*X/n; H = eye(n)-ones(n,n)/n; Sx = X’*H*X/n; Las instrucciones internas de Matlab m=mean(X) y Sx=cov(X,1) proporcionan los mismos resultados. (b) Sean H la matriz de centrado , Xn la matriz de datos y Dx = diag(s11 , s22 , s33 ) la matriz diagonal que contiene la diagonal de Sx . Entonces la matriz de datos estandarizados es ⎛ ⎞ −1.1921 0.4240 0.6350 ⎜ 0.7947 0.1060 −1.2700 ⎟ ⎜ ⎟ ⎜ 1.5894 0.4240 −0.1270 ⎟ −1/2 ⎜ ⎟, HXn D =⎜ 1.0600 1.3970 ⎟ ⎜ −0.7947 ⎟ ⎝ 0.3974 −2.1200 0.6350 ⎠ −0.7947 0.1060 −1.2700 26 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE con matriz de covarianzas: ⎛ ⎞ 1.0000 −0.2527 −0.3028 1.0000 0.0135 ⎠ . = ⎝ −0.2527 −0.3028 0.0135 1.0000 Sx0 Sean H, n y p los calculados en (a). Entonces Sx0 se obtiene mediante: d = sqrt(diag(Sx)); Std = ones(n,1)*d’; X0 = (H*X)./Std; Sx0 = cov(X0,1); (c) Observemos que el vector Y se expresa como Y = X C′ , siendo C= −1 2 1 1 −1 0 . Es decir, Y es una combinación lineal de X. Por tanto, ⎛ ⎞ 1 −1 2 −1 ⎝ −0.33 ⎠ = y = Cx = 1 1 0 2.33 −4 0.67 y Sy = C Sx C′ = 56.33 13.33 13.33 12.22 . Instrucciones en MATLAB: C = [-1 2 -1; 1 1 0]; Y = X*C’; my = m*C’; Sy = C*Sx*C’; La primera instrucción calcula los valores observados de Y. Podéis comprobar que mediante mean(Y) y cov(Y,1) se llega al mismo resultado. (d) Observemos que el vector Z se escribe como Z = X D′ , donde √ √ √ −1/√ 6 2/√6 −1/ 6 D= , 1/ 2 1/ 2 0 cuyas filas coinciden con las filas de la matriz C estandarizadas a norma unidad. Procediendo como en el apartado (b), obtenemos Sz = D′ Sx D = 9.39 3.85 3.85 6.11 . ESTADÍSTICOS DESCRIPTIVOS 27 En Matlab escribiremos: D = [-1/sqrt(6) 2/sqrt(6) -1/sqrt(6) 1/sqrt(2) 1/sqrt(2) 0]; Z = X*D’; Sz = D*Sx*D’; (e) Utilizaremos las mismas instrucciones que en el apartado (c) del Problema 2.2. Si llamamos Rx, Ry y Rz a las matrices de correlaciones de X, Y y Z, y Rx0 a la matriz de correlaciones de los datos estandarizados, entonces: dx = (diag(Sx)).^(-0.5); Rx = diag(dx)*Sx*diag(dx); dx0 = (diag(Sx0)).^(-0.5); Rx0 = diag(dx0)*Sx0*diag(dx0); dy = (diag(Sy)).^(-0.5); Ry = diag(dy)*Sy*diag(dy); dz = (diag(Sz)).^(-0.5); Rz = diag(dz)*Sz*diag(dz); Observad que las matrices de correlaciones de X y de los datos estandarizados coinciden con la matriz de covarianzas de éstos últimos, y que las matrices de correlaciones de Y y de Z también coinciden. Comprobad que utilizando la instrucción interna de Matlab Rx=corrcoef(X) se llega a los mismos resultados. PROBLEMA 2.6 Consideremos las n = 5 observaciones ⎛ ⎜ ⎜ ⎜ ⎜ ⎝ 1 6 3 8 −2 7 5 −3 2 0 ⎞ ⎟ ⎟ ⎟, ⎟ ⎠ de un vector aleatorio X = (X1 , X2 )′ . Definimos las combinaciones lineales c′ X y b′ X donde c = (−2, 1)′ y b = (−1, 3)′ . (a) Calculando los valores observados de las combinaciones lineales en cada una de las filas de la matriz de datos, obténganse las medias, las varianzas y la covarianza entre c′ X y b′ X. (b) Obténganse los estadísticos pedidos en (a), pero utilizando las expresiones matriciales que relacionan los momentos muestrales de una combinación lineal con aquéllos (x̄ y S) de X. (c) Obténgase el vector de medias muestral del vector aleatorio (X12 , X22 )′ . 28 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) Los valores observados de las combinaciones c′ X y b′ X vienen dados por Datosc y Datosb respectivamente. La media muestral de los valores observados de c′ X es mc y la de los valores observados de b′ X es mb. La varianza muestral de c′ X es vc y la de b′ X es vb. La covarianza entre c′ X y b′ X es covbc(1,2). X = [ 1 6 ; 3 b = [-1 ; 3] ; Datosb = X*b ; 8 ; -2 7 ; 5 -3 ; 2 c = [-2 ; 1]; 0] ; Datosc = X*c ; mb = mean(Datosb) ; mc = mean(Datosc) ; vb = var(Datosb,1) ; vc = var(Datosc,1) ; covbc = cov(Datosb,Datosc,1) ; (b) El vector de medias muestrales de X es x̄ = (1.8, 3.6)′ y su matriz de covarianzas es S= 5.36 −6.28 −6.28 18.64 . La media muestral de c′ X es c′ x̄ = (−2, 1) 1.8 3.6 =0 y, análogamente, la media muestral de b′ X es b′ x̄ = 9. La varianza muestral de c′ X es c′ Sc = 65.2 y la de b′ X es b′ Sb = 210.8. La covarianza muestral entre c′ X y b′ X es c′ Sb = b′ Sc = 110.6. A continuación se pueden ver las instrucciones de Matlab que hacen estos cálculos. m = mean(X) ; S = cov(X,1) ; mb = b’ * m’ ; mc = c’ * m’ ; vb = b’ * S * b ; vc = c’ * S * c ; covbc12 = b’ * S * c ; (c) El vector de medias muestral de (X12 , X22 )′ viene dado por ⎛ ⎞ 4 1 2 xi1 ⎟ ⎜ ⎜ 4 ⎟ 8.6 ⎜ i=1 ⎟= , 4 ⎜ ⎟ 31.6 ⎝ 1 2 ⎠ x 4 i=1 i2 siendo xij el elemento (i, j) de la matriz de datos X. Para calcularlo con Matlab, escribimos: Y = X.^2 ; my = mean(Y) ; ESTADÍSTICOS DESCRIPTIVOS 29 Otra posibilidad es recordar que la varianza muestral correspondiente a X1 , la primera componente de X, es: 4 1 x2 − x̄21 . s11 = 4 i=1 i1 Por tanto, 1 4 4 x2i1 = s11 + x̄21 = 5.36 + 1.82 = 8.6. i=1 Análogamente, si s22 denota la varianza muestral de X2 , tenemos que 1 4 4 x2i2 = s22 + x̄22 = 18.64 + 3.62 = 31.6. i=1 PROBLEMA 2.7 Un biólogo recoge medidas (en mm.) de los cráneos en dos especies, A y B, de ratones. Concretamente observa tres variables X1 , X2 y X3 en un conjunto de ratones de los cuales nA = 50 son de la especie A y los restantes nB = 60 son de la especie B. (a) Denotemos por XA la matriz de datos observados en la especie A. Si X′A 150 = (25.5, 14.1, 11.3)′ y ⎛ ⎞ 40.2 10.9 15.6 X′A XA = ⎝ 10.9 13.7 14.5 ⎠ , 15.6 14.5 20.1 calcúlense el vector de medias x̄A y la matriz de covarianzas SA correspondientes a esta especie. (b) Denotemos por XB la matriz de observaciones de la especie B. Si X′B 160 = (26.3, 15.5, 10.0)′ y ⎛ ⎞ 50.7 32.6 24.8 X′B XB = ⎝ 32.6 29.0 12.6 ⎠ , 24.8 12.6 35.8 calcúlense las medias muestrales x̄B y la matriz de covarianzas SB de la especie B. (c) Calcúlense las medias muestrales x̄ y la matriz de covarianzas S para la totalidad de los n = 110 ratones. 30 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) Supongamos que los datos están ordenados de manera que los 50 primeros son los de la especie A y los 60 últimos son de la especie B. Entonces tenemos que ⎛ X′A 150 Por tanto, Por otro lado, observemos que y xi1 ⎟ ⎟ ⎟ ⎟ ⎟ xi2 ⎟ . ⎟ i=1 ⎟ 50 ⎟ ⎠ xi3 i=1 50 i=1 ⎛ ⎞ 0.5 1 ′ x̄A = X 150 = ⎝ 0.3 ⎠ . 50 A 0.2 ⎛ X′A XA ⎜ ⎜ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎜ ⎝ ⎞ 50 ⎜ ⎜ ⎜ ⎜ ⎜ =⎜ ⎜ ⎜ ⎜ ⎝ 50 50 x2i1 50 xi1 xi2 i=1 47 i=1 50 i=1 50 i=1 47 xi1 xi3 i=1 xi1 xi3 ⎟ ⎟ ⎟ ⎟ ⎟ xi2 xi3 ⎟ ⎟ i=1 ⎟ 50 ⎟ ⎠ 2 xi3 i=1 50 x2i2 xi1 xi2 xi2 xi3 i=1 ⎞ i=1 ⎛ Luego ⎞ 0.3 0.1 0.1 x̄A x̄′A = ⎝ 0.1 0.1 0.1 ⎠ . 0.1 0.1 0.1 ⎛ ⎞ 0.5 0.1 0.2 1 ′ ′ SA = X XA − x̄A x̄A = ⎝ 0.1 0.2 0.2 ⎠ . 50 A 0.2 0.2 0.4 Las instrucciones para hacer estos cálculos en Matlab son las siguientes: nA = 50 ; DatoA1 = [ 25.5,14.1,11.3 ]’; DatoA2 = [ 40.2 10.9 15.6 10.9 13.7 14.5 15.6 14.5 20.1 ] ; MediaA = DatoA1 / nA ; SA = DatoA2 / nA - MediaA * MediaA’ ; ESTADÍSTICOS DESCRIPTIVOS 31 (b) Este apartado se resuelve de forma análoga al anterior y los resultados son: ⎛ ⎞ 0.4 x̄B = ⎝ 0.3 ⎠ 0.2 y ⎛ ⎞ 0.7 0.4 0.3 SB = ⎝ 0.4 0.4 0.2 ⎠ . 0.3 0.2 0.6 (c) El vector de medias viene dado por ⎞ ⎛ 110 ⎜ ⎜ ⎜ 1 ⎜ ⎜ x̄ = ⎜ 110 ⎜ ⎜ ⎜ ⎝ xi1 ⎟ ⎟ ⎞ ⎛ ⎟ 0.5 ⎟ 1 ⎟ (X′ 150 + X′B 160 ) = ⎝ 0.3 ⎠ . xi2 ⎟ = ⎟ 110 A i=1 0.2 ⎟ 110 ⎟ ⎠ xi3 i=1 110 i=1 La matriz de covarianzas es S= 1 ′ X X − x̄ x̄′ , 110 donde X= por tanto, Con Matlab XA XB , ⎛ ⎞ 0.6 0.3 0.3 1 (X′ XA + X′B XB ) − x̄ x̄′ = ⎝ 0.3 0.3 0.2 ⎠ . S= 110 A 0.3 0.2 0.5 n = nA + nB ; Media = (DatoA1 + DatoB1)/n ; S = (DatoA2 + DatoB2)/n - Media*Media’ ; 32 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 2.8 La Tabla 2.4 contiene 10 observaciones de un vector X = (X1 , X2 , X3 , X4 )′ , donde X1 = Longitud de cabeza del primer hijo de una familia, X2 = Anchura de cabeza de ese mismo hijo, X3 = Longitud de cabeza del segundo hijo de la misma familia y X4 = Anchura de cabeza de este segundo hijo (Fuente: Frets 1921). Divídase X de la siguiente manera: ⎞ ⎛ X1 (1) ⎜ X2 ⎟ ⎟= X X=⎜ . ⎝ X3 ⎠ X(2) X4 (a) Para X(1) y X(2) calcúlense, respectivamente, estimaciones de los vectores de esperanzas, E(X(1) ) y E(X(2) ), de las matrices de covarianzas, Var(X(1) ) y Var(X(2) ), y también de la matriz de covarianzas cruzadas Cov(X(1) , X(2) ). (b) Dadas las matrices A= 1 −1 1 1 y B=  −3 2  , calcúlense estimaciones de E(AX(1) ), Var(BX(2) ) y Cov(AX(1) , BX(2) ). Tabla 2.4. Dimensiones de cabeza de dos hermanos (Frets 1921) Primer hijo Longitud cabeza Ancho cabeza 191 155 195 149 181 148 183 153 176 144 208 157 189 150 197 159 188 152 192 150 Segundo hijo Longitud cabeza Ancho cabeza 179 145 201 152 185 149 188 149 171 142 192 152 190 149 189 152 197 159 187 151 ESTADÍSTICOS DESCRIPTIVOS 33 ✞ ✝ SOLUCIÓN ☎ ✆ (a) Para calcular las estimaciones de los vectores de medias utilizaremos el siguiente código Matlab, en el que suponemos que ya hemos introducido la matriz X de datos de dimensión 10 × 4: MediaHijo1 = mean(X(:,[1,2])) MediaHijo2 = mean(X(:,[3,4])) o, alternativamente, también podemos hacer: Media = mean(X) ; MediaHijo1 = Media(1,[1,2]) MediaHijo2 = Media(1,[3,4]) Los resultados que se obtienen son x̄(1) = (190, 151.7)′, x̄(2) = (187.9, 150)′. Las estimaciones de las matrices de covarianzas se calculan mediante: S = cov(X,1) ; VarianzasHijo1 = S([1,2],[1,2]) VarianzasHijo2 = S([3,4],[3,4]) CovHijo1Hijo2 = S([1,2],[3,4]) y los resultados son: S(1) = 73.4 26.6 18.0 , S(2) = 65.1 29.8 18.6 , S(1,2) = 37.8 16.8 7.0 . (b) Las estimaciones de la esperanza E (AX(1) ) y de la varianza Var (BX(2) ) son, respectivamente, A x̄(1) = (38.3, 341.7)′ y BS(2) B′ = 302.6. Por último, la estimación de la covarianza cruzada Cov (AX(1) , BX(2) ) es AS(1,2) B′ = (−61.7900, −97.8)′. Una vez introducidas en Matlab las transformaciones lineales A y B, las instrucciones que calculan estos resultados son: AMediaHijo1 = A * MediaHijo1’ BVarianzasHijo2 = B * VarianzasHijo2 * B’ CovAHijo1BHijo2 = A * CovHijo1Hijo2 * B’ 34 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 2.9 Considérese el vector Y formado sólo por las dos componentes X1 y X2 del Problema 2.8 centradas respecto de la media muestral (x̄1 , x̄2 )′ . Represéntense las observaciones del vector Y, yi , para i = 1, . . . , 10, mediante un diagrama de dispersión. A continuación considérese el vector a = (15, 8)′ y, sobre el diagrama de dispersión, trácese (a mano o con Matlab) la recta de dirección a que pasa por el origen. Márquese sobre esta recta la proyección ortogonal de yi sobre a, para i = 1, . . . , 10, y denótese por li cada una de estas longitudes. Calcúlese la varianza muestral de las longitudes li , i = 1, . . . , 10. Si, en lugar del vector a, se considera el vector b = (15, −15)′ , ¿qué cambios se observan? ✞ ✝ SOLUCIÓN ☎ ✆ Suponemos ya introducida en Matlab la matriz de datos X que contiene las dos primeras columnas de la Tabla 2.4. Para realizar el diagrama de dispersión escribimos: Media = mean(X) ; [n,p] = size(X) ; Y = X-ones(n,1)*Media ; plot(Y(:,1),Y(:,2),’ok’,’MarkerFaceColor’,’k’,’MarkerSize’,7) xlabel(’y_1’) ylabel(’y_2’) axis([-15 20 -15 20]) El resultado son los círculos rellenos de la Figura 2.6. La longitud li de la proyección de yi = (yi1 , yi2 )′ sobre a = (a1 , a2 )′ viene dada por li = c1 yi1 +c2 yi2 (véase el Problema 1.2), siendo c = (c1 , c2 )′ = a/a. Análogamente, se obtendrían las longitudes para las proyecciones de yi sobre el vector b. Las siguientes instrucciones permiten realizar los cálculos en Matlab: a = [15;8]; b = [15;-15]; c = a/norm(a); d = b/norm(b); La = Y*c; Lb = Y*d; var(La) var(Lb) La varianza resultante de las proyecciones sobre el vector a es var(La)=92.47, mientras que proyectando sobre b la varianza es var(Lb)=21.23, que es bastante menor. Para añadir estas proyecciones al gráfico anterior, escribimos: Ya = La*c’; Yb = Lb*d’; hold on plot(Ya(:,1),Ya(:,2),’^b’) plot(Yb(:,1),Yb(:,2),’*r’) Las proyecciones sobre a y b aparecen representadas en la Figura 2.6 con triángulos y estrellas, respectivamente. En las técnicas de análisis multivariante que se exponen a partir del Capítulo 4 es importante tener en cuenta las consecuencias de elegir distintas direcciones sobre las que proyectar los datos. ESTADÍSTICOS DESCRIPTIVOS 35 20 15 10 a y2 5 0 −5 b −10 −15 −15 −10 −5 0 5 y 10 15 1 Figura 2.6. Proyección ortogonal de observaciones (Problema 2.9) 20 CAPÍTULO 3 Distribuciones multivariantes En este capítulo se presentan diversos conceptos y herramientas estadísticas útiles para describir la distribución de un vector aleatorio: vector de medias, matriz de covarianzas, función de densidad, . . . A lo largo del tema se hace hincapié en las distintas propiedades de los momentos de un vector aleatorio (por ejemplo, bajo transformaciones lineales del mismo). También se trabaja con la distribución más importante en el contexto multivariante, la distribución normal. Con diversos ejercicios se repasan las propiedades que caracterizan esta distribución, entre otras que es el límite al que converge la media muestral (Teorema Central del Límite). Por último, se consideran algunas otras distribuciones, como la T 2 de Hotelling , la ley de Wishart o la Lambda de Wilks, que resultan esenciales a la hora de hacer inferencia sobre datos multivariados. PROBLEMA 3.1 Sea X un vector aleatorio p-dimensional de media µ y matriz de varianzas-covarianzas I (la matriz identidad de dimensión p × p). Dada una matriz cuadrada de orden p, A, considérese la nueva variable Y = X′ A X y demuéstrese que E(Y ) = tr(A) + µ′ Aµ . ✞ ✝ SOLUCIÓN ☎ ✆ Si denotamos por X = (X1 , X2 , . . . , Xp )′ y A = (aij )1≤i,j≤p , entonces p ′ aij Xi Xj . Y = X AX = i,j=1 38 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Por tanto, p E (Y ) = p aij E (Xi Xj ) = i,j=1 p aii E (Xi2 ) aij E (Xi Xj ). + i, j = 1 i = j i=1 Puesto que la matriz de covarianzas de X es la identidad, tenemos que E (Xi2 ) = 1 + μ2i , para i = 1, . . . , p, y también que E (Xi Xj ) = E (Xi ) E (Xj ) = μi μj , para todo i = j. Entonces p p aii (1 + μ2i ) + E (Y ) = p p aij μi μj = tr(A) + µ′ Aµ. aii + = i=1 aij μi μj i, j = 1 i = j i=1 i,j=1 PROBLEMA 3.2 Supongamos que X1 , X2 , X3 son v.a. independientes con varianza unidad. Sean Y1 = X1 + X2 + X3 , Y2 = X1 − X2 e Y3 = X1 − X3 . Calcúlense las matrices de varianzas-covarianzas y de correlaciones de Y = (Y1 , Y2 , Y3 )′ . ✞ ✝ SOLUCIÓN ☎ ✆ La matriz de covarianzas de X es Var (X) = I, la matriz identidad de dimensión 3 × 3. Puesto que Y = A X, siendo ⎛ ⎞ 1 1 1 0 ⎠, A = ⎝ 1 −1 1 0 −1 la matriz de varianzas-covarianzas de Y es ⎛ 3 Var (Y) = A A′ = ⎝ 0 0 y la matriz de correlaciones es ⎛ 1 0 ⎜ 0 Corr (Y) = ⎜ ⎝ 1 1 2 0 ⎞ 0 0 2 1 ⎠ 1 2 ⎞ 0 1 ⎟ ⎟ 2 ⎠. 1 DISTRIBUCIONES MULTIVARIANTES 39 PROBLEMA 3.3 Sea X = (X1 , X2 , X3 )′ un vector aleatorio tridimensional. Se sabe que el vector Y = (Y1 , Y2 , Y3 )′ ha sido generado del siguiente modo: Y = B X, donde ⎛ ⎞ 1 0 1 B = ⎝ −1 1 1 ⎠ 0 1 −1 es una matriz no singular. Se sabe también que E(Y) = (2, 1, 0)′ y que la matriz de covarianzas de Y es ⎛ ⎞ 5 −1 0 Var(Y) = ⎝ −1 2 −1 ⎠ . 0 −1 2 (a) Hállese la covarianza entre Z1 = Y2 − Y1 y Z2 = Y1 + Y3 . (b) Calcúlense µ = E(X) y Σ = Var(X), la matriz de covarianzas de X. (c) Si se define Y = B (X − µ) ¿cuál sería E(Y)? ¿Cómo es la fórmula para hallar ahora Var(Y) a partir de µ y Σ? ¿Depende de µ? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Cov (Z1 , Z2 ) = (−1, 1, 0) Var (Y) (1, 0, 1)′ = −7 . (b) Sabemos que Y = BX, por lo que tendremos que X = B−1 Y. Por tanto, ⎛ ⎞⎛ ⎞ ⎛ ⎞ 2 −1 1 2 1 1 1 2 ⎠⎝ 1 ⎠ = ⎝ 1 ⎠, µ = B−1 E (Y) = ⎝ 1 3 1 1 −1 0 1 ⎛ ⎞ 10 4 1 1 Σ = B−1 Var (Y)(B−1 )′ = ⎝ 4 3 0 ⎠ . 3 1 0 3 (c) Si ahora tenemos Y = B (X − µ), esto implica que E (Y) = B(µ − µ) = 0 y Var (Y) = B Var (X) B′ , es decir, la varianza no se ve afectada por traslaciones. 40 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 3.4 Sea X un vector con distribución uniforme en el rectángulo [0, 2] × [3, 4]. (a) Especifíquese la función de densidad de X. Calcúlense E(X) y Var(X).  (b) Sea X1 , . . . , X30 una muestra aleatoria simple de X y X̄ = 30 i=1 Xi /30 la media muestral correspondiente. Calcúlense E(X̄) y Var(X̄). (c) Genérese con Matlab una realización de la muestra del apartado anterior. Calcúlense la media x̄ y la matriz de covarianzas muestrales S. Dibújese en un gráfico de dispersión la muestra y márquense los puntos E(X̄) y x̄. (d) Genérense con Matlab 40 muestras de tamaño 5, calcúlense sus correspondientes medias muestrales y dibújense éstas en un gráfico en el que se marque también E(X̄). Repítase este proceso en gráficos distintos para 40 muestras de tamaño 20 y otras 40 de tamaño 50. ¿Qué se observa? ✞ ✝ SOLUCIÓN ☎ ✆ (a) La densidad es f (x1 , x2 ) =  1/2, si x ∈ [0, 2] × [3, 4], 0, en otro caso. El vector de esperanzas de X es E (X) = (E (X1 ), E (X2 ))′ , donde  ∞ E (Xi ) = xi fi (xi ) dxi , −∞ para i = 1, 2, siendo fi la función de densidad marginal de la variable aleatoria Xi . Puesto que X1 y X2 son v.a. independientes entre sí y con ley uniforme en los intervalos [0, 2] y [3, 4], respectivamente, E (X) = (1, 3.5)′ , que es el punto central del rectángulo y Cov (X1 , X2 ) = 0. Por otro lado, Var (Xi ) = E (Xi2 ) − E (Xi )2 , luego Var (X) ≃ 0.33 0 0 8.83 . (b) E (X̄) = E (X) y Var (X̄) = Var (X)/30. (c) El siguiente código resuelve este apartado y genera la Figura 3.1. n X X m S = = = = = 30 ; p = 2 ; rand(n,p) ; % Muestra de una Unif[0,1]*[0,1] [2*X(:,1),3+X(:,2)] ; % Muestra de Unif[0,2]*[3,4] mean(X) ; % Media muestral cov(X,1) ; % Matriz de varianzas-covarianzas muestrales DISTRIBUCIONES MULTIVARIANTES 41 plot(X(:,1),X(:,2),’o’,’MarkerFaceColor’,’k’,... ’MarkerEdgeColor’,’k’) axis([0 2 3 4]) hold on plot(m(1),m(2),’k*’,’MarkerSize’,8) hold on plot(1,3.5,’ko’,’MarkerSize’,8) 4 3.9 3.8 3.7 3.6 x 3.5 E(X) 3.4 3.3 3.2 3.1 3 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Figura 3.1. Diagrama de dispersión de muestra uniforme en [0, 2] × [3, 4] (Problema 3.4) (d) Se observa que, a mayor tamaño muestral, menor dispersión de la media muestral y mejor estima ésta la esperanza de X. Una propuesta de código es la que sigue, pero retamos al lector a sustituir los bucles for por operaciones matriciales (esto reduce el tiempo de ejecución). Los gráficos resultantes se pueden ver en la Figura 3.2. N = 40 ; % Numero de muestras Vector_n = [5,20,50]; for i = 1:length(Vector_n) n = Vector_n(i); % Tamanio muestral MatrizMedias = zeros(N,2) ; for num =1:N X = [2*rand(n,1),3+rand(n,1)] ; MatrizMedias(num,:) = mean(X) ; end figure(i+1) plot(MatrizMedias(:,1),MatrizMedias(:,2),’o’,... ’MarkerFaceColor’,’k’,’MarkerEdgeColor’,’k’) axis([0 2 3 4]) title([’40 medias muestrales con tamanio muestral ’,... num2str(n)]) hold on plot(1,3.5,’ko’,’MarkerSize’,8) hold off end 42 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 4 4 4 3.9 3.9 3.9 3.8 3.8 3.8 3.7 3.7 3.7 3.6 3.6 3.6 3.5 3.5 3.5 3.4 3.4 3.4 3.3 3.3 3.3 3.2 3.2 3.2 3.1 3.1 3 0 0.5 1 1.5 2 3 3.1 0 0.5 (a) 1 1.5 2 3 0 (b) 0.5 1 1.5 2 (c) Figura 3.2. Medias muestrales con tamaño muestral (a) 5, (b) 20, (c) 50 (Problema 3.4) PROBLEMA 3.5 Sea X un vector aleatorio de distribución normal con media µ = (−1, 1, 0)′ y matriz de covarianzas ⎛ ⎞ 1 0 1 Σ=⎝ 0 3 1 ⎠ 1 1 2 (a) Hállese la distribución de X1 + 2X2 − 3X3 . (b) Hállese un vector a(2×1) , tal que las variables X1 y X1 − a′ X2 X3 sean independientes. (c) Calcúlese la distribución de X3 condicionada a X1 = x1 y X2 = x2 . ✞ ✝ SOLUCIÓN ☎ ✆ (a) Se verifica que Y = X1 + 2X2 − 3X3 = b′ X con b = (1, 2, −3)′ . Por tanto, Y ∼ N (b′ µ, b′ Σb) = N (1, 13). (b) Por la hipótesis de normalidad X1 y X1 − a′ Cov X1 , X1 − a′ X2 X3 X2 X3 son independientes si y sólo si = 0. Por tanto, debemos hallar a = (a1 , a2 )′ tal que se verifique esta última condición. Puesto que Cov X1 , X1 − a′ X2 X3 = (1, 0, 0) Σ (1, −a1, −a2 )′ = 1 − a2 , deducimos que a2 = 1. Por ejemplo, podemos tomar a = (0, 1)′ . DISTRIBUCIONES MULTIVARIANTES 43 (c) La variable X3 |X1 = x1 , X2 = x2 sigue una distribución N (μc , Σc ), donde μc = μ3 + Cov X3 , X1 X2 (Var (X1 , X2 )) −1 x1 μ − 1 x2 μ2 −1 = μ3 + (Cov (X3 , X1 ), Cov (X3 , X2 )) (Var (X1 , X2 )) = 0 + (1, 1) 1 3 Σc = Var (X3 ) − Cov X3 , = 2 − (1, 1) 1 3 x1 + 1 x2 − 1 3 0 0 1 3 0 0 1 X1 X2 = x1 − μ1 x2 − μ2 1 (3x1 + x2 + 2) , 3 −1 (Var (X1 , X2 )) Cov X3 , (1, 1)′ = X1 X2 ′ 2 . 3 PROBLEMA 3.6 Sean X1 , X2 y X3 tres variables aleatorias con distribución conjunta normal con vector de medias µ = (0, 0, 0)′ y matriz de varianzas-covarianzas ⎛ ⎞ 1 0 0 Σ=⎝ 0 2 −1 ⎠ . 0 −1 2 Calcúlese la distribución conjunta de (a) Y1 = X1 + X3 e Y2 = X2 + X3 , (b) Z1 = 3X1 − 2X2 , Z2 = 2X1 − X2 + X3 y Z3 = 3X3 . ✞ ✝ SOLUCIÓN ☎ ✆ (a) Sean X = (X1 , X2 , X3 )′ y A la transformación lineal siguiente: A= 1 0 0 1 1 1 . Entonces Y = (Y1 , Y2 )′ = A X, es una combinación lineal de X y, por tanto, tiene una distribución normal de parámetros E (Y) = A µ = (0, 0)′ y Var (Y) = A Σ A′ = 3 1 1 2 . 44 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) Consideremos ahora la transformación lineal dada por la matriz ⎛ ⎞ 3 −2 0 B = ⎝ 2 −1 1 ⎠ 0 0 3 y observemos que Z = (Z1 , Z2 , Z3 )′ = B X. Por tanto, Z sigue una distribución normal de media E (Z) = 0 y ⎛ ⎞ 17 12 6 Var (Z) = B Σ B = ⎝ 12 10 9 ⎠ . 6 9 18 PROBLEMA 3.7 Sea X = (X1 , X2 , X3 )′ un vector aleatorio tridimensional que sigue una distribución normal con media µ = (1, 0, −2)′ y matriz de varianzas-covarianzas ⎛ ⎞ 2 −1 0 4 1 ⎠. Σ = ⎝ −1 0 1 6 (a) Escríbase la forma cuadrática Q(x1 , x2 , x3 ) del exponente de la densidad del vector aleatorio X. (b) Escríbase la matriz de covarianzas cruzadas entre X1 X3 y X2 . (c) Encuéntrese la correlación entre X1 y X3 condicionadas por X2 = x2 . (d) Hállese var(X1 |X2 = x2 ) y compárese con var(X1 ). ✞ ✝ SOLUCIÓN ☎ ✆ (a) Sea x = (x1 , x2 , x3 )′ un vector de R3 . Puesto que ⎛ ⎞ 23 6 −1 1 ⎝ 6 12 −2 ⎠ , Σ−1 = 40 −1 −2 7 entonces 1 Q(x) = − (x − µ)′ Σ−1 (x − µ) = 2 ⎛ ⎞ ⎞⎛ 23 6 −1 x1 − 1 1 = − (x1 − 1, x2 , x3 + 2) ⎝ 6 12 −2 ⎠ ⎝ x2 ⎠ . 80 x3 + 2 −1 −2 7 DISTRIBUCIONES MULTIVARIANTES 45 (b) Cov X1 X3 , X2 = Cov (X1 , X2 ) Cov (X3 , X2 ) −1 1 = . (c) La distribución de (X1 , X3 )′ condicionada por X2 = x2 es una normal bivariante con matriz de covarianzas Σc = 2 0 0 6 − −1 1 1 1 (−1, 1) = 4 4 7 1 1 23 . Por tanto, la correlación entre X1 y X3 condicionadas por X2 = x2 es 1 1/4 corr (X1 , X3 |X2 = x2 ) =  ≃ 0.079. =√ 7 · 23 7/4 · 23/4 (d) A partir de los cálculos realizados en el apartado (c), vemos que var (X1 |X2 = x2 ) = 7/4 , que es menor que var (X1 ) = 2. Esto es razonable puesto que, al condicionar a X2 = x2 , tenemos mayor información acerca de X1 y su variabilidad disminuye respecto a la distribución sin condicionar. PROBLEMA 3.8 Sean X1 , X2 , X3 y X4 vectores aleatorios independientes con distribución N2 (µ, Σ), donde µ = (1, 2)′ y 1 0.1 Σ= . 0.1 2 (a) Hállese la distribución del vector aleatorio Y= 1 1 1 1 X1 − X2 + X3 − X4 . 4 4 4 4 (b) Escríbase y dibújese (con Matlab) la densidad del vector Y dado en (a). (c) Calcúlese la correlación ρ correspondiente a la matriz de covarianzas Σ. Cámbiese el valor de ρ y vuélvase a dibujar la densidad de Y. ¿Qué cambios se observan? 46 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) El vector Y sigue una distribución normal bivariante de media E (Y) = 1 1 1 1 − + − 4 4 4 4 µ=0 y matriz de covarianzas ΣY = 1 4 2 1 + − 4 2 + 1 4 2 1 + − 4 2  Σ= 1 Σ. 4 (b) Como E (Y) = 0 la función de densidad de Y = (Y1 , Y2 )′ tiene la expresión f (y) = 1 1 exp − (y1 , y2 )Σ−1 Y 2 2π|ΣY |1/2 y1 y2 . Para dibujar la función f (véase la Figura 3.3.a) escribimos: mu = [ 1 ; 2 ] ; Sigma = [ 1 0.1 ; 0.1 2 ] ; c = [ 1/4 , -1/4 , 1/4 , -1/4 ] ; mY = sum(c) * mu ; SY = sum(c.^2) *Sigma ; y1 = [-2:0.1:2] ; y2 = [-2:0.1:2] ; [Y1,Y2] = meshgrid(y1,y2) ; [m,n] = size(Y1) ; f = zeros(m,n) ; for i = 1:m for j=1:n y = [ Y1(i,j) ; Y2(i,j) ] ; f(i,j) = exp(-0.5*(y-mY)’*inv(SY)*(y-mY))/... (2*pi*sqrt(det(SY))); end end mesh(Y1,Y2,f) view(-57,40) xlabel(’y_1’) ylabel(’y_2’) √ (c) La correlación que nos piden es ρ = 0.1/ 2 ≃ 0.071. Si cambiamos su valor a, por ejemplo, ρ = 0.8 sin alterar las varianzas de Σ, la matriz pasa a ser √ 1 2ρ √ Σ= . 2ρ 2 Esta matriz la introduciremos mediante el código rho = 0.8; NewSigma = zeros(size(Sigma)) ; NewSigma(2,2) = Sigma(2,2) ; NewSigma(1,1) = Sigma(1,1) ; NewSigma(1,2) = sqrt(Sigma(1,1)*Sigma(2,2))*rho ; NewSigma(2,1) = NewSigma(1,2) ; DISTRIBUCIONES MULTIVARIANTES 47 y el resto se hace de manera análoga al apartado (b). En la Figura 3.3.b se encuentra la representación gráfica de esta nueva densidad del vector Y. Observad cómo varía su forma en función de ρ. 0.5 0.8 0.4 0.6 0.3 0.4 0.2 0.1 2 0 2 0.2 0 1 0 1 −2 2 −2 0 1 0 −1 −1 y 2 0 2 1 y −1 −1 1 y −2 2 (a) −2 y 1 (b) Figura 3.3. Densidad de un vector normal para (a) ρ = 0.071 y (b) ρ = 0.8. (Problema 3.8) PROBLEMA 3.9 Consideremos la muestra ⎛ 2 ⎜ −4 X=⎜ ⎝ −2 −7 ⎞ 6 −3 8 7 ⎟ ⎟ 9 7 ⎠ 8 2 de una población N3 (µ, Σ) con µ y Σ desconocidos. (a) Calcúlese el estimador de máxima verosimilitud de µ. (b) Calcúlese un estimador insesgado de Σ. (c) Calcúlese la matriz de varianzas-covarianzas muestrales. ✞ ✝ SOLUCIÓN ☎ ✆ (a) El estimador de máxima verosimilitud de µ es la media muestral x̄ = (−2.75, 7.75, 3.25)′. (b) Si denotamos por H la matriz de centrado, un estimador insesgado de Σ es ⎛ ⎞ 14.2 −2.9 −8.8 1 1.6 5.4 ⎠ . X′ HX = ⎝ −2.9 S̃ = n−1 −8.8 5.4 22.9 48 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (c) La matriz de varianzas-covarianzas muestrales es ⎛ ⎞ 10.7 −2.2 −6.6 1 ′ S = X HX = ⎝ −2.2 1.2 4.1 ⎠ . n −6.6 4.1 17.2 PROBLEMA 3.10 Sea X1 , . . . , X80 una muestra de una población con media µ y matriz de covarianzas Σ. (a) ¿Cuál es la distribución aproximada de 80 Xi /80 ? X̄ = i=1 (b) Tómense N = 200 muestras de tamaño n = 80 de un vector X = (X1 , X2 )′ con distribución uniforme en el cuadrado [0, 1] × [0, 1]. Calcúlense las medias x̄1 , . . . , x̄N de estas muestras y dibújese el histograma correspondiente a las medias, comprobando si se asemeja a una densidad normal. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Por el Teorema Central del Límite el vector X̄ sigue aproximadamente una distribución normal de media µ y matriz de covarianzas Σ/75. (b) El siguiente código dibuja el histograma pedido. N = 200 ; n = 80 ; MatrizMedias = zeros(N,2) ; for i = 1:N muestra = rand(n,2) ; MatrizMedias(i,:) = mean(muestra) ; end hist3(MatrizMedias) ; Probablemente el histograma obtenido no se parezca excesivamente a una densidad normal salvo en la aparente unimodalidad y simetría (véase la Figura 3.4). Por ello es interesante tomar valores de N y n bastante mayores para comprobar la convergencia a la normal. DISTRIBUCIONES MULTIVARIANTES 49 Figura 3.4. Histograma de medias de una uniforme (Problema 3.10) PROBLEMA 3.11 Sean X1 , X2 y X3 los niveles de solvencia de tres bancos españoles. Supongamos que la distribución conjunta de los tres niveles es N3 (µ, Σ) con µ = (0.7, 0.8, 0.9)′ y ⎛ ⎞ 2 −1 0 Σ = ⎝ −1 2 0 ⎠. 0 0 1 Consideremos un nivel de solvencia medio para los tres bancos que se obtiene mediante el promedio W = (X1 + X2 + X3 )/3. (a) Calcúlese la distribución del nivel de solvencia medio W . (b) Encuéntrese la distribución de (X1 , X2 )′ condicionada a que W vale 1. (c) ¿Son X2 y W independientes? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Dado que W = 31 (1, 1, 1)(X1 , X2 , X3 )′ , se tiene que W sigue una normal de media 1 1 1 ′ 3 (1, 1, 1)µ = 0.8 y varianza 32 (1, 1, 1)Σ(1, 1, 1) = 3 . 50 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) Observemos que (X1 , X2 , W )′ = A(X1 , X2 , X3 )′ , donde ⎛ 1 A=⎝ 0 0 1 1 3 1 3 ⎞ 0 0 ⎠. 1 3 es una combinación lineal de (X1 , X2 , X3 )′ . Por tanto, (X1 , X2 , W )′ sigue una distribución N3 (Aµ, AΣA′ ), con Aµ = (0.7, 0.8, 0.8)′ y ⎛ 2 −1 2 AΣA′ = ⎝ −1 1 3 1 3 1 3 1 3 1 3 ⎞ ⎠. La distribución de (X1 , X2 )′ |W = 1 es N2 (µc , Σc ), con µc = (0.9, 1)′ y Σc = 1 3 5 −4 −4 5 . (c) A partir de la expresión obtenida en el apartado (b) para la matriz de covarianzas del vector (X1 , X2 , W )′ , se tiene que Cov (X2 , W ) = 1/3 = 0 , es decir, X2 y W no son independientes. PROBLEMA 3.12 Razona si, en tu opinión, los datos que aparecen representados en el diagrama de dispersión múltiple de la Figura 3.5 pueden provenir de una distribución normal multivariante. ✞ ✝ SOLUCIÓN ☎ ✆ Una propiedad de la normal multivariante es que sus marginales univariantes son también normales. Si la muestra representada en el gráfico proviniera de una población normal, los histogramas de las marginales univariantes deberían exhibir propiedades (como la simetría) propias de una normal y esto no sucede para ninguna de las cinco variables representadas. DISTRIBUCIONES MULTIVARIANTES 51 100 50 0 60 80 100 Figura 3.5. Diagrama de dispersión múltiple (Problema 3.12) PROBLEMA 3.13 Con algunos programas de ordenador sólo se pueden generar muestras normales univariantes. Supongamos, sin embargo, que deseamos generar una muestra de un vector bidimensional Y = (Y1 , Y2 )′ con distribución N2 (µ, Σ), donde µ = (μ1 , μ2 )′ , Σ = σ11 √ √ σ11 σ22 ρ √ √ σ11 σ22 ρ σ22 y ρ denota la correlación entre Y1 e Y2 . Entonces podemos recurrir al procedimiento que explicamos a continuación. 52 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (a) Con la orden randn de Matlab, que sólo genera observaciones normales univariantes e independientes entre sí, y para un tamaño muestral n a elegir, genérese una muestra ⎛ ⎞ x11 x12 ⎜ x21 x22 ⎟ ⎜ ⎟ (3.1) ⎜ .. .. ⎟ ⎝ . . ⎠ xn1 xn2 de un vector X = (X1 , X2 )′ con distribución N2 (0, I). (b) Ahora consideremos las siguientes transformaciones lineales de X √ Y1 = μ1 + σ11 X1  √ Y2 = μ2 + σ22 (ρX1 + 1 − ρ2 X2 ). (3.2) Demuéstrese que Y = (Y1 , Y2 )′ sigue una distribución N2 (µ, Σ). (c) Elíjanse unos valores concretos para µ, σ11 , σ22 y ρ. Utilizando la combinación lineal (3.2), genérese con Matlab una muestra de Y a partir de la muestra (3.1) obtenida en (a). ✞ ✝ SOLUCIÓN ☎ ✆ (a) Puesto que las dos componentes de X son independientes generamos sendas muestras independientes entre sí y de tamaño n de la normal estándar: n = 100 ; X = randn(n,2) ; (b) Observemos que Y = µ + AX , siendo A=  √ σ11 √ σ22 ρ √ 0  σ22 1 − ρ2  . Por tanto, como X sigue una distribución normal, el vector Y también. Además E (Y) = µ + A E (X) = µ y Var (Y) = Var (AX) = AA′ = Σ . DISTRIBUCIONES MULTIVARIANTES 53 (c) mu = [ 2 ; 1 ] ; sigma_11 = 1 ; sigma_22 = 1.5 ; rho = 0.6 ; A = [sqrt(sigma_11) 0 sqrt(sigma_22)*rho sqrt(sigma_22)*sqrt(1-rho^2) ] ; Y = ones(n,1) * mu’ + X*A’ ; PROBLEMA 3.14 Siguiendo el esquema del Problema 3.13, generaremos muestras de una normal tridimensional. Para ello elíjase un tamaño muestral n y genérese una muestra ⎛ ⎞ x11 x12 x13 ⎜ x21 x22 x23 ⎟ ⎜ ⎟ (3.3) ⎜ .. .. .. ⎟ ⎝ . . . ⎠ xn1 xn2 xn3 de X ∼ N3 (0, I). A continuación fijemos la matriz de correlaciones ⎛ ⎞ 1 0.9 0.7 ρ = ⎝ 0.9 1 0.8 ⎠ . 0.7 0.8 1 Decídase cuál es la combinación lineal Y = AX de X tal que ρ = Var(Y). A partir de esta matriz A y de la muestra (3.3) generada, calcúlense los valores observados de Y. Calcúlese la matriz de correlaciones muestral de Y, R, y verifíquese si está próxima o no a la poblacional ρ. Indicación: Utilícese la descomposición espectral de la matriz de correlaciones, ρ = B D B′ . ✞ ✝ SOLUCIÓN ☎ ✆ Observemos que basta tomar A = BD1/2 . El código que nos piden es n = 10000 ; X = randn(n,3) ; rho = [ 1 0.9 0.7 ; 0.9 1 0.8 ; 0.7 0.8 1 ] ; [B,D] = eig(rho) ; A = B * sqrt(D) ; Y = X * A’ ; R = corrcoef(Y) ; 54 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 3.15 Sea µ un vector p × 1 y Σ una matriz p × p simétrica y definida positiva. Fíjese un valor de p y genérense muestras de tamaño n de una normal Np (µ, Σ) para distintos valores de n. Para cada muestra obténganse el vector de medias muestrales, x, y la matriz de covarianzas muestrales, S, y compruébese que a medida que aumenta n, los valores de x y S se van acercando a µ y Σ, respectivamente. Indicación: El vector X = (X1 , X2 , . . . , Xp )′ tiene ley normal p-variante si existen p variables aleatorias independientes con ley N (0, 1), Y1 , Y2 , . . . , Yp , tales que X = µ + A Y, (3.4) donde Y = (Y1 , Y2 , . . . , Yp )′ , µ = (µ1 , µ2 , . . . , µp )′ y A es una matriz p × p. Si las p columnas de A no son linealmente independientes, alguna de las Xi puede expresarse como combinación lineal de las otras; en caso contrario, se trata de una distribución p-variante no singular. Si el vector X verifica (3.4), entonces E(X) = µ, Var(X) = A′ A, y se dice que X ∼ Np (µ, Σ), donde Σ = A′ A es definida positiva si A es regular. Por ejemplo, A puede ser la matriz de Cholesky de Σ (ver Peña 2002), que calculamos en Matlab con la orden A = chol(Sigma). ✞ ✝ SOLUCIÓN ☎ ✆ Una posible solución del problema consiste en construir una función Matlab que calcule el vector de medias y la matriz de covarianzas para una muestra de tamaño n generada siguiendo la indicación anterior. Para poder llamar a la función dentro de Matlab, ésta debe guardarse en un fichero con el mismo nombre de la función y extensión m, en este caso, nmult.m. % funcion [m,S]=nmult(mu,A,n) % % entradas: mu es el vector px1 de medias poblacionales, % A es una matriz cuadrada pxp, de manera que la % matriz de covarianzas poblacionales es Sigma=A’A, % n es el tamanio muestral, % % salidas: m es el vector de medias muestrales, % S es la matriz de covarianzas muestrales. % function [m,S] = nmult(mu,A,n) % generacion de una muestra p-variante N(0,Id) [p,p] = size(A); Y = randn(n,p); DISTRIBUCIONES MULTIVARIANTES 55 % u X % m S generacion de una muestra p-variante N(mu,A’A) = ones(n,1); = u*mu’+Y*A; vector de medias y matriz de covarianzas = mean(X); = cov(X,1); Dentro de Matlab, y por ejemplo para µ = (2, 3, 4)′ , n = 500, 1000, 5000 y ⎛ ⎞ 1 −1 1 1 0 ⎠ A = ⎝ −1 0 1 −1 haremos: mu = [2 3 4]; A = [1 -1 1; -1 [m_500,S_500] = [m_1000,S_1000] [m_5000,S_5000] 1 0; 0 1 -1]; nmult(mu,A,500) = nmult(mu,A,1000) = nmult(mu,A,5000) y compararemos m_500, m_1000, m_50000 con µ y S_500, S_1000, S_5000 con Σ = A′ A, respectivamente. PROBLEMA 3.16 Una distribución muy relacionada con la ley normal multivariante, y que es el análogo multivariante de la ley χ2 , es la distribución Wishart. Dados X1 , . . . , Xn vectores aleatorios i.i.d.∼ Np (0, Σ), la matriz p × p n Q= i=1 Xi X′i ∼ Wp (Σ, n) sigue una ley Wishart con parámetro de escala Σ y n grados de libertad. Dadas las variables aleatorias Z ∼ Np (0, I) y Q ∼ Wp (I, n) estocásticamente independientes, la variable aleatoria T 2 = n Z′ Q−1 Z ∼ T 2 (p, n) sigue una ley T 2 de Hotelling con p y n grados de libertad. Si p = 1, entonces T 2 (1, n) es el cuadrado de una variable aleatoria con ley t de Student y n grados de libertad. En general, T 2 (p, n) es proporcional a una F de Fisher n−p+1 2 T (p, n) = F (p, n − p + 1). np (3.5) La variable T 2 se utiliza de manera análoga a la ley t de Student, en contrastes sobre medias multivariantes. Para p y n fijos, genérese una muestra de tamaño N de una ley T 2 (p, n) de Hotelling. Represéntense los resultados mediante un histograma. 56 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ Sea X1 , X2 , . . . , Xn una muestra de vectores i.i.d. con distribución Np (0, I). Puesto que x ∼ Np 0, 1 I n y n S ∼ Wp (I, n − 1), tenemos que (n − 1) x′ S−1 x ∼ T 2 (p, n − 1). Podemos construir una función Matlab que genere muestras de tamaño N de una ley T 2 (p, n) de la siguiente manera: % % % % % funcion randT2 Esta funcion genera una muestra de tamanio N de una ley T^2 de Hotelling con p y n grados de libertad. function t=randT2(p,n,N) % % n = n+1; for i = 1:N X = randn(n,p); m = mean(X); S = cov(X,1); t(i,1) = (n-1)*m*inv(S)*m’; end numero de intervalos en el histograma if N<10^4 k = sqrt(N); else k = 1+3.22*log10(N); end int = 0:max(t)/k:max(t); hist(t,int) h = findobj(gca,’Type’,’patch’); set(h,’FaceColor’,’c’,’EdgeColor’,’b’) Por ejemplo, para p = 4, n = 100, N = 1000, dentro de Matlab utilizaremos la orden t=randT2(4,100,1000) La Figura 3.6 contiene el histograma de frecuencias absolutas. DISTRIBUCIONES MULTIVARIANTES 57 120 100 80 60 40 20 0 −5 0 5 10 15 20 Figura 3.6. Histograma de una T 2 (4, 100) para tamaño muestral N = 1000 (Problema 3.16) PROBLEMA 3.17 Si A ∼ Wp (Σ, a) y B ∼ Wp (Σ, b) son independientes, Σ es regular y a ≥ p, la variable aleatoria |A| Λ= |A + B| tiene una ley Lambda de Wilks , Λ(p, a, b), con parámetros p, a y b. La ley Λ no depende del parámetro Σ de A y B, por lo que es suficiente considerarla para Σ = I. Tiene la misma distribución que un producto de b v.a. independientes con distribución Beta, es decir, si L ∼ Λ(p, a, b) entonces L= b  i=1 ui , donde ui ∼ Beta a+i−p p , 2 2 . Genérese una muestra de tamaño N de una ley Λ de Wilks. Represéntense los resultados mediante un histograma. ✞ ✝ SOLUCIÓN ☎ ✆ Sean e X1 , X2 , . . . , XnX ∼ Np (µX , I) Y1 , Y2 , . . . , YnY ∼ Np (µY , I) dos muestras independientes de vectores aleatorios i.i.d. Puesto que A = nX SX ∼ Wp (I, nX − 1) 58 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE y B = nY SY ∼ Wp (I, nY − 1) entonces Λ= |A| ∼ Λ(p, nX − 1, nY − 1) . |A + B| Podemos construir una función Matlab que genere muestras de tamaño N de una ley Λ(p, a, b), de la siguiente manera % % % % % % % funcion randWilks Esta funcion genera una muestra de tamanio N de una ley Lambda de Wilks con parametros p, a, b. (Atencion: a>=p). function L = randWilks(p,a,b,N) nx = a+1; ny = b+1; los vectores de medias se generan a partir de uniformes, pero tambien podrian introducirse como argumentos de la funcion. mux = rand(1,p); muy = 10*rand(1,p); ux = ones(nx,1); uy = ones(ny,1); % % % % % for i = 1:N generacion de la primera muestra de normales Zx = randn(nx,p); X = ux*mux+Zx; A = nx*cov(X,1); generacion de la segunda muestra de normales Zy = randn(ny,p); Y = uy*muy+Zy; B = ny*cov(Y,1); obtencion de la Lambda de Wilks L(i,1) = det(A)/det(A+B); end numero de intervalos en el histograma if N<10^4 k = sqrt(N); else k = 1+3.22*log10(N); end int = 0:max(L)/k:max(L); hist(L,int) h = findobj(gca,’Type’,’patch’); set(h,’FaceColor’,’c’,’EdgeColor’,’b’) Por ejemplo, para p = 4, a = 19, b = 24, dentro de Matlab llamaremos a la función L=randWilks(4,19,24,1000) La Figura 3.7 contiene el histograma de frecuencias absolutas. DISTRIBUCIONES MULTIVARIANTES 59 120 100 80 60 40 20 0 −0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 Figura 3.7. Histograma de una Λ(4, 19, 24) para tamaño muestral N = 1000 (Problema 3.17) PROBLEMA 3.18 La Tabla 3.1 contiene las medidas de 5 variables biométricas sobre gorriones hembra, recogidos casi moribundos después de una tormenta. Los primeros 21 sobrevivieron mientras que los 28 restantes no lo consiguieron. Las variables son X1 = longitud total, X2 = extensión del ala, X3 = longitud del pico y de la cabeza, X4 = longitud del húmero y X5 = longitud del esternón. Realícense comparaciones de medias y de covarianzas entre el grupo de supervivientes y el de no supervivientes. Tabla 3.1. Medidas biométricas sobre gorriones (Problema 3.18) X1 156 154 153 153 155 163 157 155 164 158 158 160 161 157 157 156 158 153 155 163 159 Supervivientes X2 X3 X4 245 31.6 18.5 240 30.4 17.9 240 31.0 18.4 236 30.9 17.7 243 31.5 18.6 247 32.0 19.0 238 30.9 18.4 239 32.8 18.6 248 32.7 19.1 238 31.0 18.8 240 31.3 18.6 244 31.1 18.6 246 32.3 19.3 245 32.0 19.1 235 31.5 18.1 237 30.9 18.0 244 31.4 18.5 238 30.5 18.2 236 30.3 18.5 246 32.5 18.6 236 31.5 18.0 X5 20.5 19.6 20.6 20.2 20.3 20.9 20.2 21.2 21.1 22.0 22.0 20.5 21.8 20.0 19.8 20.3 21.6 20.9 20.1 21.9 21.5 X1 155 156 160 152 160 155 157 165 153 162 162 159 159 155 162 152 159 155 163 163 156 159 161 155 162 153 162 164 No supervivientes X2 X3 X4 240 31.4 18.0 240 31.5 18.2 242 32.6 18.8 232 30.3 17.2 250 31.7 18.8 237 31.0 18.5 245 32.2 19.5 245 33.1 19.8 231 30.1 17.3 239 30.3 18.0 243 31.6 18.8 245 31.8 18.5 247 30.9 18.1 243 30.9 18.5 252 31.9 19.1 230 30.4 17.3 242 30.8 18.2 238 31.2 17.9 249 33.4 19.5 242 31.0 18.1 237 31.7 18.2 238 31.5 18.4 245 32.1 19.1 235 30.7 17.7 247 31.9 19.1 237 30.6 18.6 245 32.5 18.5 248 32.3 18.8 X5 20.7 20.6 21.7 19.8 22.5 20.0 21.4 22.7 19.8 23.1 21.3 21.7 19.0 21.3 22.2 18.6 20.5 19.3 22.8 20.7 20.3 20.3 20.8 19.6 20.4 20.4 21.1 20.9 60 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ Llamamos X e Y a las matrices de datos del grupo de supervivientes y del de no supervivientes, respectivamente. Mediante Matlab calculamos los vectores de medias y las matrices de covarianzas de cada grupo mx=mean(X); my=mean(Y); Sx=cov(X,1); Sy=cov(Y,1); y obtenemos: mx=[157.3810 241.0000 31.4333 18.5000 20.8095] Sx =[10.5215 8.6667 1.4825 0.8286 1.2249 8.6667 16.6667 1.8190 1.2476 0.8381 1.4825 1.8190 0.5060 0.1800 0.2283 0.8286 1.2476 0.1800 0.1676 0.1262 1.2249 0.8381 0.2283 0.1262 0.5475] my=[158.4286 241.5714 31.4786 18.4464 20.8393] Sy=[14.5306 16.5765 2.1628 1.6837 2.8260 16.5765 31.3878 3.2765 2.8449 3.9204 2.1628 3.2765 0.7024 0.4528 0.5391 1.6837 2.8449 0.4528 0.4189 0.4878 2.8260 3.9204 0.5391 0.4878 1.2738] Comparación de covarianzas. Supondremos que X es una muestra aleatoria simple de tamaño nX de una ley normal multivariante X ∼ N5 (µX , ΣX ) y que Y es otra muestra aleatoria simple independiente de la anterior y de tamaño nY de una ley normal multivariante Y ∼ N5 (µY , ΣY ). Queremos contrastar la hipótesis de igualdad de covarianzas, es decir: H 0 : ΣX = ΣY = Σ (3.6) Utilizaremos el contraste de la razón de verosimilitudes, cuyo estadístico es λR = |SX |nX /2 |SY |nY /2 , |S|n/2 donde SX y SY son las matrices de covarianzas muestrales de cada grupo, n = nX + nY y S es la matriz de covarianzas común, que se obtiene mediante la siguiente ponderación: S= nX SX + nY SY . nX + nY Bajo la hipótesis nula dada por (3.6), tenemos que −2 log(λR ) ∼ χ2q , donde q = (g − 1)p(p + 1)/2 , g es el número de grupos y p es el número de variables. DISTRIBUCIONES MULTIVARIANTES 61 Para implementar este contraste mediante Matlab y teniendo en cuenta que −2 log(λR ) = n log |S| − (nX log |SX | + nY log |SY |). (3.7) escribimos: nx = 21 ; ny = 28 ; n = nx+ny ; S = (nx*Sx+ny*Sy)/n ; logR = n*log(det(S)) - (nx*log(det(Sx))+ny*log(det(Sy))) percentil = chi2inv(0.95,15) p_valor = 1-chi2cdf(logR,15) El valor que obtenemos para el estadístico (3.7) es logR = 12.5322. Rechazaremos la hipótesis (3.6) si el valor de este estadístico pertenece a la región crítica [x1−α , +∞), donde x1−α es el percentil (1 − α) 100% de una χ215 . Para un nivel de significación α = 0.05 la instrucción chi2inv(0.95,15) calcula este percentil. También podemos calcular el p-valor del contraste mediante 1-chi2cdf(logR,15) y comparar este valor directamente con el nivel de significación. En ambos casos, concluimos que no podemos rechazar la hipótesis (3.6), y por tanto, consideraremos que las matrices de covarianzas poblacionales son iguales. Comparación de medias. Suponiendo igualdad de covarianzas, queremos contrastar la hipótesis H0 : µ X = µ Y . (3.8) Dos posibles formas de resolver este contraste son: (a) utilizando el estadístico basado en la distribución T 2 de Hotelling o (b) utilizando el estadístico basado en la distribución Λ de Wilks. (a) Sean x e y los vectores de medias muestrales. El estadístico siguiente T2 = nX nY (x − y) S−1 (x − y)′ nX + nY tiene una ley T 2 de Hotelling T 2 (p, nX + nY − 2). La relación (3.5) entre las leyes T 2 de Hotelling y F de Fisher asegura que el estadístico F = nX + nY − p − 1 2 T (nX + nY − 2) p sigue una distribución F (p, nX + nY − p − 1). Si llamamos T2 y F a estos estadísticos, resolvemos el contraste mediante: T2 = nx*ny/n*(mx-my)*inv(S)*(mx-my)’; F = (nx+ny-p-1)/((nx+ny)*p)*T2 percentil = finv(0.95,p,nx+ny-1) p_valor = 1-fcdf(F,p,nx+ny-p-1) 62 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Puesto que, para un nivel de significación α = 0.05, F=0.5167 no está contenido en la región crítica [2.4085, +∞), concluimos que no se puede rechazar la hipótesis (3.8). De manera equivalente, observando el p-valor asociado a este valor de F, p-valor=0.7622, también concluimos que no existen diferencias significativas entre el grupo de supervivientes y el de no supervivientes. (b) Consideremos el estadístico siguiente Λ= |W| |W| = , |B + W| |T| donde W = nX SX + nY SY es la matriz de dispersión dentro de los grupos (within), B = nX (x − z)′ (x − z) + nY (y − z)′ (y − z) es la matriz de dispersión entre los grupos (between), T = W + B es la matriz de dispersión total y z = (nX x + nY y)/n es el vector de medias global. Bajo la hipótesis nula (3.8) el estadístico Λ sigue una ley Lambda de Wilks Λ(p, n − g, g − 1), siendo g el número de grupos. La aproximación asintótica de Rao da una equivalencia asintótica entre la distribución Λ de Wilks y la ley F de Fisher. La función Matlab wilkstof.m calcula esta aproximación. % % % % % % % % % % % % % % % funcion wilkstof Esta funcion calcula la aproximacion asintotica de Rao de la distribucion Lambda de Wilks, L(p,a,b), hacia la distribucion F(m,n). [F,m,n]=wilkstof(L,p,a,b) entradas: L es el valor de L(p,a,b) p, a, b son los grados de libertad salidas: F es el valor de la F(m,n) m, n son los grados de libertad function [F,m,n] = wilkstof(L,p,a,b) alpha = a+b-(p+b+1)/2; beta = sqrt((p^2*b^2-4)/(p^2+b^2-5)); gamma = (p*b-2)/4; m = p*b; n = alpha*beta-2*gamma; se redondea n al entero mas proximo if n-floor(n)<0.5 n = floor(n); else n = floor(n)+1; end F = (1-L^(1/beta))/(L^(1/beta))*n/m; DISTRIBUCIONES MULTIVARIANTES 63 Implementemos este segundo contraste mediante Matlab. Empezamos calculando el vector de medias global y las matrices de dispersión dentro de los grupos, entre grupos y total: mz = (nx*mx+ny*my)/n; W = nx*Sx+ny*Sy; B = nx*(mx-mz)’*(mx-mz)+ny*(my-mz)’*(my-mz); T = W+B; El estadístico Λ de Wilks se obtiene haciendo: Lambda = det(W)/det(T) [F,m,n] = wilkstof(Lambda,5,47,1) percentil = finv(0.95,m,n) p_valor = 1-fcdf(F,m,n) Los valores obtenidos son Lambda = 0.9433, F = 0.5167 (m=5,n=43), percentil = 2.4322, p_valor = 0.7622 Dado que el valor de F no está contenido en la región crítica [2.4322, +∞), no podemos rechazar la hipótesis nula de igualdad de medias. PROBLEMA 3.19 En una fábrica de zumos se diseña el siguiente procedimiento de control de calidad. Se toma una muestra piloto (véase la Tabla 3.2) de n = 50 extracciones de zumo cuando el proceso de fabricación funciona correctamente y en ella se mide la concentración de p = 11 aminoácidos, X = (X1 , . . . , X11 )′ . Supóngase que X sigue una distribución normal. A continuación cada día se observan estas mismas variables con objeto de detectar algún cambio significativo en la calidad del proceso (véase Tabla 3.3). Supóngase que estas sucesivas observaciones, yi , i = 1, . . . , 10, son independientes de la muestra piloto y entre sí. Constrúyase un gráfico de control para estos nuevos diez días como se indica a continuación. En primer lugar calcúlense la media x̄ y la matriz de covarianzas S para la muestra piloto. A continuación para la observación yi constrúyase el estadístico T 2 (i) = n (yi − x̄)′ S−1 (yi − x̄) n+1 que debería seguir una T 2 (p, n − 1) si la distribución de yi es la misma que la de la muestra piloto. Represéntense secuencialmente los valores de T 2 (i) en un gráfico y márquese en él p α un límite de control LC = (n−1) n−p F (p, n − p), siendo α el nivel de significación que deseemos fijar (α = 0.05, por ejemplo). Párese el proceso de fabricación el primer día i que una observación yi esté fuera de la región de control, es decir, yi > LC. 64 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 3.2. Concentraciones de 11 aminoácidos en 50 zumos (Problema 3.19) x1 0.480 0.245 0.276 0.482 0.400 0.336 0.379 0.369 0.396 0.325 0.404 0.367 0.340 0.281 0.373 0.356 0.426 0.262 0.422 0.242 0.288 0.409 0.382 0.277 0.416 0.238 0.544 0.404 0.384 0.290 0.598 0.337 0.403 0.241 0.412 0.154 0.352 0.288 0.447 0.420 0.492 0.385 0.354 0.244 0.221 0.374 0.416 0.356 0.410 0.246 x2 5.234 1.312 3.402 6.554 4.011 4.001 3.366 4.550 5.479 3.573 4.195 4.756 3.640 2.872 4.212 3.629 5.087 2.722 5.769 2.074 3.413 4.701 4.362 3.261 3.511 2.840 6.523 4.119 4.126 2.823 5.807 4.067 4.327 4.281 4.038 1.840 5.170 3.336 5.060 5.828 5.230 4.707 4.626 3.112 2.715 2.819 3.943 3.874 4.898 2.761 x3 2.620 2.115 2.527 2.631 2.528 3.083 2.099 2.242 2.231 2.446 3.226 2.891 3.075 2.299 2.769 3.435 2.797 3.439 1.948 3.090 3.338 3.340 2.588 2.730 2.822 3.180 3.333 2.689 2.440 2.731 2.525 2.902 2.660 2.984 3.731 3.533 2.945 3.430 3.240 2.898 2.116 2.350 2.854 3.245 2.848 2.694 2.908 2.739 2.362 2.914 x4 2.857 8.077 5.447 5.134 3.716 4.626 6.142 3.609 4.264 5.087 4.959 4.264 4.937 4.543 5.014 4.694 3.029 6.223 4.525 6.822 5.562 5.531 3.941 4.335 5.128 6.392 3.431 4.599 5.626 6.063 4.633 4.826 4.993 4.369 4.341 6.902 2.187 5.054 5.462 4.121 3.516 4.655 4.885 6.687 5.216 5.560 6.660 4.778 3.565 4.860 x5 0.803 0.974 0.957 0.671 0.805 0.904 0.977 0.672 0.786 0.708 0.948 0.799 0.821 0.926 1.060 0.843 0.758 1.018 0.576 0.987 1.054 1.237 0.779 0.747 0.992 1.293 0.759 0.744 0.965 0.688 0.889 0.772 0.863 0.828 0.971 1.308 0.866 0.896 0.937 0.793 0.584 0.882 0.753 1.095 0.978 0.804 1.076 0.894 0.630 0.799 x6 13.897 9.227 13.474 12.333 10.382 7.834 17.366 12.353 15.248 10.791 14.880 13.443 13.782 8.921 15.577 11.503 11.412 8.324 15.151 10.655 9.265 13.800 14.441 7.909 15.695 9.059 13.712 13.960 11.960 7.677 16.131 14.203 14.668 9.670 12.550 8.954 11.566 10.608 18.099 14.167 16.289 15.452 14.250 11.960 6.625 10.830 14.812 11.158 11.763 5.649 x7 0.326 0.252 0.299 0.259 0.266 0.156 0.384 0.291 0.244 0.183 0.460 0.270 0.296 0.205 0.288 0.253 0.311 0.233 0.342 0.274 0.276 0.274 0.265 0.181 0.298 0.209 0.334 0.264 0.224 0.217 0.368 0.343 0.402 0.243 0.244 0.190 0.306 0.258 0.339 0.347 0.374 0.357 0.273 0.240 0.137 0.268 0.313 0.215 0.342 0.168 x8 0.902 2.703 2.341 1.473 0.697 0.898 2.451 0.975 1.318 1.500 0.910 0.927 1.659 0.901 1.664 1.249 0.912 1.200 1.282 1.858 1.830 1.598 1.480 1.014 1.864 1.529 0.423 1.241 1.647 1.343 1.462 1.577 1.720 1.036 1.197 2.047 0.765 1.017 1.762 1.133 1.241 1.789 1.332 2.001 1.202 1.472 2.033 1.099 0.783 1.192 x9 0.164 -0.006 0.094 0.216 0.201 0.130 0.204 0.158 0.064 0.075 0.151 0.195 0.214 0.072 0.175 0.106 0.175 0.083 0.014 0.065 0.181 0.159 0.213 0.102 0.268 0.120 0.128 0.099 0.203 0.065 0.221 0.167 0.125 0.201 0.135 0.091 0.194 0.104 0.196 0.180 0.262 0.208 0.072 0.177 0.075 0.069 0.173 0.149 0.119 0.016 x10 0.183 -0.061 0.113 0.112 0.159 0.061 0.063 0.201 0.116 0.122 0.280 0.194 0.107 0.102 0.095 0.198 0.154 0.108 0.087 0.072 0.071 0.102 0.147 0.108 0.108 0.043 0.240 0.126 0.086 0.073 0.169 0.074 0.091 0.105 0.180 0.018 0.165 0.175 0.164 0.199 0.188 0.153 0.098 0.080 0.015 0.137 0.069 0.093 0.169 0.069 x11 4.155 1.995 3.541 3.941 4.361 2.444 3.177 3.185 3.989 3.675 5.071 3.932 3.507 2.567 3.788 3.147 3.759 3.065 4.773 2.754 2.710 3.032 3.372 2.910 4.097 3.000 5.209 4.185 3.102 3.250 4.544 3.355 3.617 3.089 3.309 1.608 2.959 2.689 3.649 4.181 4.687 3.213 3.228 2.440 1.833 2.838 3.716 3.510 4.037 2.180 Tabla 3.3. Concentraciones de aminoácidos en 10 nuevos zumos (Problema 3.19) Día 1 2 3 4 5 6 7 8 9 10 y1 0.275 0.295 0.370 0.385 0.248 0.480 0.417 0.327 0.251 0.422 y2 3.693 3.401 3.865 3.585 3.188 4.512 5.260 4.388 3.125 4.810 y3 2.785 2.594 2.935 3.601 2.966 2.142 2.554 3.110 2.589 2.002 y4 6.812 5.903 7.034 5.454 7.090 4.533 3.404 4.396 6.390 3.322 y5 1.086 0.964 1.122 1.139 1.205 0.762 0.773 0.774 1.106 1.144 y6 12.206 9.945 18.572 11.033 7.800 18.385 13.679 9.041 13.410 15.986 y7 0.262 0.189 0.354 0.255 0.199 0.345 0.277 0.213 0.235 0.348 y8 2.152 1.719 2.354 0.857 1.657 1.710 0.908 0.669 1.898 1.147 y9 0.091 0.069 0.148 0.078 0.046 0.093 0.122 0.129 0.107 0.154 y10 0.106 0.058 0.043 0.130 0.024 0.167 0.161 0.141 0.044 0.178 y11 2.851 2.271 3.779 3.625 2.733 4.872 3.734 3.725 2.864 3.511 DISTRIBUCIONES MULTIVARIANTES 65 ☎ ✞ ✝ SOLUCIÓN ✆ Suponemos que ya hemos introducido en Matlab las matrices de datos X e Y que contienen la muestra piloto y las nuevas observaciones respectivamente. Con el siguiente código conseguimos el gráfico de control de la Figura 3.8 que nos indica que el proceso de producción está fuera de control en el día 10. m = mean(X) ; S = cov(X,1) ; [NumDias,p] = size(Y) ; alpha = 0.05 ; LC = ((n-1)*p/(n-p)) * finv(1-alpha,p,n-p) ; T_i = 0; T = [ ] ; i = 1 ; while (T_i <= LC) & (i <= NumDias) T_i = n*(Y(i,:)-m)*inv(S)*(Y(i,:)-m)’/(n+1) ; T = [T ; T_i] ; i = i+1 ; end plot([1:i-1]’,T,’ko-’,’MarkerFaceColor’,’k’) hold on plot([1:i-1],LC*ones(1,i-1),’k--’,’LineWidth’,1.5) hold on text(1.5,LC+1.2,’UCL’,’FontSize’,14) if (i <= NumDias) | (T_i>UCL) plot(i-1,T_i,’ko’,’MarkerSize’,12) end xlabel(’Dia’) ylabel(’T_i^2’) 40 35 30 UCL T2i 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 Dia Figura 3.8. Gráfico de control para datos de zumos (Problema 3.19) 10 CAPÍTULO 4 Análisis de componentes principales El problema de reducción de la dimensión subyace tras la mayoría de los métodos de Análisis Multivariante. Genéricamente puede plantearse de la manera siguiente: ¿Es posible describir la información contenida en unos datos mediante un número de variables menor que el de variables observadas? El análisis de componentes principales parte de una matriz de datos (centrada) de n filas y p columnas, que puede considerarse como una muestra de tamaño n de un vector aleatorio de dimensión p, X = (X1 , . . . , Xp )′ . Se considera una combinación lineal (univariante) de X, y = X′ t , donde t es un vector de pesos de dimensión p. La primera componente principal aparece como solución al problema de encontrar el vector t que maximiza la varianza de Y con la condición de normalización t′ t = 1. En otras palabras, la expresión var (Y) en función del vector de pesos t da lugar a un problema variacional que tiene por solución la primera componente principal. Este problema equivale a encontrar los autovalores y autovectores de la matriz de covarianzas de X. De manera que las sucesivas componentes principales se obtienen de la diagonalización de la matriz de covarianzas de X, S = TΛT′ , donde T es una matriz ortogonal p × p cuyas columnas son los coeficientes de las componentes principales. 68 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 4.1 Sea la matriz de varianzas-covarianzas poblacionales ⎞ ⎛ 3 1 1 Σ=⎝ 1 3 1 ⎠ 1 1 5 correspondiente a un vector aleatorio X = (X1 , X2 , X3 )′ de media cero. (a) Calcúlense los autovalores y autovectores de Σ. (b) Escríbase el vector Y = (Y1 , Y2 , Y3 )′ de componentes principales e indíquese qué proporción de la varianza total explica cada componente. (c) Represéntese el vector X original en el plano de las dos primeras componentes principales. Concrétese esta representación para la observación x = (2, 2, 1)′ . ✞ ✝ SOLUCIÓN ☎ ✆ (a) Los autovalores de Σ, ordenados de mayor a menor, son λ1 √ = 6, λ2 = 3 y λ3 = 2.√Los correspondientes √ autovectores normalizados son e1 = (1, 1, 2)′ / 6, e2 = (1, 1, −1)′/ 3 y e3 = (1, −1, 0)′/ 2. (b) Las componentes principales son 1 Y1 = e′1 X = √ (X1 + X2 + 2X3 ) 6 1 ′ Y2 = e2 X = √ (X1 + X2 − X3 ) 3 1 Y3 = e′3 X = √ (X1 − X2 ). 2 La varianza total es VT (Σ) = tr (Σ) = 11 . La proporción de VT (Σ) explicada por la primera componente principal es var (Y1 ) λ1 = ≃ 54.5%. VT (Σ) 11 Análogamente la explicada por Y2 e Y3 es 27.3% y 18.2% respectivamente. (c) Para expresar X en el plano de Y1 e Y2 debe realizarse el producto escalar √ √ de X por las direcciones dadas por e1 y e2 . Para x el resultado es el punto (y1 , y2 ) = ( 6, 3). ANÁLISIS DE COMPONENTES PRINCIPALES 69 PROBLEMA 4.2 Dados los datos de la Tabla 2.1, considérense únicamente las variables X1 = duración de la hipoteca y X2 = precio y denótese por X el vector (X1 , X2 )′ . (a) Calcúlense el vector x̄ y la matriz de covarianzas muestral S. (b) Determínense las componentes principales muestrales Y1 e Y2 y sus varianzas. (c) Hállese la proporción de varianza explicada por Y1 . (d) Calcúlense los coeficientes de correlación corr(Y1 , Xk ), para k = 1, 2. Interprétese la primera componente principal. ✞ ✝ SOLUCIÓN ☎ ✆ (a) La media es x̄ = (19.05, 1.57)′ y la matriz de covarianzas es S= 56.97 5.17 0.89 . (b) Los autovalores de S son λ1 = 57.44 y λ2 = 0.42. Los correspondientes autovectores normalizados son e1 ≃ (0.99, 0.09)′ y e2 ≃ (0.09, −0.99)′. Por tanto, las componentes principales de S tienen la expresión Y1 = e′1 (X − X̄) = 0.99(X1 − 19.05) + 0.09(X2 − 0.42) Y2 = e′2 (X − X̄) = 0.09(X1 − 19.05) − 0.99(X2 − 0.42). La varianza de una componente principal es el autovalor de S que la determina, luego var (Y1 ) = λ1 = 57.44 y var (Y2 ) = λ2 = 0.42 . (c) La proporción de VT (S) explicada por Y1 es var (Y1 )/V T (S) ≃ 99%. (d) Las correlaciones entre la primera componente y las variables Xi son √ √ λ1 0.99 57.44 e corr (Y1 , X1 ) = 11 √ ≃ 0.99, = √ s11 56.97 y √ e12 λ1 corr (Y1 , X2 ) = √ = 0.72. s22 El hecho de que la primera componente principal (que es esencialmente X1 ) explique gran parte de la variabilidad del sistema es debido a que la varianza muestral de X1 es mucho mayor que la de X2 y eso hace que la varianza sea considerablemente mayor a lo largo de la dirección dada por el vector e1 . En este caso conviene estandarizar los datos y realizar un nuevo análisis de componentes principales sobre la matriz resultante. Esto equivale a obtener las componentes principales a partir de la matriz de correlaciones. 70 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 4.3 Calcúlese la matriz de correlaciones R asociada a la matriz S del Problema 4.2. (a) Determínense las componentes principales a partir de R y sus varianzas. (b) Hállese la proporción de varianza explicada por la primera componente. (c) Calcúlense los coeficientes de correlación entre la primera componente y las variables Xi estandarizadas. (d) Compárense las componentes principales obtenidas en (a) con las componentes obtenidas en el apartado (b) del ejercicio anterior. ¿Qué es más adecuado: determinar las componentes principales a partir de R o de S? ✞ ✝ SOLUCIÓN ☎ ✆ (a) La matriz R= 1 0.72 0.72 1 . tiene autovalores λ1 = 1.72 y λ2 = 0.28 y autovectores e1 = (0.71, 0.71)′ y e2 = (−0.71, 0.71)′. Por tanto, las componentes principales de R son Y1 = e′1 Z = 0.71Z1 + 0.71Z2 e Y2 = e′2 Z = −0.71Z1 + 0.71Z2, donde Z1 = (Xi − 19.05)/7.55, Z2 = (X2 − 1.57)/0.94 y Z = (Z1 , Z2 )′ es el vector X estandarizado. (b) La variabilidad total viene medida por VT (R) = tr (R) = 2 y la proporción de la misma explicada por Y1 es λ1 / VT (R) = 1.72/2 = 86%. (c) Los coeficientes de correlación entre Y1 y las variables Zi son: √ λ1 e corr (Y1 , Z1 ) = 11 = 0.93 , corr (Y1 , Z2 ) = 0.93. √ r11 (d) La primera componente principal de R da ahora igual peso mayor a las variables X1 y X2 . Según lo comentado en el Problema 4.2 sería más adecuado calcular las componentes principales a partir de R. ANÁLISIS DE COMPONENTES PRINCIPALES 71 PROBLEMA 4.4 La Tabla 4.1 contiene 11 indicadores económicos y sociales de 96 países. Las variables observadas son: X1 = Tasa anual de crecimiento de la población, X2 = Tasa de mortalidad infantil por cada 1000 nacidos vivos, X3 = Porcentaje de mujeres en la población activa, X4 = PNB en 1995 (en millones de dólares), X5 = Producción de electricidad (en millones kW/h), X6 = Líneas telefónicas por cada 1000 habitantes, X7 = Consumo de agua per cápita, X8 = Proporción de la superficie del país cubierta por bosques, X9 = Proporción de deforestación anual, X10 = Consumo de energía per cápita, X11 = Emisión de CO2 per cápita. Realícese un análisis de componentes principales y razónese a partir de qué matriz , S o R, es más adecuado. Interprétense las dos primeras componentes. ✞ ✝ SOLUCIÓN ☎ ✆ Observemos primero que las unidades de medida de las variables Xi son muy distintas (porcentajes, dólares, kWh, . . . ). Además, las elevadas varianzas de X4 y X5 hacen prever que un análisis de componentes principales realizado a partir de la matriz de covarianzas S dará como resultado una primera y segunda componentes principales que coincidirán básicamente con estas dos variables observadas. Por tanto, el análisis de componentes principales debe llevarse a cabo a partir de la matriz de correlaciones R. Esto equivale a estandarizar cada una de las Xi a media cero y varianza unidad y considerar la matriz de covarianzas de las variables estandarizadas. La siguiente función Matlab realiza el análisis de componentes principales, primero a partir de S y, en segundo lugar, a partir R. % % % % % % % % % % % % COMP La funcion [T1,Y1,acum1,T2,Y2,acum2]=comp(X) calcula las componentes principales de una matriz de datos X (n,p). Devuelve : T1 componentes principales a partir de la matriz S Y1 representacion de los datos acum1 porcentajes acumulados T2 componentes principales a partir de la matriz R Y2 representacion de los datos acum2 porcentajes acumulados function [T1,Y1,acum1,T2,Y2,acum2]=comp(X) [n,p] = size(X); % Vector de etiquetas para los individuos. for i = 1:n lab(i,:)=sprintf(’%3g’,i); end % Matriz de centrado y matriz de datos centrados. H = eye(n)-ones(n)/n; X = H*X; % Calculo de las matrices de covarianzas y de correlaciones. S = cov(X,1); R = corr(X); % 72 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 4.1. Indicadores económicos y sociales sobre países del mundo (Problema 4.4) País 1. Albania 2. Angola 3. Arabia Saudi 4. Argelia 5. Argentina 6. Australia 7. Austria 8. Bangladesh 9. Bélgica 10. Benin 11. Bielorrusia 12. Bolivia 13. Brasil 14. Bulgaria 15. Camerún 16. Canadá 17. Colombia 18. Congo 19. Corea del Norte 20. Corea del Sur 21. Costa de Marfil 22. Costa Rica 23. Cuba 24. Chile 25. China 26. Dinamarca 27. R. Dominicana 28. Ecuador 29. Egipto 30. El Salvador 31. E. Árabes Unidos 32. Eslovaquia 33. España 34. Etiopía 35. Filipinas 36. Finlandia 37. Francia 38. Gabón 39. Ghana 40. Grecia 41. Guatemala 42. Haití 43. Países Bajos 44. Honduras 45. Hungría 46. India 51. Indonesia 47. Irak 48. Irán 49. Irlanda 50. Islandia 52. Israel 53. Jordania 54. Kenia 55. Kuwait 56. Líbano 57. Libia 58. Malasia 59. Marruecos 60. México 61. Mozambique 62. Birmania 63. Nepal 64. Nicaragua 65. Nigeria 66. Noruega 67. Nueva Zelanda 68. Omán 69. Pakistán 70. Panamá 71. Paraguay 72. Perú 73. Polonia 74. Portugal 75. Reino Unido 76. Rep. Checa 77. Rumanía 78. Senegal 79. Singapur 80. Siria 81. Sri Lanka 82. Sudán 83. Suecia 84. Suiza 85. Suráfrica 86. Tailandia 87. Tanzania 88. Túnez 89. Turquia 90. Ucrania 91. Uruguay 92. Venezuela 93. Vietnam 94. Yemen 95. Zambia 96. Zimbabue X1 1 3 4.3 2.5 1.3 1.4 0.6 2 0.3 3 0.4 2.3 1.6 -0.6 2.9 1.3 1.8 3.1 1.8 0.9 3.4 2.5 0.9 1.6 1.3 0.2 2 2.3 2.2 1.8 5.8 0.3 0.2 2.6 2.3 0.4 0.5 2.9 3 0.5 2.9 2 0.6 3 -0.3 1.9 1.7 2.7 3.2 0.1 1.1 2.7 4.7 2.9 -0.3 2.3 3.6 2.5 2 2.1 1.8 1.8 2.5 3.1 2.9 0.5 1 4.5 3 1.9 2.7 2.1 0.4 -0.1 0.3 0 0 2.8 1.8 3.1 1.3 2.2 0.6 0.8 2.3 1.3 3.1 2.1 1.9 0.1 0.6 2.4 2.2 4.2 2.6 2.8 X2 30 124 21 34 22 6 6 79 8 95 13 69 44 15 56 6 26 90 26 10 86 13 9 12 34 6 37 36 56 36 16 11 7 112 39 5 6 89 73 8 44 72 6 45 11 68 51 108 45 6 4 8 31 58 11 32 61 12 55 33 113 83 91 46 80 5 7 18 90 23 41 47 14 7 6 8 23 62 4 32 16 77 4 6 50 35 82 39 48 15 18 23 41 100 109 55 X3 41 46 13 24 31 43 41 42 40 48 49 37 35 48 38 45 37 43 45 40 33 30 38 32 45 46 29 26 29 34 13 48 36 41 37 48 44 44 51 36 26 43 40 30 44 32 40 18 24 33 44 40 21 46 28 28 21 37 35 31 48 43 40 36 36 46 44 15 26 34 29 29 46 43 43 47 44 42 38 26 35 28 48 40 37 46 49 30 35 49 40 33 49 29 45 44 X4 2199 4422 133540 44609 278431 337909 216547 28599 250710 2034 21356 5905 579787 11225 8615 573695 70263 1784 12870 435137 9248 8884 7150 59151 744890 156027 11390 15997 45507 9057 42806 15848 532347 5722 71865 105174 1451051 3759 6719 85885 14255 1777 371039 3566 42129 319660 190105 24600 113400 52765 6686 87875 6354 7583 28941 10673 23400 78321 29545 304596 1353 35840 4391 1659 28411 136077 51655 10578 59991 7253 8158 55019 107829 96829 1094734 39990 33488 5070 79831 15780 12616 7510 209720 286014 130918 159630 3703 16369 169452 84084 16458 65382 17634 4044 3605 5933 X5 3903 955 91019 19883 65962 167155 53259 9891 72236 6 31397 2824 260682 381333 2740 554227 43354 435 38000 164993 2305 4772 10982 25276 928083 40097 6182 8256 51947 3211 18870 24740 161654 1293 27062 65546 476200 933 6115 40623 3161 362 79647 2672 33486 386500 53414 27060 79128 17105 4780 32781 5076 3539 22798 5184 17800 39093 11100 147926 490 3500 927 1688 15530 113488 35135 6187 58529 3380 36415 15563 135347 31380 325383 58705 55136 1002 20046 15186 4387 1333 142895 65724 189316 71177 1913 6714 78322 202995 7617 73116 12270 2159 7785 7334 X6 12 6 96 42 160 510 465 2 457 5 190 35 75 335 4 590 100 8 47 415 8 164 32 132 34 613 79 61 46 53 283 208 385 2 21 550 558 30 4 493 27 8 525 29 185 13 17 33 79 365 555 418 73 9 230 82 59 166 43 96 3 3 4 23 4 556 479 77 16 114 31 47 148 361 502 236 131 10 478 63 11 3 681 613 95 59 3 58 212 157 196 111 11 12 8 14 X7 94 57 497 180 1043 933 304 220 917 26 295 201 246 1544 38 1602 174 20 687 632 66 780 870 1626 461 233 446 581 956 245 884 337 781 51 686 440 665 57 35 523 139 7 518 294 661 612 96 4575 1362 233 636 408 173 87 525 271 880 768 427 899 55 101 150 367 41 488 589 564 2053 754 109 300 321 739 205 266 1134 202 84 435 503 633 341 173 359 602 40 381 585 673 241 382 414 335 186 136 X8 53 19 1 2 22 19 47 6 20 45 31 45 66 33 44 49 52 58 74 66 34 28 16 12 13 12 22 43 0 6 0 38 51 13 26 77 25 71 42 47 39 1 10 41 18 17 60 4 11 6 1 6 1 2 0 8 0 54 20 25 22 44 37 50 17 31 28 19 2 42 32 53 28 34 10 34 27 39 7 4 27 18 68 30 4 25 38 4 26 16 4 52 26 8 43 23 X9 0 0.7 0 0.8 0.1 0 -0.4 4.1 -0.3 1.3 -0.4 1.2 0.6 -0.2 0.6 -1.1 0.7 0.2 0 0.1 1 3 1 -0.1 0.7 0 2.9 1.8 0 2.3 0 0.1 0 0.3 3.4 0 -0.1 0.6 1.4 0 1.8 5.1 -0.3 2.2 -0.5 0.6 1.1 0.1 0 -1.2 0 -0.3 -1 0.6 0 0.6 -1.4 2.1 -1.4 1.3 0.8 1.3 1 1.9 0.7 -1.4 0 0 3.5 1.9 2.8 0.4 -0.1 -0.5 -1.1 0 0 0.7 2.3 -4.3 1.4 1.1 0 -0.6 -0.8 3.5 1.2 -1.9 0 -0.3 -0.6 1.2 1.5 0 1.1 0.7 X10 341 89 4566 906 1504 5341 3301 64 5120 20 2392 373 718 2438 103 7854 622 331 1129 2982 103 558 923 1012 664 3977 337 565 600 370 10531 3243 2458 22 316 5997 4042 652 93 2260 210 29 4580 204 2383 248 366 1213 1505 3137 7932 2717 1067 110 8622 964 2499 1699 327 1561 40 49 28 300 162 5318 4245 2392 254 618 299 367 2401 1827 3732 3868 1733 97 8103 997 97 66 5723 3629 2146 769 34 595 957 3180 629 2186 101 206 149 438 X11 1.2 0.5 13.1 3 3.5 15.3 7.2 0.2 10.1 0.1 9.9 1 1.4 6.4 0.2 14.4 1.8 1.6 11.2 6.6 0.5 1.2 2.6 2.6 2.3 10.4 1.4 1.8 1.5 0.7 33.9 7 5.7 0.1 0.8 8.2 6.3 5.5 0.2 7.2 0.6 0.1 9.2 0.6 5.8 0.9 1 3.4 4 8.7 6.8 8.1 3 0.2 11.2 2.9 8.1 3.8 1.1 3.8 0.1 0.1 0.1 0.6 0.9 14.1 7.6 5.3 0.6 1.7 0.6 1 8.9 4.8 9.8 13.1 5.4 0.4 17.7 3.3 0.3 0.1 6.6 6.4 7.5 2 0.1 1.6 2.5 11.7 1.6 5.7 0.3 0.7 0.3 1.8 ANÁLISIS DE COMPONENTES PRINCIPALES 73 % % % % % Componentes principales a partir de la matriz de covarianzas. Ordenacion de los valores propios segun la variabilidad explicada (de mayor a menor). D1 es un vector fila. Las filas de T1 son los vectores propios ordenados. [T1,D1] = eigsort(S); T1 = T1’; % Corregimos los signos de T1. if ((sum(sign(T1(:,1))) < 0) & (sum(sign(T1(:,2))) < 0)) T1 = -T1; end s = sum(D1(1:p)); for i = 1:p percent1(i) = (D1(i)/s)*100; acum1(i) = sum(percent1(1:i)); end % ---------------------------------------------------------% Componentes principales a partir de la matriz de correlaciones. % Ordenacion de los valores propios segun la variabilidad % explicada ( de mas a menos). D2 es un vector fila. % Las filas de T2 son los vectores propios ordenados. % [T2,D2] = eigsort(R); T2 = T2’; % corregimos los signos de T2 if ((sum(sign(T2(:,1))) < 0) & (sum(sign(T2(:,2))) < 0)) T2 = -T2; end for i = 1:p percent2(i) = (D2(i)/p)*100; acum2(i) = sum(percent2(1:i)); end % ---------------------------------------------------------% Las columnas de T1 son las componentes principales. % Representacion de los datos. Y1 = X*T1; subplot(2,1,1); plot(Y1(:,1),Y1(:,2),’.b’,’MarkerSize’,15) grid xlabel(’1a. Componente Principal’,’FontSize’,10) ylabel(’2a. C.P.’,’FontSize’,10) title([’A.C.P. a partir de S (’,num2str(acum1(2)),’%)’],... ’FontSize’,12) for i = 1:n, text(Y1(i,1),Y1(i,2),lab(i,:)); end % --------------------------------------------------------% Las columnas de T2 son las componentes principales % (hay que estandarizar las variables). s = diag(sqrt(diag(S))); % Representacion de los datos. Y2 = X*inv(s)*T2; subplot(2,1,2); 74 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE plot(Y2(:,1),Y2(:,2),’.b’,’MarkerSize’,15) grid xlabel(’1a Componente Principal’,’FontSize’,10) ylabel(’2a. C.P.’,’FontSize’,10) title([’A.C.P. a partir de R (’,num2str(acum2(2)),’%)’],... ’FontSize’,12) for i = 1:n, text(Y2(i,1),Y2(i,2),lab(i,:)); end La función eigsort.m es una función auxiliar que se utiliza dentro de comp.m para ordenar las componentes principales según el porcentaje de variabilidad explicado (de mayor a menor). % EIGSORT % % Funcion que ordena los valores propios segun el porcentaje % de variabilidad explicada ( de mayor a menor ). Tambien se % reordenan los vectores propios, segun los vap’s. % Nota: d es un vector columna. % function [v,d] = eigsort(a) [v,d] = eig(a); [x,i] = sort(-diag(real(d))); d = -x; v = v(:,i); Sea X la matriz que contiene los datos de la Tabla 4.1. Para obtener las componentes principales haremos [T1,Y1,acum1,T2,Y2,acum2] = comp(X) La Figura 4.1 contiene la representación en componentes principales de estos países y el porcentaje de variabilidad explicado por las dos primeras componentes. Interpretaremos solamente las componentes calculadas a partir de R, puesto que son las más adecuadas en este caso. Los coeficientes de estas dos componentes son las dos primeras columnas de la matriz T2. Los porcentajes de variabilidad acumulados se encuentran en el vector acum. T2(:,1:2)= 0.3141 -0.3484 0.0735 0.4403 0.3297 -0.1839 0.1629 -0.0948 -0.5218 0.3467 -0.1006 0.3924 0.0414 0.1776 0.1340 -0.0834 -0.0866 0.6398 -0.3231 0.2903 -0.3896 0.1749 acum2(1:2)= 36.6353 54.1806 ANÁLISIS DE COMPONENTES PRINCIPALES 75 A.C.P. a partir de S (99.9927%) 4 2 x 10 2a. C.P. 0 −2 −4 16 75 14 46 37 18 10 42 78 82 2 38 34 21 87 94 64 15 12 44 41 62 81 163 54 70 30 53 56 22 27 39 68 88 96 95 28 91 861 59 93 72 65 80 57 50 423 3155 7951 24 35 48 32 74 11 45 52 71 19 67 58 17 26 40 47 29 749 77 69 76 586 36 9 84 92 89 343 66 60 8385 3373 20 690 13 −6 25 −8 −5000 −4000 2a. C.P. 1000 48 4 69 42 8 0 −2 −4 −3 0 A.C.P. a partir de R (54.1806%) 6 2 −3000 −2000 −1000 1a. Componente Principal −2 2449 3586 22 94 57 60568 54 9358 82 27 244 30 2347729 53 7065 87 64 39 34 71 10 52 95 21 28 61 81 7896 56 85 63 63 8959 88 1446 12 62 19 92 38411815 91 913 45 72 47 79 43 73 90 74 11 33 51 2667 20 117 4032 76 507 84 55 66 36 83 −1 31 80 0 1 2 1a Componente Principal 25 37 75 16 3 4 Figura 4.1. Representación en componentes principales. (Problema 4.4.) Las variables X1 , X2 , X4 , X5 , X9 y X10 son las que más contribuyen en la primera componente principal, que puede interpretarse como un índice de riqueza. Mientras que X1 , X7 , X8 y X10 son las que más contribuyen en la segunda componente, que podría interpretarse como un índice de ruralidad. Así por ejemplo, el grupo de países formados formado por Canadá (16), China (25), Francia (37) y Reino Unido (75) serían los más ricos según este índice que hemos construído, mientras que Bangladesh (8) y Haití (42) serían los más pobres. Por otro lado, Irán (48) y Pakistán (69) son los países con un índice de ruralidad más elevado, mientras que Finlandia (36) y Suecia (83) se encuentran en el lado opuesto. PROBLEMA 4.5 En la Tabla 4.2 se recogen las siguientes variables medidas sobre 30 olmos hembra. X1 X2 X3 X4 X5 X6 X7 nombre Longitud Diámetro Altura Peso total Peso desvainado Peso de las vísceras Peso de la corteza unidades mm mm mm g g g g breve descripción mayor medida de la corteza perpendicular a la longitud con madera dentro de la corteza todo el olmo peso de la madera peso de la tripa (después de sangrar) después de ser secado Este conjunto de datos pertenece a un estudio realizado por el Departamento de Industria Primaria y Pesca de Tasmania (Australia) en 1994. Los datos completos están disponibles en Nash et al. (1994). Realícese un análisis de componentes principales e interprétense las dos primeras componentes. 76 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 4.2. Datos para el Problema 4.5 (Fuente: Nash et al. 1994) X1 0.53 0.53 0.545 0.55 0.525 0.535 0.47 0.44 0.565 0.55 0.615 0.56 0.58 0.68 0.68 0.705 0.54 0.45 0.575 0.45 0.55 0.46 0.525 0.47 0.5 0.505 0.53 0.565 0.595 0.475 ✞ ✝ SOLUCIÓN X2 0.42 0.415 0.425 0.44 0.38 0.405 0.355 0.34 0.44 0.415 0.48 0.44 0.45 0.56 0.55 0.55 0.475 0.355 0.445 0.335 0.425 0.375 0.425 0.36 0.4 0.4 0.41 0.44 0.495 0.39 X3 0.135 0.15 0.125 0.15 0.14 0.145 0.1 0.1 0.155 0.135 0.165 0.14 0.185 0.165 0.175 0.2 0.155 0.105 0.135 0.105 0.135 0.12 0.16 0.12 0.14 0.125 0.13 0.16 0.185 0.12 X4 0.677 0.7775 0.768 0.8945 0.6065 0.6845 0.4755 0.451 0.9395 0.7635 1.1615 0.9285 0.9955 1.639 1.798 1.7095 1.217 0.5225 0.883 0.425 0.8515 0.4605 0.8355 0.4775 0.6615 0.583 0.6965 0.915 1.285 0.5305 X5 0.2565 0.237 0.294 0.3145 0.194 0.2725 0.1675 0.188 0.4275 0.318 0.513 0.3825 0.3945 0.6055 0.815 0.633 0.5305 0.237 0.381 0.1865 0.362 0.1775 0.3545 0.2105 0.2565 0.246 0.302 0.354 0.416 0.2135 X6 0.1415 0.1415 0.1495 0.151 0.1475 0.171 0.0805 0.087 0.214 0.21 0.301 0.188 0.272 0.2805 0.3925 0.4115 0.3075 0.1165 0.2035 0.091 0.196 0.11 0.2135 0.1055 0.1755 0.13 0.1935 0.1935 0.224 0.1155 X7 0.21 0.33 0.26 0.32 0.21 0.205 0.185 0.13 0.27 0.2 0.305 0.3 0.285 0.46 0.455 0.49 0.34 0.145 0.26 0.115 0.27 0.15 0.245 0.15 0.22 0.175 0.2 0.32 0.485 0.17 ☎ ✆ Sea X la matriz que contiene los datos de la Tabla 4.2. Mediante la instrucción [T1,Y1,acum1,T2,Y2,acum2] = comp(X) obtendremos las componentes principales. Aunque las unidades de medida de las variables son distintas, mm y g, las magnitudes son muy parecidas. Por tanto, nos quedaremos con las componentes calculadas a partir de la matriz de covarianzas, puesto que su interpretación es siempre más natural. Las dos primeras columnas de la matriz T1 contienen estas dos componentes principales y el vector acum1 contiene los porcentajes de variabilidad acumulados. T1(:,1:2) = 0.1489 -0.0764 0.4682 0.7550 0.1894 0.3825 0.0221 0.1339 -0.0796 0.1373 0.2810 0.1829 -0.8629 -0.3162 acum1(1:2) = 97.6342 99.1793 ANÁLISIS DE COMPONENTES PRINCIPALES 77 La Figura 4.2 muestra la representación de los datos en función de las dos primeras componentes principales. A.C.P. a partir de S (99.1793%) 0.15 14 15 2a. C.P. 0.1 0.05 0 −0.05 −0.5 2a. C.P. 2 4 29 14 −2 −4 −0.6 1 A.C.P. a partir de R (95.273%) 2 0 16 29 4 129 1117 3 211928 1 13 26 210 23 8 18 6 2072430 5 2527 22 0 0.5 1a. Componente Principal −0.4 7 8 22 2024 1830 1 526 3 6 25 21 28 12 23 9 13 17 16 15 −0.2 0 1a Componente Principal 0.2 2719 10 11 0.4 Figura 4.2. Representación en componentes principales. (Problema 4.5.) Puesto que el peso del diámetro, X2 , es muy pequeño en ambas componentes, no vamos a tener en cuenta esta variable a la hora de interpetar las componentes. La primera componente principal puede interpretarse como el tamaño del árbol, siendo el peso total, X4 , la variable que más contribuye en esta primera componente. La segunda componente principal puede interpretarse cómo la madera útil del árbol, puesto que el peso de las vísceras, X6 , y el peso de la corteza, X7 , tienen signo opuesto al resto de variables. Observemos que, si hubiéramos calculado las componentes principales a partir de la matriz de correlaciones, la interpretación habría sido distinta. PROBLEMA 4.6 En la Tabla 4.3 se recogen datos censales de algunos pueblos de España. (a) Determínense las dos primeras componentes principales a partir de la matriz de covarianzas S. Calcúlese el porcentaje de varianza explicada por las dos primeras componentes. (b) ¿Qué se obtiene si se utiliza la matriz de correlaciones R en lugar de S? Hállense los valores observados de las dos primeras componentes calculadas a partir de R. 78 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 4.3. Datos censales de pueblos de España (Problema 4.6) ✞ Pueblo Población total (en miles) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 5.442 5.058 5.692 7.429 6.053 4.068 4.750 3.955 6.866 5.585 3.321 3.495 3.741 2.555 ✝ SOLUCIÓN Inmigrantes extranjeros en últimos 5 años (en decenas) 2.8 1.0 3.0 14.1 4.0 2.2 3.0 3.7 6.9 4.8 1.5 0.9 2.8 1.0 No medio de hijos por pareja Porcentaje de parados Porcentaje de hogares con una sola persona 1.75 1.77 1.71 2.14 1.91 1.90 1.81 1.83 1.81 2.08 1.75 1.67 1.66 1.76 10.88 8.90 9.30 9.16 11.90 9.01 10.99 7.63 10.33 10.36 11.32 9.99 8.64 11.24 4.75 5.42 5.05 4.81 5.99 5.17 6.47 5.32 4.17 3.5 8.69 4.77 8.72 7.99 ☎ ✆ (a) Estamos observando en cada pueblo un vector X = (X1 , . . . , X5 )′ , donde la variable X1 es la población, la variable X2 es el número de inmigrantes llegados en los últimos cinco años, etc. La matriz de covarianzas es ⎛ ⎞ 1.99 3.45 0.11 0.01 −1.36 ⎜ 11.68 0.33 −0.59 −1.93 ⎟ ⎜ ⎟ 0.02 0.00 −0.10 ⎟ S=⎜ ⎜ ⎟. ⎝ 1.52 0.35 ⎠ 2.66 Los autovalores de S, así como el porcentaje de varianza total que explican las correspondientes componentes, se pueden ver a continuación: Autovalor 13.31 2.50 1.55 0.51 0.01 Porcentaje VT (S) 74.5 14.0 8.7 2.8 0.1 Porcentaje acumulado 74.5 88.4 97.1 99.9 100 Las dos primeras componentes principales son: Y1 = 0.31X1 + 0.93X2 + 0.03X3 − 0.05X4 − 0.21X5 Y2 = −0.30X1 + 0.31X2 − 0.01X3 + 0.12X4 + 0.89X5 . La primera componente es una media ponderada de la población y del número de inmigrantes recién llegados, así que hasta cierto punto mide la “vitalidad” (demográfica) de ese pueblo. La segunda componente está determinada en gran medida por el número de hogares compuestos por una sola persona. ANÁLISIS DE COMPONENTES PRINCIPALES 79 (b) La matriz de correlaciones es ⎛ ⎞ 1 0.77 0.58 0.01 −0.64 ⎜ 1 0.74 −0.15 −0.37 ⎟ ⎜ ⎟ 1 0.00 −0.47 ⎟ R=⎜ ⎜ ⎟. ⎝ 1 0.18 ⎠ 1 Ya sabemos que las componentes principales de esta matriz no tienen por qué ser las mismas que las de S. De hecho, los dos mayores autovalores de R son 2.82 y 1.03. Los correspondientes autovectores normalizados son e1 = (0.53, 0.52, 0.50, −0.08, −0.43)′, e2 = (0.13, 0.03, 0.17, 0.96, 0.20)′. Como vemos, la primera componente calculada a partir de R representa en mayor medida las posibilidades de crecimiento de la población (lo que antes hemos llamado “vitalidad”). En cambio la segunda componente de R ahora está determinada por la proporción de parados. Para calcular la matriz W de dimensión 14 × 2 con los valores observados de las dos primeras componentes, denotemos por Z la matriz 14 × 5 formada por las observaciones de X estandarizadas a media cero y varianza unidad. Además consideramos la matriz formada por los autovectores e1 y e2 A= 0.53 0.52 0.50 −0.08 −0.43 0.13 0.03 0.17 0.96 0.20 Entonces W = Z A′ . PROBLEMA 4.7 Sea X un vector aleatorio con matriz de correlaciones poblacionales ⎛ ⎞ 1 ρ 0 1 ρ = ⎝ ρ 1 ρ ⎠ , donde 0 < ρ < √ . 2 0 ρ 1 (a) Calcúlense los autovalores y autovectores de ρ. (b) Encuéntrense las componentes principales de ρ. (c) Calcúlese la proporción de variabilidad total explicada por las dos primeras componentes principales. (d) Calcúlese la correlación entre la primera componente principal y X2 . 80 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) La ecuación característica de ρ tiene la expresión |ρ − λI| = 1−λ ρ 0 ρ 1−λ ρ 0 ρ 1−λ = (1 − λ)[(1 − λ)2 − 2ρ2 ] = 0 Como ρ es positivo los autovalores ordenados de mayor a menor son λ1 = 1 + √ y λ3 = 1 − 2ρ. La ecuación característica, aplicada a λ1 , implica que √ −√2ρx1 + ρx2 ρx1 − 2ρx2√ + ρx3 ρx2 − 2ρx3 = = = √ 2ρ, λ2 = 1  0 x1 = √ x3 0 ⇒ x2 = 2x1 0 √ Así que un autovector normalizado para λ1 es e1 = 1/2(1, 2, 1)′ . Análogamente calculamos √ √ los autovectores correspondientes a λ2 y λ3 : e2 = 1/ 2(1, 0, −1)′ y e3 = 1/2(1, − 2, 1)′ . (b) Dado que E (X) = 0, las componentes principales centradas son √ 1 (X1 + 2X2 + X3 ) 2 √ Y2 = 2(X1 − X3 ) √ 1 Y3 = (X1 − 2X2 + X3 ). 2 Y1 = (c) La variabilidad total √es VT (ρ) = tr (ρ) = 3. La proporción de variabilidad total explicada por Y1 es (1 + 2ρ)/3, luego cuánto más correladas están las variables, mejor resume√ Y1 la información global. La proporción de variabilidad total explicada por Y1 e Y2 es (2 + 2ρ)/3.  √ √ √ (d) La correlación entre Y1 y X2 es e12 λ1 / σ22 = (1 + 2ρ)/2. PROBLEMA 4.8 Sea X un vector aleatorio que sigue una distribución normal bivariante de media cero y matriz de covarianzas 8 5 Σ= . 5 4 (a) Obténgase la función de densidad de X. (b) Realícese un análisis de componentes principales de X. ANÁLISIS DE COMPONENTES PRINCIPALES 81 ✞ ✝ SOLUCIÓN ☎ ✆ (a) La función de densidad de X es f (x) = 1 1 = √ exp − (2x21 − 5x1 x2 + 4x22 ) , 7 2 7π 1 1 exp − x′ Σ−1 x 1/2 2 2π|Σ| y se encuentra representada en la Figura 4.3. √ √ (b) Los autovalores de Σ son λ1 = 6 + 29 y λ2 = 6 − 29. Dos autovectores (no normalizados) de Σ correspondientes a estos autovalores son √ v1 = (5, 29 − 2)′ ≃ (5, 3.39)′ , √ v2 = (2 − 29, 5)′ ≃ (−3.39, 5)′, que normalizados dan e1 = (0.83, 0.56)′ y e2 = (−0.56, 0.83)′. Por tanto, las componentes principales de X son Y1 = 0.83X1 + 0.56X2 Y2 = −0.56X1 + 0.83X2 . En la Figura 4.3 se observa que, en el caso de la distribución normal, las direcciones de las componentes principales coinciden con los ejes de las elipses que son los conjuntos de nivel de la densidad. Concretamente la dirección de la primera componente, es decir, la dirección sobre la que proyectaríamos X para que la proyección tuviera la máxima variabilidad, es precisamente el eje mayor de estas elipses. 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 x 6 4 2 v2 2 v 1 0 x 1 −2 5 5 x 0 1 −5 −5 0 x 2 −4 −6 −6 −4 −2 0 Figura 4.3. Conjuntos de nivel de la densidad normal del Problema 4.8. 2 4 6 82 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 4.9 Sea ⎞ 3 1 1 S=⎝ 1 4 0 ⎠ 1 0 2 ⎛ la matriz de covarianzas muestral correspondiente al vector X = (X1 , X2 , X3 )′ , donde X1 representa la puntuación media en asignaturas de econometría para un alumno de la licenciatura conjunta en economía y derecho, X2 es un promedio de sus resultados en asignaturas de derecho y X3 es el resultado medio en asignaturas de libre elección. (a) Calcúlense los autovalores de la matriz S. (b) Interprétese la segunda componente principal a partir de S sabiendo que su segundo autovector es e2 = (0.5744, −0.5744, 0.5744)′ . ¿Cómo interpretaríamos el hecho de que un estudiante tenga un valor para la segunda componente principal mucho menor que el resto de sus compañeros? (c) ¿Cuántas componentes principales son necesarias para explicar un mínimo de un 80% de la varianza? Escríbanse esas componentes en función de los datos originales X1 , X2 y X3 ✞ ✝ SOLUCIÓN ☎ ✆ (a) Los autovalores de S son λ1 ≃ 4.7, λ2 = 3 y λ3 ≃ 1.3. (b) La segunda componente principal enfrenta buenos resultados en econometría y asignaturas de libre elección con buenos resultados en derecho. Si la segunda componente para un estudiante es menor que las de sus compañeros quiere decir que se le dan mejor las asignaturas de derecho que aquellas de economía o las que escogiera en libre elección. (c) Elegiremos dos componentes principales Y1 = 0.5774X1 + 0.7887X2 + 0.2113X3, Y2 = 0.5774X1 − 0.5774X2 + 0.5774X3, ya que la proporción de varianza acumulada explicada por la primera componente principal y por la primera y segunda componentes es 52.5% y 85.9% respectivamente. ANÁLISIS DE COMPONENTES PRINCIPALES 83 PROBLEMA 4.10 Considérense dos variables aleatorias con media cero y matriz de covarianzas Σ= σ2 1 1 σ2 con σ > 0. Se pide: (a) Calcúlense los autovalores de Σ. ¿Para que valores de σ es Σ definida positiva? (b) Encuéntrense las componentes principales a partir de Σ. (c) Calcúlese la proporción de variabilidad explicada por la primera componente. ✞ ✝ SOLUCIÓN ☎ ✆ (a) La ecuación característica de Σ es |Σ − λI| = λ2 − 2σ 2 λ + σ 4 − 1 = 0 . Por tanto, los autovalores de Σ son λ1 = σ 2 + 1 y λ2 = σ 2 − 1. La matriz Σ es definida positiva cuando σ > 1. (b) Los autovectores normalizados de Σ correspondientes a los autovalores λ1 y λ2 son, respectivamente, e1 = √12 (1, 1)′ y e2 = √12 (1, −1)′ . Entonces las componentes principales de Σ son 1 Y1 = e′1 X = √ (X1 + X2 ) 2 1 Y2 = e′2 X = √ (X1 − X2 ). 2 Observemos que las componentes no dependen del parámetro σ. En cambio, su variabilidad sí depende de σ, como veremos a continuación. (c) La varianza total es VT (Σ) = tr (Σ) = 2σ 2 . La proporción de varianza total explicada por la primera componente es (véase también la Figura 4.4): σ2 + 1 1 λ1 1 = = + 2. VT(Σ) 2σ 2 2 2σ A medida que σ aumenta, la correlación entre X1 y X2 disminuye y una sola componente principal explica cada vez menos la variabilidad del sistema. 84 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 σ Figura 4.4. Proporción de VT(Σ) explicada por Y1 (Problema 4.10). PROBLEMA 4.11 Considérese la matriz de varianzas-covarianzas de un vector aleatorio X Σ= 9/2 −3/2 −3/2 9/2 (a) Calcúlense las componentes principales de X a partir de Σ. (b) Considérese la siguiente matriz ortogonal √ √ 2/√5 −1/√5 A= 2/ 5 −1/ 5 . y calcúlense las componentes principales de Y = AX a partir de las componentes principales de X. ✞ ✝ SOLUCIÓN ☎ ✆ √ √ (a) Las componentes principales de X son Z1 = (X1 − X2 )/ 2 y Z2 = (X1 + X2 )/ 2. (b) Dado que A es una matrix ortogonal, el vector Y no es más que una rotación rígida (o una reflexión) del vector X. Como las direcciones de las componentes principales de Y son las direcciones de máxima variabilidad de Y, para hallarlas lo único que tenemos que hacer es rotar las de X. Otra manera de razonar es a partir de la descomposición espectral Σ = T Λ T′ . Puesto que Y = A X, entonces var (Y) = A Σ A′ = A T Λ T′ A′ . Es decir, para hallar los autovectores de √ Y hay que rotar los √autovectores de X por A, con lo que obtenemos ′ Ae1 = (1, −3)′ / 10 y Ae = (3, 1) / 10. Luego las componentes principales de Y son 2 √ √ W1 = (X1 − 3X2 )/ 10 y W2 = (3X1 + X2 )/ 10. ANÁLISIS DE COMPONENTES PRINCIPALES 85 PROBLEMA 4.12 Supongamos que dos observadores miden de manera independiente una variable aleatoria Z, pero cada uno de ellos comete un error de medida. Por esta razón las variables finalmente observadas son X1 = Z +ǫ1 y X2 = Z +ǫ2 , donde ǫ1 y ǫ2 denotan los errores. Supongamos que E(Z) = 7, var(Z) = 1, E(ǫi ) = 0, var(ǫi ) = σ 2 , i = 1, 2, donde σ es una constante positiva. Las variables Z, ǫ1 y ǫ2 son independientes entre sí. Denotemos X = (X1 , X2 )′ . (a) Calcúlense la esperanza y la matriz de varianzas-covarianzas de X. (b) Calcúlense las componentes principales de X. (c) Determínese, en función de σ, la proporción de variabilidad total explicada por las componentes principales. Interprétense los resultados obtenidos. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Dado que X= X1 X2 = Z + ǫ1 Z + ǫ2 = 1 1 1 0 ⎞ Z ⎝ ǫ1 ⎠ = AY, ǫ2 ⎛ 0 1 tenemos que E (X) = A E (Y) = (7, 7)′ y Var (X) = A Var (Y) A′ = 1 + σ2 1 1 1 + σ2 . 2 2 (b) Los autovalores √ de Var (X) son λ1 = σ√ +2 y λ2 = σ . Las componentes principales son Y1 = (X1 + X2 )/ 2 e Y2 = (X1 − X2 )/ 2. Es decir, la primera componente promedia los datos proporcionados por ambos observadores. (c) La proporción de VT explicada por Y1 es 1 1 2 + σ2 = + . 2(1 + σ 2 ) 2 2(1 + σ 2 ) Esto significa que, cuando la varianza de los errores aumenta, es decir, la incertidumbre en la observación de Z aumenta, se necesita en mayor medida la información proporcionada por ambos observadores. Mientras que, cuando σ 2 es baja, el promedio de las observaciones X1 y X2 es muy informativo acerca de Z. 86 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 4.13 La matriz de varianzas-covarianzas muestrales de unos datos bivariantes es 2647.5 −530.9 −530.9 127.4 S= . Los datos aparecen representados en el diagrama de dispersión de la Figura 4.5. 75 70 65 60 55 50 45 40 35 0 20 40 60 80 100 120 140 160 180 Figura 4.5. Diagrama de dispersión (Problema 4.13) (a) Calcúlense las componentes principales a partir de S. Interprétalas. (b) Dibújese sobre el gráfico la dirección de la primera componente principal y explíquese qué significa intuitivamente esta dirección. (c) Si cambio las unidades de medida de mis variables (por ejemplo, si las estandarizo) ¿varían las componentes principales con respecto a las de las variables originales? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Es sencillo comprobar que los autovalores de S son λ1 = 2754.8 y λ2 = 20.1 y que dos autovectores normalizados correspondientes a estos autovalores son respectivamente e1 ≃ (−0.98, 0.2)′ y e2 ≃ (−0.2, −0.98)′. Por tanto, las componentes principales de S son Y1 = −0.98X1 − 0.2X2 e Y2 = −0.2X1 − 0.98X2 . ANÁLISIS DE COMPONENTES PRINCIPALES 87 (b) La dirección de la primera componente principal Y1 (o equivalentemente la dirección del autovector e1 ) es la dirección de mayor variabilidad en la muestra (ver Figura 4.6). Como Y1 está determinada en gran medida por la variable X1 , la dirección de mayor variabilidad es aproximadamente la del eje de abscisas, aunque esto no se puede apreciar en la figura por las diferentes escalas de los ejes. 75 70 65 e1 60 x 55 50 45 40 35 0 20 40 60 80 100 120 140 160 180 Figura 4.6. Diagrama de dispersión y componentes principales (Problema 4.13) Si dibujo una recta en la dirección de e1 y proyecto los datos sobre ella, las observaciones univariantes resultantes tendrán mayor varianza que las proyecciones en cualquier otra dirección. En este problema, como Var (X1 ) es mucho mayor que Var (X2 ), tenemos que Y1 está dado principalmente por X1 . Es una situación clara en la que debemos estandarizar los datos, pues la diferencia entre variabilidades determina las componentes principales resultantes. (c) Sí, ya sabemos que las componentes principales calculadas a partir de R no tienen por qué ser las mismas que las obtenidas a partir de S. PROBLEMA 4.14 Dados los pares de puntos (xi , yi ), 1 ≤ i ≤ n, de R2 demuéstrese que la recta de regresión que se obtiene por mínimos cuadrados ortogonales coincide con la primera componente principal. ✞ ✝ SOLUCIÓN ☎ ✆ Dado un conjunto de n puntos sobre R2 , {(xi , yi ), 1 ≤ i ≤ n}, las rectas de regresión con las que sin duda el lector estará más familiarizado son las que se obienen por mínimos cuadrados 88 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ordinarios (recta de regresión lineal de Y sobre X y recta de regresión lineal de X sobre Y). En este ejercicio se trata de obtener una recta que sea una buena aproximación de la nube de puntos, pero sin dar preferencia a ninguna coordenada. A diferencia del caso de la regresión lineal, la función que debemos minimizar es la distancia, sobre la perpendicular, de los n pares puntos a una recta de ecuación A x + B y = C, donde (A, B) es su vector ortogonal. De hecho, para que el problema no sea indeterminado exigimos que este vector sea √ de norma A2 + B 2 , unidad. √ De esta manera, la ecuación de la recta es α x + β y = γ, donde α = A/ √ 2 2 2 2 β = B/ A + B , γ = C/ A + B (véase la Figura 4.7). 0.8 0.7 Ax+By=C (x i, y i) 0.6 di 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Figura 4.7. Relación entre la regresión ortogonal y las componentes principales. (Problema 4.14.) La función a minimizar es la media, d2 , de las distancias ortogonales (al cuadrado), d2i , de los puntos (xi , yi ) a la recta de ecuación α x + β y − γ = 0, d2 = 1 n n d2i = i=1 1 n n i=1 (α xi + β yi − γ)2 = α2 x2 + β 2 y 2 + γ 2 + 2αβ xy − 2αγ x − 2βγ y. En función de las varianzas y covarianzas muestrales de (X, Y ), hay que encontrar α, β y γ, tales que d2 = α2 s2x + β 2 s2y + 2αβ sxy + (α x + β y − γ)2 (4.1) sea mínima. Puesto que la primera parte de (4.1) no depende de γ y (α x + β y − γ)2 ≥ 0, se obtendrá el mínimo para γ = α x + β y. Substituyendo este valor de γ en la ecuación de la recta, α(x − x) + β(y − y) = 0, obtenemos que la recta de regresión pasa por el centro de gravedad de los puntos. Utilizando notación matricial, el problema de minimizar d2 es equivalente a encontrar los extremos de la ANÁLISIS DE COMPONENTES PRINCIPALES 89 forma cuadrática d2 =  α β  s2x sxy sxy s2y α β . El autovector (α, β) de autovalor máximo será el máximo de la función d2 y el autovector de autovalor mínimo será el mínimo que buscamos. Este último proporciona la dirección ortogonal a la recta A x + B y = C, mientras que el primero proporciona la dirección de la recta A x + B y = C. Así pues, esta recta es la dirección de máxima dispersión o variabilidad, o lo que es lo mismo, su vector director (que es el autovector de autovalor máximo) son los coeficientes de la primera componente principal. Asímismo la dirección ortogonal a la recta A x + B y = C es la dirección de mínima dispersión, es decir, el vector ortogonal a esta recta (que es el autovector de autovalor mínimo) son los coeficientes de la segunda componente principal. PROBLEMA 4.15 Determinar la edad de un árbol contando el número de anillos de una sección del tronco a través del microscopio es un trabajo muy laborioso. Por ello se busca la forma de predecir la edad de un árbol utilizando otras medidas más sencillas de obtener. La Tabla 4.4 contiene ocho variables medidas sobre 151 olmos. Las variables X1 , . . . , X7 son las mismas que las descritas en el Problema 4.5. La variable y es el número de anillos del olmo. Obténgase un modelo de regresión que permita predecir la edad de un olmo en función del resto de variables. ✞ ✝ SOLUCIÓN ☎ ✆ Sea X la matriz de datos que contiene las columnas de la Tabla 4.4 correspondientes a las variables X1 , . . . , X7 e y el vector columna que contiene la variable y. Queremos obtener un modelo de regresión lineal múltiple que permita predecir la edad del árbol (determinada por el número de anillos) en función de los regresores X1 , . . . , X7 . Si observamos la matriz R de correlaciones entre los regresores R = 1.0000 0.9889 0.9145 0.9234 0.9218 0.9017 0.8822 0.9889 1.0000 0.9256 0.9285 0.9228 0.9058 0.8896 0.9145 0.9256 1.0000 0.8996 0.8815 0.8979 0.8664 0.9234 0.9285 0.8996 1.0000 0.9790 0.9350 0.9688 0.9218 0.9228 0.8815 0.9790 1.0000 0.9455 0.9149 0.9017 0.9058 0.8979 0.9350 0.9455 1.0000 0.8500 0.8822 0.8896 0.8664 0.9688 0.9149 0.8500 1.0000 vemos que éstos están altamente correlacionados, por lo que es posible que existan problemas de multicolinealidad. Si calculamos el número de condición de la matriz R, es decir, la raíz cuadrada del cociente entre el máximo autovalor de R y el mínimo autovalor de R, vemos que es mayor que 30. Esto nos indica que R es una matriz mal condicionada y, efectivamente, vamos a tener problemas de multicolinealidad. 90 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 4.4. Datos del Problema 4.15 X1 0.455 0.35 0.53 0.44 0.33 0.425 0.53 0.545 0.475 0.55 0.525 0.43 0.49 0.535 0.47 0.5 0.355 0.44 0.365 0.45 0.355 0.38 0.565 0.55 0.615 0.56 0.58 0.59 0.605 0.575 0.58 0.68 0.665 0.68 0.705 0.465 0.54 0.45 0.575 0.355 0.45 0.55 0.24 0.205 0.21 0.39 0.47 0.46 0.325 0.525 0.52 0.4 0.485 0.47 0.405 0.5 0.445 0.47 0.245 0.505 0.45 0.505 0.53 0.425 0.52 0.475 0.565 0.595 0.475 0.31 0.555 0.4 0.595 0.57 0.605 0.6 X2 0.365 0.265 0.42 0.365 0.255 0.3 0.415 0.425 0.37 0.44 0.38 0.35 0.38 0.405 0.355 0.4 0.28 0.34 0.295 0.32 0.28 0.275 0.44 0.415 0.48 0.44 0.45 0.445 0.475 0.425 0.47 0.56 0.525 0.55 0.55 0.355 0.475 0.355 0.445 0.29 0.335 0.425 0.175 0.15 0.15 0.295 0.37 0.375 0.245 0.425 0.41 0.32 0.36 0.36 0.31 0.4 0.35 0.385 0.19 0.4 0.345 0.405 0.41 0.325 0.4 0.355 0.44 0.495 0.39 0.235 0.425 0.32 0.475 0.48 0.45 0.475 X3 0.095 0.09 0.135 0.125 0.08 0.095 0.15 0.125 0.125 0.15 0.14 0.11 0.135 0.145 0.1 0.13 0.085 0.1 0.08 0.1 0.095 0.1 0.155 0.135 0.165 0.14 0.185 0.14 0.18 0.14 0.165 0.165 0.165 0.175 0.2 0.105 0.155 0.105 0.135 0.09 0.105 0.135 0.045 0.055 0.05 0.095 0.12 0.12 0.07 0.16 0.12 0.095 0.13 0.12 0.1 0.14 0.12 0.135 0.06 0.125 0.105 0.11 0.13 0.095 0.12 0.12 0.16 0.185 0.12 0.07 0.13 0.11 0.17 0.175 0.195 0.15 X4 0.514 0.2255 0.677 0.516 0.205 0.3515 0.7775 0.768 0.5095 0.8945 0.6065 0.406 0.5415 0.6845 0.4755 0.6645 0.2905 0.451 0.2555 0.381 0.2455 0.2255 0.9395 0.7635 1.1615 0.9285 0.9955 0.931 0.9365 0.8635 0.9975 1.639 1.338 1.798 1.7095 0.4795 1.217 0.5225 0.883 0.3275 0.425 0.8515 0.07 0.042 0.042 0.203 0.5795 0.4605 0.161 0.8355 0.595 0.303 0.5415 0.4775 0.385 0.6615 0.4425 0.5895 0.086 0.583 0.4115 0.625 0.6965 0.3785 0.58 0.48 0.915 1.285 0.5305 0.151 0.7665 0.353 1.247 1.185 1.098 1.0075 X5 0.2245 0.0995 0.2565 0.2155 0.0895 0.141 0.237 0.294 0.2165 0.3145 0.194 0.1675 0.2175 0.2725 0.1675 0.258 0.095 0.188 0.097 0.1705 0.0955 0.08 0.4275 0.318 0.513 0.3825 0.3945 0.356 0.394 0.393 0.3935 0.6055 0.5515 0.815 0.633 0.227 0.5305 0.237 0.381 0.134 0.1865 0.362 0.0315 0.0255 0.0175 0.0875 0.293 0.1775 0.0755 0.3545 0.2385 0.1335 0.2595 0.2105 0.173 0.2565 0.192 0.2765 0.042 0.246 0.18 0.305 0.302 0.1705 0.234 0.234 0.354 0.416 0.2135 0.063 0.264 0.1405 0.48 0.474 0.481 0.4425 X6 0.101 0.0485 0.1415 0.114 0.0395 0.0775 0.1415 0.1495 0.1125 0.151 0.1475 0.081 0.095 0.171 0.0805 0.133 0.0395 0.087 0.043 0.075 0.062 0.049 0.214 0.21 0.301 0.188 0.272 0.234 0.219 0.227 0.242 0.2805 0.3575 0.3925 0.4115 0.124 0.3075 0.1165 0.2035 0.086 0.091 0.196 0.0235 0.015 0.0125 0.045 0.227 0.11 0.0255 0.2135 0.111 0.06 0.096 0.1055 0.0915 0.1755 0.0955 0.12 0.014 0.13 0.1125 0.16 0.1935 0.08 0.1315 0.1015 0.1935 0.224 0.1155 0.0405 0.168 0.0985 0.225 0.261 0.2895 0.221 X7 0.15 0.07 0.21 0.155 0.055 0.12 0.33 0.26 0.165 0.32 0.21 0.135 0.19 0.205 0.185 0.24 0.115 0.13 0.1 0.115 0.075 0.085 0.27 0.2 0.305 0.3 0.285 0.28 0.295 0.2 0.33 0.46 0.35 0.455 0.49 0.125 0.34 0.145 0.26 0.09 0.115 0.27 0.02 0.012 0.015 0.075 0.14 0.15 0.045 0.245 0.19 0.1 0.16 0.15 0.11 0.22 0.135 0.17 0.025 0.175 0.135 0.175 0.2 0.1 0.185 0.135 0.32 0.485 0.17 0.045 0.275 0.1 0.425 0.38 0.315 0.28 y 15 7 9 10 7 8 20 16 9 19 14 10 11 10 10 12 7 10 7 9 11 10 12 9 10 11 11 12 15 11 10 15 18 19 13 8 16 8 11 9 9 14 5 5 4 7 9 7 6 9 8 7 10 10 7 8 8 8 4 7 7 9 10 7 8 8 12 13 10 6 13 8 20 11 13 15 X1 0.595 0.6 0.555 0.615 0.575 0.62 0.52 0.595 0.58 0.57 0.625 0.56 0.46 0.575 0.565 0.555 0.595 0.625 0.695 0.665 0.535 0.47 0.47 0.475 0.36 0.55 0.53 0.53 0.605 0.52 0.545 0.5 0.51 0.435 0.495 0.465 0.435 0.425 0.545 0.53 0.49 0.44 0.56 0.405 0.47 0.385 0.515 0.37 0.36 0.27 0.375 0.385 0.7 0.71 0.595 0.44 0.325 0.35 0.265 0.425 0.305 0.345 0.405 0.375 0.565 0.55 0.65 0.56 0.475 0.49 0.46 0.28 0.175 0.17 0.59 X2 0.475 0.47 0.425 0.475 0.445 0.51 0.425 0.475 0.45 0.465 0.465 0.44 0.355 0.45 0.425 0.44 0.465 0.495 0.56 0.535 0.435 0.375 0.37 0.375 0.265 0.435 0.435 0.415 0.47 0.41 0.43 0.4 0.39 0.395 0.395 0.36 0.32 0.35 0.41 0.415 0.375 0.34 0.43 0.305 0.365 0.295 0.425 0.265 0.28 0.195 0.275 0.29 0.535 0.54 0.48 0.35 0.26 0.26 0.2 0.33 0.23 0.255 0.325 0.285 0.445 0.45 0.52 0.455 0.375 0.38 0.35 0.205 0.13 0.13 0.475 X3 0.14 0.15 0.14 0.17 0.14 0.175 0.165 0.16 0.14 0.18 0.14 0.16 0.13 0.16 0.135 0.15 0.175 0.165 0.19 0.195 0.15 0.13 0.13 0.125 0.095 0.145 0.16 0.14 0.16 0.155 0.165 0.125 0.135 0.105 0.125 0.105 0.08 0.105 0.125 0.115 0.135 0.105 0.15 0.085 0.105 0.085 0.14 0.075 0.08 0.06 0.09 0.085 0.16 0.165 0.165 0.125 0.09 0.095 0.065 0.115 0.08 0.09 0.11 0.095 0.155 0.145 0.19 0.155 0.13 0.125 0.12 0.08 0.055 0.095 0.145 X4 0.944 0.922 0.788 1.1025 0.941 1.615 0.9885 1.3175 1.013 1.295 1.195 0.8645 0.517 0.9775 0.8115 0.755 1.115 1.262 1.494 1.606 0.725 0.523 0.5225 0.5785 0.2315 0.843 0.883 0.724 1.1735 0.727 0.802 0.6675 0.6335 0.3635 0.5415 0.431 0.3325 0.393 0.6935 0.5915 0.6125 0.402 0.8825 0.2605 0.4205 0.2535 0.766 0.214 0.1755 0.073 0.238 0.2505 1.7255 1.959 1.262 0.4035 0.1915 0.211 0.0975 0.406 0.156 0.2005 0.3555 0.253 0.826 0.741 1.3445 0.797 0.5175 0.549 0.515 0.127 0.0315 0.03 1.053 X5 0.3625 0.363 0.282 0.4695 0.3845 0.5105 0.396 0.408 0.38 0.339 0.4825 0.3305 0.2205 0.3135 0.341 0.307 0.4015 0.507 0.588 0.5755 0.269 0.214 0.201 0.2775 0.105 0.328 0.316 0.3105 0.4975 0.291 0.2935 0.261 0.231 0.136 0.2375 0.172 0.1485 0.13 0.2975 0.233 0.2555 0.1305 0.3465 0.1145 0.163 0.103 0.304 0.09 0.081 0.0285 0.1075 0.112 0.63 0.7665 0.4835 0.175 0.085 0.086 0.04 0.1635 0.0675 0.094 0.151 0.096 0.341 0.295 0.519 0.34 0.2075 0.245 0.224 0.052 0.0105 0.013 0.4415 X6 0.189 0.194 0.1595 0.2355 0.252 0.192 0.225 0.234 0.216 0.2225 0.205 0.2075 0.114 0.231 0.1675 0.1525 0.254 0.318 0.3425 0.388 0.1385 0.132 0.133 0.085 0.046 0.1915 0.164 0.1675 0.2405 0.1835 0.183 0.1315 0.179 0.098 0.1345 0.107 0.0635 0.063 0.146 0.1585 0.102 0.0955 0.172 0.0595 0.1035 0.0575 0.1725 0.051 0.0505 0.0235 0.0545 0.061 0.2635 0.261 0.283 0.063 0.036 0.056 0.0205 0.081 0.0345 0.0295 0.063 0.0575 0.2055 0.1435 0.306 0.19 0.1165 0.1075 0.108 0.039 0.0065 0.008 0.262 X7 0.315 0.305 0.285 0.345 0.285 0.675 0.32 0.58 0.36 0.44 0.4 13 0.26 0.165 0.33 0.255 0.26 0.39 0.39 0.485 0.48 0.25 0.145 0.165 0.155 0.075 0.255 0.335 0.205 0.345 0.235 0.28 0.22 0.2 0.13 0.155 0.175 0.105 0.165 0.21 0.18 0.22 0.165 0.31 0.085 0.14 0.085 0.255 0.07 0.07 0.03 0.07 0.08 0.54 0.78 0.41 0.129 0.062 0.068 0.028 0.1355 0.048 0.063 0.117 0.0925 0.2475 0.2665 0.4465 0.2425 0.17 0.174 0.1565 0.042 0.0125 0.01 0.325 y 9 10 11 14 9 12 16 21 14 12 10 9 12 15 12 13 10 15 14 9 8 7 10 7 15 15 10 12 12 11 10 9 9 9 9 9 9 11 11 11 10 9 8 9 7 14 6 6 5 6 8 19 18 17 9 7 7 7 8 7 9 9 9 10 10 16 11 10 10 10 9 5 4 15 ANÁLISIS DE COMPONENTES PRINCIPALES 91 eig(R)= 0.0043 0.0105 0.0337 0.1080 0.1467 0.1972 6.4995 sqrt(max(eig(R))/min(eig(R)))=38.6608 Un procedimiento que se utiliza para el tratamiento de la multicolinealidad es transformar las variables mediante componentes principales, eliminar las menos informativas y expresar la variable respuesta en función de las componentes que resumen mayor variabilidad. Para obtener las componentes principales utilizaremos la función comp y nos quedaremos con las dos primeras componentes, Y1 e Y2 , calculadas a partir de la matriz de covarianzas, es decir, las dos primeras columnas de Y1, que explican el 98.7753% de la variabilidad de los datos. Dejamos para el lector la interpretación de estas dos primeras componentes. [T1,Y1,acum1,T2,Y2,acum2]=comp(X) T1 = 0.2149 -0.6148 0.4125 0.1264 -0.0792 -0.3997 -0.4730 0.1781 -0.4740 0.3411 0.0066 -0.0492 0.3499 0.7088 0.0636 -0.1182 0.0791 -0.2245 0.1832 0.7945 -0.5105 0.8445 0.2667 -0.1021 -0.0866 -0.4418 0.0381 -0.0334 0.3181 -0.2090 -0.4944 0.6127 0.4805 0.0641 0.0142 0.1705 -0.2970 -0.3734 -0.7412 0.3496 -0.2508 0.0932 acum1 = 97.5267 98.7753 99.5667 99.8136 99.9042 99.9606 100.0000 0.2730 0.4247 0.5594 -0.0346 0.6398 -0.1347 0.0575 Para realizar la regresión lineal múltiple y = β0 + β1 Y1 + β2 Y2 + u, donde u es el término de perturbación aleatoria, construimos la matriz del diseño regresores=[ones(151,1) Y1(1:2)] y escribimos: [b,bint,r,rint,stats] = regress(y,regresores) rcoplot(r,rint) que proporcionan el vector b=(10.3907,-19.9826,11.7702) de coeficientes βj estimados. Por tanto, el modelo ajustado es y = 10.3907 − 19.9826 Y1 + 11.7702 Y2. El vector r contiene los residuos del modelo y rint son los intervalos de confianza para los residuos. El vector stats contiene los resultados del contraste de significación del modelo, es decir, el valor del coeficiente de determinación R2 , el valor del estadístico F de Fisher y el p-valor asociado. La instrucción rcoplot permite obtener un gráfico de los residuos, junto con los intervalos de confianza al 95% (véase la Figura 4.8). Los triángulos son posibles outliers. 92 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Residual Case Order Plot 12 10 8 6 Residuals 4 2 0 −2 −4 −6 −8 20 40 60 80 Case Number 100 120 140 Figura 4.8. Regresión en componentes principales. Gráfico de residuos (Problema 4.15.) 5 Distancias estadísticas y CAPÍTULO escalado multidimensional (MDS) La primera parte de este capítulo sirve de introducción para dos técnicas de representación de los individuos de un conjunto finito E. Estas representaciones son de dos tipos: • Una representación a lo largo de unos ejes reales que describe las analogías y diferencias entre los individuos (elementos de E). Los ejes se interpretan como factores o causas de variabilidad y la información obtenida es de tipo espacial. Los problemas de la segunda parte de este Capítulo versan sobre este tema. • Una representación como un grafo con estructura de árbol (dendrograma), como forma de representar clasificaciones jerárquicas entre los individuos. La información es de tipo agrupativo. Los problemas del Capítulo 6 tratan esta técnica. El punto de partida en ambos casos es una matriz de distancias D = (δij ), de dimensión n × n, siendo n el número de individuos del conjunto E. Denotaremos por 2 ), la matriz de cuadrados de distancias. El concepto de distancia entre D(2) = (δij objetos o individuos observados permite interpretar geométricamente muchas técnicas clásicas de Análisis Multivariante, equivalentes a representar estos objetos como puntos de un espacio métrico adecuado. Similaridades, disimilaridades y distancias. Una disimilaridad o casi-métrica es una función δ : E × E → R+ tal que • δij = δji , para todo i, j, • δii = 0, para todo i. 94 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Una semi-métrica es una disimilaridad que cumple • δij ≤ δik + δkj , para todo i, j, k. Una métrica es una semi-métrica que cumple • δij = 0 ⇔ i = j, para todo i, j. Una ultramétrica es una disimilaridad que cumple • δij ≤ max{δik , δkj }, para todo i, j, k. En general, la palabra distancia puede hacer referencia tanto a una métrica como a una semi-métrica . Se usarán los términos técnicos de casi-métrica , semi-métrica y métrica cuando sea necesario precisar. Una similaridad es una función s : E × E → R tal que • 0 ≤ sij ≤ sii = 1, para todo i, j, • sij = sji , para todo i, j. La siguiente transformación permite obtener una distancia de forma natural a partir de una similaridad sij : 2 δij = sii + sjj − 2 sij . (5.1) Se dice que una distancia δ cumple la propiedad euclídea si existe una biyección ψ : E → E ⊂ Rp , para algún p > 1 tal que δ(x, y) = ψ(x) − ψ(y), para todo x, y ∈ E, donde  ·  es la norma euclídea en Rp . Escalado multidimensional métrico. El escalado multidimensional métrico (o análisis de coordenadas principales) es una técnica de Análisis Multivariante cuyo objetivo es obtener una representación euclídea, exacta o aproximada, de los elementos de un conjunto E de n objetos, a partir de una matriz de disimilaridades D sobre E. Una representación euclídea exacta en dimensión p ≥ 1 de (E, D) es un conjunto de n puntos x1 , . . . , xn del espacio euclídeo Rp , que verifica que las distancias euclídeas entre los xi son iguales a los elementos correspondientes de la matriz D. En general una matriz de disimilaridades D no tiene ninguna representación euclídea exacta, a menos que n = 2. Cuando no es posible una representación exacta, o bien cuando la representación exacta es de dimensión grande, se hace necesario obtener una representación aproximada (de dimensión más reducida). Este aspecto se relaciona directamente con el problema de reducción de la dimensión estudiado en el Capítulo 4. DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 95 PROBLEMA 5.1 Se desea averiguar si una muestra de 20 individuos procede de una normal trivariante. Para ello se calculan las distancias de Mahalanobis de cada observación a la media muestral. En la Figura 5.1 se puede ver un qq-plot de estas distancias frente a cuantiles de la χ23 . ¿Qué se puede deducir del gráfico? 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 Figura 5.1. qq-plot de distancias de Mahalanobis (Problema 5.1) ✞ ✝ SOLUCIÓN ☎ ✆ Si X ∼ N3 (µ, Σ) entonces la distancia de Mahalanobis de X a su media verifica: d2Mah (X, µ) = (X − µ)′ Σ−1 (X − µ) ∼ χ23 . Como µ y Σ son desconocidos los sustituimos por sus análogos muestrales, x̄ y S, y tenemos que los cuadrados de las distancias de Mahalanobis de las observaciones xi a la media x̄, dados por (xi − x̄)′ S−1 (xi − x̄), deberían ser (aproximadamente) una muestra de una χ23 . Por tanto, los puntos del qq-plot se deberían ajustar a una línea recta. Como no es así, concluimos que la muestra no procede de una normal. Observación. La recta de la Figura 5.1 no es la bisectriz del primer cuadrante. Esto es porque el gráfico fue generado con la orden qqplot de Matlab. Por ello la recta dibujada es la que une la pareja formada por los primeros cuartiles de ambas muestras con la pareja de terceros cuartiles. 96 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 5.2 La Tabla 4.1 contiene una serie de indicadores de distintos países del mundo. Calcúlese la matriz de distancias de Mahalanobis entre los 20 primeros países. ✞ ✝ SOLUCIÓN ☎ ✆ Construimos una función Matlab que calcule esta matriz de distancias. % La funcion D=maha(X) calcula una matriz de cuadrados de % distancias. El elemento (i,j) de la matriz D contiene el % cuadrado de la distancia de Mahalanobis entre la fila "i" % y la fila "j" de la matriz X. % % Entradas: una matriz X de dimension nxp. % Salidas: una matriz D de dimension nxn. % function D = maha(X) [n,p] = size(X); % calculo del vector de medias y de la matriz de covarianzas % de X: S = cov(X,1); % calculo de las distancias de Mahalanobis (al cuadrado): D = zeros(n); invS = inv(S); for i = 1:n for j = i+1:n D(i,j) = (X(i,:)-X(j,:))*invS*(X(i,:)-X(j,:))’; end end D = D+D’; Habíamos llamado X a la matriz de datos del Problema 4.4. Para obtener las distancias de Mahalanobis de los 20 primeros países haremos: Z=X(1:20,:); D=maha(Z); Observando la matriz D, ¿qué países crees que son más parecidos? En el Problema 6.5 estudiaremos más detalladamente las semejanzas entre estos países. DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 97 PROBLEMA 5.3 Frecuentemente en las aplicaciones nos encontramos con una variable categórica nominal con k estados excluyentes medida sobre una muestra de n = n1 + . . . + ng individuos provenientes de g poblaciones. Se desea obtener una medida de disimilaridad entre estas poblaciones. En estas condiciones, el vector de frecuencias de cada población ni = (ni1 , . . . , nik ), para i = 1, . . . , g, tiene una distribución conjunta multinomial con parámetros (ni , pi ), donde ni = ni1 +. . .+nik y pi = (pi1 , . . . , pik ). Dos medidas de disimilaridad son la distancia de Bhattacharyya, conocida en genética como distancia de Cavalli-Sforza, cuya expresión es:  k √ pil pjl d2ij = arccos l=1 y la distancia de Balakrishnan-Sanghvi : k d2ij = 2 l=1 (pil − pjl )2 pil + pjl La Tabla 5.1 contiene las proporciones génicas (observadas) de los grupos sanguíneos correspondientes a 10 poblaciones. Obténganse las distancias de Bhattacharyya y de Balakrishnan-Sanghvi entre estas poblaciones. Tabla 5.1. Proporciones génicas entre 10 poblaciones (Problema 5.3). Población francesa checa germánica vasca china ainu esquimal negra USA española egipcia 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ✞ ✝ SOLUCIÓN grupo A 0.21 0.25 0.22 0.19 0.18 0.23 0.30 0.10 0.27 0.21 grupo AB 0.06 0.04 0.06 0.04 0.00 0.00 0.00 0.06 0.04 0.05 grupo B 0.06 0.14 0.08 0.02 0.15 0.28 0.06 0.13 0.06 0.20 grupo O 0.67 0.57 0.64 0.75 0.67 0.49 0.64 0.71 0.63 0.54 ☎ ✆ Llamamos X a la Tabla 5.1, ya introducida en Matlab. Calculamos la matriz de cuadrados de distancias de Bhattacharyya de la siguiente forma: q = sqrt(X); DB2 = acos(q*q’); 98 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE La matriz de cuadrados de distancias de Balakrishnan-Sanghvi se obtiene así: [n,p] = size(X); DBS2 = zeros(n); for i = 1:n for j = 1:i-1 if X(i,:)-X(j,:)==0, Y = 0; else Y = (X(i,:)-X(j,:))./sqrt(X(i,:)+X(j,:)); end DBS2(i,j) = 2*Y*Y’; end end DBS2 = DBS2+DBS2’; Por ejemplo, la matriz de cuadrados de distancias de Bhattacharyya es: 0 0.1567 0.0435 0.1246 0.2863 0.3966 0.2622 0.1850 0.0800 0.2204 0.1567 0 0.1156 0.2665 0.2240 0.2605 0.2476 0.2093 0.1364 0.0897 0.0435 0.1156 0 0.1660 0.2715 0.3636 0.2608 0.1769 0.0778 0.1787 0.1246 0.2665 0.1660 0.0000 0.3221 0.4732 0.2607 0.2555 0.1517 0.3359 0.2863 0.2240 0.2715 0.3221 0 0.1933 0.1896 0.2710 0.2653 0.2491 0.3966 0.2605 0.3636 0.4732 0.1933 0 0.3101 0.3701 0.3642 0.2422 0.2622 0.2476 0.2608 0.2607 0.1896 0.3101 0 0.3608 0.2024 0.3226 0.1850 0.2093 0.1769 0.2555 0.2710 0.3701 0.3608 0.0000 0.2438 0.1997 0.0800 0.1364 0.0778 0.1517 0.2653 0.3642 0.2024 0.2438 0 0.2211 0.2204 0.0897 0.1787 0.3359 0.2491 0.2422 0.3226 0.1997 0.2211 0 Los individuos más cercanos (según la distancia de Battacharyya medida sobre sus proporcio2 = 0.0435, mientras que los nes génicas) son las poblaciones francesa y germánica con δ1,3 2 más alejados son las poblaciones francesa y ainu con δ1,6 = 0.3966. Estudiaremos con más detalle las proximidades entre estos individuos en los Problemas 5.9 y 6.3. PROBLEMA 5.4 En muchas situaciones las variables que se observan sobre un conjunto de individuos son de naturaleza binaria. En estos casos para poder disponer de una matriz de distancias entre individuos se utilizan los coeficientes de similaridad. El coeficiente de similaridad entre el individuo i y el individuo j, sij , se calcula a partir de las frecuencias: a =“número de variables con respuesta 1 en ambos individuos”, b =“número de variables con respuesta 0 en el primer individuo y con respuesta 1 en el segundo individuo”, c =“número de variables con respuesta 1 en el primer individuo y con respuesta 0 en el segundo individuo”, d =“número de variables con respuesta 0 en ambos individuos”. DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 99 Existen muchísimos coeficientes de similaridad (véase Cuadras 2004), pero los de Sokal-Michener y de Jaccard son especialmente interesantes porque dan lugar a una configuración euclídea (véase Problema 5.6). Se definen como: Sokal y Michener: sij = a+d , p Jaccard: sij = a , a+b+c donde p es el número de variables observadas. Aplicando uno de estos coeficientes a un conjunto de n individuos se obtiene una matriz de similaridades S = (sij )n×n . Utilizando la fórmula (5.1) podemos obtener una distancia a partir de un coeficiente de similaridad . Este cálculo puede realizarse matricialmente: D(2) = 2 (1n 1′n − S). Se considera el siguiente conjunto de seis individuos formado por cinco animales, león, jirafa, vaca, oveja, gato doméstico, junto con el hombre. Se miden seis variables binarias sobre estos individuos: X1 =tiene cola, X2 =es salvaje, X3 =tiene el cuello largo, X4 =es animal de granja, X5 =es carnívoro, X6 =camina sobre cuatro patas. (a) Obténgase la matriz de datos. (b) Calcúlense los coeficientes de similaridad de Sokal-Michener y de Jaccard para cada par de individuos y obténganse las matrices de distancias asociadas. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Consideremos el conjunto de individuos E = {león, jirafa, vaca, oveja, gato doméstico, hombre}, entonces, la matriz de datos es ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 1 1 1 1 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 1 1 1 1 1 1 1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ (5.2) Observad que los individuos vaca y oveja puntúan igual, por lo que cualquier coeficiente de similaridad entre ellos deberá valer 1. 100 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) Podemos construir dos funciones Matlab que calculen estos coeficientes de similaridad: % SOKAL % % Dada una matriz de datos binarios X (n,p), la funcion S=sokal(X) % devuelve la matriz de similaridades, segun el coeficiente de % similaridad de Sokal y Michener, entre los n individuos. % function S = sokal(X) [n,p] = size(X); J = ones(n,p); a = X*X’; d = (J-X)*(J-X)’; S = (a+d)/p; % JACCARD % % Dada una matriz de datos binarios X (n,p), la funcion % S=jaccard(X) devuelve la matriz de similaridades, segun el % coeficiente de similaridad de Jaccard, entre los n individuos. % function S = jaccard(X) [n,p] = size(X); J = ones(n,p); a = X*X’; d = (J-X)*(J-X)’; S = a./(p*ones(n)-d); Si llamamos X a la matriz (5.2), las instrucciones en Matlab son: [n,p] = size(X); J = ones(n); S_Sokal = sokal(X); D2_Sokal = 2*(J-S_Sokal); S_Jaccard = jaccard(X); D2_Jaccard = 2*(J-S_Jaccard); Por ejemplo, las matrices de similaridades son: S_Sokal = 1.0000 0.6667 0.5000 0.5000 0.8333 0.5000 0.6667 1.0000 0.5000 0.5000 0.5000 0.1667 0.5000 0.5000 1.0000 1.0000 0.6667 0.3333 0.5000 0.5000 1.0000 1.0000 0.6667 0.3333 0.8333 0.5000 0.6667 0.6667 1.0000 0.6667 0.5000 0.1667 0.3333 0.3333 0.6667 1.0000 0.6000 1.0000 0.4000 0.4000 0.4000 0 0.4000 0.4000 1.0000 1.0000 0.5000 0 0.4000 0.4000 1.0000 1.0000 0.5000 0 0.7500 0.4000 0.5000 0.5000 1.0000 0.3333 0.2500 0 0 0 0.3333 1.0000 S_Jaccard = 1.0000 0.6000 0.4000 0.4000 0.7500 0.2500 DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 101 Como ya se ha comentado anteriormente, el par de animales (vaca, oveja) es el más pare= sJaccard = 1. Les sigue el par (león, gato) con sSokal = 0.8333 y cido con sSokal 3,4 3,4 1,5 Jaccard s1,5 = 0.75. En los Problemas 5.11 y 6.4 seguiremos estudiando las proximidades entre estos individuos. PROBLEMA 5.5 Una situación muy habitual en análisis multivariante es disponer de un conjunto de datos mixto, es decir, un conjunto de individuos sobre los que se han observado tanto variables cuantitativas como cualitativas (o categóricas) . En estos casos es de gran utilidad la distancia de Gower, cuyo cuadrado se define como d2ij = 1 − sij , donde sij = p 1 h=1 (1 − |xih − xjh |/Gh ) + a + α p1 + (p2 − d) + p3 (5.3) es el coeficiente de similaridad de Gower, p1 es el número de variables cuantitativas continuas, p2 es el número de variables binarias, p3 es el número de variables cualitativas (no binarias), a es el número de coincidencias (1, 1) en las variables binarias, d es el número de coincidencias (0, 0) en las variables binarias, α es el número de coincidencias en las variables cualitativas (no binarias) y Gh es el rango (o recorrido) de la h-ésima variable cuantitativa. Si p1 = p3 = 0 entonces (5.3) coincide con el coeficiente de similaridad de Jaccard. Si se consideran las variables binarias como categóricas (es decir, p1 = p2 = 0) entonces (5.3) coincide con el coeficiente de similaridad de Sokal y Michener . La Tabla 5.2 contiene información sobre 50 jugadores de fútbol de la liga española (temporada 2006/07). Las variables observadas son: X1 =número de goles marcados, X2 =edad (años), X3 =altura (m), X4 =peso (kg), X5 =pierna buena del jugador (1 =derecha, 0 =izquierda), X6 =nacionalidad (1 =Argentina, 2 =Brasil, 3 =Camerún, 4 =Italia, 5 =España, 6 =Francia, 7 =Uruguay, 8 =Portugal, 9 =Inglaterra), X7 =tipo de estudios (1 =sin estudios, 2 =básicos, 3 =medios, 4 =superiores). Obténgase la matriz de distancias de Gower entre estos individuos. ✞ ✝ SOLUCIÓN ☎ ✆ Una función Matlab que calcula el coeficiente de similaridad de Gower es: % La funcion S=gower(X,p1,p2,p3,k) calcula una matriz de % similaridades, segun el coeficiente de similaridad de Gower. % % Entradas: % X matriz de datos mixtos, cuyas columnas deben estar % ordenadas de la forma: continuas, binarias, % categoricas, 102 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 5.2. Variables observadas sobre jugadores de la liga española de fútbol 2006/07. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. % % % % % % % p1 p2 p3 k Jugador Ronaldinho Etoo Xavi Messi Puyol Raúl Ronaldo Beckham Casillas Cannavaro Torres Agüero Maxi Pablo Maniche Morientes Joaquín Villa Ayala Cañizares Jesús Navas Puerta Javi Navarro Daniel Alves Kanouté Valerón Arizmendi Capdevila Riki Coloccini Riquelme Forlán Cani Javi Venta Tachinardi Pandiani Tamudo De la Peña Luis García Jonathan Aimar Diego Milito Savio Sergio García Zapater Edú Juanito Melli Capi Doblas X1 15 21 6 7 1 7 18 4 0 0 24 14 10 3 3 13 5 22 1 0 2 6 7 2 12 9 8 3 7 2 10 17 4 0 4 6 10 2 8 4 6 9 3 7 5 6 2 5 7 0 X2 26 25 26 19 28 29 30 31 25 33 22 18 25 25 29 30 25 24 33 36 20 21 32 23 29 31 22 28 26 24 28 27 25 30 31 30 28 30 25 21 26 27 32 23 21 27 30 22 29 25 X3 1.78 1.8 1.7 1.69 1.78 1.8 1.83 1.8 1.85 1.76 1.83 1.72 1.8 1.92 1.73 1.86 1.79 1.75 1.77 1.81 1.7 1.83 1.82 1.71 1.92 1.84 1.92 1.81 1.86 1.82 1.82 1.72 1.75 1.8 1.87 1.84 1.77 1.69 1.8 1.8 1.68 1.81 1.71 1.76 1.73 1.82 1.83 1.81 1.75 1.84 X4 71 75 68 67 78 73.5 82 67 70 75.5 70 68 79 80 69 79 75 69 75.5 78 60 74 75 64 82 71 78 79 80 78 75 75 69.5 73 80 74 74 69 68 72 60 78 68 69 70.5 74 80 78 73 78 X5 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 0 1 1 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 X6 2 3 5 1 5 5 2 9 5 4 5 1 1 5 8 5 5 5 1 5 5 5 5 2 6 5 5 5 5 1 1 7 5 5 4 7 5 5 5 5 1 1 2 5 5 2 5 5 5 5 X7 2 2 4 3 3 3 1 3 4 2 4 3 3 4 2 3 4 3 1 3 3 3 3 2 1 3 3 4 3 2 2 3 3 3 4 1 3 3 3 3 2 2 2 3 3 3 4 3 2 3 numero de variables continuas, numero de variables binarias, numero de variables categoricas (no binarias), vector que contiene el numero de categorias de cada variable categorica (no binaria) segun el orden de entrada. function S = gower(X,p1,p2,p3,k) [n,p] = size(X); % matriz de variables cuantitativas X1 = X(:,1:p1); % matriz de variables binarias X2 = X(:,p1+1:p1+p2); DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 103 % matriz de variables categoricas X3 = X(:,p1+p2+1:p); % % calculos para las variables continuas rango = max(X1)-min(X1); for i = 1:n c(i,i) = p1; for j = 1:i-1 c(i,j) = p1-sum(abs(X1(i,:)-X1(j,:))./rango); c(j,i) = c(i,j); end end % calculo de las matrices a y d para las variables binarias J = ones(size(X2)); a = X2*X2’; d = (J-X2)*(J-X2)’; % calculos para las variables categoricas: cada variable % categorica de k estados se transforma en k variables % binarias que se yuxtaponen en una sola matriz Y1. Y1 = zeros(n,k(1)); for i = 1:n Y1(i,X3(i,1)) = 1; end for j = 2:p3 Y = zeros(n,k(j)); for i = 1:n Y(i,X3(i,j)) = 1; end Y1 = [Y1 Y]; end alpha = Y1*Y1’; % calculo del coeficiente de similaridad de Gower S = (c+a+alpha)./(p*ones(n)-d); Si llamamos X a la matriz que contiene los datos de la Tabla 5.2, las instrucciones para calcular las distancias de Gower son: p1 = 4; p2 = 1; p3 = 2; k = [9 4]; S_gower = gower(X,p1,p2,p3,k); D2_gower = ones(size(S_gower))-S_gower; Observando la matriz de cuadrados de distancias, ¿qué par de jugadores son más próximos? ¿qué par son más distantes? Estudiaremos con más detalle las proximidades entre estos jugadores en el Problema 5.10 104 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 5.6 Sea D una matriz de distancias sobre n individuos de un conjunto E. Se dice que (E, D) tiene (o admite) una representación euclídea exacta en dimensión p ≥ 0 si existe un conjunto de n puntos x1 , . . . , xn del espacio euclídeo Rp , que verifica que las distancias euclídeas entre los xi (i = 1, . . . , n) son iguales a los elementos correspondientes de la matriz D = (δij )1≤i,j≤n , es decir, 2 δi,j = (xi − xj )′ (xi − xj ), 1 ≤ i, j ≤ n. Demuéstrese que (E, D) tiene una representación euclídea de dimensión p ≤ n − 1 si, y sólo si, la matriz 1 (5.4) B = − H D(2) H 2 es semidefinida positiva con p = rg(B), donde D(2) denota la matriz de cuadrados de distancias y H es la matriz de centrado . ✞ ✝ SOLUCIÓN ☎ ✆ ⇒) Supongamos que D es euclídea, y sea ⎛ ⎞ x′1 ⎜ ⎟ X = ⎝ ... ⎠ x′n una configuración euclídea de D en Rp . Los elementos de D (al cuadrado) son 2 δij = (xi − xj )′ (xi − xj ) = −2 aij . (5.5) Sea x el centroide de x1 , . . . , xn , es decir, x= 1 n n xi = i=1 1 ′ X 1n . n (5.6) Utilizaremos la siguiente notación: ai• = 1 n n aij , j=1 a•j = 1 n n aij , i=1 a•• = 1 n2 n n aij . i=1 j=1 Promediando (5.5) respecto de j −2 ai• = x′i xi 1 + n n x′j xj , (5.7) x′i xi − 2x′ xj + x′j xj , (5.8) − 2x′i x j=1 promediando (5.5) respecto de i −2 a•j = 1 n n i=1 DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 105 y promediando la expresión (5.8) respecto de j −2 a•• Construimos la matriz 1 = n n x′i xi i=1 1 − 2x x + n n ′ x′j xj . (5.9) j=1 1 B = − HD(2) H = HAH, 2 donde A = (aij )1≤i,j≤n . Desarrollando esta expresión, se obtiene B=A− 1 1 1 A1n 1′n − 1n 1′n A + 2 1n 1′n A1n 1′n , n n n cuyos elementos son: bij = aij − ai• − a•j + a•• . (5.10) Substituyendo las expresiones (5.7), (5.8) y (5.9) en (5.10) y operando, se obtiene bij = x′i xj − x′i x − x′ xj + x′ x = (xi − x)′ (xj − x). Matricialmente, utilizando la expresión (5.6), tenemos que: B = (X − 1n x′ )(X − 1n x′ )′ = (HX)(HX)′ , de donde se deduce que B ≥ 0 y rg (B) = p, puesto que rg (HX) = p. ⇐) Supongamos que B ≥ 0 con p = rg (B). Entonces, según el teorema de descomposición espectral, B = UΛU′ , donde U es una matriz ortogonal y Λ = diag (λ1 , . . . , λp ). Definiendo X = UΛ1/2 , se tiene que B = XX′ , cuyos elementos son bij = x′i xj . Veamos que los puntos representados por x1 , . . . , xn son una configuración euclídea de D. Utilizando las expresiones (5.5) y (5.10), (xi − xj )′ (xi − xj ) = x′i xi − 2 x′i xj + x′j xj = bii − 2 bij + bjj 2 = aii − 2 aij + ajj = −2 aij = δij , 2 2 puesto que aii = −δii /2 = 0, ajj = −δjj /2 = 0. El rango de B es siempre menor o igual que n − 1, puesto que 1n es un autovector de B cuyo autovalor es 0, es decir, B1n = HAH1n = 0. 106 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 5.7 Demuéstrese que, si la matriz B definida en (5.4) tiene autovalores negativos, la transformación  2 δij + c, i = j, 2 (5.11) δ̃ij = 0, i = j, donde c ≥ 2|λ|, siendo λ el autovalor negativo de módulo máximo, da lugar a una nueva matriz de distancias D̃ que admite una representación euclídea. Esta transformación se denomina q-aditiva y es la que menos distorsiona la distancia original. Los programas de escalado multidimensional (en inglés, MDS o multidimensional scaling) utilizan otras transformaciones no lineales más complicadas (véanse Mardia, Kent y Bibby 1979, Peña 2002, Cuadras 2004). ✞ ✝ SOLUCIÓN ☎ ✆ Sean λ1 > . . . > λk > 0 > λ′1 > . . . > λ′m , con m + k = n − 1 los autovalores de la 2 2 ) la matriz de cuadrados de distancias y D̃(2) = (δ̃ij ) la matriz de matriz B. Sea D(2) = (δij cuadrados de distancias transformada según (5.11), que matricialmente se escribe D̃(2) = D(2) + c (1n 1′n − I). La matriz B̃ correspondiente es 1 1 c c B̃ = − HD̃(2) H = − HD(2) H − H(1n 1′n − I)H = B + H, 2 2 2 2 puesto que H1n = 0 y H2 = H. Si v es un autovector de la matriz B de autovalor no nulo λ, es decir, B v = λ v, entonces: c c B̃ v = (B + H) v = B v + H v 2 2  c 1 c c = λ v + (I − 1n 1′n ) v = λ v + v = λ + v, 2 n 2 2 puesto que 1′n v = 0, al ser 1n autovector de B de autovalor 0. Por tanto, si λ′m es el autovalor de B negativo de módulo máximo, entonces λ′m + c ≥ 0 ⇔ c ≥ −2λ′m = 2|λ′m |. 2 En particular, si c = 2|λ′m | la transformación es euclídea en dimensión m + k − 1, puesto que existen m + k − 1 autovalores positivos y un autovalor nulo. Es interesante disponer de una función Matlab que realice esta transformación. % % % % % non2euclid Dada una matriz D (nxn) de cuadrados de distancias no euclidea, la funcion D1=non2euclid(D) devuelve una matriz D1 de cuadrados de distancias euclidea. DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 107 % function D1 = non2euclid(D) [n,n] = size(D); H = eye(n)-ones(n)/n; [T,Lambda] = eig(-H*D*H/2); m = min(diag(Lambda)); D1 = D-2*m*ones(n)+2*m*eye(n); PROBLEMA 5.8 Sea E un conjunto de n individuos cuya matriz euclídea de distancias es D y cuya representación en coordenadas principales es X. Se desean obtener las coordenadas de un nuevo individuo, al que llamaremos individuo n+1, del cual se conocen los cuadra2 2 )′ , . . . , δn+1,n dos de sus distancias a los n individuos del conjunto E. Si d = (δn+1,1 es el vector columna que contiene las distancias al cuadrado del individuo n + 1 a los restantes, demuéstrese que la representación en coordenadas principales del individuo n + 1 viene dada por 1 xn+1 = Λ−1 X′ (b − d), (5.12) 2 donde b = diag(B) = (b11 , . . . , bnn )′ , B = X X′ = U Λ U′ y U es una matriz ortogonal. La ecuación (5.12) se conoce como fórmula de interpolación de Gower (Gower 1968). ✞ ✝ SOLUCIÓN ☎ ✆ La distancia (al cuadrado) del individuo n + 1 a un individuo i de E es: 2 δn+1,i = (xn+1 − xi )′ (xn+1 − xi ) = x′n+1 xn+1 − 2x′n+1 xi + x′i xi , para 1 ≤ i ≤ n. Matricialmente, d = xn+1 2 1n − 2 X xn+1 + b. Operando y multiplicando por la izquierda por X′ , tenemos que: 2 X′ X xn+1 = X′ (b − d) + xn+1 2 X′ 1n . y puesto que X′ 1n = 0 y X = U Λ1/2 , xn+1 = 1 ′ −1 ′ 1 (X X) X (b − d) = Λ−1 X′ (b − d). 2 2 108 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 5.9 Obténgase una representación en coordenadas principales de las poblaciones del Problema 5.3, utilizando la matriz de distancias de Bhattacharyya. ¿Cuál es la dimensión de la representación euclídea? Determínese cuál es el porcentaje de variabilidad explicado por las dos primeras coordenadas principales. ✞ ✝ SOLUCIÓN ☎ ✆ Construimos una función Matlab para obtener las coordenadas principales a partir de una matriz de cuadrados de distancias. % % % % % % % % % % % % % % % % % % % % COORP La funcion [X,vaps,percent,acum] = coorp(D) calcula las coordenadas principales a partir de una matriz de D de cuadrados distancias, Entradas: D = matriz de cuadrados de distancias. Devuelve: X = matriz de coordenadas principales, vaps = vector fila que contiene los autovalores, percent = vector fila que contiene los porcentajes de variabilidad explicados por cada coordenada. acum = vector fila que contiene los porcentajes de variabilidad acumulados. function [X,vaps,percent,acum] = coorp(D) [n,n] = size(D); % comprobamos que D es euclidea (ie, B>=0) H = eye(n)-ones(n)/n; B = -H*D*H/2; L = eig(B); m = min(L); epsilon = 1.e-6; if abs(m) < epsilon % hacemos la transformacion non2euclid D1 = non2euclid(D); B = -H*D1*H/2; end %-------------------------------------------------% calculo de las coordenadas principales (solo consideramos % las no nulas) % [T,Lambda,V] = svd(B); DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 109 vaps = diag(Lambda)’; j = 1; while vaps(j)>epsilon T1 = T(:,1:j); X = T1*sqrt(Lambda(1:j,1:j)); j = min(j+1,n); end percent = vaps/sum(vaps)*100; acum = zeros(1,n); for i = 1:n acum(i) = sum(percent(1:i)); end %----------------------------------------------------% vector de etiquetas para los individuos % for i = 1:n lab(i,:) = sprintf(’%3g’,i); end %----------------------------------------------------% representacion de los datos en dimension 2 plot(X(:,1),X(:,2),’.b’,’MarkerSize’,15) grid xlabel(’Primera coordenada principal’,’FontSize’,10) ylabel(’Segunda coordenada principal’,’FontSize’,10) title([’Porcentaje de variabilidad explicada ’, ... num2str(acum(2)),’%’],’FontSize’,12) for i = 1:n, text(X(i,1),X(i,2),lab(i,:)); end En el Problema 5.3 habíamos calculado la matriz DB2 de cuadrados de distancias de Bhattacharyya entre las poblaciones. Para obtener la representación en coordenadas principales haremos: [X,vaps,percent,acum] = coorp(DB2); La dimensión de la representación euclídea es el número de autovalores no nulos, es decir, la dimensión del vector fila vaps. El vector fila percent contiene los porcentajes de variabilidad explicados por cada coordenada principal y el vector acum contiene los porcentajes acumulados. En la Figura 5.2 se encuentra la representación de las poblaciones {francesa, checa, germánica, vasca, china, ainu, esquimal, negra USA, española, egipcia} en función de las dos primeras coordenadas principales. A grandes rasgos pueden distinguirse tres grupos, que estudiaremos con más detalle en el Problema 6.3. 110 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Porcentaje de variabilidad explicada 56.5866% 0.3 10 Segunda coordenada principal 0.2 8 2 0.1 3 6 1 0 1. francesa 2. checa 3. germánica 4. vasca 5. china 6. ainu 7. esquimal 8. negra USA 9. española 10. egipcia 9 −0.1 5 4 −0.2 7 −0.3 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 Primera coordenada principal 0.3 0.4 Figura 5.2. Representación en coordenadas principales (Problema 5.9). PROBLEMA 5.10 Utilizando la matriz de distancias del Problema 5.5 obténgase una representación de los jugadores en coordenadas principales. Determínese cuál es el porcentaje de variabilidad explicado por las dos primeras coordenadas principales . ¿Qué se puede decir de las semejanzas entre jugadores? ✞ ✝ SOLUCIÓN ☎ ✆ En el Problema 5.5 habíamos obtenido la matriz de cuadrados de distancias D2_gower. Utilizando la función coorp construida en el Problema 5.9 realizaremos la representación en coordenadas principales: [Y,vaps,percent,acum] = coorp(D2_gower); La Figura 5.3 contiene la representación de los jugadores en función de las dos primeras coordenadas principales. Quizá al lector le resulte entretenido buscar parecidos entre distintos jugadores. DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 111 Porcentaje de variabilidad explicada 33.5165% 0.4 124 0.3 Segunda coordenada principal 24 0.2 41 15 0.1 0 21 31 42 43 1 10 2 49 19 30 36 −0.1 −0.2 25 −0.3 3 37 26 48 5 23 5027 16 29 47 14 35 −0.4 −0.4 8 40 11 6 22 34 17 9 20 46 7 −0.3 18 45 44 38 33 39 32 13 28 −0.2 −0.1 0 0.1 Primera coordenada principal 0.2 0.3 Figura 5.3. Representación en coordenadas principales (Problema 5.10). PROBLEMA 5.11 Para los datos del Problema 5.4 (a) obténgase una representación en coordenadas principales utilizando la matriz de distancias calculada a partir del coeficiente de similaridad de Sokal y Michener. (b) Sin volver a recalcular las coordenadas principales, añádase el elefante al conjunto de animales y obténganse sus coordenadas (véase el Problema 5.8). ✞ ✝ SOLUCIÓN ☎ ✆ (a) Habíamos llamado X a la matriz de datos del Problema 5.4. Llamaremos Y a la matriz que contiene las coordenadas principales del conjunto de animales. [Y,vaps,percent,acum] = coorp(D2_Sokal); La Figura 5.4 contiene la reprentación de los animales en función de las dos primeras coordenadas principales. Podemos observar que el primer eje ordena a los animales dependiendo de si son carnívoros o herbívoros, mientras que el segundo eje ordena a los animales en función de que sean salvajes o no. En el Problema 6.4 estudiaremos con más detalle las agrupaciones entre estos individuos. 112 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 1 Porcentaje de variabilidad explicada 80.8127% 1. león 2. girafa 3. vaca 4. oveja 5. gato doméstico 6. hombre Segunda coordenada principal 0.8 2 0.6 0.4 1 0.2 0 5 −0.2 3 4 6 −0.4 −0.8 −0.6 −0.4 −0.2 0 0.2 Primera coordenada principal 0.4 0.6 Figura 5.4. Representación en coordenadas principales (Problema 5.11). (b) Las puntuaciones del elefante según las variables del Problema 5.4 son (1 1 0 0 0 1). Recordemos que habíamos llamado X a las puntuaciones de los restantes animales. Calculamos primero las similaridades, según el coeficiente de Sokal y Michener, entre este nuevo individuo y los demás y también los cuadrados de las distancias asociadas: [n,p] = size(X); x = [1 1 0 0 0 1]; a = X*x’; d=(ones(n,p)-X)*(ones(1,p)-x)’; s = (a+d)/p; d = 2*(ones(n,1)-s); y obtenemos s’ = d’ = 0.8333 0.3333 0.8333 0.3333 0.6667 0.6667 0.6667 0.6667 Implementando la fórmula (5.12) como sigue B = Y*Y’; b = diag(B); [n,p] = size(Y); Lambda = diag(vaps(1:p)); y = 1/2*inv(Lambda)*Y’*(b-d); obtenemos las coordenadas del nuevo individuo: y’ = 0.1491 0.3582 0.0000 -0.1861 0.6667 0.6667 0.3333 1.3333 DISTANCIAS ESTADÍSTICAS Y ESCALADO MULTIDIMENSIONAL (MDS) 113 Para añadir este nuevo punto a la representación gráfica, hacemos: hold on plot(y(1),y(2),’*r’,’MarkerSize’,15); La Figura 5.5 contiene esta nueva representación de los animales. Observemos que el elefante está “donde corresponde”, puesto que es un herbívoro salvaje. Porcentaje de variabilidad explicada 80.8127% 1 1. león 2. girafa 3. vaca 4. oveja 5. gato doméstico 6. hombre Segunda coordenada principal 0.8 2 0.6 elefante 0.4 1 0.2 0 5 −0.2 3 4 6 −0.4 −0.8 −0.6 −0.4 −0.2 0 0.2 Primera coordenada principal 0.4 0.6 Figura 5.5. Fórmula de interpolación de Gower (Problema 5.11). CAPÍTULO 6 Análisis de conglomerados Sea E un conjunto de n objetos o individuos sobre los que se ha calculado alguna medida de distancia. Sea D = (δij )1≤i,j≤n la matriz de distancias entre estos n individuos. El objetivo del análisis de conglomerados (en inglés, cluster analysis) es la clasificación (no supervisada) de los elementos de E, es decir, su agrupación en clases disjuntas, que se denominan conglomerados (o clusters). Si estas clases se agrupan sucesivamente en clases de un nivel superior, el resultado es una estructura jerárquica de conglomerados, que puede representarse gráficamente mediante un árbol, llamado dendrograma. Se dice que una matriz de distancias D es ultramétrica si todos los elementos de E verifican la desigualdad ultramétrica (véase el Capítulo 5). Puede demostrarse que a cada dendrograma le corresponde una matriz de distancias ultramétrica y viceversa. Como ocurría en el caso euclídeo, una matriz de distancias obtenida de unos datos en general no es ultramétrica. Esto da lugar al problema de aproximar la matriz de distancias D con una matriz ultramétrica U según algún criterio de proximidad adecuado. 116 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 6.1 Sea δ una función de distancia sobre los elementos de un conjunto E que verifica la desigualdad ultramétrica. (a) Sean i, j, k ∈ E tales que δij = a, δik = b, δjk = c, con a ≤ b ≤ c. Demuéstrese que b = c. (b) Usando el apartado (a) demuéstrese que δ cumple la desigualdad triangular. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Puesto que δ verifica la desigualdad ultramétrica y, además a ≤ b ≤ c :  b = δik ≤ max{δij , δjk } = max{a, c} = c ⇒ b = c. c = δjk ≤ max{δji , δik } = max{a, b} = b Esto significa que con una distancia ultramétrica todo triángulo es isósceles. (b) Debemos comprobar que se cumple la desigualdad δij ≤ δik + δkj ,para todo i, j, k, teniendo en cuenta que b = c. Consideremos los tres posibles casos: ⎫ δij ≤ δik + δkj ⎬ δij = a ⇔ a ≤ b + c Es cierto, puesto que a ≤ b ≤ c. ⎭ δik + δkj = b + c ⎫ δik ≤ δij + δjk ⎬ δik = b ⇔ b ≤ a + b Es cierto, puesto que a > 0. ⎭ δij + δjk = a + c = a + b ⎫ δjk ≤ δji + δik ⎬ δjk = c ⇔ c ≤ a + c Es cierto, puesto que a > 0. ⎭ δji + δik = a + b = a + c PROBLEMA 6.2 La Tabla 6.1 contiene las distancias por carretera (en km) entre 5 ciudades españolas. Realícese una clasificación jerárquica mediante el método del mínimo (o single linkage). Obténgase la matriz de distancias ultramétrica. ✞ ✝ SOLUCIÓN ☎ ✆ Para abreviar, denotaremos las ciudades por sus iniciales y trabajaremos solamente con el triángulo superior de la matriz de distancias. El paso cero del algoritmo de clasificación consiste en expresar la unión disjunta formada por cada uno de los elementos del conjunto, es decir, C0 = {B} + {M } + {SS} + {S} + {V }. ANÁLISIS DE CONGLOMERADOS 117 Tabla 6.1. Distancias por carretera (en km) entre ciudades. (Problema 6.2) Barcelona Madrid San Sebastián Sevilla Valencia Barcelona 0 639 606 1181 364 Madrid 639 0 474 542 350 San Sebastián 606 474 0 908 597 Sevilla 1181 542 908 0 679 Valencia 364 355 597 679 0 En el primer paso del algoritmo se juntan los individuos más cercanos, que en este caso son las ciudades Madrid y Valencia, puesto que δM,V = 355. Estas dos ciudades forman el primer conglomerado. De manera que en el paso 1 la clasificación será: C1 = {B} + {M, V } + {SS} + {S}. Ahora mediante el método del mínimo hay que recalcular las distancias del conglomerado {M,V} a los demás individuos: δ(MV ),B = min{δM,B , δV,B } = min{639, 364} = 364, δ(MV ),SS = min{δM,SS , δV,SS } = min{474, 597} = 474, δ(MV ),S = min{δM,S , δV,S } = min{542, 679} = 542, de manera que la matriz de distancias ha quedado: Paso 0 B B 0 M SS S V M SS S V 639 606 1181 364 0 474 542 355 0 908 597 0 679 0 → Paso 1 B (M, V ) SS S B 0 (M, V ) SS S 364 606 1181 0 474 542 0 908 0 Se prosigue análogamente hasta que se obtenga un conglomerado que contenga a todos los individuos. El siguiente conglomerado que se forma es {B,M,V}, puesto que Barcelona es la ciudad más cercana al conglomerado {M,V} al ser δB,MV = 364. En este segundo paso, la clasificación será C2 = {B, M, V } + {SS} + {S}. Como anteriormente, hay que recalcular las distancias del conglomerado {B,M,V} al resto de individuos: δ(BMV ),SS = min{δB,SS , δ(MV ),SS } = min{606, 474} = 474, δ(BMV ),S = min{δB,S , δ(MV ),S } = min{1181, 542} = 542, y la matriz de distancias es: Paso 2 (B, M V ) SS S (B, M V ) 0 SS S 474 542 0 908 0 → (BM V, SS) S Paso 3 (BM V, SS) 0 542 S 0 118 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE En el tercer paso se forma el conglomerado {B,M,V,SS}, puesto que San Sebastián es la ciudad más próxima al conglomerado {B,M,V} con δSS,BMV = 474. Ahora la clasificación es C3 = {B, M, V, SS} + {S} y la distancia del conglomerado {B,M,V,SS} al individuo que falta es: δ(BMV SS),S = min{δ(BMV ),S , δSS,S } = min{542, 908} = 542, Finalmente, en el paso 4 se forma el último conglomerado {B,M,V,SS,S} con una distancia de δBMV SS,S = 542, que es lo que dista Sevilla del conglomerado {B,M,V,SS}. La clasificación en este último paso es C4 = {B, M, V, SS, S}. La Tabla 6.2 contiene un resumen de los conglomerados que se han ido formando en las distintas etapas del algoritmo de clasificación. Tabla 6.2. Resumen del algoritmo de clasificación (Problema 6.2). paso 0 1 2 3 4 distancias δM,V = 355 δB,M V = 364 δBM V,SS = 474 δBM V SS,S = 542 clasificación / conglomerados C0 = {B} + {M } + {SS} + {S} + {V } C1 = {B} + {M, V } + {SS} + {S} C2 = {B, M, V } + {SS} + {S} C3 = {B, M, V, SS} + {S} C4 = {B, M, V, SS, S} A partir de la Tabla 6.2 puede reconstruirse la matriz de distancias ultramétrica, que se muestra en la Tabla 6.3. La representación de los individuos a partir de las distancias ultramétricas suele realizarse mediante un dendrograma o árbol jerárquico. Si la matriz de distancias originales no cumple la propiedad ultramétrica, los distintos métodos de clasificación darán lugar a distintos dendrogramas. Tabla 6.3. Matriz de distancias ultramétrica entre ciudades. (Problema 6.2). Barcelona Madrid San Sebastián Sevilla Valencia Barcelona 0 Madrid 364 0 San Sebastián 474 474 0 Sevilla 542 542 542 0 Valencia 364 355 474 542 0 La Figura 6.1 contiene una representación, en forma de árbol jerárquico o dendrograma, de la matriz de distancias ultramétrica calculada mediante el método del mínimo. ANÁLISIS DE CONGLOMERADOS 119 542 1. Barcelona 2. Madrid 3. San Sebastián 4. Sevilla 5. Valencia 474 364 355 2 5 1 ciudades 3 4 Figura 6.1. Dendrograma con los datos del Problema 6.2 PROBLEMA 6.3 Considérense los datos de la Tabla 5.1. Sea D(2) la matriz de distancias de Bhattacharyya obtenida en el Problema 5.3. (a) Verifíquese que D no es ultramétrica. (b) Realícense clasificaciones jerárquicas a partir de la matriz D mediante los métodos del mínimo (o single linkage), del máximo (o complete linkage) y UPGMA (o Unweighted Pair Group Method using Arithmetic averages). ¿Qué diferencias se observan? (c) Calcúlese la correlación cofenética en cada caso. (d) Compárense los dendrogramas con la representación en coordenadas principales que muestra la Figura 5.2. ✞ ✝ SOLUCIÓN ☎ ✆ (a) En el Problema 5.3 habíamos calculado la matriz DB2 de cuadrados de distancias de Bhattacharyya con los datos de la Tabla 5.1. Esta tabla contenía las proporciones génicas (observadas) entre 10 poblaciones. De manera que el conjunto de individuos sobre el que queremos realizar clasificaciones jerárquicas es E ={francesa, checa, germánica, vasca, china, ainu, esquimal, negra USA, espa nola, egipcia}. 120 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE En primer lugar, calculamos la matriz de distancias D=sqrt(DB2), para ver si los elementos de E cumplen o no la propiedad ultramétrica: D=[ 0 0.3959 0.2086 0.3530 0.5351 0.6298 0.5121 0.4301 0.2828 0.4695 0.3959 0 0.3400 0.5162 0.4733 0.5104 0.4976 0.4575 0.3693 0.2995 0.2086 0.3400 0 0.4074 0.5211 0.6030 0.5107 0.4206 0.2789 0.4227 0.3530 0.5162 0.4074 0 0.5675 0.6879 0.5106 0.5055 0.3895 0.5796 0.5351 0.4733 0.5211 0.5675 0 0.4397 0.4354 0.5206 0.5151 0.4991 0.6298 0.5104 0.6030 0.6879 0.4397 0 0.5569 0.6084 0.6035 0.4921 0.5121 0.4976 0.5107 0.5106 0.4354 0.5569 0 0.6007 0.4499 0.5680 0.4301 0.4575 0.4206 0.5055 0.5206 0.6084 0.6007 0 0.4938 0.4469 0.2828 0.3693 0.2789 0.3895 0.5151 0.6035 0.4499 0.4938 0 0.4702 0.4695 0.2995 0.4227 0.5796 0.4991 0.4921 0.5680 0.4469 0.4702 0 ]; Puede comprobarse que la matriz D no es ultramétrica puesto que, por ejemplo, δ1,6 = 0.6298 > max{δ1,3 , δ3,6 } = max{0.2086, 0.6030}. (b) Para poder utilizar las funciones incorporadas en Matlab que permiten realizar el análisis de conglomerados, necesitamos expresar la matriz de distancias como un vector fila que contenga solamente la parte triangular superior de la matriz, pero sin la diagonal principal. Para ello, podemos utilizar la siguiente función: % la funcion Y=extractdist(D) extrae las distancias de los % elementos de la parte triangular superior (sin contar la % diagonal) de la matriz D (nxn) de distancias. Los elementos % se extraen ordenadamente, columna a columna. % % Entradas: D es una matriz cuadrada (nxn). % Salidas: Y es un vector fila de dimension n(n-1)/2. % function Y = extractdist(D) [n,n] = size(D); Y = [D(1,2:n)]; for i = 2:n-1 Y = [Y D(i,i+1:n)]; end Podéis comprobar que mediante la instrucción Y=squareform(D) se llega al mismo resultado. Utilizando las funciones internas de Matlab linkage y dendrogram (sólo disponibles con la Toolbox Statistics) se obtiene una representación en forma de árbol jerárquico o dendrograma. La función linkage da lugar a una matriz de 3 columnas, que contiene el índice de la jerarquía indexada en su tercera columna y, por tanto, permite recuperar la matriz de distancias ultramétrica, si ésta fuera de interés. Z_min = linkage(Y,’single’); Z_max = linkage(Y,’complete’); Z_UPGMA = linkage(Y,’average’); dendrogram(Z_min); dendrogram(Z_max); dendrogram(Z_UPGMA); 121 ANÁLISIS DE CONGLOMERADOS La Figura 6.2 contiene los dendrogramas obtenidos mediante los tres métodos anteriores. Observad que las clasificaciones que se obtienen mediante los métodos del máximo y UPGMA son muy parecidas. Por otro lado, el método del mínimo tiende a contraer el espacio (observad los valores del índice de la jerarquía, que se encuentran representados en el eje vertical del gráfico), mientras que el método de máximo tiende a dilatar el espacio. 0.7 0.45 0.65 0.6 0.4 0.55 0.5 0.35 0.45 0.4 0.3 0.35 0.3 0.25 0.25 0.2 0.2 1 3 9 2 10 4 8 5 7 6 1 3 9 4 (a) 2 10 8 5 7 6 (b) 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 1 3 9 4 2 10 8 5 7 6 (c) Figura 6.2. Dendrogramas con los datos del Problema 6.3: métodos (a) del mínimo, (b) del máximo y (c) UPGMA. (c) La correlación cofenética es el coeficiente de correlación lineal de Pearson entre los elementos de la matriz de distancias original y los elementos de la matriz de distancias ultramétrica. Se utiliza como medida de proximidad entre las dos matrices de distancias. Este coeficiente vale uno en caso de proporcionalidad (igualdad) de ambas matrices, lo que equivale a decir que la matriz de distancias original ya cumple la propiedad ultramétrica. Para calcular la correlación cofenética podemos utilizar la función interna de Matlab cophenet: c_min = cophenet(Z_min,Y) c_max = cophenet(Z_max,Y) c_UPGMA = cophenet(Z_UPGMA,Y) y obtenemos c_min=0.7910, c_max=0.8132 y c_UPGMA=0.8413, indicando que el 122 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE método UPGMA es el que menos distorsiona (de los tres que hemos visto) la matriz de distancias original. Los métodos del tipo UPGMA se utilizan mucho en biología porque maximizan la correlación cofenética. (d) Las agrupaciones de individuos que se observan en los dendrogramas deberían reflejarse también en la representación en coordenadas principales de estos mismos individuos (Figura 5.2). La Figura 6.3 intenta reflejar estas proximidades. El grupo {1,3,9,4} lo forman las poblaciones europeas {francesa, germánica, espa nola, vasca}, el grupo {2,8,10} está formado por las poblaciones {checa, negra USA, egipcia} y, finalmente, el grupo {5,6,7} lo forman las poblaciones {china, ainu, esquimal}. Observad que los dendrogramas obtenidos mediante el método del máximo y mediante el método UPGMA son los más parecidos a las agrupaciones que muestra la Figura 6.3. 0.3 10 0.2 8 2 0.1 3 6 1 0 9 −0.1 5 4 −0.2 7 −0.3 −0.4 −0.3 −0.2 −0.1 0 0.1 0.2 0.3 0.4 Figura 6.3. Representación en coordenadas principales y agrupaciones (Problema 5.3) PROBLEMA 6.4 Considérense los datos del Problema 5.4. Sea D(2) la matriz de cuadrados de distancias obtenida a partir del coeficiente de similaridad de Sokal y Michener. (a) Verifíquese que D no es ultramétrica. (b) Realícense clasificaciones jerárquicas mediante los métodos del mínimo, del máximo y UPGMA. ¿Qué diferencias se observan? (c) Calcúlese la correlación cofenética en cada caso. (d) Compárense los dendrogramas con la representación en coordenadas principales que muestra la Figura 5.4 ANÁLISIS DE CONGLOMERADOS ✞ ✝ SOLUCIÓN 123 ☎ ✆ (a) El conjunto de individuos sobre el que debemos realizar clasificaciones jerárquicas es E = {león, jirafa, vaca, oveja, gato doméstico, hombre}. A partir de la matriz D2_Sokal de cuadrados de distancias obtenida en el Problema 5.4, calculamos la matriz de distancias: D = sqrt(D2_Sokal); D =[ 0 0.8165 1.0000 1.0000 0.5774 1.0000 0.8165 0 1.0000 1.0000 1.0000 1.2910 1.0000 1.0000 0 0 0.8165 1.1547 1.0000 1.0000 0 0 0.8165 1.1547 0.5774 1.0000 0.8165 0.8165 0 0.8165 1.0000 1.2910 1.1547 1.1547 0.8165 0]; Puede comprobarse que la matriz D no es ultramétrica puesto que, por ejemplo, δ1,3 = 1 > max{δ1,5 , δ5,3 } = max{0.5774, 0.8165}. (b) Para obtener los dendrogramas haremos: Y = squareform(D); Z_min = linkage(Y,’single’); Z_max = linkage(Y,’complete’); Z_UPGMA = linkage(Y,’average’); dendrogram(Z_min) dendrogram(Z_max) dendrogram(Z_UPGMA) La Figura 6.4 contiene los dendrogramas obtenidos mediante los tres métodos anteriores. De nuevo puede observarse que el método del mínimo contrae el espacio, mientras que el método del máximo lo dilata. (c) Las correlaciones son c_min=0.8846, c_max=0.8556, c_UPGMA=0.8985. (d) La Figura 6.5 contiene la representación en coordenadas principales de los animales. Observad el parecido de las proximidades entre individuos que refleja esta figura con la clasificación jerárquica obtenida mediante el método del máximo. 124 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 0.8 1.2 0.7 1 0.6 0.8 0.5 0.4 0.6 0.3 0.4 0.2 0.2 0.1 0 3 4 1 5 6 0 2 3 4 2 (a) 1 5 6 (b) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 3 4 1 5 6 2 (c) Figura 6.4. Dendrogramas con los datos del Problema 6.4: métodos (a) del mínimo, (b) del máximo y (c) UPGMA. 1 0.8 herbívoros 2 0.6 0.4 felinos 1 0.2 0 −0.2 5 hombre animales de granja 6 −0.4 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 3 4 0.6 Figura 6.5. Representación en coordenadas principales y agrupaciones (Problema 5.4) ANÁLISIS DE CONGLOMERADOS 125 PROBLEMA 6.5 La Tabla 4.1 contiene una serie de indicadores económicos y sociales sobre 96 países del mundo. Sea Y la matriz que contiene las dos primeras componentes principales calculadas a partir de la matriz de correlaciones (véase el Problema 4.4). Obténganse las distancias euclídeas entre países a partir de Y y realícese una clasificación jerárquica mediante el método UPGMA. Coméntense los resultados obtenidos. ✞ ✝ SOLUCIÓN ☎ ✆ Partimos de la matriz X que contiene los datos de la Tabla 4.1. En primer lugar calculamos las componentes principales (véase el Problema 4.4) y nos quedamos solamente con las dos primeras componentes calculadas a partir de la matriz de correlaciones, es decir, las dos primeras columnas de Y2. La función interna de Matlab pdist permite calcular distintas funciones de distancia a partir de matrices de datos. Para calcular la distancia euclídea haremos, pdist(Y2,’euclidean’) o, simplemente pdist(Y2) puesto que ésta es la distancia que la función pdist calcula por defecto. Si, en cambio, quisiéramos calcular la distancia de Mahalanobis, haríamos pdist(Y2,’mahalanobis’) El siguiente código resuelve el ejercicio: [T1,Y1,acum1,T2,Y2,acum2] = comp(X); Y2 = Y2(:,1:2); Y = pdist(Y2,’euclidean’); Z = linkage(Y,’average’); dendrogram(Z,0,’colorthreshold’,1.5) c = cophenet(Z,Y) Por defecto, la función dendrogram(Z,p,’colorthreshold’,t) genera dendrogramas a partir de los últimos p = 30 conglomerados formados y asigna colores distintos a los conglomerados que se forman a un nivel (o threshold) menor que el valor de t. Si inicialmente tenemos más de 30 individuos, como en este ejercicio, hay que indicarle que los dibuje todos mediante la opción p = 0. Hemos puesto t = 1.5 para que asigne colores distintos a los conglomerados que se han formado a una distancia menor de 1.5. La Figura 6.6 contiene el dendrograma calculado a partir del método UPGMA. Observad las distintas agrupaciones que se forman según el nivel que se considere. El coeficiente de correlación cofenética es c = 0.8028. 126 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 4 3.5 3 73,91,36,76,7,11,61, 50,20,40,67,32,89,6, 46,9,45,74, España (33), 51,26,83,43,90,2,34, 59,88,84,85,5,55,49, 29,23,60,82,93,24,77 2.5 1,96,10,65,87,39,78, 19,63,54,94,62,13,96, 52,57,15,21,4,92,79, 12,17,47,72,56,18,38, 53,3,68,31,41,64,44,71 Siria Irán Pakistán 2 1.5 Noruega Reino Unido 1 0.5 0 8,86,22,42,35,27,28,58,30,81,70 14,16,25,37 Figura 6.6. Dendrograma con los datos del Problema 6.5. PROBLEMA 6.6 Se ha realizado una encuesta a un grupo de personas pidiéndoles que clasificaran una lista de hortalizas según sus parecidos. La Tabla 6.4 contiene la matriz de disimilaridades entre estos hortalizas. Realícese un análisis de clasificación jerárquica mediante los métodos del centroide, de la mediana y de Ward. Obténgase la correlación cofenética en cada caso. ✞ ✝ SOLUCIÓN ☎ ✆ Sea D la matriz de disimilaridades de la Tabla 6.4. Para poder aplicar cualquiera de los tres métodos (centroide, mediana, Ward) es necesario que la matriz de disimilaridades sea euclídea. Puesto que éste no es el caso de la matriz D, en primer lugar debemos euclidianizar esta matriz de distancias. Para ello utilizaremos la función non2euclid, que vimos en el Problema 5.7, y que realiza este tipo de transformaciones para matrices de cuadrados de distancias. D2 = D.*D; D2_euclid = non2euclid(D2); D_euclid = sqrt(D2_euclid); Y = squareform(D_euclid); ANÁLISIS DE CONGLOMERADOS 127 Tabla 6.4. Matriz de distancias entre hortalizas (Problema 6.6) 1. 2. 3. 4. 5. 6. 7. 8. 9. 1 0 nabo col remolacha espárrago zanahoria espinacas judías verdes guisantes maíz 2 0.318 0 3 0.270 0.101 0 4 0.311 0.223 0.061 0 5 0.378 0.243 0.236 0.061 0 6 0.392 0.236 0.176 0.088 0.007 0 7 0.399 0.311 0.345 0.176 0.074 0.128 0 8 0.392 0.345 0.297 0.101 0.209 0.182 0.027 0 9 0.426 0.358 0.318 0.230 0.264 0.128 0.142 0.128 0 Z_ward = linkage(Y,’ward’); Z_median = linkage(Y,’median’); Z_centroid = linkage(Y,’centroid’); c_ward = cophenet(Z,Y); c_median = cophenet(Z_median,Y); c_centroid = cophenet(Z_centroid,Y); dendrogram(Z_ward,’colorthreshold’,’default’) dendrogram(Z_median,’colorthreshold’,’default’) dendrogram(Z_centroid,’colorthreshold’,’default’) Las Figuras 6.7 y 6.8 contienen los dendrogramas correspondientes a los tres métodos. Las correlaciones son c_ward=0.6481, c_median=0.8460, c_centroid=0.8213, indicando que el método de la mediana es el que menos distorsiona la aproximación de la matriz de distancias euclídeas por la de distancias ultramétricas. 0.55 0.55 0.5 0.5 0.45 0.45 0.4 0.4 0.35 0.35 0.3 0.3 5 6 4 7 8 (a) 9 2 3 1 5 6 4 7 8 9 2 3 1 (b) Figura 6.7. Dendrogramas con los datos del Problema 6.6: métodos (a) del centroide y (b) de la mediana 128 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 5 6 2 3 4 1 7 8 9 Figura 6.8. Dendrograma con los datos del Problema 6.6: método de Ward CAPÍTULO 7 Análisis factorial El análisis factorial intenta describir la relación entre varias variables dependientes X1 , . . . , Xp a partir de un número m, menor que p, de variables independientes y no observables, que llamaremos factores (comunes) F1 , . . . , Fm . Algunas preguntas que se plantean en este capítulo son: ¿cómo elegir el número m de factores a utilizar?, ¿qué representan los factores comunes?, ¿cuál es el modelo que relaciona las variables originales y los factores?, ¿cuánta información proporcionan los factores comunes acerca de las variables Xi ? Existe una estrecha relación entre el análisis factorial y las componentes principales. En ambos casos se intenta aproximar la matriz de covarianzas de X = (X1 , . . . , Xp )′ con datos de dimensión m reducida. Sin embargo, el análisis de componentes principales se centra en las varianzas de las Xi , mientras que el análisis factorial intenta explicar la estructura de correlaciones entre las variables. 130 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 7.1 Sea X un vector aleatorio de dimensión p = 3, con vector de medias µ = (0, 1, 1)′ y matriz de varianzas-covarianzas ⎛ ⎞ 3 −4 2 Σ = ⎝ −4 12 −2 ⎠ . 2 −2 3 Se sabe que X sigue un modelo factorial de un único factor, con matriz de varianzas específicas Ψ = diag(1, 4, 1). (a) Escríbase el modelo factorial y calcúlese la matriz de cargas. (b) Calcúlense las comunalidades y los porcentajes de variación de cada variable explicados por el factor del modelo obtenido en (a). (c) Discútase si la solución a los apartados (a) y (b) es única. ✞ ✝ SOLUCIÓN ☎ ✆ (a) El modelo es X − µ = LF + ǫ, donde L = (l11 , l21 , l31 )′ es la matriz de cargas, F es una variable aleatoria (el factor común) con E (F ) = 0 y var (F ) = 1 y ǫ es un vector aleatorio de dimensión p = 3 con E (ǫ) = 0, Var (ǫ) = Ψ y Cov (F, ǫ) = 0. Del modelo se deduce la descomposición Σ = LL′ + Ψ, que es equivalente a ⎛ ⎛ ⎞ ⎞ l11 2 −4 2 LL′ = ⎝ l21 ⎠ (l11 , l21 , l31 ) = Σ − Ψ = ⎝ −4 8 −2 ⎠ . l31 2 −2 2 √ √ √ De los términos de la diagonal obtenemos l11 = ± 2, l21 = ∓2 2, l31 = ± 2. De los términos √ de √ la diagonal obtenemos signo(l11 ) = signo(l31) = signo(l21 ). Por tanto, √ fuera L = ±( 2, −2 2, 2)′ y el modelo queda √ X1 2F = √ + ǫ1 X2 − 1 = −2 √ 2F + ǫ2 2F + ǫ3 X3 − 1 = (o con los signos de F cambiados). ANÁLISIS FACTORIAL 131 (b) La comunalidad h2i de la variable Xi es el elemento i-ésimo de la diagonal del producto 2 = 2. Por tanto, el porcentaje de variación de X1 explicado por F L L′ , es decir, h21 = l11 2 es igual a h1 /V (X1 ) ≃ 33.3%. Análogamente h22 = 8 y el porcentaje de variación de X2 explicado por F es un 66.6%. Y, por último, h23 = 2 y el porcentaje de variación de X3 explicado por F es 33.3%. (c) En (a) ya se ha visto que la solución no es única. En general se sabe que se pueden efectuar rotaciones (que en dimensión 1 equivalen a cambiar el signo de L). En (b) la solución sí es única. PROBLEMA 7.2 La matriz ⎞ 1 0.69 0.28 0.35 ⎜ 1 0.255 0.195 ⎟ ⎟ R=⎜ ⎝ 1 0.61 ⎠ 1 ⎛ exhibe las correlaciones muestrales entre cuatro variables que caracterizan el estado financiero de una empresa. (a) Calcúlense los autovalores y autovectores de R. (b) Plantéese el modelo factorial ortogonal con m factores para el vector X que generó estos datos. (c) Mediante el método de la componente principal, en los modelos factoriales con m = 2 y m = 3 factores, calcúlense las matrices de cargas, las comunalidades y el porcentaje que supone la comunalidad respecto a la varianza de cada variable. (d) Decídase razonadamente entre el modelo con dos o tres factores. (e) Para el modelo seleccionado en el apartado (d), calcúlense las correlaciones entre Z2 (la variable X2 estandarizada) y todos los factores. Estímese la varianza específica para Z2 . ✞ ✝ SOLUCIÓN ☎ ✆ (a) Sea R la matriz R introducida en Matlab. Con la orden eig(R) calculamos los autovalores λ y autovectores (normalizados) e de esta matriz Autovalor 1.1139 0.2681 2.1935 0.4245 Autovector (−0.4243, −0.5397, 0.5123, 0.5160)′ (0.6419, −0.6018, 0.2825, −0.3821)′ (0.5400, 0.4938, 0.4797, 0.4842)′ (0.3411, −0.3206, −0.6539, 0.5944)′ 132 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) El modelo factorial ortogonal con m factores comunes F = (F1 , . . . , Fm )′ supone que Zi = li1 F1 + li2 F2 + . . . + lim Fm + ǫi , i = 1, . . . , 4, donde las Zi son las variables Xi estandarizadas y ǫ = (ǫ1 , . . . , ǫ4 )′ denotan los factores específicos. Se establecen las siguientes hipótesis: E (F) = 0, Var (F) = I, la matriz identidad m × m, E (ǫ) = 0 y Var (ǫ) = Ψ = diag(ψ1 , . . . , ψ4 ). Además F y ǫ son incorrelados, es decir, Cov (F, ǫ) = 0. (c) Si la matriz de cargas es ⎛ l11 ⎜ L = ⎝ ... l41 l12 .. . l42 ⎞ . . . l1m .. ⎟ , . ⎠ . . . l4m el método de la componente principal en el análisis factorial con m factores proporciona la estimación   L = [ λ1 e1 , . . . , λm em ], siendo λ1 , . . . , λm los m primeros autovalores de R (ordenados de mayor a menor) y siendo e1 , . . . , em los autovectores normalizados correspondientes. Concretamente, para m = 2: ⎛ ⎞ 0.7998 −0.4478 ⎜ 0.7313 −0.5696 ⎟ ⎟ L=⎜ ⎝ 0.7105 0.5407 ⎠ 0.7171 0.5446 Comunalidades 2 2 h21 = l11 + l12 = 0.8402 2 h2 = 0.8593 h23 = 0.7971 h24 = 0.8108 Para m = 3 ⎛ ⎞ 0.7998 −0.4478 0.2222 ⎜ 0.7313 −0.5696 −0.2089 ⎟ ⎟ L=⎜ ⎝ 0.7105 0.5407 −0.426 ⎠ 0.7171 0.5446 0.3873 Comunalidades 2 2 2 + l12 + l13 = 0.8896 h21 = l11 2 h2 = 0.9029 h23 = 0.9786 h24 = 0.9608 Dado que var (Zi ) = 1 para i = 1, . . . , 4, el porcentaje que supone la comunalidad respecto a la varianza de cada Zi coincide con la comunalidad. (d) La varianza total en este caso es 4. El porcentaje de VT (R) que explica el modelo con dos factores es 100%(λ1 + λ2 )/ VT (R) = 82.68% y el de tres factores es 100%(λ1 + λ2 + λ3 )/ VT (R) = 93.30%. Teniendo en cuenta que, para el modelo con dos factores, h23 es un poco baja es razonable quedarse con el modelo de m = 3 factores. ANÁLISIS FACTORIAL 133 (e) Sabiendo que Cov (Zi , Fj ) = lij tenemos √ Corr (Z2 , F1 ) = l21 / 1 · 1 = 0.7313 , Corr (Z2 , F2 ) = −0.5696 , Corr (Z2 , F3 ) = −0.2089. Para el modelo con tres factores la estimación de la varianza específica de Z2 es ψ2 = 1 − h22 = 1 − 0.9029 = 0.0971 . PROBLEMA 7.3 En la Tabla 7.1 se puede ver una lista de variables que caracterizan el grado de desarrollo de algunos países del mundo. Las variables son X1 X2 X3 X4 X5 X6 X7 X8 = Tasa de mortalidad infantil por cada 1000 nacidos vivos, = Porcentaje de mujeres en la población activa, = Producto Nacional Bruto (PNB) per capita en 1995 (en $), = Producción de electricidad (en millones de kw/h), = Promedio de líneas telefónicas por cada 1000 habitantes, = Consumo de agua per capita en m3 (de 1980 a 1995), = Consumo de energía per capita en 1994, = Emisión de CO2 per capita en 1992 (en Tm). (a) Supóngase un modelo factorial ortogonal para las variables Xi estandarizadas. Utilícese el método de la componente principal para estimar la matriz de cargas en los modelos con tres y cuatro factores comunes. (b) Estímense las comunalidades y las varianzas específicas para los dos modelos del apartado anterior. ¿Cuál de los dos modelos es razonable elegir? Tabla 7.1. Variables socioeconómicas de algunos países (Problema 7.3) País Albania Angola Benín Congo Etiopía Ghana Haití Honduras Kenia Mozambique Nepal Nicaragua Senegal Sudán Tanzania Yemen Zambia Zimbawe X1 30 124 95 90 112 73 72 45 58 113 91 46 62 77 82 100 109 55 X2 41 46 48 43 41 51 43 30 46 48 40 36 42 28 49 29 45 44 X3 670 410 370 680 100 390 250 600 280 80 200 380 600 260 120 260 400 540 X4 3903 955 6 435 1293 6115 362 2672 3539 490 927 1688 1002 1333 1913 2159 7785 7334 X5 12 6 5 8 2 4 8 29 9 3 4 23 10 3 3 12 8 14 X6 94 57 26 20 51 35 7 294 87 55 150 367 202 633 40 335 186 136 X7 341 89 20 331 22 93 29 204 110 40 28 300 97 66 34 206 149 438 X8 1.2 0.5 0.1 1.6 0.1 0.2 0.1 0.6 0.2 0.1 0.1 0.6 0.4 0.1 0.1 0.7 0.3 1.8 134 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) Al definir el modelo factorial sobre las variables estandarizadas Zi , aplicaremos el método de la componente principal sobre la matriz de correlaciones R cuyos cuatro mayores autovalores son λ1 = 3.7540 , λ2 = 1.9286 , λ3 = 0.8359 , λ4 = 0.7230 . La matriz de cargas obtenida mediante el método de la componente principal para tres factores es: ⎞ ⎛ −0.7235 0.0645 0.0297 −0.4309 0.8491 −0.0415 ⎟ ⎜ ⎜ 0.8018 0.2775 0.2472 ⎟ ⎜ 0.4166 0.3978 −0.8072 ⎟ ⎟ L=⎜ ⎜ 0.7958 −0.2550 0.0834 ⎟ ⎟ ⎜ 0.3429 −0.8406 −0.2737 ⎠ ⎝ 0.9147 0.2342 0.0129 0.8006 0.3764 0.1965 y para cuatro factores es: ⎛ ⎜ ⎜ ⎜ L=⎜ ⎜ ⎜ ⎝ −0.7235 0.0645 0.0297 −0.5996 −0.4309 0.8491 −0.0415 0.2041 0.8018 0.2775 0.2472 0.0212 0.4166 0.3978 −0.8072 −0.0331 0.7958 −0.2550 0.0834 0.2946 0.3429 −0.8406 −0.2737 −0.1754 0.9147 0.2342 0.0129 −0.2369 0.8006 0.3764 0.1965 −0.3830 ⎞ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎠ Observando la matriz L vemos que en el modelo con tres factores, F1 , F2 y F3 , la segunda variable Z2 y la sexta Z6 quedarían descritas principalmente por F2 . Por otro lado, F1 serviría para caracterizar las variables Z1 , Z3 , Z5 , Z7 y Z8 , y, por tanto, representaría el grado de desarrollo económico e industrial del país. El tercer factor está únicamente determinado por la producción de electricidad. Observemos que los pesos de la cuarta columna de L = {lij } en el modelo con cuatro factores no son excesivamente altos salvo en el caso de l14 . Esto sugiere que añadir el cuarto factor no aporta demasiada información. El siguiente código es útil para realizar estos cálculos. Llamamos X a la matriz de datos y eigsort es una función definida en el Capítulo 4: v = size(X) ; R = corrcoef(X); [autovectores,autovalores] = eigsort(R); proporcion=cumsum(autovalores)/trace(R); f = 4; % Cargas para f=4 factores comunes (metodo: componente principal) L = autovectores(:,[1:f]).*(ones(v(2),1)... *(sqrt(autovalores([1:f],:)))’); ANÁLISIS FACTORIAL 135 (b) Recordemos que las comunalidades h2i son los elementos de la diagonal de L L′ . Como las variables Zi están estandarizadas var (Zi ) = 1 y, por tanto, la varianza específica es diag (Ψ) = diag (Σ) − diag (L L′ ). Concretamente, h21 h22 h23 h24 h25 h26 h27 h28 = 0.5285 = 0.9084 = 0.7810 = 0.9833 = 0.7052 = 0.8992 = 0.8917 = 0.8212 m=3 ψ1 = 0.4715 ψ2 = 0.0916 ψ3 = 0.2190 ψ4 = 0.0167 ψ5 = 0.2948 ψ6 = 0.1008 ψ7 = 0.1083 ψ8 = 0.1788 h21 h22 h23 h24 h25 h26 h27 h28 m=4 = 0.8879 ψ1 = 0.9500 ψ2 = 0.7815 ψ3 = 0.9844 ψ4 = 0.7920 ψ5 = 0.9299 ψ6 = 0.9478 ψ7 = 0.9679 ψ8 = 0.1121 = 0.0500 = 0.2185 = 0.0156 = 0.2080 = 0.0701 = 0.0522 = 0.0321 Dado que con tres factores la comunalidad h21 es baja, sería más adecuado utilizar el modelo con cuatro factores. Con Matlab haremos: comunalidad = diag(L*L’); psi = diag(R-L*L’) ; Recomendamos al lector que, con el código empleado en este ejercicio, construya una función Matlab que permita obtener la matriz de cargas, la proporción de variabilidad, las comunalidades y las varianzas específicas, a partir de una matriz de datos X y de un número de factores f. PROBLEMA 7.4 Sea X = (X1 , X2 , X3 )′ un vector aleatorio con matriz de covarianzas ⎛ ⎞ 1 0.63 0.45 Σ = ⎝ 0.63 1 0.35 ⎠ . 0.45 0.35 1 (a) Pruébese que el modelo factorial con m = 1 es válido en este caso. Calcúlense la matriz de cargas y la de varianzas específicas. (b) Si se toma m = 2 ¿cuál sería la aproximación de la matriz de cargas que proporcionaría el método de la componente principal? ✞ ✝ SOLUCIÓN ☎ ✆ (a) Puesto que Σ = LL′ + Ψ, donde L = (l11 , l21 , l31 )′ , entonces 2 1 = l11 + ψ1 , 0.63 = l11 l21 , 1= 2 l21 + ψ2 , 0.45 = l11 l31 , 0.35 = l21 l31 , 2 1 = l31 + ψ3 , obteniendo l11 = 0.9, l21 = 0.7, l31 = 0.5, ψ1 = 0.19, ψ2 = 0.51, ψ3 = 0.75. 136 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (b) Dado que los dos mayores autovalores y autovectores de Σ son λ1 = 1.9633 e1 = (0.6250, 0.5932, 0.5075)′ λ2 = 0.6795 e2 = (0.2186, 0.4911, −0.8432)′ la estimación de la matriz de cargas es: ⎛ ⎞ 0.8757 0.1802    0.4048 ⎠ . L= λ1 e1 , λ2 e2 = ⎝ 0.8312 0.7111 −0.6951 PROBLEMA 7.5 Un banco dispone de una muestra de 51 entidades financieras que cotizan ciertos derivados financieros cuyo valor en mercado permite estimar la probabilidad de que la empresa quiebre en el plazo de un año y, en caso de quiebra, la tasa de recuperación de la misma. Las empresas observadas también han sido analizadas por dos agencias de calificación externas, que han estimado la probabilidad de quiebra a un año basándose en auditorías realizadas. En la Tabla 7.2 se pueden ver las observaciones de las siguientes variables: X1 = Nivel crediticio otorgado por el banco internamente a la entidad, X2 = Número de días que ha cotizado en mercado el derivado financiero, X3 = Probabilidad de quiebra deducida del derivado, X4 = Tasa de recuperación deducida del derivado, X5 = Probabilidad de quiebra emitida por la primera agencia externa, X6 = Probabilidad de quiebra emitida por la segunda agencia externa. (a) Calcúlese la matriz de correlaciones muestrales R. (b) Efectúese un análisis factorial de R con dos factores por el método de la componente principal. (c) Determínense las comunalidades y la proporción de varianza total explicada con los dos factores. Explíquese si se considera necesario aumentar el número de factores comunes. ✞ ✝ SOLUCIÓN ☎ ✆ (a) La matriz de correlaciones es ⎞ ⎛ 1 0.2050 −0.8038 0.7255 −0.5141 −0.5971 1 −0.2521 −0.0409 −0.4053 −0.3580 ⎟ ⎜ ⎜ 1 −0.7269 0.7622 0.8813 ⎟ . R=⎜ 1 −0.4105 −0.5404 ⎟ ⎠ ⎝ 1 0.9370 1 ANÁLISIS FACTORIAL 137 Tabla 7.2. Datos de entidades financieras (Problema 7.5) Entidad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 X1 7.6 7.8 8.1 7.5 7.5 8.3 7.4 6.5 8.0 8.0 8.7 8.3 8.5 8.6 8.6 8.5 8.6 8.7 8.5 8.9 8.5 8.7 8.6 8.6 9.1 8.7 7.8 7.8 6.5 8.5 8.5 7.0 7.0 6.7 8.6 7.5 6.7 8.1 7.7 6.7 8.1 7.5 8.4 8.1 7.7 8.5 8.7 8.3 5.6 7.3 8.0 X2 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 630 629 629 629 629 629 627 627 627 627 625 624 617 614 613 612 610 602 594 593 593 584 573 573 572 572 X3 0.00070 0.00056 0.00049 0.00060 0.00047 0.00055 0.00057 0.00190 0.00088 0.00049 0.00044 0.00055 0.00032 0.00043 0.00029 0.00029 0.00031 0.00027 0.00047 0.00058 0.00032 0.00035 0.00039 0.00031 0.00029 0.00023 0.00047 0.00047 0.00109 0.00029 0.00029 0.00069 0.00106 0.00191 0.00037 0.00071 0.00171 0.00048 0.00066 0.00235 0.00043 0.00046 0.00041 0.00047 0.00047 0.00057 0.00041 0.00044 0.00408 0.00066 0.00035 X4 0.36 0.39 0.40 0.39 0.40 0.40 0.40 0.35 0.38 0.39 0.42 0.39 0.40 0.40 0.40 0.40 0.40 0.40 0.39 0.40 0.40 0.40 0.40 0.40 0.42 0.40 0.39 0.40 0.39 0.40 0.40 0.37 0.34 0.33 0.39 0.41 0.32 0.39 0.41 0.35 0.38 0.41 0.46 0.39 0.38 0.41 0.43 0.41 0.33 0.39 0.40 X5 0.00041 0.00041 0.00041 0.00041 0.00041 0.00041 0.00042 0.00042 0.00052 0.00052 0.00052 0.00052 0.00052 0.00052 0.00000 0.00000 0.00000 0.00000 0.00020 0.00020 0.00020 0.00020 0.00020 0.00020 0.00000 0.00000 0.00041 0.00042 0.00000 0.00000 0.00000 0.00041 0.00042 0.00042 0.00020 0.00042 0.00042 0.00052 0.00041 0.00042 0.00052 0.00041 0.00000 0.00052 0.00041 0.00052 0.00000 0.00052 0.00647 0.00042 0.00052 X6 0.00003 0.00003 0.00003 0.00026 0.00026 0.00019 0.00026 0.00037 0.00003 0.00003 0.00000 0.00019 0.00019 0.00019 0.00000 0.00000 0.00000 0.00019 0.00000 0.00000 0.00000 0.00000 0.00019 0.00019 0.00000 0.00019 0.00026 0.00003 0.00000 0.00000 0.00000 0.00003 0.00037 0.00166 0.00019 0.00037 0.00166 0.00003 0.00026 0.00166 0.00019 0.00026 0.00000 0.00019 0.00003 0.00019 0.00000 0.00019 0.00780 0.00026 0.00019 (b) La matriz de cargas estimada por el método de la componente principal es ⎞ ⎛ −0.8251 0.2780 ⎜ −0.3680 −0.8062 ⎟ ⎜ 0.9594 −0.1061 ⎟ L = ⎜ −0.7404 . 0.5406 ⎟ ⎠ ⎝ 0.8592 0.3115 0.9277 0.1802 Observemos que el primer factor representa la calidad crediticia de la entidad, mientras que el segundo describe el comportamiento del derivado. (c) La proporción de varianza total explicada con dos factores es de un 84.07%. Las comunalidades son h21 = 0.7581, h22 = 0.7853, h23 = 0.9317, h24 = 0.8404, h25 = 0.8353 y h26 = 0.8931. Dado que las comunalidades son bastante altas, en principio no sería necesario añadir un tercer factor común. 138 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 7.6 Consideremos los datos del Problema 7.5. (a) Represéntense los pares de cargas de la matriz L, (li1 , li2 ), i = 1, . . . , 6, como si fueran puntos de un plano. Rótense los ejes de coordenadas manualmente con distintos ángulos φ y represéntense las cargas rotadas en un nuevo gráfico. Decídase qué ángulo de rotación parece más adecuado. (b) Demuéstrese que la matriz T= 0.8839 0.4677 −0.4677 0.8839 es ortogonal. Utilícese esta matriz para rotar la matriz de cargas obtenida en el Problema 7.5 e interprétense los coeficientes de la matriz rotada. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Se puede utilizar el siguiente código (supondremos L ya introducida): plot(L(:,1),L(:,2),’ok’,’MarkerFaceColor’,’k’,’MarkerSize’,6) hold on plot([-1,1],[0,0],’-k’) hold on plot([0,0],[-1,1],’-k’) xlabel(’F_1’,’FontSize’,16) ylabel(’F_2’,’FontSize’,16) phi = pi/12 ; T = [ cos(phi) sin(phi) ; -sin(phi) cos(phi) ] ; LRotada = L*T ; figure(2) plot(LRotada(:,1),LRotada(:,2),’ok’,’MarkerFaceColor’,’k’,... ’MarkerSize’,6) hold on plot([-1,1],[0,0],’-k’) hold on plot([0,0],[-1,1],’-k’) xlabel(’F_1’,’FontSize’,16) ylabel(’F_2’,’FontSize’,16) ANÁLISIS FACTORIAL 139 1 0.8 0.6 0.6 0.4 0.4 0.2 0.2 * 2 1 0.8 0 F F2 Observemos que la matriz T efectúa un giro en sentido contrario a las agujas del reloj. Se ha elegido ese valor de φ porque era el que a simple vista aproximaba más los puntos (li1 , li2 ) a los ejes de coordenadas (véase Figura 7.1). 0 −0.2 −0.2 −0.4 −0.4 −0.6 −0.6 −0.8 −0.8 −1 −1 −0.8 −0.6 −0.4 −0.2 0 F1 0.2 0.4 0.6 0.8 1 −1 −1 −0.8 −0.6 −0.4 −0.2 0 * 0.2 0.4 0.6 0.8 1 F1 (a) (b) Figura 7.1. Representación de cargas (a) sin rotar, (b) rotadas (Problema 7.6) (b) La matriz T es ortogonal porque T T′ = T′ T = I , la matriz identidad. La matriz de cargas rotada es ⎛ ⎞ −0.8593 −0.1402 ⎜ 0.0518 −0.8847 ⎟ ⎜ ⎟ ⎜ 0.8976 0.3549 ⎟ ∗ ⎜ ⎟. L = LT = ⎜ 0.1315 ⎟ ⎜ −0.9072 ⎟ ⎝ 0.6138 0.6772 ⎠ 0.7357 0.5931 Observemos que un aumento de F1∗ conlleva una disminución de la calificación interna de la entidad o de su tasa de recuperación en caso de quiebra. Por otro lado, la probabilidad de impago evaluada por cualquiera de las dos agencias crediticias es una suerte de media ponderada entre F1∗ y F2∗ , de manera que al aumentar ambos factores (por ejemplo, si disminuye el número de días de cotización del derivado), aumenta también la probabilidad de impago. 140 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 7.7 Kaiser (1958) sugirió la rotación varimax de los factores, que elige aquella matriz ortogonal T que maximiza ⎛ 2 ⎞ p p m 1 ˜l∗2 ⎠ , ˜l∗4 − 1 ⎝ V = ij ij p p j=1 i=1 i=1 ∗ ) es la matriz de las cargas rotadas, ˜ ∗ = l∗ /h , para donde L∗ = L T = (lij lij i ij i = 1, . . . , p, j = 1, . . . , m, son las cargas rotadas y reescaladas por la raíz cuadrada de la comunalidad, m es el número de factores y p es la dimensión de los datos originales. Dése una explicación intuitiva del criterio varimax. Bájese de la página web de T. Park (www.stat.ufl.edu/∼tpark/Research) el fichero varimaxTP.m y calcúlese con él la rotación varimax de la matriz L obtenida en el Problema 7.5. Represéntense en el plano las nuevas cargas rotadas. Indicación: En la Statistics Toolbox de la versión 7 de Matlab y superiores ya hay programas de análisis factorial. Véase la orden rotatefactors para rotar una matriz de cargas. ✞ ✝ SOLUCIÓN ☎ ✆ Observemos que 1 p p p ∗4 l̃ij i=1 − i=1 1 ∗2 l̃ p ij 2 = var (l̃j∗2 ), siendo ∗2 ∗2 ∗2 ′ l̃j∗2 = (l̃1j , l̃2j , . . . , l̃pj ). Por tanto, m var (l̃j∗2 ). V = j=1 Maximizar V equivale a que los cuadrados de las cargas estén lo más dispersos posible sobre cada factor, de manera que las cargas sean en valor absoluto o muy grandes o muy pequeñas, pero no tomen valores intermedios. Para calcular la rotación varimax en Matlab escribiremos [RotVarimax,Lvarimax] = varimaxTP(L) ; o también (si tenemos acceso a la Statistics Toolbox de Matlab 7.x) [Lvarimax,RotVarimax] = rotatefactors(L,’Method’,’Varimax’) ; y dibujar las cargas rotadas Lvarimax como ya hicimos en el Problema 7.6. ANÁLISIS FACTORIAL 141 PROBLEMA 7.8 (a) Para los datos del Problema 7.3 y el número m de factores elegidos en el apartado (b) del mismo problema, calcúlese la rotación varimax con el programa varimaxTP.m presentado en el Problema 7.7. Calcúlese la correspondiente matriz de cargas rotada. (b) Para la matriz de cargas obtenida en el apartado (a), estímense los valores observados de los factores (los llamados scores) por el método de mínimos cuadrados ponderados (ver, por ejemplo, Johnson y Wichern 2007). ✞ ✝ SOLUCIÓN ☎ ✆ (a) En el Problema 7.3 habíamos elegido el modelo con cuatro factores. Con un código análogo al utilizado en el Problema 7.7, comprobamos que la rotación varimax viene dada por la matriz ortogonal ⎛ ⎞ 0.7439 −0.3189 −0.2271 0.5415 ⎜ 0.3590 0.8826 −0.2885 −0.0944 ⎟ ⎟. T=⎜ ⎝ 0.3124 0.1841 0.9294 0.0691 ⎠ −0.4692 0.2922 0.0379 0.8325 La matriz de cargas rotada (que en Matlab llamaremos Lvarimax) es: ⎛ ⎜ ⎜ ⎜ L∗ = L T = ⎜ ⎜ ⎜ ⎝ ⎞ −0.2245 0.1179 0.1505 −0.8950 −0.1245 0.9389 −0.1779 −0.1464 ⎟ 0.7634 0.0410 −0.0316 0.4428 ⎟ 0.2161 0.0600 −0.9608 0.1047 ⎟ ⎟. 0.3883 −0.3774 −0.0185 0.7060 ⎟ −0.0499 −0.9529 −0.0964 0.1001 ⎟ ⎠ 0.8797 −0.1518 −0.2723 0.2769 0.9718 0.0011 −0.1223 0.0927 Observemos que el factor rotado F1∗ describe el comportamiento de las variables X3 (PNB), X7 (consumo de energía) y X8 (emisión de CO2 ), así que lo podemos interpretar como un índice del grado de desarrollo industrial del país. Los resultados F2∗ no son razonables, ya que el porcentaje de mujeres en la población activa está en relación directa con el grado de desarrollo de un país, pero el consumo de agua también. El factor F3∗ está asociado a la producción de electricidad. Por último, F4∗ describe el grado de desarrollo tecnológico y sanitario del país. (b) Bajo la hipótesis del modelo factorial ortogonal X − µ = LF + ǫ , con Var (ǫ) = Ψ, y dada una muestra x1 , . . . , xn de valores observados de X, la estimación de los factores por mínimos cuadrados ponderados es fi = (L′ Ψ−1 L)−1 L′ Ψ−1 (xi − x̄), para i = 1, . . . , m. 142 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Es habitual que los valores de L y Ψ sean desconocidos. En este caso se sustituyen por estimaciones. Cuando, por ejemplo, la unidades de medida de las Xi sean muy distintas, como es habitual se recomienda trabajar con los datos estandarizados, que es lo que haremos para este ejercicio. Para programarlo en Matlab escribimos v = size(X); m = mean(X); S = cov(X,1); va = (diag(S))’; data = (X - ones(v(1),1)*m) ./ (ones(v(1),1)*va); R = corrcoef(X); diferencia = R - Lvarimax * Lvarimax’ ; Psi = diag(diag(diferencia)) ; Scores = (inv(Lvarimax’*inv(Psi)*Lvarimax)*Lvarimax’... *inv(Psi)* data’)’ PROBLEMA 7.9 Si suponemos que el modelo factorial ortogonal X − µ = LF + ǫ con Var(ǫ) = Ψ es válido y que F y ǫ siguen distribuciones normales, entonces X también sigue una distribución normal y es posible estimar la matriz de cargas por el método de máxima verosimilitud (véase Peña 2002, Johnson y Wichern 2007). Considérese la matriz de cargas ⎛ ⎞ 0.9 0.05 ⎜ 0.8 0.3 ⎟ ⎜ ⎟ ⎟ L=⎜ ⎜ 0.2 0.95 ⎟ ⎝ 0.3 0.9 ⎠ 0.7 0.15 y la matriz de varianzas específicas Ψ = diag(0.2, 0.3, 0.1, 0.2, 0.3). Tomando µ = 0, genérese una muestra de tamaño n = 1000 de X y obténgase la estimación de máxima verosimilitud de la matriz de cargas para m = 2 factores. Calcúlese la correspondiente estimación de la matriz de varianzas específicas. Indicación: Este ejercicio sólo se puede resolver con la Statistics Toolbox de Matlab 7.x, porque incorpora la función interna factoran, que calcula la estimación de máxima verosimilitud de las cargas. ✞ ✝ SOLUCIÓN ☎ ✆ Supondremos L y Ψ ya introducidas en Matlab como L y Psi. El siguiente código permite resolver el ejercicio [p,m] = size(L) ; n = 1000 ; RaizPsi = sqrt(Psi) ; MuestraF = randn(n,m) ; MuestraEpsilon = randn(n,p)*RaizPsi ; MuestraX = MuestraF * L’ + MuestraEpsilon ; L_est = factoran(MuestraX,m) ; Psi_est = diag(diag(cov(MuestraX,1) - L_est*L_est’)) ; CAPÍTULO 8 Análisis canónico de poblaciones (MANOVA) El objetivo del análisis canónico de poblaciones, o análisis multivariante de la varianza, es representar g grupos de individuos de forma óptima a lo largo de unos ejes canónicos ortogonales, de manera que la dispersión entre estos grupos sea máxima con relación a la dispersión dentro de los grupos. En esta representación, la distancia euclídea entre dos individuos expresados en función de los nuevos ejes canónicos coincide con la distancia de Mahalanobis entre estos individuos expresados en función de las variables originales. Para poder aplicar correctamente esta técnica del análisis multivariante, previamente deben realizarse dos contrastes de hipótesis vistos en el Capítulo 3: el contraste de comparación de medias, que debe rechazarse, y el contraste de comparación de covarianzas, que no debe rechazarse. El hecho de inferir que las medias son iguales significa que no hay diferencias significativas entre los distintos grupos y, por tanto, la representación canónica se reduce a un solo punto. Inferir que las covarianzas no son iguales significa que los elipsoides de concentración de los distintos grupos están orientados de forma distinta y, por tanto, no se pueden determinar unos ejes comunes de representación. La hipótesis de igualdad de covarianzas raramente se cumple en las aplicaciones. A pesar de ello, si los signos de los elementos de las matrices de covarianzas muestrales de cada grupo no cambian de un grupo a otro, la orientación de los elipsoides no es demasiado distinta y todavía es posible realizar este análisis. 144 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 8.1 Considérense los datos de la Tabla 3.1. Sean mX , mY , SX , SY los vectores de medias y matrices de covarianzas correspondientes a estos datos, que se calcularon en el Problema 3.18. Sabiendo que nX = 21 y nY = 28, (a) Constrúyanse las matrices de dispersión dentro de los grupos, W, y de dispersión entre los grupos, B. (b) Encuéntrese el primer eje canónico y estandarícese este eje respecto de la matriz de covarianzas común. (c) Obténganse las coordenadas de los individuos medios en función del primer eje canónico estandarizado. (d) Compruébese que la distancia euclídea entre los individuos medios expresados en las coordenadas canónicas coincide con la distancia de Mahalanobis entre los individuos medios expresados en las variables originales. ✞ ✝ SOLUCIÓN ☎ ✆ (a) La matriz de dispersión dentro de los grupos es ⎛ 0.6278 0.6461 ⎜ 0.6461 1.2289 ⎜ W = nX SX + nY SY = 103 ⎜ ⎜ 0.0917 0.1299 ⎝ 0.0645 0.1059 0.1049 0.1274 0.0917 0.1299 0.0303 0.0165 0.0199 0.0645 0.1059 0.0165 0.0152 0.0163 0.1049 0.1274 0.0199 0.0163 0.0472 Sea m el vector de medias global, o centroide, es decir, ⎞ ⎟ ⎟ ⎟. ⎟ ⎠ m = (nX mX + nY mY )/(nX + nY ). La matriz de dispersión entre los grupos es B = nX (mX − m) (mX − m)′ + nY (mY − m) (mY − m)′ ⎛ ⎞ 13.1696 7.1832 0.5695 −0.6738 0.3746 ⎜ 7.1832 3.9180 0.3106 −0.3675 0.2043 ⎟ ⎜ ⎟ ⎜ 0.3106 0.0246 −0.0291 0.0162 ⎟ = ⎜ 0.5695 ⎟. ⎝ −0.6738 −0.3675 −0.0291 0.0345 −0.0192 ⎠ 0.3746 0.2043 0.0162 −0.0192 0.0107 (b) La matriz de covarianzas común es ⎛ 13.3576 13.7477 1.9509 1.3733 2.2309 ⎜ 13.7477 26.1459 2.7647 2.2523 2.7100 ⎜ 1 W=⎜ S= ⎜ 1.9509 2.7647 0.6445 0.3502 0.4232 nX + nY − 2 ⎝ 1.3733 2.2523 0.3502 0.3244 0.3470 2.2309 2.7100 0.4232 0.3470 1.0035 ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 145 y los ejes canónicos se obtienen a partir de la diagonalización de B respecto de S. En este caso obtendremos solamente un eje canónico, puesto que sólo hay un valor propio relativo no nulo, y podemos utilizar Matlab para ello: [V,L] = eig(B,S); diag(L) = 2.8248 V(:,1)’ = -0.3201 -0.0000 -0.0546 0.0000 -0.1924 -0.0000 2.1298 0.0000 0.1426 Si llamamos v a este eje canónico, puede comprobarse que ya está estandarizado respecto de S, es decir que v′ S v = 1 . (c) Las coordenadas de los individuos medios en función del primer eje canónico estandarizado son  X = m′X v = −27.2238, m  Y = m′Y v = −27.7090. m (d) La distancia de Mahalanobis entre los individuos medios es (mX − mY )′ S−1 (mX − mY ) = 0.2354, y la distancia euclídea entre los individuos medios en función de las coordenadas canónicas es  Y )2 = 0.2354 . X −m (m PROBLEMA 8.2 La Tabla 8.1 contiene cuatro variables numéricas: X1 X2 X3 X4 =longitud del sépalo, =anchura del sépalo, =longitud del pétalo, =anchura del pétalo, medidas sobre tres especies de flores del género Iris: Iris setosa, Iris versicolor e Iris virginica (Fuente: Fisher 1936). (a) Realícese la representación canónica de las tres especies, especificando los porcentajes de variabilidad explicados por cada eje canónico. (b) Suponiendo normalidad multivariante, constrúyanse las regiones confidenciales para los individuos medios de cada grupo. 146 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 8.1. Datos del Problema 8.2 (Fuente: Fisher 1936) X1 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1 5.7 5.1 5.4 5.1 4.6 5.1 4.8 5.0 5.0 5.2 5.2 4.7 4.8 5.4 5.2 5.5 4.9 5.0 5.5 4.9 4.4 5.1 5.0 4.5 4.4 5.0 5.1 4.8 5.1 4.6 5.3 5.0 ✞ ✝ SOLUCIÓN X2 3.5 3.0 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 3.4 3.0 3.0 4.0 4.4 3.9 3.5 3.8 3.8 3.4 3.7 3.6 3.3 3.4 3.0 3.4 3.5 3.4 3.2 3.1 3.4 4.1 4.2 3.1 3.2 3.5 3.6 3.0 3.4 3.5 2.3 3.2 3.5 3.8 3.0 3.8 3.2 3.7 3.3 X3 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4 1.7 1.5 1.7 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 X4 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 0.2 0.2 0.1 0.1 0.2 0.4 0.4 0.3 0.3 0.3 0.2 0.4 0.2 0.5 0.2 0.2 0.4 0.2 0.2 0.2 0.2 0.4 0.1 0.2 0.2 0.2 0.2 0.1 0.2 0.2 0.3 0.3 0.2 0.6 0.4 0.3 0.2 0.2 0.2 0.2 X1 7.0 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5.0 5.9 6.0 6.1 5.6 6.7 5.6 5.8 6.2 5.6 5.9 6.1 6.3 6.1 6.4 6.6 6.8 6.7 6.0 5.7 5.5 5.5 5.8 6.0 5.4 6.0 6.7 6.3 5.6 5.5 5.5 6.1 5.8 5.0 5.6 5.7 5.7 6.2 5.1 5.7 X2 3.2 3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2.0 3.0 2.2 2.9 2.9 3.1 3.0 2.7 2.2 2.5 3.2 2.8 2.5 2.8 2.9 3.0 2.8 3.0 2.9 2.6 2.4 2.4 2.7 2.7 3.0 3.4 3.1 2.3 3.0 2.5 2.6 3.0 2.6 2.3 2.7 3.0 2.9 2.9 2.5 2.8 X3 4.7 4.5 4.9 4.0 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 4.5 3.9 4.8 4.0 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 X4 1.4 1.5 1.5 1.3 1.5 1.3 1.6 1.0 1.3 1.4 1.0 1.5 1.0 1.4 1.3 1.4 1.5 1.0 1.5 1.1 1.8 1.3 1.5 1.2 1.3 1.4 1.4 1.7 1.5 1.0 1.1 1.0 1.2 1.6 1.5 1.6 1.5 1.3 1.3 1.3 1.2 1.4 1.2 1.0 1.3 1.2 1.3 1.3 1.1 1.3 X1 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5 7.7 7.7 6.0 6.9 5.6 7.7 6.3 6.7 7.2 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.0 6.9 6.7 6.9 5.8 6.8 6.7 6.7 6.3 6.5 6.2 5.9 X2 3.3 2.7 3.0 2.9 3.0 3.0 2.5 2.9 2.5 3.6 3.2 2.7 3.0 2.5 2.8 3.2 3.0 3.8 2.6 2.2 3.2 2.8 2.8 2.7 3.3 3.2 2.8 3.0 2.8 3.0 2.8 3.8 2.8 2.8 2.6 3.0 3.4 3.1 3.0 3.1 3.1 3.1 2.7 3.2 3.3 3.0 2.5 3.0 3.4 3.0 X3 6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5 6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5.0 5.2 5.4 5.1 X4 2.5 1.9 2.1 1.8 2.2 2.1 1.7 1.8 1.8 2.5 2.0 1.9 2.1 2.0 2.4 2.3 1.8 2.2 2.3 1.5 2.3 2.0 2.0 1.8 2.1 1.8 1.8 1.8 2.1 1.6 1.9 2.0 2.2 1.5 1.4 2.3 2.4 1.8 1.8 2.1 2.4 2.3 1.9 2.3 2.5 2.3 1.9 2.0 2.3 1.8 ☎ ✆ Para resolver este problema utilizaremos las funciones canp.m, que permite obtener la representación de g grupos de individuos en unos ejes canónicos, y regconf.m, que permite obtener regiones confidenciales al (1 − α) 100% para los individuos medios de cada grupo, suponiendo normalidad multivariante. % % % % % % % CANP La funcion [mY,V,B,W,percent,Test1,texto1,Test2,texto2]=canp(X,n) realiza el analisis canonico de g poblaciones, es decir, representa las g poblaciones de forma optima a lo largo de unos ejes canonicos ortogonales. Para cada poblacion i (i=1,2,...,g) se tienen las medidas de ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) % % % % % % % % % % % % % % % % % % % % % % % % % % % p variables X1,X2,...,Xp sobre n(i) individuos, con n(1)+n(2)+...+n(g)=N. Entradas: X: es una matriz (N,p) que contiene las observaciones de p variables (en columna) sobre los individuos de g poblaciones (en fila), n: es un vector que contiene el numero de individuos de cada poblacion. Salidas: mY: matriz que contiene las nuevas coordenadas de los individuos medios (en fila), V: matriz de vectores propios de B respecto de W (en columna), es decir, las columnas de V definen los ejes canonicos, B: matriz de dispersion entre poblaciones (between), W: matriz de dispersion dentro de cada poblacion (within), percent: porcentaje de variabilidad explicado, Test1: vector que contiene el valor de la F de Fisher, sus grados de libertad y el p-valor [F(n1,n2) n1 n2 p_valor1] obtenidos en el test de comparacion de medias, texto1: texto resumen del resultado de Test1, Test2: vector que contiene el valor de la chi-cuadrado, sus grados de libertad y el p-valor [chi(q) q p_valor2] obtenidos en el test de comparacion de covarianzas, texto2: texto resumen del resultado de Test2. function [mY,V,B,W,percent,Test1,texto1,Test2,texto2]=canp(X,n) [N,p] = size(X); g = length(n); % vector de etiquetas para las poblaciones for i = 1:g lab(i,:) = sprintf(’%3g’,i); end % n0(1) = n(1); for i = 2:g n0(i) = n0(i-1)+n(i); end % % calculo de los individuos medios % mX(1,:) = ones(1,n(1))*X(1:n0(1),:)/n(1); for i = 2:g mX(i,:) = ones(1,n(i))*X(n0(i-1)+1:n0(i),:)/n(i); end % % calculo de la matriz de dispersion dentro de cada poblacion % H1 = eye(n(1))-ones(n(1))/n(1); W = X(1:n0(1),:)’*H1*X(1:n0(1),:); logH1 = n(1)*log(det(W/n(1))); for i = 2:g Hi = eye(n(i))-ones(n(i))/n(i); Ci = X(n0(i-1)+1:n0(i),:)’*Hi*X(n0(i-1)+1:n0(i),:); W = W+Ci; logH1 = logH1+n(i)*log(det(Ci/n(i))); end S = W/(N-g); 147 148 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE % % calculo de la matriz de dispersion entre poblaciones % mmX0 = n(1)*mX(1,:); for i = 2:g mmX = mmX0+n(i)*mX(i,:); mmX0 = mmX; end mmX = mmX/N; B0 = n(1)*(mX(1,:)-mmX)’*(mX(1,:)-mmX); for i = 2:g B = B0+n(i)*(mX(i,:)-mmX)’*(mX(i,:)-mmX); B0 = B; end % % Test de comparacion de medias (Lambda de Wilks). % Conviene rechazar esta hipotesis. % lambda = det(W)/det(W+B); [Fmit,n1,n2] = wilkstof(lambda,p,N-g,g-1); p_valor1 = 1-fcdf(Fmit,n1,n2); Test1 = [Fmit n1 n2 p_valor1]; texto1 = char(’Test1: Igualdad de medias (Lambda de Wilks): ... p-valor=’,num2str(p_valor1)); % % Test de comparacion de covarianzas (Razon de verosimilitudes % sin la correcion de Box). Conviene aceptar esta hipotesis. % logH0 = N*log(det(W/N)); chi = logH0-logH1; q = (g-1)*p*(p+1)/2; p_valor2 = 1-chi2cdf(chi,q); Test2 = [chi q p_valor2]; texto2 = char(’Test2: Igualdad de covarianzas (test de Bartlett): ... p-valor=’,num2str(p_valor2)); % % calculo de los ejes canonicos % [V,D] = eig(B,S); [z,i] = sort(-diag(real(D))); d = -z; V = real(V(:,i)); m = min(g-1,p); V = V(:,1:m); % % estandarizacion de los ejes canonicos V’*S*V=Id. V = V*inv(diag(sqrt(diag(V’*S*V)))); % % variablidad explicada % for i = 1:m percent(i) = d(i)/sum(d)*100; acum(i) = sum(percent(1:i)); end % % primeras dos coordenadas de los individuos % y de los individuos medios en los nuevos ejes % Y = X*V(:,1:2); ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 149 mY = mX*V(:,1:2); % % representacion de los individuos y de los individuos medios % if m>=2 plot(Y(:,1),Y(:,2),’.b’,’MarkerSize’,15) hold on plot(mY(:,1),mY(:,2),’^r’,’MarkerFaceColor’,[1 0 0]) grid xlabel(’1er. eje canonico’,’FontSize’,10) ylabel(’2o. eje canonico’,’FontSize’,10) % title([’Coordenadas canonicas (’,num2str(acum(2)),’%)’],’FontSize’,12) for i = 1:g text(mY(i,1),mY(i,2),lab(i,:)); end end % % % % % % % % % % % % % % % % % % % % REGCONF La funcion r=regconf(mY,n,p,conf) dibuja las regiones confidenciales para los individuos medios de g poblaciones obtenidos a traves de la funcion CANP. En cada poblacion se miden p variables sobre n(i) individuos (i=1,2,...,g) con n(1)+n(2)+...+n(g)=N. Entradas: mY = las coordenadas canonicas de los individuos medios, n = vector columna que contiene el numero de individuos de cada poblacion, p = numero de variables medidas sobre cada poblacion, conf = nivel de confianza (0<=conf<=1) para el que se construyen las regiones confidenciales (por ejemplo, conf=0.90). Salidas: r = vector que contiene los radios de las esferas. function r = regconf(mY,n,p,conf) g = length(n); N = sum(n); % valor critico de una F(p,N-g-p+1) para el nivel de % confianza (conf) especificado. F = finv(conf,p,N-g-p+1); % % calculo de las regiones confidenciales (al conf*100%) % para los individuos medios. % for i = 1:g r(i) = sqrt(F*p*(N-g)/((N-g-p+1)*n(i))); end for i = 0:0.01:2*pi theta(floor(i*100+1)) = i; end % % vector de etiquetas para los individuos medios % for i = 1:g 150 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE lab(i,:) = sprintf(’%3g’,i); end % hold on plot(mY(:,1),mY(:,2),’^r’,’MarkerFaceColor’,[1 0 0]) xlabel(’1er. eje canonico’,’FontSize’,10) ylabel(’2o. eje canonico’,’FontSize’,10) % for i = 1:g for j = 1:length(theta) cercle(j,1) = mY(i,1)+cos(theta(j))*r(i); cercle(j,2) = mY(i,2)+sin(theta(j))*r(i); end plot(cercle(:,1),cercle(:,2),’.m’,’MarkerSize’,4) end pconf = conf*100; title([’Regiones confidenciales para los individuos medios al ’, ... num2str(pconf),’%’],’FontSize’,12) for i = 1:g text(mY(i,1),mY(i,2),lab(i,:)); end hold off (a) Para poder utilizar la función canp.m debemos escribir los datos de la Tabla 8.1 en una matriz X=[X1;X2;X3] de dimensión N × p, donde p es el número de variables observadas, y N es el número total de individuos. En este caso p = 4 y N = 150. Las matrices X1, X2 y X3 contienen a los individuos de cada uno de los tres grupos. Debemos introducir también un vector n=[n1 n2 n3] que contenga el número de individuos de cada grupo. Consideramos como grupo 1 a la especie Iris setosa, como grupo 2 a la especie Iris versicolor y como grupo 3 a la especie Iris virginica. n = [50 50 50]; [mY,V,B,W,percent,Test1,texto1,Test2,texto2] = canp(X,n) La matriz mY contiene las coordenadas de los individuos medios en función de los nuevos ejes canónicos. Las columnas de la matriz V son los coeficientes que definen los nuevos ejes canónicos, B y W son las matrices de dispersón entre grupos (between) y de dispersión dentro de los grupos (within), respectivamente. El vector percent contiene el porcentaje de variabilidad explicado por cada uno de los ejes. Puesto que el número de ejes canónicos es min(g − 1, p), donde g es el número de grupos, en este caso la representación en dimensión 2 expresa el 100% de la variabilidad explicada. Test1 y texto1 contienen los resultados del contraste de igualdad de medias basado en el estadístico Lambda de Wilks: percent = 99.1213 0.8787 Test1= 199.1453 8.0000 288.0000 0 texto1 = Test1: Igualdad de medias (Lambda de Wilks): p-valor=0 El primer eje canónico explica el 99.1213% de la variabilidad, mientras que el segundo eje explica solamente el 0.8787%. Para el contraste de comparación de medias se obtiene una F (8, 288) = 199.1453, con un p-valor asociado de 0. Por tanto se rechaza la hipótesis nula de igualdad de medias. La Figura 8.1 muestra la representación canónica de las tres especies del género Iris, con un porcentaje de variabilidad explicado del 100%. ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 151 Coordenadas canonicas (100%) −4 2o. eje canonico −5 2 −6 1 −7 3 −8 −9 −10 −8 −6 −4 −2 0 2 4 1er. eje canonico 6 8 10 12 1. Iris setosa 2. Iris virginica 3. Iris versicolor Figura 8.1. Análisis canónico de poblaciones. (Problema 8.2.) (b) Bajo el supuesto de normalidad multivariante, las regiones confidenciales son esferas multidimensionales centradas en los individuos medios. En el caso de la representación en dos dimensiones, se trata de círculos de radio  (N − g) p , para i = 1, 2, . . . , g, ri = Fα (N − g − p + 1) ni donde Fα es el percentil (1 − α) 100% de la ley F de Fisher con p y N − g − p + 1 grados de libertad, p es el número de variables observadas, g es el número de grupos, N es el número total de individuos y ni es el número de individuos en el grupo i-ésimo. Para representar las regiones confidenciales al (1 − α) 100% para los individuos medios utilizaremos la función regconf.m. Por ejemplo, para un nivel de confianza del 90%, obtenemos: r = regconf(mY,n,4,0.90) r = 0.4026 0.4026 0.4026 La coincidencia de los tres radios se debe a que los tres grupos tienen el mismo número de individuos. La Figura 8.2 muestra la representación canónica de las tres especies del género Iris junto con las regiones confidenciales para los individuos medios. A veces, cuando el número de individuos es muy grande o también cuando el número de grupos es considerable, suele realizarse solamente una representación de los individuos medios juntamente con las regiones confidenciales. 152 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE −4 −5 2o. eje canonico 2 −6 1 −7 3 −8 −9 −10 −8 −6 −4 −2 0 2 4 1er. eje canonico 6 8 10 12 1. Iris setosa 2. Iris virginica 3. Iris versicolor Figura 8.2. Regiones confidenciales al 90% (Problema 8.2) PROBLEMA 8.3 La Tabla 8.2 contiene cuatro medidas sobre cráneos de varones egipcios de cinco períodos históricos distintos (Grupo 1: 4000 aC, Grupo 2: 3300 aC, Grupo 3: 1850 aC, Grupo 4: 200 aC, Grupo 5: 150 dC). Para cada período temporal se midieron 30 cráneos. Las variables observadas son: X1 =anchura máxima, X2 =altura basibregmática, X3 =longitud basialveolar, X4 =longitud de la nariz. Estos datos están accesibles en la página web DASL Project (véase Hutcheson y Meyer 1996). (a) Realícese la representación canónica de los cinco grupos, especificando los porcentajes de variabilidad explicados por los ejes canónicos. (b) Represéntense las regiones confidenciales para un nivel de confianza del 90%. (c) Interprétese el primer eje canónico. (d) Obténgase la matriz de distancias entre los cinco grupos. ✞ ✝ SOLUCIÓN ☎ ✆ (a) Sea X=[X1;X2;X3;X4;X5] la matriz 150 × 4 que contiene los datos de la Tabla 8.2. Realizaremos el análisis canónico de poblaciones mediante la función canp.m: n = [30 30 30 30 30]; [mY,V,B,W,percent,Test1,texto1,Test2,texto2] = canp(X,n) ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 153 Tabla 8.2. Datos del Problema 8.3 (http://lib.stat.cmu.edu/DASL/Datafiles/EgyptianSkulls.html) X1 131 125 131 119 136 138 139 125 131 134 129 134 126 132 141 131 135 132 139 132 126 135 134 128 130 138 128 127 131 124 4000 a.C. X2 X3 138 89 131 92 132 99 132 96 143 100 137 89 130 108 136 93 134 102 134 99 138 95 121 95 129 109 136 100 140 100 134 97 137 103 133 93 136 96 131 101 133 102 135 103 124 93 134 103 130 104 135 100 132 93 129 106 136 114 138 101 X4 49 48 50 44 54 56 48 48 51 51 50 53 51 50 51 54 50 53 50 49 51 47 53 50 49 55 53 48 54 46 X1 124 133 138 148 126 135 132 133 131 133 133 131 131 138 130 131 138 123 130 134 137 126 135 129 134 131 132 130 135 130 3300 a.C. X2 X3 138 101 134 97 134 98 129 104 124 95 136 98 145 100 130 102 134 96 125 94 136 103 139 98 136 99 134 98 136 104 128 98 129 107 131 101 129 105 130 93 136 106 131 100 136 97 126 91 139 101 134 90 130 104 132 93 132 98 128 101 X4 48 48 45 51 45 52 54 48 50 46 53 51 56 49 53 45 53 51 47 54 49 48 52 50 49 53 50 52 54 51 X1 137 129 132 130 134 140 138 136 136 126 137 137 136 137 129 135 129 134 138 136 132 133 138 130 136 134 136 133 138 138 1850 a.C. X2 X3 141 96 133 93 138 87 134 106 134 96 133 98 138 95 145 99 131 92 136 95 129 100 139 97 126 101 133 90 142 104 138 102 135 92 125 90 134 96 135 94 130 91 131 100 137 94 127 99 133 91 123 95 137 101 131 96 133 100 133 91 X4 52 47 48 50 45 50 47 55 46 56 53 50 50 49 47 55 50 60 51 53 52 50 51 45 49 52 54 49 55 46 X1 137 141 141 135 133 131 140 139 140 138 132 134 135 133 136 134 131 129 136 131 139 144 141 130 133 138 131 136 132 135 200 a.C. X2 X3 134 107 128 95 130 87 131 99 120 91 135 90 137 94 130 90 134 90 140 100 133 90 134 97 135 99 136 95 130 99 137 93 141 99 135 95 128 93 125 88 130 94 124 86 131 97 131 98 128 92 126 97 142 95 138 94 136 92 130 100 X4 54 53 49 51 46 50 60 48 51 52 53 54 50 52 55 52 55 47 54 48 53 50 53 53 51 54 53 55 52 51 X1 137 136 128 130 138 126 136 126 132 139 143 141 135 137 142 139 138 137 133 145 138 131 143 134 132 137 129 140 147 136 150 d.C. X2 X3 123 91 131 95 126 91 134 92 127 86 138 101 138 97 126 92 132 99 135 92 120 95 136 101 135 95 134 93 135 96 134 95 125 99 135 96 125 92 129 89 136 92 129 97 126 88 124 91 127 97 125 85 128 81 135 103 129 87 133 97 X4 50 49 57 52 47 52 58 45 55 54 51 54 56 53 52 47 51 54 50 47 46 44 54 55 52 57 52 48 48 51 El vector percent contiene los porcentajes de variabilidad explicados por los 4 ejes canónicos. Se rechaza la comparación de medias con un p-valor menor que 10−6 y no se rechaza la igualdad de covarianzas, puesto que el p-valor asociado es de 0.12905. Estos resultados confirman que el análisis canónico de poblaciones es aplicable para este conjunto de datos. percent = 88.2272 8.0941 3.2594 0.4193 Test1 = 3.8968 16.0000 434.0000 0.0000 texto1 = Test1: Igualdad de medias (Lambda de Wilks): p-valor=7.1776e-007 Test2 = 50.2206 40.0000 0.1291 texto2 = Test2: Igualdad de covarianzas (test Bartlett): p-valor=0.12905 La Figura 8.3 muestra la representación canónica de los individuos en dos dimensiones con un 96.32% de la variabilidad explicada. (b) Para representar las regiones confidenciales utilizaremos la función regconf.m: r = regconf(mY,n,4,0.90) r = 0.5198 0.5198 0.5198 0.5198 0.5198 La Figura 8.4 contiene la representación canónica de los individuos junto con las regiones confidenciales para los individuos medios. (c) Los ejes canónicos son las columnas de la matriz V, de manera que las coordenadas canónicas son combinaciones lineales de las variables originales, es decir, si Y es la representación de los individuos en las nuevas coordenadas, Y=XV. Así, el primer eje canónico es Y1 = 0.1267 X1 − 0.0370 X2 − 0.1451 X3 + 0.0829 X4. 154 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Coordenadas canonicas (96.3213%) 25 24.5 24 2o. eje canonico 23.5 23 3 1 22.5 2 22 4 5 21.5 21 20.5 20 −1 0 1 2 3 1er. eje canonico 4 5 6 1. 4000 aC, 2. 3300 aC, 3. 1850 aC, 4. 200 aC, 5. 150 dC Figura 8.3. Análisis canónico de poblaciones (Problema 8.3) 25 24.5 24 2o. eje canonico 23.5 23 3 1 22.5 2 22 4 5 21.5 21 20.5 20 −1 0 1 2 3 1er. eje canonico 4 5 6 1. 4000 aC, 2. 3300 aC, 3. 1850 aC, 4. 200 aC, 5. 150 dC Figura 8.4. Regiones confidenciales al 90% (Problema 8.3) En las Figuras 8.3 y 8.4 puede observarse la ordenación temporal de los cinco períodos históricos a lo largo del primer eje canónico. Por tanto, este primer eje puede interpretarse como la evolución del cráneo a lo largo de la historia, con una tendencia hacia cráneos más anchos y algo achatados, con mandíbulas pequeñas y narices relativamente largas. ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 155 (d) La matriz de distancias entre los cinco grupos puede obtenerse a partir de las distancias euclídeas entre las filas de la matriz mY, que contiene las coordenadas de los individuos medios en función de las coordenadas canónicas: squareform(pdist(mY))= 0 0.1920 0.9216 1.3660 1.6303 0.1920 0 0.8507 1.2317 1.4719 0.9216 0.8507 0 0.5913 0.9535 1.3660 1.2317 0.5913 0 0.3736 1.6303 1.4719 0.9535 0.3736 0 Podéis comparar los elementos de esta matriz con la representación canónica de los individuos medios que se muestra en la Figura 8.5. Recordad que las distancias representadas en la Figura 8.5 coinciden con las distancias de Mahalanobis entre los individuos medios en función de las variables originales. Por tanto, para estudiar posibles relaciones entre los distintos grupos será más cómodo observar el gráfico de la representación canónica que la matriz de distancias de Mahalanobis. 23.5 Regiones confidenciales para los individuos medios al 90% 2o. eje canonico 23 3 22.5 1 4 2 5 22 21.5 0.5 1 1.5 2 2.5 1er. eje canonico 3 3.5 4 1. 4000 aC, 2. 3300 aC, 3. 1850 aC, 4. 200 aC, 5. 150 dC Figura 8.5. Representación de las distancias entre los individuos medios (Problema 8.3) PROBLEMA 8.4 Las Tablas 8.3, 8.4 y 8.5 contienen varias variables medidas sobre 250 olmos, divididos en 3 grupos, según su sexo (Grupo 1: 100 olmos femeninos, Grupo 2: 100 olmos masculinos, Grupo 3: 50 olmos juveniles o plántulas). Véase el Problema 4.5 para una descripción completa de las variables. (a) Realícese la representación canónica de los tres grupos, especificando los porcentajes de variabilidad explicados por cada eje canónico. (b) Suponiendo normalidad multivariante, constrúyanse las regiones confidenciales (al 95%) para los individuos medios de cada grupo. (c) Interprétense los ejes canónicos. 156 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 8.3. Datos para el Problema 8.4. Grupo 1: olmos femeninos. X1 0.53 0.53 0.545 0.55 0.525 0.535 0.47 0.44 0.565 0.55 0.615 0.56 0.58 0.68 0.68 0.705 0.54 0.45 0.575 0.45 0.55 0.46 0.525 0.47 0.5 0.505 0.53 0.565 0.595 0.475 0.4 0.595 0.605 0.6 0.6 0.555 0.615 0.575 0.52 0.57 0.46 0.575 0.625 0.475 0.52 0.545 0.5 0.51 0.435 0.545 ✞ X2 0.42 0.415 0.425 0.44 0.38 0.405 0.355 0.34 0.44 0.415 0.48 0.44 0.45 0.56 0.55 0.55 0.475 0.355 0.445 0.335 0.425 0.375 0.425 0.36 0.4 0.4 0.41 0.44 0.495 0.39 0.32 0.475 0.45 0.475 0.47 0.425 0.475 0.445 0.425 0.465 0.355 0.45 0.495 0.375 0.41 0.43 0.4 0.39 0.395 0.41 ✝ SOLUCIÓN X3 0.135 0.15 0.125 0.15 0.14 0.145 0.1 0.1 0.155 0.135 0.165 0.14 0.185 0.165 0.175 0.2 0.155 0.105 0.135 0.105 0.135 0.12 0.16 0.12 0.14 0.125 0.13 0.16 0.185 0.12 0.11 0.17 0.195 0.15 0.15 0.14 0.17 0.14 0.165 0.18 0.13 0.16 0.165 0.125 0.155 0.165 0.125 0.135 0.105 0.125 X4 0.677 0.7775 0.768 0.8945 0.6065 0.6845 0.4755 0.451 0.9395 0.7635 1.1615 0.9285 0.9955 1.639 1.798 1.7095 1.217 0.5225 0.883 0.425 0.8515 0.4605 0.8355 0.4775 0.6615 0.583 0.6965 0.915 1.285 0.5305 0.353 1.247 1.098 1.0075 0.922 0.788 1.1025 0.941 0.9885 1.295 0.517 0.9775 1.262 0.5785 0.727 0.802 0.6675 0.6335 0.3635 0.6935 X5 0.2565 0.237 0.294 0.3145 0.194 0.2725 0.1675 0.188 0.4275 0.318 0.513 0.3825 0.3945 0.6055 0.815 0.633 0.5305 0.237 0.381 0.1865 0.362 0.1775 0.3545 0.2105 0.2565 0.246 0.302 0.354 0.416 0.2135 0.1405 0.48 0.481 0.4425 0.363 0.282 0.4695 0.3845 0.396 0.339 0.2205 0.3135 0.507 0.2775 0.291 0.2935 0.261 0.231 0.136 0.2975 X6 0.1415 0.1415 0.1495 0.151 0.1475 0.171 0.0805 0.087 0.214 0.21 0.301 0.188 0.272 0.2805 0.3925 0.4115 0.3075 0.1165 0.2035 0.091 0.196 0.11 0.2135 0.1055 0.1755 0.13 0.1935 0.1935 0.224 0.1155 0.0985 0.225 0.2895 0.221 0.194 0.1595 0.2355 0.252 0.225 0.2225 0.114 0.231 0.318 0.085 0.1835 0.183 0.1315 0.179 0.098 0.146 X7 0.21 0.33 0.26 0.32 0.21 0.205 0.185 0.13 0.27 0.2 0.305 0.3 0.285 0.46 0.455 0.49 0.34 0.145 0.26 0.115 0.27 0.15 0.245 0.15 0.22 0.175 0.2 0.32 0.485 0.17 0.1 0.425 0.315 0.28 0.305 0.285 0.345 0.285 0.32 0.44 0.165 0.33 0.39 0.155 0.235 0.28 0.22 0.2 0.13 0.21 X1 0.53 0.49 0.56 0.47 0.515 0.44 0.325 0.425 0.305 0.405 0.565 0.55 0.49 0.605 0.635 0.605 0.565 0.575 0.58 0.575 0.605 0.725 0.65 0.725 0.68 0.68 0.53 0.52 0.56 0.62 0.645 0.63 0.63 0.63 0.585 0.51 0.505 0.45 0.5 0.53 0.44 0.525 0.49 0.415 0.485 0.415 0.445 0.47 0.49 0.445 X2 0.415 0.375 0.43 0.365 0.425 0.35 0.26 0.33 0.23 0.325 0.445 0.45 0.38 0.5 0.515 0.485 0.45 0.46 0.455 0.46 0.485 0.56 0.545 0.575 0.57 0.515 0.395 0.405 0.45 0.475 0.51 0.48 0.5 0.48 0.46 0.4 0.41 0.345 0.4 0.435 0.34 0.415 0.365 0.325 0.395 0.305 0.325 0.35 0.375 0.355 X3 0.115 0.135 0.15 0.105 0.14 0.125 0.09 0.115 0.08 0.11 0.155 0.145 0.125 0.185 0.19 0.16 0.135 0.19 0.17 0.165 0.16 0.21 0.23 0.175 0.205 0.175 0.145 0.115 0.16 0.175 0.2 0.15 0.185 0.16 0.17 0.14 0.15 0.12 0.145 0.17 0.14 0.17 0.145 0.105 0.16 0.13 0.125 0.145 0.15 0.15 X4 0.5915 0.6125 0.8825 0.4205 0.766 0.4035 0.1915 0.406 0.156 0.3555 0.826 0.741 0.549 1.1185 1.3715 1.0565 0.9885 0.994 0.9075 1.124 1.222 2.141 1.752 2.124 1.842 1.6185 0.775 0.776 1.0235 1.0165 1.5675 1.0525 1.383 1.199 0.9325 0.8145 0.644 0.4165 0.63 0.8155 0.482 0.8325 0.6345 0.38 0.66 0.32 0.455 0.5175 0.5755 0.485 X5 0.233 0.2555 0.3465 0.163 0.304 0.175 0.085 0.1635 0.0675 0.151 0.341 0.295 0.245 0.469 0.5065 0.37 0.387 0.392 0.374 0.2985 0.53 0.65 0.5605 0.765 0.625 0.5125 0.308 0.32 0.429 0.4355 0.621 0.392 0.54 0.5265 0.365 0.459 0.285 0.1655 0.234 0.2985 0.186 0.2755 0.1995 0.1595 0.2475 0.1305 0.1785 0.187 0.22 0.181 X6 0.1585 0.102 0.172 0.1035 0.1725 0.063 0.036 0.081 0.0345 0.063 0.2055 0.1435 0.1075 0.2585 0.305 0.2355 0.1495 0.2425 0.2135 0.1785 0.2575 0.398 0.2895 0.4515 0.408 0.409 0.169 0.1845 0.268 0.214 0.367 0.336 0.3315 0.335 0.271 0.1965 0.145 0.095 0.1465 0.155 0.1085 0.1685 0.1625 0.0785 0.128 0.0755 0.1125 0.1235 0.144 0.125 X7 0.18 0.22 0.31 0.14 0.255 0.129 0.062 0.1355 0.048 0.117 0.2475 0.2665 0.174 0.335 0.45 0.355 0.31 0.34 0.285 0.44 0.28 1.005 0.815 0.85 0.65 0.62 0.255 0.22 0.3 0.325 0.46 0.285 0.38 0.315 0.29 0.195 0.21 0.135 0.23 0.275 0.16 0.31 0.22 0.12 0.235 0.105 0.14 0.18 0.19 0.155 ☎ ✆ (a) Sea X=[X1;X2;X3] la matriz 250 × 7 que contiene los datos de las Tablas 8.3, 8.4 y 8.5, en este orden. Para realizar el análisis canónico de poblaciones utilizaremos la función canp.m: n = [100 100 50]; [mY,V,B,W,percent,Test1,texto1,Test2,texto2] = canp(X,n) El vector percent contiene los porcentajes de variabilidad explicados por los 2 ejes ca- ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 157 Tabla 8.4. Datos para el Problema 8.4. Grupo 2: olmos masculinos X1 0.665 0.465 0.355 0.47 0.4 0.485 0.405 0.445 0.47 0.45 0.505 0.425 0.52 0.475 0.555 0.57 0.595 0.62 0.595 0.58 0.625 0.56 0.565 0.555 0.595 0.695 0.665 0.535 0.47 0.47 0.55 0.53 0.53 0.605 0.495 0.465 0.425 0.44 0.405 0.37 0.7 0.71 0.595 0.345 0.375 0.65 0.56 0.475 0.46 0.59 X2 0.525 0.355 0.29 0.37 0.32 0.36 0.31 0.35 0.385 0.345 0.405 0.325 0.4 0.355 0.425 0.48 0.475 0.51 0.475 0.45 0.465 0.44 0.425 0.44 0.465 0.56 0.535 0.435 0.375 0.37 0.435 0.435 0.415 0.47 0.395 0.36 0.35 0.34 0.305 0.265 0.535 0.54 0.48 0.255 0.285 0.52 0.455 0.375 0.35 0.475 X3 0.165 0.105 0.09 0.12 0.095 0.13 0.1 0.12 0.135 0.105 0.11 0.095 0.12 0.12 0.13 0.175 0.14 0.175 0.16 0.14 0.14 0.16 0.135 0.15 0.175 0.19 0.195 0.15 0.13 0.13 0.145 0.16 0.14 0.16 0.125 0.105 0.105 0.105 0.085 0.075 0.16 0.165 0.165 0.09 0.095 0.19 0.155 0.13 0.12 0.145 X4 1.338 0.4795 0.3275 0.5795 0.303 0.5415 0.385 0.4425 0.5895 0.4115 0.625 0.3785 0.58 0.48 0.7665 1.185 0.944 1.615 1.3175 1.013 1.195 0.8645 0.8115 0.755 1.115 1.494 1.606 0.725 0.523 0.5225 0.843 0.883 0.724 1.1735 0.5415 0.431 0.393 0.402 0.2605 0.214 1.7255 1.959 1.262 0.2005 0.253 1.3445 0.797 0.5175 0.515 1.053 X5 0.5515 0.227 0.134 0.293 0.1335 0.2595 0.173 0.192 0.2765 0.18 0.305 0.1705 0.234 0.234 0.264 0.474 0.3625 0.5105 0.408 0.38 0.4825 0.3305 0.341 0.307 0.4015 0.588 0.5755 0.269 0.214 0.201 0.328 0.316 0.3105 0.4975 0.2375 0.172 0.13 0.1305 0.1145 0.09 0.63 0.7665 0.4835 0.094 0.096 0.519 0.34 0.2075 0.224 0.4415 X6 0.3575 0.124 0.086 0.227 0.06 0.096 0.0915 0.0955 0.12 0.1125 0.16 0.08 0.1315 0.1015 0.168 0.261 0.189 0.192 0.234 0.216 0.205 0.2075 0.1675 0.1525 0.254 0.3425 0.388 0.1385 0.132 0.133 0.1915 0.164 0.1675 0.2405 0.1345 0.107 0.063 0.0955 0.0595 0.051 0.2635 0.261 0.283 0.0295 0.0575 0.306 0.19 0.1165 0.108 0.262 X7 0.35 0.125 0.09 0.14 0.1 0.16 0.11 0.135 0.17 0.135 0.175 0.1 0.185 0.135 0.275 0.38 0.315 0.675 0.58 0.36 0.4 0.26 0.255 0.26 0.39 0.485 0.48 0.25 0.145 0.165 0.255 0.335 0.205 0.345 0.155 0.175 0.165 0.165 0.085 0.07 0.54 0.78 0.41 0.063 0.0925 0.4465 0.2425 0.17 0.1565 0.325 X1 0.515 0.645 0.605 0.61 0.725 0.705 0.695 0.525 0.58 0.57 0.64 0.62 0.615 0.61 0.58 0.5 0.64 0.56 0.585 0.5 0.42 0.335 0.5 0.55 0.45 0.47 0.555 0.565 0.625 0.565 0.59 0.6 0.56 0.56 0.545 0.53 0.27 0.52 0.35 0.47 0.59 0.62 0.63 0.63 0.655 0.61 0.635 0.485 0.515 0.53 X2 0.405 0.485 0.465 0.485 0.57 0.56 0.55 0.435 0.475 0.48 0.51 0.49 0.48 0.485 0.45 0.405 0.5 0.45 0.46 0.4 0.335 0.25 0.405 0.405 0.35 0.36 0.445 0.44 0.505 0.425 0.47 0.495 0.45 0.45 0.46 0.42 0.2 0.45 0.275 0.39 0.5 0.485 0.505 0.515 0.54 0.5 0.525 0.395 0.38 0.435 X3 0.13 0.215 0.165 0.175 0.19 0.22 0.215 0.155 0.15 0.18 0.175 0.19 0.18 0.17 0.15 0.155 0.185 0.16 0.185 0.165 0.115 0.09 0.14 0.14 0.13 0.135 0.135 0.175 0.215 0.16 0.18 0.165 0.175 0.185 0.16 0.165 0.08 0.15 0.11 0.15 0.2 0.205 0.225 0.155 0.215 0.24 0.205 0.14 0.175 0.155 X4 0.722 1.514 1.056 1.2445 2.55 1.981 1.9565 1.065 0.97 0.9395 1.368 1.218 1.1595 1.0225 0.927 0.772 1.3035 0.922 0.922 0.825 0.369 0.181 0.6155 0.8025 0.46 0.501 0.836 0.9025 1.4455 0.9425 1.1235 1.2415 1.011 1.07 0.8975 0.8945 0.1205 0.895 0.2925 0.6355 1.187 1.219 1.525 1.259 1.844 1.642 1.484 0.6295 0.9565 0.699 X5 0.32 0.546 0.4215 0.544 1.0705 0.8175 0.7125 0.486 0.385 0.399 0.515 0.5455 0.4845 0.419 0.276 0.346 0.4445 0.432 0.3635 0.254 0.171 0.0755 0.241 0.244 0.174 0.1665 0.336 0.31 0.496 0.3495 0.4205 0.485 0.3835 0.3805 0.341 0.319 0.0465 0.3615 0.1225 0.2185 0.412 0.3875 0.56 0.4105 0.7425 0.532 0.55 0.2285 0.325 0.288 X6 0.131 0.2615 0.2475 0.297 0.483 0.3085 0.541 0.233 0.2165 0.2 0.266 0.2965 0.2165 0.2405 0.1815 0.1535 0.2635 0.178 0.213 0.205 0.071 0.0415 0.1355 0.1635 0.111 0.115 0.1625 0.193 0.287 0.2185 0.2805 0.2775 0.2065 0.175 0.1655 0.239 0.028 0.186 0.0635 0.0885 0.2705 0.2505 0.3335 0.197 0.327 0.3345 0.3115 0.127 0.158 0.1595 X7 0.21 0.635 0.34 0.345 0.725 0.76 0.59 0.285 0.35 0.295 0.57 0.355 0.325 0.36 0.36 0.245 0.465 0.26 0.285 0.285 0.12 0.06 0.205 0.255 0.135 0.165 0.275 0.325 0.435 0.275 0.36 0.34 0.37 0.41 0.345 0.245 0.04 0.235 0.0905 0.255 0.37 0.385 0.45 0.41 0.585 0.69 0.43 0.225 0.31 0.205 nónicos, con un 97.6454% de variabilidad explicada por el primer eje. Para el contraste de comparación de medias se obtiene una F (14, 482) = 22.2795, por lo que se infiere que las medias son distintas. percent = 97.6454 2.3546 Test1 = 22.2795 14.0000 482.0000 0 texto1 = Test1: Igualdad de medias (Lambda de Wilks): p-valor= 0 La Figura 8.6 muestra la representación canónica de los individuos en dos dimensiones con un 158 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 8.5. Datos para el Problema 8.4. Grupo 3: olmos juveniles o plántulas. X1 0.28 0.175 0.17 0.235 0.36 0.315 0.315 0.225 0.355 0.4 0.435 0.37 0.405 0.425 0.365 0.275 0.44 0.295 0.075 0.13 0.11 0.16 0.27 0.23 0.3 X2 0.205 0.13 0.13 0.16 0.26 0.21 0.245 0.16 0.275 0.3 0.34 0.28 0.3 0.38 0.27 0.215 0.35 0.225 0.055 0.1 0.09 0.12 0.2 0.175 0.23 X3 0.08 0.055 0.095 0.04 0.09 0.06 0.085 0.045 0.085 0.11 0.11 0.095 0.12 0.105 0.085 0.075 0.135 0.08 0.01 0.03 0.03 0.035 0.07 0.065 0.08 X4 0.127 0.0315 0.03 0.048 0.1785 0.125 0.1435 0.0465 0.22 0.315 0.3795 0.2655 0.324 0.3265 0.205 0.1155 0.435 0.124 0.002 0.013 0.008 0.021 0.1 0.0645 0.1275 X5 0.052 0.0105 0.013 0.0185 0.0645 0.06 0.053 0.025 0.092 0.109 0.1495 0.122 0.1265 0.1285 0.078 0.0485 0.1815 0.0485 0.001 0.0045 0.0025 0.0075 0.034 0.026 0.0435 X6 0.039 0.0065 0.008 0.018 0.037 0.0375 0.0475 0.015 0.06 0.067 0.085 0.052 0.07 0.0785 0.0485 0.029 0.083 0.032 0.0005 0.003 0.002 0.0045 0.0245 0.0105 0.0265 X7 0.042 0.0125 0.01 0.015 0.075 0.035 0.05 0.015 0.15 0.12 0.12 0.08 0.11 0.1 0.07 0.035 0.125 0.04 0.0015 0.004 0.003 0.005 0.035 0.02 0.04 X1 0.33 0.35 0.32 0.36 0.305 0.345 0.33 0.245 0.36 0.295 0.275 0.28 0.2 0.165 0.45 0.33 0.265 0.19 0.265 0.355 0.32 0.36 0.3 0.235 0.34 X2 0.255 0.26 0.245 0.275 0.245 0.27 0.25 0.195 0.285 0.215 0.205 0.21 0.145 0.12 0.355 0.255 0.21 0.145 0.205 0.275 0.255 0.28 0.22 0.175 0.26 X3 0.085 0.085 0.08 0.085 0.075 0.11 0.105 0.06 0.105 0.085 0.075 0.085 0.06 0.03 0.11 0.095 0.06 0.04 0.07 0.09 0.1 0.09 0.08 0.04 0.08 X4 0.1655 0.174 0.1585 0.1975 0.156 0.2135 0.1715 0.095 0.2415 0.128 0.1105 0.1065 0.037 0.0215 0.4585 0.172 0.0965 0.038 0.1055 0.251 0.1755 0.2255 0.121 0.0705 0.2 X5 0.063 0.0705 0.0635 0.0745 0.0675 0.082 0.0655 0.0445 0.0915 0.049 0.045 0.039 0.0125 0.007 0.194 0.066 0.0425 0.0165 0.039 0.097 0.073 0.0885 0.0475 0.0335 0.08 100% de la variabilidad explicada. Coordenadas canonicas (100%) 5 4 2o. eje canonico 3 2 3 1 1 2 0 −1 −2 −3 1 2 3 4 5 6 7 1er. eje canonico 8 9 10 1. olmos femeninos, 2. olmos masculinos, 3. olmos juveniles Figura 8.6. Análisis canónico de poblaciones (Problema 8.4) 11 X6 0.039 0.0345 0.0325 0.0415 0.038 0.0545 0.035 0.0245 0.057 0.034 0.0285 0.0295 0.0095 0.005 0.067 0.0255 0.022 0.0065 0.041 0.053 0.0415 0.04 0.042 0.015 0.0555 X7 0.06 0.06 0.05 0.07 0.045 0.07 0.06 0.026 0.075 0.04 0.035 0.03 0.011 0.005 0.14 0.06 0.03 0.015 0.035 0.08 0.065 0.09 0.035 0.02 0.055 ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 159 (b) Las regiones confidenciales para los individuos medios, al 95% son: r = regconf(mY,n,7,0.95) r = 0.3833 0.3833 0.5420 Puesto que el número de individuos es considerable, para una interpretación más clara, representaremos solamente los individuos medios y sus regiones confidenciales. La Figura 8.7 contiene esta representación, donde puede observarse que las diferencias entre los tres grupos son debidas al grupo de olmos juveniles. 2o. eje canonico 2 1 1.5 3 2 1 0.5 4.5 5 5.5 6 6.5 7 7.5 1er. eje canonico 8 8.5 9 1. olmos femeninos, 2. olmos masculinos, 3. olmos juveniles Figura 8.7. Regiones confidenciales al 95% (Problema 8.4) (c) Las columnas de la matriz V contienen los coeficientes de los ejes canónicos. Así el primer eje es: Y1 = 11.66 X1 + 8.38 X2 + 5.35 X3 − 3.20 X4 + 2.49 X5 − 1.31 X6 + 0.27 X7 , donde las variables que más contribuyen son X1 , X2 y X3 , que corresponden, respectivamente, a la longitud (o mayor medida de la corteza), el diámetro y la altura (con madera dentro de la corteza) del olmo. Contribuciones positivas en estas tres variables indican un árbol alto y grueso, por tanto, el primer eje canónico podría interpretarse como una medida general del tamaño del olmo. En la Figura 8.7 se observa que los olmos juveniles son los que puntúan más bajo respecto del primer eje canónico, mientras que los olmos adultos (femeninos o masculinos) puntúan más alto. También se observa que entre los olmos adultos no existen diferencias en cuanto a su tamaño, pero sí respecto del segundo eje canónico: Y2 = 18.11 X1 − 10.74 X2 − 18.86 X3 − 8.04 X4 − 4.14 X5 + 28.47 X6 + 7.11 X7. Las variables que más contribuyen a este eje son X1 , X2 , X3 y X6 , que es el peso de las vísceras. La primera y última variables lo hacen en sentido positivo, mientras que X2 y X3 lo hacen en sentido negativo. Este segundo eje podría interpretarse como un índice del contenido relativo de madera del árbol. En la Figura 8.7 se observa que los olmos femeninos puntúan más alto respecto de este eje, indicando que el contenido relativo de madera es mayor en este grupo de individuos. 160 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 8.5 La Tabla 8.6 contiene once variables medidas sobre un total de 44 individuos pertenecientes a cuatro especies de cocodrilos: 1. Alligator mississippiensis, 2. Crocodylus niloticus, 3. Crocodylus porosus, 4. Osteolaemus tetraspis. La Figura 8.8 muestra las regiones geográficas donde se encuentran estas especies de cocodrilos. Las variables medidas sobre cada individuo son: X1 =longitud del cráneo, X2 =ancho del cráneo, X3 =ancho del hocico, X4 =longitud del hocico, X5 =longitud dorsal del cráneo, X6 =ancho máximo orbital, X7 =ancho mínimo inter-orbital, X8 =longitud máxima orbital, X9 =longitud del paladar post-orbital, X10 =ancho posterior del paladar, X11 =ancho máximo entre orificios nasales (Fuente: Iordansky 1973). Alligator mississippiensis Crocodylus niloticus Crocodylus porosus Osteolaemus tetraspis Figura 8.8. Hábitat de las cuatro especies de cocodrilos. (Problema 8.5) Realícese la representación canónica de las cuatro especies, especificando los porcentajes de variabilidad explicados por cada eje canónico. Suponiendo normalidad multivariante, constrúyanse las regiones confidenciales (al 90%) para los individuos medios de cada grupo. ✞ ✝ SOLUCIÓN ☎ ✆ Sea X la matriz que contiene los datos de la Tabla 8.6. Para poder utilizar las funciones canp y regconf, construimos mediante la función interna de Matlab find, un vector que contenga el número de individuos de cada grupo: n = zeros(1,4); for i = 1:4 grupo = find(X(:,1)==i); n(i) = length(grupo); end ANÁLISIS CANÓNICO DE POBLACIONES (MANOVA) 161 Tabla 8.6. Datos para el Problema 8.5. especie 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 X1 72 220 225 272 288 290 292 320 354 366 380 160 198 248 254 420 440 525 582 610 76 548 238 408 548 565 672 800 164 188 170 173 175 185 185 188 188 190 194 194 203 210 225 240 X2 40 112 150 138 148 150 150 150 178 186 236 64 94 243 114 235 250 290 336 345 30 74 292 200 300 292 384 416 90 107 98 107 102 105 105 107 104 108 110 117 108 107 128 136 X3 37 98 89 120 126 117 127 124 137 160 210 46 70 76 71 170 170 220 218 268 22 56 68 148 210 216 302 324 70 71 72 70 73 77 78 82 80 80 82 92 88 91 105 91 X4 35 138 140 175 180 183 166 203 240 232 238 100 121 159 158 270 280 360 382 400 41 364 154 274 364 405 452 516 90 92 98 100 102 105 105 108 110 112 114 117 116 124 128 133 X5 71 216 220 262 275 270 284 310 337 348 358 153 186 235 235 400 420 495 554 564 73 513 230 390 513 550 620 740 160 160 165 165 165 175 175 180 178 180 182 180 193 178 215 222 X6 17 30 32 24 40 40 49 40 42 39 52 20 25 30 28 37 42 45 48 46 13 23 29 38 46 45 50 63 36 29 31 33 32 32 33 33 34 32 34 34 35 36 40 38 X7 X8 5 20 16 46 17 52 25 54 22 58 20 54 26 56 25 62 25 69 32 68 27 63 9 22 13 31 16 41 16 40 42 60 50 65 48 72 58 72 90 85 4 17 10 29 12 36 36 57 55 68 64 70 70 90 82 100 16 42 13 38 14 42 12 40 14 42 14 44 16 40 16 40 15 44 16 45 15 44 18 43 16 46 19 48 20 52 19 51 X9 15 36 37 44 42 46 48 46 50 54 63 30 32 42 42 68 70 82 76 76 16 26 30 54 65 90 85 105 32 35 35 35 38 40 40 40 40 38 38 42 40 40 45 46 X10 X11 25 11 64 31 82 30 78 38 82 40 82 40 86 39 80 38 89 51 98 53 120 64 39 9 48 13 105 15 65 15 105 42 120 48 145 54 105 57 164 56 20 4 44 48 55 48 110 32 150 48 160 48 185 64 204 75 57 20 65 18 60 20 60 22 64 24 61 22 61 22 65 24 64 24 65 24 67 24 70 23 69 26 65 26 75 28 76 27 y obtenemos: n=[11 9 8 16]. Para obtener la representación canónica, haremos [mY,V,B,W,percent,Test1,texto1,Test2,texto2] = canp(X(:,2:11),n) r = regconf(mY,n,11,0.90) El vector percent contiene los porcentajes de variabilidad explicados por los 2 ejes canónicos, con un 77.0181% de variabilidad explicada por el primer eje. Para el contraste de compa- 162 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ración de medias se obtiene una F (33, 89) = 6.2528, por lo que se infiere que las medias son distintas. mY = 5.2342 -0.5270 -1.0138 4.2779 0.3893 -2.1787 -0.1066 -2.7562 percent = 77.0181 20.4787 2.5032 Test1 = 6.2528 33.0000 89.0000 0.0000 texto1 = Test1: Igualdad de medias (Lambda de Wilks): p-valor=2.6755e-012 La Figura 8.9 contiene la representación canónica de los cocodrilos en dos dimensiones con un 97.5% de la variabilidad explicada junto con las regiones confidenciales al 90% para los individuos medios. 2 Regiones confidenciales para los individuos medios al 90% 1 2o. eje canonico 1 3 0 −1 −2 2 4 −3 −4 −5 −4 −2 0 2 1er. eje canonico 1. Alligator mississippiensis 3. Crocodylus porosus 4 6 2. Crocodylus niloticus 4. Osteolaemus tetraspis Figura 8.9. Análisis canónico de poblaciones (Problema 8.5) 8 CAPÍTULO 9 Análisis discriminante y clasificación Supongamos que tenemos varias poblaciones conocidas Ω1 , . . . , Ωg , en cada una de las cuales observamos una muestra de cierto vector de interés X = (X1 , . . . , Xp )′ . El análisis discriminante se ocupa de describir, mediante las variables Xi , los rasgos diferenciales entre las poblaciones. Se trata de encontrar funciones discriminantes o reglas de decisión h = h(x1 , . . . , xp ) cuyos valores en los distintos grupos estén lo más separados posible. O, más precisamente, buscamos funciones h sencillas que permitan asignar cada observación x = (x1 , . . . , xp )′ a una población Ωi minimizando la tasa de error en dicha asignación. La más conocida es la regla discriminante lineal de Fisher, donde h es una función lineal de x. El problema de clasificación, como su mismo nombre indica, trata de clasificar una nueva observación x, cuya población de procedencia se desconoce, en alguna de las poblaciones Ωi . Para ello se utilizan las funciones discriminantes construidas a partir de la muestra. 164 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 9.1 Sean Ω1 y Ω2 dos poblaciones con distribuciones Np (µ1 , Σ) y Np (µ2 , Σ) respectivamente. El discriminador lineal de Fisher que asigna x ∈ Rp a una de las dos poblaciones anteriores es L(x) = 1 x − (µ1 + µ2 ) 2 ′ Σ−1 (µ1 − µ2 ). La regla discriminante lineal de Fisher consiste en asignar x a la población Ω1 si L(x) > 0 y, en caso contrario, asignar x a la población Ω2 . (a) Exprésese L(x) como la diferencia entre los cuadrados de las distancias de Mahalanobis de x a µ1 y de x a µ2 . (b) Demuéstrese que la probabilidad de clasificación errónea es pce = Φ(−M/2), donde M 2 = (µ1 − µ2 )′ Σ−1 (µ1 − µ2 ) es la distancia de Mahalanobis entre las poblaciones Ω1 y Ω2 y Φ es la función de distribución de una ley normal estándar. ☎ ✞ ✝ SOLUCIÓN (a) ✆ 1 ′ −1 µ Σ µ1 2 1 1 1 1 ′ −1 µ Σ µ2 − µ′2 Σ−1 µ1 + µ′2 Σ−1 µ2 2 1 2 2 1 1 1 ′ −1 x Σ µ1 + x′ Σ−1 µ1 − x′ Σ−1 µ2 2 2 2 1 1 1 ′ −1 x Σ µ2 − µ′1 Σ−1 µ1 + µ′2 Σ−1 µ2 2 2 2 1  ′ −1 x Σ x − x′ Σ−1 µ2 − µ′2 Σ−1 x + µ′2 Σ−1 µ2 2  x′ Σ−1 x + x′ Σ−1 µ1 + µ′1 Σ−1 x + µ′1 Σ−1 µ1  1 2 dMah (x, μ2 ) − d2Mah (x, µ1 ) . 2 L(x) = x′ Σ−1 µ1 − x′ Σ−1 µ2 − + = − = − = (b) El discriminador lineal de Fisher puede escribirse como L(x) = 1 x − (µ1 + µ2 ) 2 ′ Σ−1 (µ1 − µ2 ) = (x − µ)′ a = a′ (x − µ), donde a = Σ−1 (µ1 − µ2 ) y µ = (µ1 + µ2 )/2. Si x ∈ Rp proviene de alguna de las poblaciones Ωi , i = 1, 2, L(x) tendrá ley normal. Su varianza será var (L(x)) = var (a′ (x − µ)) = a′ Σ a = M 2 ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 165 y su esperanza: E (L(x)) = a E (x − µ) = ′  1 2 a′ (µ1 − µ2 ) = 21 M 2 , − 21 a′ (µ1 − µ2 ) = − 12 M 2 , si x ∈ Ω1 , si x ∈ Ω2 . Por tanto, L(x) ∼ N ( 21 M 2 , M 2 ) si x ∈ Ω1 y L(x) ∼ N (− 12 M 2 , M 2 ) si x ∈ Ω2 . El individuo x se clasificará erróneamente cuando se asigne a la población Ω1 y en realidad provenga de Ω2 , o bien, cuando se asigne a la población Ω2 y en realidad provenga de Ω1 . Luego la probabilidad de clasificación errónea es: 1 1 P (L(x) > 0/x ∈ Ω2 ) + P (L(x) < 0/x ∈ Ω1 ) 2 2 1 −1M2 L(x) + 12 M 2 L(x) − 21 M 2 M2 1 1 > 2 < 2 = P + P 2 M M 2 M M M M 1 1 M = Φ − + Φ − =Φ − . 2 2 2 2 2 pce = PROBLEMA 9.2 Sean Ω1 y Ω2 dos poblaciones y X = (X1 , . . . , Xp )′ un vector con distribución de probabilidad conocida, dependiente de un parámetro θ que toma el valor θ1 si X ∈ Ω1 y θ2 si X ∈ Ω2 . Sea x = (x1 , . . . , xp )′ el vector de observaciones de X sobre un individuo ω. La probabilidad o verosimilitud de la observación x en Ωi es Li (x) = f (x1 , . . . , xp ; θi ). La regla discriminante de máxima verosimilitud consiste en asignar ω a la población Ωi para la que la verosimilitud de la observación es mayor. Esta regla tiene asociada la siguiente función discriminante V (x) = log L1 (x) − log L2 (x). Dada una probabilidad a priori, qi = P (ω ∈ Ωi ), la probabilidad a posteriori, conocido x, se obtiene de la expresión: P (ω ∈ Ωi |x) = qi Li (x) . q1 L1 (x) + q2 L2 (x) La regla discriminante de Bayes asigna ω a la población Ωi para la que P (ω ∈ Ωi |x) es máxima. Esta regla tiene asociada la siguiente función discriminante B(x) = log L1 (x) − log L2 (x) + log(q1 /q2 ). Para este problema supóngase que Ωi es una población Np (µi , Σi ), i = 1, 2. 166 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE (a) Demuéstrese que si Σ1 = Σ2 la regla de máxima verosimilitud y la regla de Bayes con q1 = q2 = 1/2 coinciden con la regla discriminante lineal de Fisher (véase el Problema 9.1). (b) Demuéstrese que si Σ1 = Σ2 , la regla de máxima verosimilitud está basada en el discriminador cuadrático 1 −1 −1 −1 ′ Q(x) = x′ (Σ−1 2 − Σ1 ) x + x (Σ1 µ1 − Σ2 µ2 ) 2 1 1 ′ −1 1 1 + µ′2 Σ−1 log |Σ2 | − log |Σ1 |. 2 µ2 − µ1 Σ1 µ1 + 2 2 2 2 ✞ ✝ SOLUCIÓN ☎ ✆ La función de densidad de x en la población Ωi es:   1 |Σi |−1/2 −1 ′ fi (x) = exp − (x − µi ) Σi (x − µi ) 2 (2 π)p/2 (a) Supongamos que Σ1 = Σ2 = Σ. La regla de máxima verosimilitud es V (x) = log f1 (x) − log f2 (x) 1 |Σ| 1 = − log − (x − µ1 )′ Σ−1 (x − µ1 ) 2 (2 π)p 2 |Σ| 1 1 log + + (x − µ2 )′ Σ−1 (x − µ2 ) 2 (2 π)p 2  1 = (x − µ2 )′ Σ−1 (x − µ2 ) − (x − µ1 )′ Σ−1 (x − µ1 ) , 2 que, como se demostró en el Problema 9.1, es una de las expresiones del discrimador lineal de Fisher. La regla de Bayes con q1 = q2 = 1/2 (que implica log(q1 /q2 ) = 0) es B(x) = log f1 (x) − log f2 (x) + log(q1 /q2 ) = V (x). (b) Supongamos ahora que Σ1 = Σ2 . La regla de máxima verosimilitud es V (x) = log f1 (x) − log f2 (x) 1 p 1 = − log |Σ1 | − log(2 π) − (x − µ1 )′ Σ−1 1 (x − µ1 ) 2 2 2 1 1 p log |Σ2 | + log(2 π) + (x − µ2 )′ Σ−1 + 2 (x − µ2 ) 2 2 2 1 1 1 ′ −1 µ1 Σ1 µ1 + x′ Σ−1 = − x′ Σ1−1 x + x′ Σ−1 2 x 1 µ1 − 2 2 2 1 1 1 ′ −1 µ2 Σ2 µ2 + log |Σ2 | − log |Σ1 | − x′ Σ−1 2 µ2 + 2 2 2 = Q(x). ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 167 PROBLEMA 9.3 Se ha tomado una muestra de n1 = 25 escuelas de formación artística y n2 = 25 centros de investigación universitarios. En cada uno de ellos se ha observado un vector aleatorio X = (X1 , X2 )′ , donde X1 es el porcentaje de profesores con grado de doctor en esa escuela o universidad. La variable X2 es el porcentaje de estudiantes matriculados en el centro que estaban entre los mejores de su centro de educación secundaria. La muestra aparece representada en la Figura 9.1. 100 Artistica Universidad 90 80 70 60 50 60 65 70 75 80 85 90 95 100 Figura 9.1. Diagrama de dispersión con los datos del Problema 9.3 (a) Dibújese sobre el gráfico la recta de proyección que en la opinión del lector (aproximadamente) mejor discrimine entre ambos grupos. Supóngase que la dirección de esa recta viene determinada por un vector a = (a1 , a2 )′ . Tratar de dar, a partir del dibujo, unos valores aproximados para a1 y a2 . (b) Ahora se quiere clasificar una nueva observación x = (x1 , x2 )′ en alguno de los dos grupos: escuela de arte o centro de investigación. Sabiendo que los vectores de medias y matrices de covarianzas muestrales de ambas poblaciones son, respectivamente: x̄1 = (88.24, 67.24)′ , S1 = 44.35 22.73 22.73 116.69 , x̄2 = (92.88, 81.64)′ , S2 = 83.69 44.70 44.70 148.24 , escríbase la regla de clasificación lineal de Fisher. Utilícese esta regla para asignar la observación x = (80, 60)′ a una escuela de arte o a una universidad. 168 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE ✞ ✝ SOLUCIÓN ☎ ✆ (a) Véase Figura 9.2. 100 Artistica Universidad La dirección de a viene dada aproximadamente por el vector (2,10). 90 80 70 60 a 50 60 65 70 75 80 85 90 95 100 Figura 9.2. Diagrama de dispersión y regla discriminante lineal (Problema 9.3) (b) En este capítulo denotaremos por Si la matriz de dispersión de la población i definida por Si = X′i HXi /(ni − 1), donde Xi es la matriz de datos de la población i y H es la matriz de centrado definida en el Problema 2.1. La regla discriminante lineal de Fisher asigna x a la población 1 (escuela de arte) si a′ x > m, donde ′ a = S−1 p (x̄1 − x̄2 ) = (−0.0176, −0.1042) , Sp = n1 − 1 n2 − 1 S1 + S2 = n1 + n2 − 2 n1 + n2 − 2 64.02 33.71 33.71 132.46 es la matriz de covarianzas común y m= 1 ′ a (x̄1 + x̄2 ) = −9.35. 2 Puesto que a′ x = −7.66 > m asignamos x = (80, 60)′ a la escuela de arte. ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 169 PROBLEMA 9.4 Un enólogo analiza dos componentes X1 y X2 en sendas muestras de dos tipos de vinos. Los resultados del análisis se pueden ver en la Tabla 9.1. Los datos se han extraído de Newman et al. (1998). Tabla 9.1. Muestras de dos vinos (Problema 9.4). Fuente: Newman et al. (1998) Vino 1 X1 X2 14.23 1065 13.20 1050 13.16 1185 14.37 1480 13.24 735 14.20 1450 14.39 1290 14.06 1295 14.83 1045 13.86 1045 14.10 1510 14.12 1280 13.75 1320 14.75 1150 14.38 1547 13.63 1310 14.30 1280 13.83 1130 14.19 1680 13.64 845 Vino 2 x1 x2 12.37 520 12.33 680 12.64 450 13.67 630 12.37 420 12.17 355 12.37 678 13.11 502 12.37 510 13.34 750 12.21 718 12.29 870 13.86 410 13.49 472 12.99 985 (a) Denotemos X = (X1 , X2 )′ . Exprésese la regla de clasificación lineal de Fisher para una nueva observación x = (x1 , x2 )′ . Prográmese como una función de Matlab. (b) Aplíquese la regla de clasificación obtenida en el apartado anterior al caso concreto en que x = (13.05, 515)′ . ¿A qué tipo de vino corresponde? ✞ ✝ SOLUCIÓN ☎ ✆ (a) La regla de Fisher está expresada en el apartado (b) del Problema 9.3. Para programarla como función de Matlab utilizaremos el siguiente código: function poblacion = LinealDiscrim(x,X1,X2) % % % % LinealDiscrim(x,X1,X2) Clasifica el individuo x en la poblacion 1 o en la 2 utilizando la regla discriminante lineal de Fisher. X1 y X2 son muestras de las poblaciones 1 y 2 respectivamente. x = x(:) ; px = length(x) ; 170 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE [n1,p1] = size(X1) ; [n2,p2] = size(X2) ; if p1 ~= p2 error(’Las matrices de datos no tienen dimensiones coherentes’) else p = p1 ; clear p1 p2 end if px ~= p error(’El vector x no tiene dimension adecuada’) else clear px end m1 = mean(X1) ; % Media muestral de poblacion 1 m2 = mean(X2) ; % Media muestral de poblacion 2 S1 = cov(X1) ; % Matriz de covarianzas (insesgado) de X1 S2 = cov(X2) ; % Matriz de covarianzas (insesgado) de X2 S_p = ((n1-1) * S1 + (n2-1) * S2)/(n1+n2-2); % Matriz de % covarianzas comun a = S_p\((m1-m2)’); m = (m1+m2) * a/2; if (a’*x > m) poblacion = 1; else poblacion = 2; end (b) Dado que poblacion = LinealDiscrim(x,X1,X2) toma el valor 2, asignaremos esta observación al segundo tipo de vino (que es de hecho la población de la que provenía). PROBLEMA 9.5 La tabla 8.1 contiene cuatro medidas X = (X1 , X2 , X3 , X4 )′ sobre tres especies de flores del género Iris (véase el Problema 8.2 para una descripción completa de los datos). Supondremos que el vector X observado sigue una distribución normal. Dadas las tres nuevas flores (individuos) ind. x1 x2 x3 X1 4.6 6.8 7.2 X2 3.6 2.8 3.2 X3 1.0 4.8 6.0 X4 0.2 1.4 1.8 asígnense a alguna de las tres especies (I. setosa, I. virginica o I. versicolor) mediante (a) el discriminador lineal, (b) el discriminador cuadrático. ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 171 ✞ ✝ SOLUCIÓN ☎ ✆ Para asignar estos nuevos individuos a alguna de las poblaciones (especies) anteriores necesitamos una regla de decisión, que será distinta según el discriminador que se utilice. Para cualquiera de los dos métodos especificados en el enunciado debemos calcular los vectores de medias y las matrices de covarianzas de cada población y también el vector de medias global y la matriz de covarianzas común. Los vectores de medias son: i 1 2 3 Población I. setosa I. versicolor I. virginica 5.01 5.94 6.59 x̄′i 3.43 1.46 2.77 4.26 2.97 5.55 0.25 1.33 2.03 y las matrices de covarianzas de cada una de las especies son: S1 0.12 0.10 0.14 S2 0.02 0.01 0.03 0.01 0.01 0.01 0.01 0.27 0.09 0.10 S3 0.18 0.08 0.22 0.06 0.04 0.07 0.04 0.40 0.09 0.10 0.30 0.07 0.30 0.05 0.05 0.05 0.08 Por tanto, la matriz de covarianzas común es: ⎛ ⎞ 0.27 0.10 0.17 0.04 ⎜ 0.12 0.06 0.03 ⎟ ⎟. S=⎜ ⎝ 0.19 0.04 ⎠ 0.04 (a) La regla discriminante lineal asigna una nueva observación x a aquella población i tal que la distancia de Mahalanobis de x a su media x̄i sea mínima. La hipótesis que subyace es que la distribución de X es normal y tiene la misma matriz de covarianzas en todas las poblaciones. Por tanto, calcularemos d(x, x̄i ) = (x − x̄i )′ S−1 (x − x̄i ) y asignaremos x a aquella población i tal que d(x, x̄i ) < d(x, x̄j ) para todo i = j. De ahora en adelante suponemos que ya hemos definido en Matlab las matrices de datos X1, X2 y X3, de dimensión 50×4 cada una, que contienen las observaciones de las especies I. setosa, I. virginica e I. versicolor, respectivamente. 172 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE La siguiente función permite realizar estos cálculos: function [poblacion,D] = LinealDiscrim3(x,X1,X2,X3) % % % % % % % % [poblacion,D] = LinealDiscrim3(x,X1,X2,X3) Regla discriminante lineal para tres poblaciones Clasifica el individuo x en la poblacion 1, en la 2 o en la 3, utilizando la regla discriminante lineal. X1, X2 y X3 son muestras de las poblaciones 1, 2 y 3, respectivamente. D es el vector de distancias del individuo x a las poblaciones 1, 2 y 3. x = x(:) ; px = length(x) ; [n1,p1] = size(X1) ; [n2,p2] = size(X2) ; [n3,p3] = size(X3) ; aux1 = [p1-p2, p2-p3, p1-p3] ; if any(aux1 ~= 0) error(’Las matrices de datos no tienen dimensiones coherentes’) else p = p1 ; clear p1 p2 p3 end if px ~= p error(’El vector x no tiene dimension adecuada’) else clear px end m1 = mean(X1) ; m2 = mean(X2) ; m3 = mean(X3) ; S1 = cov(X1) ; S2 = cov(X2) ; S3 = cov(X3) ; S = ((n1-1) * S1 + (n2-1) * S2 + (n3-1) * S3)/(n1+n2+n3-3) ; x_rep = (ones(3,1) * x’) - [ m1 ; m2 ; m3 ] ; D = diag( x_rep * inv(S) * x_rep’ ) ; [Dmin,poblacion] = min(D) ; La tabla siguiente muestra los vectores D para las tres nuevas flores: ind. x1 x2 x3 d(x, x̄1 ) 2.2864 105.9403 171.0985 d(x, x̄2 ) 113.6509 3.7242 17.3642 d(x, x̄3 ) 210.0239 16.4216 5.5252 luego clasificamos x1 , x2 y x3 en las especies de Iris 1, 2 y 3, respectivamente. (b) En el Problema 8.2 se vio que existían diferencias significativas entre las matrices de covarianzas. Así pues, el discriminador cuadrático podría resultar más adecuado en este caso. Esta regla de discriminación asigna la nueva observación x a la especie i si d(x, x̄i ) < d(x, x̄j ) , para todo i = j, siendo d(x, x̄i ) = log |Si | + (x − x̄i )′ S−1 i (x − x̄i ) (véase el Problema 9.2 y, por ejemplo, Johnson y Wichern 2007 para una explicación más detallada). Implementamos este método mediante la siguiente función: ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 173 function [poblacion,D] = CuadratDiscrim3(x,X1,X2,X3) % % % % % % % % [poblacion,D] = CuadratDiscrim3(x,X1,X2,X3) Regla discriminante cuadratica para tres poblaciones Clasifica el individuo x en la poblacion 1, en la 2 o en la 3, utilizando la regla discriminante cuadratica. X1, X2 y X3 son muestras de las poblaciones 1, 2 y 3, respectivamente. D es el vector de distancias del individuo x a las poblaciones 1, 2 y 3. x = x(:) ; px = length(x) ; [n1,p1] = size(X1) ; [n2,p2] = size(X2) ; [n3,p3] = size(X3) ; aux1 = [p1-p2, p2-p3, p1-p3] ; if any(aux1 ~= 0) error(’Las matrices de datos no tienen dimensiones coherentes’) else p = p1 ; clear p1 p2 p3 end if px ~= p error(’El vector x no tiene dimension adecuada’) else clear px end mgrande = [ mean(X1) ; mean(X2) ; mean(X3) ] ; Sgrande = [ cov(X1) ; cov(X2) ; cov(X3) ] ; D2 = zeros(3,1) ; for i = 1:3 Si = Sgrande([(i-1)*p+1:i*p],:) ; mi = mgrande(i,:) ; D(i,1) = log(det(Si)) + ((x’-mi) * inv(Si) * (x-mi’)) ; end [Dmin,poblacion] = min(D) ; Ahora los vectores D para las tres nuevas flores son: ind. x1 x2 x3 d(x, x̄1 ) -2.0229 441.8145 770.0216 d(x, x̄2 ) 120.3326 -7.1007 4.0740 d(x, x̄3 ) 187.5065 5.8556 -5.7384 luego clasificamos estas flores en las mismas especies que habíamos determinado en el apartado (a). 174 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 9.6 Represéntense gráficamente los datos de las Tablas 8.1 y 9.1 en un diagrama de dispersión múltiple mediante la orden gplotmatrix de Matlab, que permite diferenciar entre los distintos grupos. Esta orden sólo está disponible con la Statistics Toolbox. ✞ ✝ SOLUCIÓN ☎ ✆ Consideremos primero los datos de la Tabla 9.1 que eran componentes de dos tipos de vino. Supongamos que tenemos los datos separados en dos matrices X1 y X2 correspondientes al vino 1 y al 2, respectivamente, como en el Problema 9.4. Para utilizar la orden gplotmatrix es necesario tener las observaciones en una única matriz, digamos Datos, y crear un elemento Grupo que contenga variables categóricas indicadoras del grupo al que pertenece la observación. El gráfico de la Figura 9.3 se puede crear con el siguiente código: n1 = length(X1) ; n2 = length(X2) ; Datos = Datos = [ X1 ; X2 ] ; Grupo = cell(n1+n2,1) ; for i=1:n1 Grupo{i,1} = ’Vino 1’ ; end for i=n1+1:n1+n2 Grupo{i,1} = ’Vino 2’ ; end gplotmatrix(Datos(:,1),Datos(:,2),Grupo,’kk’,’o*’,[7 7],’on’,... ’’,’x_1’,’x_2’) Si hubiéramos definido Grupo como vector columna de la siguiente manera: Grupo = [ ones(n1,1) ; 2*ones(n2,1) ] ; en la leyenda sólo habrían aparecido los números 1 y 2. De ahí el haber creado el “cell array”. Para representar gráficamente los datos de los iris procederemos de manera análoga. Consideramos las matrices de datos X1, X2 y X3 definidas en la solución del Problema 9.5 y utilizamos el código que sigue para obtener la Figura 9.4: Datos = [ X1 ; X2 ; X3 ] ; Grupo = cell(150,1) ; for i=1:50 Grupo{i,1} = ’I. setosa’ ; end for i=51:100 Grupo{i,1} = ’I. versicolor’ ; end for i=101:150 Grupo{i,1} = ’I. virginica’ ; end Variables = cell(4,1) ; Variables{1,1} = ’Long Sep’ ; Variables{2,1} = ’Anch Sep’ ; Variables{3,1} = ’Long Pet’ ; Variables{4,1} = ’Anch Pet’ ; gplotmatrix(Datos,Datos,Grupo,... ’rbk’,’*o.’,[],’on’,’’,Variables(:,1),Variables(:,1)) ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 175 1600 Vino 1 Vino 2 1400 x 2 1200 1000 800 600 400 12.5 13 13.5 x1 14 14.5 Figura 9.3. Diagrama de dispersión de los datos de vinos (Problema 9.6) Anch Sep Long Sep 8 I. setosa I. versicolor I. virginica 6 4 3 Anch Pet Long Pet 2 6 4 2 2 1 0 6 Long Sep 82 3 4 Anch Sep 2 4 6 Long Pet 0 1 2 Anch Pet Figura 9.4. Diagrama de dispersión de los datos de iris (Problema 9.6) 176 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 9.7 Podemos estimar la tasa de error de una regla de clasificación mediante un procedimiento de validación cruzada (cross-validation) propuesto por Lachenbruch y Mickey (1968), que describimos a continuación para el caso de dos poblaciones. Paso 1. Comenzar con las observaciones de la población 1, x1i , i = 1, . . . , n1 . Apartar una observación x1i de la muestra y construir una regla de clasificación con las restantes n1 − 1 observaciones de la población 1 y los n2 datos de la población 2. Paso 2. Clasificar el dato x1i utilizando la regla construida en el Paso 1. Paso 3. Repetir los Pasos 1 y 2 hasta que se hayan clasificado todas las observaciones de la población 1. Calcular m1 , el número de observaciones de la población 1 mal clasificadas. Paso 4. Repetir los Pasos 1 a 3 para las observaciones de la población 2. Denotar por m2 el número de observaciones de esta población mal clasificadas. Prográmese la anterior secuencia de pasos en Matlab para los datos del Problema 9.4 y la regla discriminante lineal. Estímese P (i|j), la probabilidad de clasificar erróneamente en la población i una observación que en realidad proviene de la población j, mediante P̂ (i|j) = mj /nj . Estímese también la tasa global de error mediante (m1 + m2 )/(n1 + n2 ). Dibújense los datos en un gráfico de dispersión y señálese cuáles son los que están mal clasificados. ✞ ✝ SOLUCIÓN ☎ ✆ Suponemos ya introducidas en Matlab las matrices X1 y X2 con los datos de las poblaciones 1 y 2, respectivamente. A continuación escribimos la función que estima la probabilidad de clasificación errónea y la tasa global de error. Por ejemplo, el valor de P̂ (2|1) lo da EC1. Se utiliza la función LinealDiscrim del Problema 9.4. function [EC1,EC2,TGE] = TasaErrorDiscLin(X1,X2) % % % % % % % % % TasaErrorDiscLin Estimacion de la tasa de error en la regla discriminante lineal con dos poblaciones con muestras X1 y X2. Devuelve: EC1 = probabilidad de clasificar en poblacion 2 un dato de poblacion 1; EC2 = probabilidad de clasificar en poblacion 1 un dato de poblacion 2; TGE = tasa global de error de clasificacion. [n1,p] = size(X1) ; [n2,p] = size(X2) ; ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 177 Poblacion1 = zeros(n1,1) ; Poblacion2 = zeros(n2,1) ; for i =1:n1 if i == 1 X1menos1 = X1([2:end],:) ; else X1menos1 = X1([1:i-1,i+1:n1],:) ; end Poblacion1(i) = (LinealDiscrim(X1(i,:),X1menos1,X2)~=1) ; end for i =1:n2 if i == 1 X2menos1 = X2([2:end],:) ; else X2menos1 = X2([1:i-1,i+1:n2],:) ; end Poblacion2(i) = (LinealDiscrim(X2(i,:),X1,X2menos1)~=2) ; end m1 = sum(Poblacion1); m2 = sum(Poblacion2) ; EC1 = m1/n1 ; EC2 = m2/n2 ; TGE = (m1+m2)/(n1+n2) ; Obtenemos las estimaciones P̂ (1|2) = 0 y P̂ (2|1) = 0.1. El diagrama de dispersión de los datos aparece en la Figura 9.5. Hemos marcado con flechas los datos mal clasificados de la población 1 (del vino 2 no hay ninguno). Para ello hemos utilizado esencialmente las órdenes: aux1 = find(Poblacion1) ; MalClasif1 = X1(aux1,:) ; 1800 1600 Vino 1 Vino 2 1400 x 2 1200 1000 800 600 400 200 12 12.5 13 13.5 x 1 14 14.5 15 Figura 9.5. Diagrama de dispersión y datos mal clasificados (Problema 9.7) 178 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 9.8 Para los datos de la tabla 8.1, estímese la tasa de error cometida con las reglas discriminantes propuestas en el Problema 9.5. ✞ ✝ SOLUCIÓN ☎ ✆ Escribimos sólo la función de Matlab que hace el cálculo para el caso de la regla discriminante lineal. Para el caso de la regla cuadrática es totalmente análogo. function [EC1,EC2,EC3,TGE] = TasaErrorDiscLin3(X1,X2,X3) % % % % % % % % TasaErrorDiscLin3 Estimacion de la tasa de error en la regla discriminante lineal para tres poblaciones con muestras X1, X2 y X3. Devuelve EC1 = probabilidad de clasificar mal un dato de la poblacion 1; EC2 = probabilidad de clasificar mal un dato de la poblacion 2; EC3 = probabilidad de clasificar mal un dato de la poblacion 3; TGE = tasa global de error. [n1,p] = size(X1) ; [n2,p] = size(X2) ; [n3,p] = size(X3) ; Poblacion1 = zeros(n1,1) ; Poblacion2 = zeros(n2,1) ; Poblacion3 = zeros(n3,1) ; for i =1:n1 if i == 1 X1menos1 = X1([2:end],:) ; else X1menos1 = X1([1:i-1,i+1:n1],:) ; end Poblacion1(i) = (LinealDiscrim3(X1(i,:),X1menos1,X2,X3)~=1) ; end for i =1:n2 if i == 1 X2menos1 = X2([2:end],:) ; else X2menos1 = X2([1:i-1,i+1:n2],:) ; end Poblacion2(i) = (LinealDiscrim3(X2(i,:),X1,X2menos1,X3)~=2) ; end for i =1:n3 if i == 1 X3menos1 = X3([2:end],:) ; else X3menos1 = X3([1:i-1,i+1:n3],:) ; end Poblacion3(i) = (LinealDiscrim3(X3(i,:),X1,X2,X3menos1)~=3) ; end ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 179 m1 = sum(Poblacion1); m2 = sum(Poblacion2) ; m3 = sum(Poblacion3) ; EC1 = m1/n1 ; EC2 = m2/n2 ; EC3 = m3/n3 ; TGE = (m1+m2+m3)/(n1+n2+n3) ; PROBLEMA 9.9 Los datos de la Tabla 9.2, extraídos de Newman et al. (1998), son observaciones tomadas sobre pacientes que han sufrido un ataque al corazón. Las variables consideradas son X1 la edad a la que el paciente sufrió el ataque, X2 y X3 sendas medidas de contractilidad del corazón, X4 la dimensión ventricular izquierda al final de la diástole y X5 una medida de cómo se mueven los segmentos del ventrículo izquierdo. La clase 0 está constituida por aquellos pacientes que sobrevivieron menos de un año desde el ataque. La clase 1 son los que sí sobrevivieron. Se tienen observaciones referentes a dos pacientes nuevos: Paciente 1 2 X1 70 62 X2 0.173 0.224 X3 16.02 12.45 X4 5.20 4.71 X5 18.56 14.38 y se desea clasificarlos en alguna de las dos poblaciones. Para ello se utiliza la regla k-NN (k-nearest neighbours) o de los k vecinos más próximos. Dada una observación x a clasificar, se toman las k observaciones xi de la muestra más cercanas a x. Se clasifica x según el “voto de la mayoría”, es decir, se asigna x a la clase 0 si el número de k-vecinos que pertenecen a esta clase es mayor que el de los que pertenecen a la clase 1. Impleméntese en Matlab la regla k-NN para dos poblaciones y utilícese con k = 5 para clasificar a los nuevos pacientes. Observación: Para ilustrar el método, utilizamos la distancia euclídea como medida de proximidad entre observaciones. Dependiendo de la naturaleza de los datos sería conveniente reemplazarla por alguna de las distancias propuestas en el Capítulo 5. ✞ ✝ SOLUCIÓN ☎ ✆ Podemos utilizar el siguiente código, fácilmente generalizable a mayor número de poblaciones. La matriz Datos está formada por las cinco primeras columnas de la Tabla 9.2 y el vector Clase por la última columna de esta tabla. NuevaObs es el vector de observaciones correspondiente a un nuevo paciente. function ClaseNuevaObs = kNNClasif(NuevaObs,Datos,Clase,k) % kNNClasif(NuevaObs,Datos,Clase,k) % Clasifica NuevaObs utilizando la regla k-NN (k vecinos mas 180 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE Tabla 9.2. Enfermos del corazón (Problema 9.9). Fuente: Newman et al. (1998) X1 71 72 55 60 57 68 62 60 46 54 77 62 73 60 62 55 69 62 66 66 69 85 73 71 55 61 54 70 79 59 58 60 66 63 57 70 79 72 51 70 65 78 86 56 60 59 54 64 54 78 55 59 74 65 58 70 63 59 57 78 62 X2 0.260 0.380 0.260 0.253 0.160 0.260 0.230 0.330 0.340 0.140 0.130 0.450 0.330 0.150 0.120 0.250 0.260 0.070 0.090 0.220 0.150 0.180 0.230 0.170 0.210 0.610 0.350 0.270 0.150 0.030 0.300 0.010 0.290 0.150 0.130 0.100 0.170 0.187 0.160 0.250 0.360 0.060 0.225 0.250 0.120 0.290 0.217 0.200 0.070 0.050 0.280 0.344 0.200 0.160 0.170 0.380 0.300 0.170 0.228 0.230 0.260 X3 9.000 6.000 4.000 12.062 22.000 5.000 31.000 8.000 0.000 13.000 16.000 9.000 6.000 10.000 23.000 12.063 11.000 20.000 17.000 15.000 12.000 19.000 12.733 0.000 4.200 13.100 9.300 4.700 17.500 21.300 9.400 24.600 15.600 13.000 18.600 9.800 11.900 12.000 13.200 9.700 8.800 16.100 12.200 11.000 10.200 7.500 17.900 7.100 16.800 10.000 5.500 9.100 4.800 8.500 28.900 0.000 6.900 14.300 9.700 40.000 7.600 X4 4.600 4.100 3.420 4.603 5.750 4.310 5.430 5.250 5.090 4.490 4.230 3.600 4.000 3.730 5.800 4.290 4.650 5.200 5.819 5.400 5.390 5.460 6.060 4.650 4.160 4.070 3.630 4.490 4.270 6.290 3.490 5.650 6.150 4.570 4.370 5.300 5.150 5.020 5.260 5.570 5.780 5.620 5.200 4.720 4.310 4.750 4.540 4.580 4.160 4.440 4.480 4.040 4.560 5.470 6.730 4.550 3.520 5.490 4.290 6.230 4.420 X5 14.00 14.00 14.00 16.00 18.00 12.00 22.50 14.00 16.00 15.50 18.00 16.00 14.00 14.00 11.67 14.00 18.00 24.00 8.00 27.00 19.50 13.83 7.50 8.00 14.00 13.00 11.00 22.00 13.00 17.00 14.00 39.00 14.00 13.00 12.33 23.00 10.50 13.00 11.00 5.50 12.00 13.67 24.00 11.00 15.00 13.00 16.50 14.00 18.00 15.00 22.00 9.00 12.50 16.00 26.08 10.00 18.16 13.50 11.00 14.00 14.00 Clase 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 1 0 1 1 1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 1 0 1 0 0 1 1 % proximos). % Variables de entrada: % NuevaObs = vector a clasificar con numero de componentes p % Datos = Matriz de datos nxp con individuos de % clase (0 o 1) conocida. % Clase = Vector nx1 con etiquetas 0 o 1 de los individuos de ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 181 % la muestra. % k = Numero de vecinos mas proximos a NuevaObs para su % clasificacion. % Variable de salida: % Clase=0 (resp. 1) si la mayoria de los k-NN son de % clase 0 (resp. 1). % En caso de empate se sortea Clase aleatoriamente. % Control del numero de variables de entrada if nargin < 4 error(’Faltan variables de entrada’) end NuevaObs = NuevaObs(:) ; % "Obligamos" a NuevaObs a que sea % vector columna Clase = Clase(:) ; % Control de la dimension de variables de entrada [n,p] = size(Datos) ; p2 = length(NuevaObs) ; [nC,pC] = size(Clase) ; if n ~= nC error(’El numero de filas de la muestra no coincide con... el de la clase’) end if p ~= p2 error(’El numero de datos de la nueva observacion no es... coherente con la dimension de la muestra’) end if pC ~= 1 error(’La clase tiene que ser un vector, no una matriz’) end clear nC pC p2 % Calculamos la distancia euclidea de NuevaObs a la muestra DistEuclid = sum((Datos - ones(n,1) * NuevaObs’).^2,2) ; [DistEOrd,IndEOrd] = sort(DistEuclid) ; % Ordenamos las distancias. ClasekNN = Clase(IndEOrd([1:k])) ; % Clases de los k-NN NumkNN1 = sum(ClasekNN == 1) ; % Numero de kNN en Clase 1. NumkNN0 = sum(ClasekNN == 0) ; % Numero de kNN en Clase 0. if NumkNN1 > NumkNN0 ClaseNuevaObs = 1 ; elseif NumkNN1 < NumkNN0 ClaseNuevaObs = 0 ; else % Se "tira una moneda al aire" y se decide la clase % aleatoriamente u = rand(1,1) ; ClaseNuevaObs = (u >= 0.5) ; end Tomando k = 5 asignaremos el paciente 1 a la clase de los que sobrevivirán más de un año y el paciente 2 a la otra clase. 182 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE PROBLEMA 9.10 Generalícense las funciones Matlab escritas en los Problemas 9.4 y 9.5 para implementar la regla discriminante lineal con un número genérico g de clases. Aplíquese la nueva función para clasificar los dos pacientes del Problema 9.9. Indicación: La nueva función detectará el número g de poblaciones entre las que hay que discriminar como la longitud del vector n = (n1 , n2 , . . . , ng )′ , que contiene los tamaños muestrales ni observados en cada población i. El vector n será una variable de entrada de la función. ✞ ✝ SOLUCIÓN ☎ ✆ Proponemos el siguiente código function poblacion = LinealDiscrimg(x,X,vector_n) % LinealDiscrimg(x,X,vector_n) % Regla discriminante lineal para cualquier numero g de % poblaciones % Variables de entrada: % x Observacion a clasificar: vector de p componentes % vector_n Vector de dimension gx1, que contiene % n1, n2, ..., ng, siendo % ni el numero de observaciones en la poblacion i, para % i=1,2,...,g. % X Matriz de datos de dimension nxp, con n=n1+n2+...+ng, % que contiene las matrices de datos X1, X2, ..., Xg de las % poblaciones puestas en orden una encima de la otra. x = x(:) ; px = length(x) ; g = length(vector_n) ; [n,p] = size(X) ; if px ~= p error(’La dimension de x no es coherente con la de la... matriz de datos X’) else clear px end mMatriz = zeros(g,p) ; S = zeros(p) ; for i=1:g if i ~= 1 Fila1 = sum(vector_n([1:i-1]))+1 ; Filani = Fila1 -1 + vector_n(i) ; else Fila1 = 1 ; Filani = vector_n(1) ; end Xi = X([Fila1:Filani],:) ; mMatriz(i,:) = mean(Xi) ; ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 183 Si = cov(Xi) ; S = S + (vector_n(i)-1) * Si ; end S = S/(sum(vector_n)-g) ; x_rep = (ones(g,1) * x’) - mMatriz ; D2 = diag( x_rep * inv(S) * x_rep’ ) ; [D2min,poblacion] = min(D2) ; Para aplicar esta función a los datos del Problema 9.9 utilizaremos las mismas matrices Datos y Clase que usábamos en este problema. Con el código IndVivos = find(Clase==1) ; IndMuertos = find(Clase==0) ; vector_n = [length(IndMuertos) ; length(IndVivos)]; X = [Datos(IndVivos,:) ; Datos(IndMuertos,:)]; x = [ 70 ; 0.173 ; 16.02 ; 5.20 ; 18.56 ] ; poblacion = LinealDiscrimg(x,X,vector_n) comprobamos que la clasificación de los nuevos pacientes coincide en este caso con la de la regla k-NN. PROBLEMA 9.11 Estímese la tasa de error cometida con la regla k-NN en el Problema 9.9 mediante el procedimiento de validación cruzada (véase el Problema 9.7). Calcúlese dicha estimación para k = 1, 2, . . . , n − 1, siendo n el tamaño muestral total. Decídase si el valor de k que minimiza la tasa global de error es el más adecuado. En caso contrario, propóngase otro método de elección del número de vecinos. ✞ ✝ SOLUCIÓN ☎ ✆ Utilizaremos las matrices Datos y Clase del Problema 9.9. El código que estima la tasa de error mediante validación cruzada para k vecinos es el siguiente: function [EC1,EC0,TGE] = TasaErrorDisckNN(Datos,Clase,k) % % % % % % % % % TasaErrorDisckNN Estimacion de tasa de error en regla kNN con dos poblaciones (0 y 1). Variables de salida: EC1 = probabilidad de clasificar en Poblacion 0 un dato de la 1. EC0 = probabilidad de clasificar en Poblacion 1 un dato de la 0. TGE = tasa global de error. 184 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE [n,p] = size(Datos) ; ErrorSi = zeros(n,1) ; for i =1:n if i == 1 DatMenos1 = Datos([2:n],:) ; ClMenos1 = Clase([2:n],:) ; ErrorSi(1) = ( kNNClasif(Datos(1,:),DatMenos1,... ClMenos1,k) ~= Clase(1)) ; elseif i == n DatMenos1 = Datos([1:n-1],:) ; ClMenos1 = Clase([1:n-1],:) ; ErrorSi(n) = ( kNNClasif(Datos(n,:),DatMenos1,... ClMenos1,k) ~= Clase(n)) ; else DatMenos1 = Datos([1:i-1,i+1:n],:) ; ClMenos1 = Clase([1:i-1,i+1:n],:) ; ErrorSi(i) = ( kNNClasif(Datos(i,:),DatMenos1,... ClMenos1,k) ~= Clase(i)) ; end end n1 = sum(Clase == 1) ; n0 = sum(Clase == 0) ; m1 = sum((Clase == 1).*ErrorSi) ; m0 = sum((Clase == 0).*ErrorSi) ; EC1 = m1/n1 ; EC0 = m0/n0 ; TGE = (m0+m1)/(n0+n1) ; A continuación calculamos la tasa de error para k = 1, . . . , n − 1: TasaError = zeros(n-1,3) ; for k =1:n-1 [EC1,EC0,TGE] = TasaErrorDisckNN(Datos,Clase,k) ; TasaError(k,:) = [EC1,EC0,TGE] ; end y obtenemos las tres primeras columnas de la Tabla 9.3. Aparecen sólo los resultados para k ≤ 25 porque para k ≥ 26 el resultado coincide con el de k = 25. La menor tasa global de error corresponde a k = 20 o k = 21, pero esta elección no sería adecuada, ya que probablemente erraríamos en la clasificación de observaciones de la población 1. Un mejor procedimiento en la elección del número de vecinos es tomar aquel valor de k que minimice la suma de cuadrados EC12 +EC02 (véase la Tabla 9.3) y que en este caso sería k = 2 o k = 4. ANÁLISIS DISCRIMINANTE Y CLASIFICACIÓN 185 Tabla 9.3. Tasa estimada de error en regla k-NN (Problema 9.11) k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 EC1 0.6471 0.6471 0.7059 0.6471 0.8235 0.8824 0.8824 0.7647 0.9412 1 1 1 1 1 1 1 1 1 1 0.9412 0.9412 1 1 1 1 EC0 0.1591 0.1364 0.1364 0.1364 0.0909 0.0909 0.0909 0.0909 0.0682 0.0909 0.0682 0.0227 0 0 0 0 0 0 0 0 0 0 0 0 0 TGE 0.2951 0.2787 0.2951 0.2787 0.2951 0.3115 0.3115 0.2787 0.3115 0.3443 0.3279 0.2951 0.2787 0.2787 0.2787 0.2787 0.2787 0.2787 0.2787 0.2623 0.2623 0.2787 0.2787 0.2787 0.2787 EC12 +EC02 0.4440 0.4373 0.5169 0.4373 0.6865 0.7868 0.7868 0.5930 0.8905 1.0083 1.0046 1.0005 1 1 1 1 1 1 1 0.8858 0.8858 1 1 1 1 Referencias Cuadras, C. M. (2004). Análisis multivariante. Manuscrito accesible en http://www.ub.es/stat/personal/cuadras/cuad.html. Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics 7, 179–188. Frets, G. (1921). Heredity of head form in man. Genetica 3, 193–400. Gower, J. (1968). Adding a point to vector diagrams in multivariate analysis. Biometrika 55, 582–585. Hutcheson, M. y Meyer, M. (1996). DASL The Data and Story Library. http://lib.stat.cmu.edu/DASL/DataArchive.html. Iordansky, N. (1973). The skull of the Crocodilia. In C. Gans y T. S. Parsons (Eds.), Biology of the Reptilia, Vol. 4, New York, pp. 201–262. Academic Press. Johnson, R. A. y Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Prentice Hall. Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis. Psychometrika 23, 187–200. Lachenbruch, P. A. y Mickey, M. R. (1968). Estimation of error rates in discriminant analysis. Technometrics 10, 1–11. Mardia, K. V., Kent, J. T. y Bibby, J. M. (1979). Multivariate Analysis. Academic Press. Nash, W. K., Sellers, T. L., Talbot, S. R., Cawthorn, A. J. y Ford, W. B. (1994). UCI Repository of machine learning databases. University of California, Irvine. http://www.ics.uci.edu/∼mlearn/MLRepository.html. Newman, D. J., Hettich, S., Blake, C. L. y Merz, C. J. (1998). UCI Repository of machine learning databases. University of California, Irvine. http://www.ics.uci.edu/∼mlearn/MLRepository.html. Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill. Índice de funciones y código Matlab ’, 2 *, 2 +, 2 -, 2 .*, 18 ./, 27 .^, 18 /, 3 :, 2, 188 ;, 1 <, 58 <=, 65 ==, 183, 188 >, 65 >=, 154 [ ], 65 \, 176 &, 65 ~=, 176 acos, 100 any, 178 axis, 41 canp, 154, 155, 158, 161, 167 char, 154 chi2cdf, 60 chi2inv, 60 chol, 53, 145 clear, 176 comp, 74–76, 93, 128 coorp, 112–114 cophenet, 123, 128, 130 corrcoef, 19, 28, 53, 137 cos, 155 cov, 19, 20, 22, 26, 27, 29, 30, 34, 41, 98 CuadratDiscrim3, 179 cumsum, 137 dendrogram, 123, 126, 128, 130 det, 4, 7, 20, 22, 154 diag, 7, 11, 19, 27, 28, 110, 112, 115, 154 dlmread, 20 eig, 7, 8, 11, 13, 53, 110, 112, 154 eigsort, 74, 136 else, 176 elseif, 188 error, 176 exp, 46 extractdist, 123 eye, 16, 19, 26, 27, 110, 112, 154 fcdf, 61, 154 figure, 24, 41 find, 167, 183 findobj, 56 finv, 61, 155 floor, 62, 155 function, 54 ginv, 12 gower, 106 grid, 112, 154 hist, 56 hist3, 24, 48 190 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE hold off, 41, 155 hold on, 41, 116, 154, 155 if, 176 inv, 4, 5, 11, 98, 115, 154 jaccard, 102, 103 kNNClasif, 188 length, 41, 154, 155, 167 LinealDiscrim, 176 LinealDiscrim3, 178 LinealDiscrimg, 189 LineWidth, 65 linkage, 123, 126, 128, 130 log, 56, 154 maha, 98, 99 MarkerEdgeColor, 41 MarkerFaceColor, 41 MarkerSize, 41 max, 56, 106 mean, 18, 19, 26, 27, 29, 30, 34, 41 mesh, 46 meshgrid, 46 min, 106, 110, 112, 154 nargin, 188 nmult, 54 non2euclid, 110, 112, 130 norm, 2 norma, 2 num2str, 112, 154, 155 randT2, 56 randWilks, 58 rank, 7, 16 rcoplot, 93 real, 154 regconf, 155, 157, 159, 163, 167 regress, 93 rotatefactors, 143 set, 56 sin, 155 size, 18, 26, 27, 46, 98, 100, 102, 103, 106, 110, 112, 115, 123, 154 sokal, 102, 103 sort, 154, 188 sprintf, 112, 154, 155 sqrt, 2, 18, 27, 28, 46, 100, 112, 125, 130, 154, 155 squareform, 123, 126, 130, 160 sum, 7, 18, 46, 112, 154, 155 svd, 112 TasaErrorDisckNN, 191 TasaErrorDiscLin, 183 TasaErrorDiscLin3, 184 text, 65, 112, 154, 155 title, 41, 112, 154, 155 trace, 7, 16, 20, 22, 137 var, 18, 29 varimaxTP, 142 view, 24, 46 while, 65 wilkstof, 62, 154 ones, 16, 18, 19, 26, 27, 102, 103, 106, 110, 112, 115, 154 xlabel, 24, 112, 154, 155 pdist, 127, 128, 160 pinv, 12 plot, 41, 112, 116, 154, 155 plotmatrix, 17, 20, 22 prod, 7 ProyOrto, 3 qqplot, 98 rand, 41 randn, 50, 52 ylabel, 24, 112, 154, 155 zeros, 41, 98, 100, 106, 167 Índice de conceptos análisis canónico de poblaciones, 147, 158, 161 de componentes principales, 67, 71, 76, 82, 131 de conglomerados, 117, 122 de coordenadas principales, 96 discriminante, 169 tasa de error, 181, 184, 190 factorial, 131, 134, 140, 142 método de la componente principal, 133–136, 138, 140 método de máxima verosimilitud, 145 árbol jerárquico, 120, 123 autovalor, 5–11, 13, 14, 53, 68, 70, 79–84, 86, 88, 91, 109, 110, 112, 133, 134, 136, 138 doble, 6, 9 simple, 6 autovector, 6, 7, 9–11, 14, 53, 68, 70, 80–83, 88, 109, 133, 134, 138 componentes principales, 68–70, 74–78, 80– 88, 91, 93 comunalidad, 132–135, 137, 140 configuración euclídea, 107, 108, 110, 129, 130 conglomerado, 117, 119, 120, 128 contraste de comparación de covarianzas, 60, 147, 154 de comparación de medias, 61, 147, 154, 156, 158, 162, 167 de razón de verosimilitudes, 60 control de calidad, 63 coordenadas canónicas, 148, 149, 159, 160 coordenadas principales, 110–114, 121, 125, 127 covarianza, 16, 18, 29, 30, 37–40, 44–48, 54, 58, 60, 61 covarianzas cruzadas, 44 criterio de Sylvester, 8 casi-métrica, 95, 96 centroide, 107, 148 clasificación, 117, 119, 120, 169, 175 algoritmo de, 118–120 jerárquica, 95, 118, 127, 128 método de, 120 cluster analysis, 117 coeficiente de correlación, 16, 18, 44–46, 50, 123 cofenética, 121, 123, 125, 126, 128, 130 combinación lineal, 27, 29, 43, 49, 51–53 complete linkage, 121 dendrograma, 95, 117, 120, 121, 123–126, 128 descomposición de Cholesky, 53 en valores singulares, 12 espectral, 7, 8, 10, 86, 108 desigualdad ultramétrica, 117, 118 determinante, 4, 6, 7, 14, 19 diagrama de dispersión, 18, 34, 182, 183 múltiple, 16, 50 disimilaridad, 95, 96, 99 distancia, 95–97, 101, 109, 110, 115, 117– 120, 123, 127, 128, 160 de Balakrishnan-Sanghvi, 99, 100 192 PROBLEMAS RESUELTOS DE ESTADÍSTICA MULTIVARIANTE de Bhattacharyya, 99, 100, 111, 112, 121, inversa generalizada, 12 122 de Moore Penrose, 11 de Cavalli-Sforza, 99 de Gower, 103, 104 MANOVA, 147 de Mahalanobis, 97, 98, 127, 148, 149, matriz 160 adjunta, 4 euclídea, 97, 107, 127, 148, 149, 160 de cargas, 132–138, 140–145 ultramétrica, 117, 118, 120–123, 125, 130 de centrado, 15, 16, 26, 47, 107 distribución de correlaciones, 16, 28, 38, 52, 91, 127 F de Fisher, 55, 61, 62, 154–156, 162, de covarianzas, 16, 19, 25–29, 31–33, 167 37–40, 42–48, 50, 53, 54, 59–61, χ2 , 55, 61, 97, 98 63, 67, 98, 147, 148, 155, 158, 159 T 2 de Hotelling, 55, 61 común, 60, 148, 149, 174 t de Student, 55 de cuadrados de distancias, 98, 106, 107, Beta, 57 109–113, 122, 124, 125 condicionada, 42, 45, 49 de disimilaridades, 97, 128, 129 de Wishart, 55 de dispersión Lambda de Wilks, 57, 61, 62 dentro de los grupos, 62, 148, 155 marginal, 40, 50 entre los grupos, 62, 148, 155 multinomial, 99 de distancias, 95, 98, 100, 101, 107, 109, normal, 42–45, 48–50, 52, 53, 55, 60, 63, 110, 113, 114, 117–123, 125, 129, 82, 97, 98 130, 158, 160 uniforme, 39 de similaridades, 101–103, 106 definida positiva, 7, 8, 11–14, 53 ecuación característica, 5, 6, 9, 81 diagonal, 7, 10 ejes canónicos, 147–149, 151, 154–159, 161, idempotente, 7, 8, 15 163–165, 167 identidad, 8, 15, 37, 38 elipsoide de concentración, 147 inversa, 4, 5 escalado multidimensional, 95, 96, 109 ortogonal, 7, 8, 10, 67, 108, 110, 141– esperanza, 39–41 143 estadístico regular, 53, 56 F de Fisher, 93 semidefinida positiva, 14, 107 Lambda de Wilks, 63, 154–156, 159, 162 simétrica, 6, 8–14, 53 estandarización, 28 singular, 8 traspuesta, 25 factor triangular, 4 común, 131, 135, 140 máxima verosimilitud, 47, 145 estimación, 144 media, 15, 16, 18, 25, 29, 31, 37, 40–42, 44, específico, 134 45, 47–49, 54, 55, 58, 59, 63, 97 forma cuadrática, 12–14, 44 menor principal, 8, 14 método histograma, 48, 50, 55–58 de la mediana, 128, 130 tridimensional, 20, 23, 24, 48 de Ward, 128 del centroide, 128 independencia, 38, 40, 42, 45, 49, 50, 52, 53, del máximo, 121, 123–127 55–57 del mínimo, 118–121, 123, 125, 126 índice de la jerarquía, 123 UPGMA, 121, 123–125, 127, 128 interpolación de Gower, 110 REFERENCIAS 193 métrica, 96 valor modelo factorial, 131, 133 propio relativo, 149 ortogonal, 133, 135, 144 singular, 12 momento, 29 variabilidad explicada, 68–70, 74, 75, 78, 79, muestra, 25, 40, 47, 48, 50, 52–55, 57, 60, 63, 81–87, 111–113, 149, 155–159, 161, 67, 97–99 162, 165, 167 multicolinealidad, 91 variable multidimensional scaling (MDS), 109 binaria, 101, 103, 104, 106 categórica, 99, 103, 104, 106 norma, 1, 2, 28 cualitativa, 103, 104 número de condición, 91 cuantitativa, 103, 104, 106 varianza, 16, 18, 25, 29, 30, 37–39, 44, 46– polinomio característico, 5, 6 49, 67 probabilidad de clasificación errónea, 170, 171, específica, 131, 133, 135, 137, 145 182–184, 190 total, 68, 70, 79, 81, 82, 85, 86, 140 producto escalar, 1, 3, 10 vector proyección ortogonal, 2, 35, 173 de medias, 16, 25, 26, 29–32, 43, 53, 54, 61, 98, 147, 148, 155, 156, 159, qq-plot, 97 162, 167 global, 62, 148 rango, 6, 7, 9, 16, 109 normalizado, 9, 14 razón de verosimilitudes, 154 propio relativo, 154 recorrido, 104 reducción de la dimensión, 67, 97 regla discriminante, 169 k vecinos más próximos, 186, 190 cuadrática, 178 de Bayes, 171 de máxima verosimilitud, 171 lineal, 170, 171, 174, 175, 177, 182, 188 representación euclídea, 96, 97, 107, 109, 112 rotación, 132, 140 varimax, 142, 143 semi-métrica, 96 similaridad, 96, 100–102 de Gower, 103, 104, 106 de Jaccard, 101, 102, 104 de Sokal-Michener, 101, 102, 104, 114, 115, 124 single linkage, 118, 121 test de Bartlett, 154, 159 transformación q-aditiva, 109 traza, 6, 7, 16, 37 ultramétrica, 96 validación cruzada, 181, 190