AnalisisMultivariado Tarea 2 2021 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 2

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Facultad de Ciencias
Análisis Multivariado / 2021-I
Act. Harim Garcı́a Lamont, Mat. Erick Eduardo Aguilar Hernández
Tarea 2

1. Sea Σp×p  0 con descomposición espectral Σ = ΓΛΓ0 . Demuestre que Σ y su inversa se pueden escribir
como una suma de productos externos en términos de sus vectores propios como sigue, donde λk es el k-ésimo
valor propio en la diagonal de Λ y γ (k) es la k-esima columna de Γ:

p p
X
(k) (k)0 −1
X 1 (k) (k)0
Σ= λk γ γ y Σ = γ γ
λk
k=1 k=1

2. Del siguiente listado de matrices identificar cuales son semi positivas definidas y cuales no. Para aquellas que
lo sean encontrar la descomposición espectral y comprobarla usando el paquete numpy.linalg de python dentro
del notebook.
 
1 0
a) A =
0 2
 
1 1
b) B =
1 1
 
1 2
c) C =
−2 −1
 
1 2
d) D =
−2 1
 
1 3
e) E =
3 1

3. El archivo lagartijas.csv contiene mediciones de 25 lagartijas de la especie Cophasaurus texanus. Donde:


• Mass: Es el peso en gramos.
• SVL: Es la longitud de la cola a la nariz.
• HLS: Es la longitud de la pata posterior.
El cientı́fico supone que las medidas que el ha obtenido son suficientes para saber si hay diferencias significa-
tivas entre los especı́menes del sexo masculino y femenino. Se pide realizar un análisis descriptivo utilizando
las estadı́sticas y gráficos multivariados para determinar si es posible identificar diferencias significativas entre
machos y hembras partiendo de las mediciones realizadas por el biologo.

4. El archivo prestamos.csv contiene un registro histórico de prestamos que se ha otorgado una institución fi-
nanciera durante el ultimo año, en la columna estado del préstamo hay una etiqueta que indica si el crédito se
pago completo o si se ha impagado. Se pide limpiar el archivo, imputar valores perdidos si es que es necesario
y realizar un análisis descriptivo utilizando las estadı́sticas y gráficos multivariados para determinar si es po-
sible identificar diferencias significativas entre los impagadores y los no impagadores partiendo de los datos
de aplicación del crédito. Genere nuevas variables a partir de las anteriores si cree que estas pudieran ayudar
a explicar mejor la diferencia entre una clase y otra.

1
5. El archivo intencionesCompra.csv contiene una serie de leads generados por el motor de google adds y los
datos de interacciones asociados a estos cada vez que un usuario es expuesto a la publicidad en su navegador,
el dataset contiene una columna llamada compra que contiene valores True y False cuando el lead termina por
convertirse en una venta (True) y cuando no (False). Se pide limpiar el archivo, imputar valores perdidos si
es que es necesario y realizar un análisis descriptivo utilizando las estadı́sticas y gráficos multivariados para
identificar si es posible determinar diferencias significativas entre los leads que terminan en ventas y los que
no partiendo de los datos de interacción con el usuario. Genere nuevas variables a partir de las anteriores si
cree que estas pudieran ayudar a explicar mejor la diferencia entre una clase y otra.
6. Sea Σ ∈ M (R)p×p una matriz semi positiva defina y x, z, µ ∈ Rp se define la función de densidad normal
multivariada en p dimensiones con parámetros Σ y µ como:

−1  
|Σ| 2 1 0
fX1 ,...,Xp (x1 , ..., xp ) = √ p exp − [x − µ] Σ−1 [x − µ]
2π 2
Muestre que:
a) 0 < fX1 ,...,Xp (x1 , ..., xp ) ∀x ∈ Rp
  √ p

Z
1 0 −1
b) exp − [x − µ] Σ [x − µ] dz = −1
Rp 2 |Σ| 2
Finalmente concluya que:

Z
fX1 ,...,Xp (x1 , ..., xp ) = 1
Rp

7. Sea x ∈ Rp vector aleatorio tal que x ∼ Np (µ, Σp×p ) y sean A ∈ M (R)q×p la matriz asociada a una trans-
formación lineal invertible sobre el espacio de caracterı́sticas de x y b ∈ Rq , demuestre que y = Ax + b ∼
Nq (Aµ + b, AΣA0 ).
    
µ1 σ11 σ12
8. Sea el vector aleatorio x = (X1 , X2 ) ∈ R2 tal que: x ∼ N µ = ,Σ = demuestre
µ2 σ21 σ22
que la función de densidad esta dada por:

" 2  2 #!
1 −1 x1 − µ1 x2 − µ2 (x1 − µ1 )(x2 − µ2 )
f (x1 , x2 ) = exp + − 2ρ
2(1 − ρ2 )
p
2σ1 σ2 π 1 − ρ2 σ1 σ2 σ1 σ2

Donde ρ es el coeficiente de correlación de X1 con X2 , σ1 y σ2 son las desviaciones estándar de X1 y X2


correspondientemente.
9. Los datasets time series 1.csv y time series 2.csv contienen dos trayectorias de dos series de tiempo, para cada
una de ellas:
a) Hacer un plot de los datasets e identificar el tipo serie utilizando los autocorrelogramas simples y parcia-
les. Observará que existen anomalı́as dentro de las series. Luego ajuste un modelo estacionario adecuado
para cada una de las trayectorias, y obtenga la tabla con el resumen del ajuste y los parámetros.
b) A partir del orden de la serie de tiempo, usar el número de retrasos adecuado para generar matriz de datos
X(n−p)×p . A partir de esta matriz descomponerla para graficar las elipses o elipsoides de confianza.
c) Utilizar el método de la envolvente elı́ptica para identificar las anomalı́as dentro de la series, use una
confianza del 0.99. utilizar el paquete de python sklearn.covariance.EllipticEnvelope para realizar dicha
tarea.
d) Hacer de nuevo un plot de la series de tiempo, destacado el gráfico con un marcador especial los puntos
en la series detectados como anómalos.
Hint para los elipsoides en 3D: http://kylebarbary.com/nestle/index.html

También podría gustarte