Resumen de Medidas Estadísticas

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

Resumen de medidas estadísticas

Datos con valores faltantes


Muchos datos tienen valores faltantes y para ello es conveniente usar el NaN (not a number) para
mantener la estructura de los datos a través de muchas variables y observaciones.
Los operadores aritméticos de Matlab dan como resultado un NaN cuando hay NaN’s en la
opresión y eliminar los NaN o las filas/columnas en las que se encuentran pueden destruir la
estructura o descartar datos. Las funciones estadísticas y de aprendizaje de máquinas remueve los
NaN’s solo para propósitos de computación.

Y con funciones que ignoren los NaN tenemos como resultado:

nancov Matríz de covarianza, ignorando los NaN


nanmax Valor máximo, ignorando los NaN
nanmean Media aritmética, ignorando los NaN
nanmedian Mediana, ignorando los NaN
nanmin Valor mínimo, ignorando los NaN
nanstd Desviación estándar, ignorando los NaN
nansum Suma, ignorando los NaN
nanvar Varianza, ignorando los NaN
Tabla de funciones que ignoran los NaN
Otras funciones que ignoran los valores NaN son iqr, kurtosis, mad, particle, range, skewness y
trimean.

Medición de tendencia central (ubicación)


El propósito es encontrar los valores de datos en la línea de números.
geomean Media geométrica
harmmean Media armónica
mean Media aritmética
median Mediana
trimmean Timmed mean

Outliers, data entry errors and glitches existen en la mayoría de datos reales y un mal valor puede
mover medidas estadísticas tan importantes como la media muy lejos del centro de los demás
valores. Para estas situaciones existen la mediana y la trimmed mean, las cuales son más
resistentes a los outliers, debido a que la mediana es el percentil del 50%, valores muy altos
generan variaciones muy leves y gracias a que la trimmed mean ignora un porcentaje pequeño de
los valores más altos y los más bajos cuando determina el centro de los datos.
El siguiente ejemplo muestra cómo se comportan las medidas de dispersión con un outlier.

Y aquí tenemos un ejemplo con diferentes medias.

Funciones de datos agrupados


Como se vio en la sección anterior, las funciones estadísticas pueden computar en cada columna
en una matriz. En algunos casos se tiene información organizada por rangos diferentes, así que
las mediciones aparecen en una columna o variable, y una agrupación de código aparece en una
segunda columna o variable. Para simplificar esto es puede usar la función grpstats.
La función grpstats puede computar la media, el error estándar de la media y contar el número de
observaciones por cada grupo definido por una o más agrupaciones de variables. Si se le aplica
un nivel significante puede crear una gráfica del grupo de la media con intervalos.
Como ejemplo, se carga la base de datos carbrg, la cual es bastante extensa. Se puede apreciar el
valor promedio de MPG (millas por galón) para carros agrupados por org (localización del
origen del carro).

Percentiles
Otra opción es calcular un número razonable de los percentiles de muestra. Esto proporciona
información sobre la forma de los datos, así como su ubicación y distribución.
El “boxplot” es una gráfica para estadística descriptiva, a continuación un ejemplo de ello con
los datos anteriores.

Boxplots

También podría gustarte