35 Preguntas de Estadistica
35 Preguntas de Estadistica
35 Preguntas de Estadistica
Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento de
los valores perdidos, la transformación de las variables, etc.
Tienen por objeto fundamental describir y analizar las características de un conjunto de datos,
obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las
relaciones existentes con otras poblaciones, a fin de compararlas.
Es una parte de la Estadística que comprende los métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una
muestra).
La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos.
Con esto se busca que los datos obtenidos se encuentren en las condiciones adecuadas al
momento de realizar los análisis estadísticos pertinentes a la investigación.
Podría tomar hasta un 80% del tiempo de trabajo, por lo que es una parte crítica de la tarea de
análisis.
La regresión lineal es una técnica estadística donde la puntuación de una variable Y se predice a
partir de la puntuación de una segunda variable X siguiendo una recta descrita por un intercepto y
una pendiente.
6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define "bueno"?
Una buena información de partida (datos) es sin duda más importante que los buenos modelos.
Si la calidad de los datos no es de buena, tendremos que pasar mucho tiempo de limpieza y
procesamiento previo de los datos.
- Buen modelo: modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos
de datos externos.
- La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a
un punto en el que la media de los residuales es cero.
(homoscedástica, no heterocedástica)
Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o
hacia la derecha, etc... Sin embargo, hay casos en los que los datos se distribuyen alrededor de un
valor central sin ningún sesgo de distribución, formando una curva en forma de campana.
10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar multicolinealidad?
Colinealidad / Multicolinealidad:
- Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser
grandes
- Lleva a sobreajuste
Cómo eliminar la multicolinealidad:
- Se observan grandes cambios en los coeficientes individuales cuando se añaden o eliminan una
variable predictora
- Se observan coeficientes de regresión insignificante para los predictores afectados pero también
un rechazo de la
hipótesis conjunta de que los coeficientes son todos cero (prueba F) - VIF: es la proporción de las
varianzas del coeficiente cuando se ajusta el modelo completo dividido por la varianza del
coeficiente cuando se ajusta con él.
- Regla de oro: VIF > 5 indica multicolinealidad (aunque otros autores consideran 10 y otros 20
como puntos de corte).
12. Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta bien a los datos?
- R2 siempre aumenta cuando se añaden nuevas variables: el R2aj incorpora grados de libertad del
modelo para ajustar el R2 al aumentar las variables predictoras.
Prueba F:
- Evaluar la hipótesis "H0: todos los coeficientes de regresión son iguales a cero" Vs "H1: al menos
uno no es cero"
- Indica si el R2 es confiable
RMSE:
- Es una medida absoluta de ajuste (mientras que R2 es una medida relativa de ajuste)
Es una técnica de validación de modelos para evaluar si los resultados de un análisis estadístico
pueden ser generalizados a un conjunto de datos independientes.
Se utiliza principalmente en entornos en los que el objetivo es la predicción y se quiere estimar la
precisión con un modelo. El objetivo de la validación cruzada es definir un conjunto de datos para
probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) con el fin
de limitar problemas como el sobreajuste, y obtener una visión sobre si el modelo se puede
generalizar a un conjunto de datos independientes.
El P-valor se utiliza para determinar la significación de los resultados después de una prueba de
hipótesis y siempre está entre 0 y 1.
P <= 0,05 denota una evidencia en contra de la hipótesis nula es decir, la hipótesis nula puede ser
rechazada.
Se hace referencia al Aprendizaje Supervisado cuando un algoritmo aprende algo de los datos de
entrenamiento y este conocimiento se puede aplicar luego a los datos de prueba.
16. ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se detectan los valores atípicos y
cómo se manipulan?
- Boxplots
- Depende de la causa
- Problemas de regresión: sólo excluye los puntos que presenten un alto grado de influencia en los
coeficientes estimados (distancia de Cook)
Inlier:
La identificación de inliers:
17. ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?
Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser
sustituidos por la mediana o media (imputación) o simplemente pueden ser ignorados.
De todas maneras se debe tener cuidado en el porcentaje de valores perdidos que tiene una
variable, por ejemplo, si el 80% de los valores de una variable están ausentes, entonces mejor no
considerar la variable.
Si los datos faltan por azar: la eliminación no tiene ningún efecto de polarización, pero disminuye
el poder del análisis disminuyendo el tamaño efectivo de la muestra
Imputación simple. Sustituir los datos ausentes por los valores medios (o mediana, etc.) de los
restantes datos.
* Si solo queremos estimar la media, la asignación de valores medios preserva la media de los
datos observados.
* Distorsiona las relaciones entre las variables "tirando" los estimadores de las correlaciones hacia
el cero. Recomendado: imputación Knn o por mezcla de Gauss
Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe
realmente. Por ejemplo: test VIH positivo cuando el paciente es en realidad el VIH negativo.
Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe.
Ejemplo: no detectar una enfermedad cuando el paciente tiene la enfermedad.
* A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo)
disminuyen
* Se utiliza para comparar las pruebas. Ejemplo: entre una prueba paramétrico y una prueba no
paramétrica con la misma hipótesis.
la selección de una muestra a partir de una población Esto no es más que el procedimiento
empleado para obtener una o más muestras de una población; el muestreo es una técnica que
sirve para obtener una o más muestras de población.
Cada uno de los elementos del colectivo (la población) que es objeto estudio.
El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.
24. ¿Que se entiende por probabilidad?
Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del
estudio de una variable estadística.
En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para
estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio
medio de un artículo (el parámetro desconocido) se recogerán observaciones del precio de dicho
artículo en diversos establecimientos (la muestra) y la media aritmética de las observaciones
puede utilizarse como estimador del precio medio.
Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el
intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán
incluirse en la muestra estudiada.
Por ejemplo, la mediana es un estimador robusto de la centralidad de los datos, y no así la media
aritmética.
Una variable es una característica que es medida en diferentes individuos, y que es susceptible de
adoptar diferentes valores.
Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente,
corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a
valores numéricos antes de que se trabaje con ellos.
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de
orden, por ejemplo los colores o el lugar de residencia.
Variable discreta: Solo puede tomar valores enteros. Es la variable que presenta separaciones o
interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir.
Ejemplo: El número de hijos (1, 2, 3, 4, 5).
Variable continua: Puede tomar valores reales (con decimales). Es la variable que puede adquirir
cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg,
2.5 kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por la precisión del
aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera.
Según la influencia que asignemos a unas variables sobre otras, podrán ser:
Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el
estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de
confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta
adecuadamente pueden alterar los resultados por medio de un sesgo.
Variables dependientes: Son las variables de respuesta que se observan en el estudio y que
podrían estar influenciadas por los valores de las variables independientes
PREGUNTAS DEL LIBRO
Hay dos razones: el tiempo y el coste económico. Los datos pueden ser recogidos más
rápidamente y así
Otra razón es que el uso de muestras permite que las “limitadas” redes de entrevistadores puedan
abarcar cómodamente la misma, sin tener que recurrir a entrevistadores eventuales, peor
formados y con
contesten.
muestra. Y la muestra es una parte de la población que se elige para la realización del trabajo de
campo en
Proporciona el método más adecuado para seleccionar la muestra que mejor refleje la variación
en la población.
Limita los sesgos en la elección de la muestra.
Cada elemento de la población debe tener la misma probabilidad de ser elegido para la muestra.
Conocer esta probabilidad de elección implica la existencia de una seguridad estadística conocida
razonablemente probable, que hace que los resultados puedan ser inferidos estadísticamente a la
población.
¿CUÁLES SON LOS FACTORES QUE INFLUYEN EN LA FIJACIÓN DEL TAMAÑO DE LA MUESTRA
El diseño muestral. El muestreo aleatorio simple exige elementos muestrales que uno
estratificado o
por conglomerados.
La varianza poblacional. Cuanto más heterogénea la población mayor será la varianza y se hará
El error muestral. A medida que aumenta la muestra disminuye el error muestral
El nivel de confianza. La probabilidad con la que el investigador afirma que el error no será
superior a
Las poblaciones homogéneas producen muestras con errores muestrales más reducidos.
Se garantiza que las fuentes de diferencia van a estar adecuadamente representadas y
ponderadas
en la muestra.