ESTADÍSTICA
ESTADÍSTICA
ESTADÍSTICA
1_ ESTADÍSTICA
Definición: ciencia que estudia cómo debe emplearse la información y cómo dar una guía de
acción en situaciones prácticas que entrañan incertidumbre.
Función: ayudar al investigador a organizar su estudio de forma lógica para poder obtener
resultados útiles sobre su investigación.
Componentes: marcar los objetivos y el diseño (los individuos con los que se van a trabajar y
las distintas variables)
2_ CONCEPTOS BÁSICOS
Individuos o elementos: objetos que “poseen” la información.
Población: conjunto completo de elementos, con alguna característica común, objeto del
estudio estadístico.
Muestra: subconjunto de elementos representativos de una población (finita o infinita).
Variable estadística: carácter objeto de estudio de los elementos de la muestra, que puede
tomar un conjunto de valores (discreta o continua). Dichas variables pueden ser cualitativas
(variables no numéricas. Ej: grupo sanguíneo, religión, nacionalidad) o cuantitativas (variables
numéricas). Encontramos dos tipos de variables cualitativas: nominales (no lleva un orden
asignado Ej: nº de individuos que utilizan internet) y ordinales (llevan un orden asignado. Ej:
grado de satisfacción). Asimismo, encontramos dos tipos de variables cuantitativas: discretas
(toman valores enteros. Ej: número de hijos) y continuas (toman un número infinito de valores.
Ej: altura)
Parámetro: función definida sobre los valores numéricos de características medibles de una
población.
Estadístico: función definida sobre valores numéricos de la muestra.
3_ LA POBLACIÓN
Criterios de inclusión: definen las características principales de la población diana y de la
población accesible que son relevantes para la pregunta que se investiga.
Criterios de exclusión: se utilizan para identificar subconjuntos de individuos que cumplen los
criterios de selección pero que es probable que interfieran en la interpretación de los
hallazgos.
1 _ TABLAS DE FRECUENCIA
Si los datos corresponden a una variable cuantitativa (o al menos ordinal), es posible calcular,
además, la frecuencia acumulada de cada valor (en símbolos F), la que puede ser de dos formas:
● Frecuencia acumulada ascendente (Fasc): indica cual es la frecuencia de veces que
aparecen respuestas iguales o menores a la que se está analizando.
● Frecuencia acumulada descendente (Fdes): indica la frecuencia de veces que aparecen
respuestas iguales o mayores de las que se están analizando.
VARIABLES DISCRETAS
Intervalos
Marca de clase: punto medio del intervalo (si no hay nombre)
2_ DIAGRAMA DE BARRAS
Es una representación cartesiana. Sobre el eje de abscisas (x) escribiremos las distintas
categorías, y sobre el de ordenadas (y) los valores de las correspondientes frecuencias
(absoluta o relativa). Levantamos rectángulos de altura igual a la frecuencia correspondiente.
3_ GRÁFICO DE SECTORES
Se toma un círculo, y representamos las distintas
clases mediante sectores circulares cuya área sea
proporcional a la frecuencia de la clase. Esto se
consigue haciendo corresponder 360º a la suma
de las frecuencias y efectuando luego los cálculos
de proporcionalidad.
4 _ PERFIL ORTOGONAL
Es una representación cartesiana.
Representamos en el eje de las abscisas las
diferentes clases y en el de ordenadas sus
frecuencias. Los pares determinan un conjunto
de puntos en el plano, que unidos nos
proporcionan un “perfil ortogonal”.
5 _ PICTOGRAMA
Este tipo de representación utiliza un dibujo alusivo al fenómeno en estudio. Esos dibujos
utilizados deberán tener área proporcional a la frecuencia de las clases, y esto puede tener dos
caminos:
● Pictograma de repetición: se asigna un valor a una figura base y se repite tantas veces
como convenga a la frecuencia.
● Pictograma de ampliación: a cada clase se le asigna una figura con área proporcional a
la frecuencia.
6 _ PERFIL RADIAL
A partir de un punto trazamos tantos radios como
clases distintas tengamos, todos ellos formando
ángulos de la misma amplitud. Sobre cada radio se
toma una distancia al centro proporcional a la
frecuencia. Uniendo cada punto se obtiene un polígono
cerrado que es el “perfil radial”.
9 _ HISTOGRAMA (continua)
En el eje de abscisas se marcan los extremos de los intervalos de clase de la variable, y se
levantan rectángulos cuya base es la amplitud del intervalo y su altura es tal que el área del
rectángulo sea igual a la frecuencia.
Diferenciamos dos tipos:
1_ MEDIDAS DE CENTRALIZACIÓN
Tienen por objeto, obtener un valor que resuma en sí todas las mediciones. La mayoría de ellas
trata de ubicar el centro de la distribución.
Las tablas de distribución de frecuencia ofrecen toda la información disponible, pero a veces,
debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo
que interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre
distintas muestras o poblaciones. En este proceso de síntesis se buscan valores que
determinen el comportamiento global del fenómeno estudiado.
MEDIA (X)
Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos.
Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:
VENTAJAS INCONVENIENTES
MEDIANA (Me)
Es el valor que toma la variable y que deja el 50% de los datos por encima y el 50% de los datos
por debajo y se utiliza cuando la media no es representativa.
Para datos no agrupados distinguimos dos casos:
A. PAR: 1, 1, 3, 5 ,5, 6 (n=6) entonces Me=(3+5)/2 =4
B. IMPAR: 1, 1, 3, 5, 5, 8, 9 (n=7) entonces Me = 5
MODA (Mo)
Es el valor o conjunto de valores de la variable con mayor frecuencia absoluta (valor de la
variable que más se repite)
VENTAJAS INCONVENIENTES
VARIANZA (S2)
Es la suma de las desviaciones cuadráticas, divididas por el tamaño de la muestra y representa
la desviación de cada dato respecto del valor central.
VENTAJAS INCONVENIENTES
- Tiene en cuenta todos y cada uno de No utiliza las mismas unidades de medida de
los valores de la variable la variable (sino la unidad de medida al
- Valora la representatividad de las cuadrado)
medidas de tendencia central,
generalmente, de la media.
DESVIACIÓN TÍPICA (S)
Es la mejor medida de dispersión que acompaña a la media y se define como la raíz cuadrada
positiva de la varianza:
Sin embargo, no sirve cuando necesitamos hacer una comparación; para ello, utilizamos el
coeficiente de variación.
3_ MEDIDAS DE FORMA
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de
barras de la distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor
central, o si bien la gráfica que representa la distribución de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo.
Si la simetría ha sido determinada, podemos preguntarnos si la curva está más o menos
apuntada. Este apuntamiento habrá que medirlo comparado a cierta distribución de
frecuencias que consideramos normal.
MEDIDA DE APUNTAMIENTO
Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir
si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y
estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución
normal o gaussina para la que se tiene K=0.
Y X
COVARIANZA (Sxy)
Medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio
de la variable independiente (X) como del valor medio de la variable dependiente (Y). Se
determina mediante la expresión:
Propiedades:
- No es adimensional
- El signo refleja el tipo de relación
- La magnitud muestra el grado de relación
- El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no,
pero no nos dice nada sobre el grado de relación entre las variables.
ANÁLISIS DE RELACIÓN
- ¿Cuál es el tipo de dependencia?
- ¿Podemos predecir la variable dependiente a partir de la independiente?
1_ TIPOS DE DEPENDENCIA
DEPENDENCIA FUNCIONAL
DEPENDENCIA ESTOCÁSTICA
NO DEPENDENCIA
2_ CORRELACIÓN
Propiedades:
- Presenta valores entre –1 y +1
- Es adimensional
- Tiene el mismo signo que la covarianza
Interpretación:
- r >0 Indica relación lineal directa. A medida que aumentan los valores de una variable
aumentan los valores de la otra.
- r<0 Indica relación lineal inversa. A medida que aumentan los valores de una variable
disminuyen los valores de la otra.
- r=0 Variables independientes y relación no lineal
3_ REGRESIÓN
Partimos de una nube de puntos X (variable independiente) e Y (variable dependiente). Esta
nube de puntos me hace intuir el tipo de relación que tienen las variables.
1. Regresión lineal simple: las variables X e Y se relacionan según un modelo de línea
recta.
2. Regresión no lineal o curvilínea: las variables X e Y se relacionan según una línea curva.
3. Regresión múltiple: existen varias variables independientes que explican el
comportamiento de una sola variable dependiente Y.
REGRESIÓN LINEAL SIMPLE
La "mejor recta" tendrá carácter de línea media y será aquella que pase lo más cerca posible de
todos y cada uno de los puntos, es decir, aquella que mejor se ajuste a la mayoría de los datos.
Esta será nuestra recta de regresión. Es decir, entre las infinitas rectas posibles, la que mejor se
ajusta a los datos es aquella que verifica que la “distancia” a los mismos, sea mínima.
Tras hallar las derivadas parciales, nos damos cuenta que:
1. Coeficiente de Regresión: pendiente de la recta. Incremento de y cuando x aumenta en
una unidad.
2. Ordenada en el origen: altura a la que la recta corta al eje de ordenadas (Y). Es el valor
de Y cuando x vale 0.
X (edad), Y (altura)
Ejemplo: Y= 50 + 2x
β0= 50
β1= 2
Interpretación: cuando un niño tiene 0 meses; es decir, cuando el niño nace, en media su altura
es de 50 cm. Cuando el niño aumenta su edad en un mes, su altura aumenta en 2 cm.
Poder Explicativo
La recta de regresión tiene carácter de línea media, por ello debe ir acompañada siempre de
una medida de su representatividad; es decir, de una medida de dispersión.
● Dispersión Pequeña: representatividad del modelo alta
● Dispersión Grande: representatividad del modelo baja
Una forma de medir la bondad del ajuste es medir la suma de los cuadrados de los errores:
Ejemplo: si r vale 0,93, calculamos el coeficiente de determinación, que es 0,93² y da 0,865, que
multiplicado por 100 es el 86,5%. Es decir, el 86,5% de la variabilidad de al altura la explica la
edad y hay un 13,5% que lo explican otras variables (100- 86,5= 13,5)
Poder Predictivo
Que un modelo de regresión posea un alto poder explicativo, no tiene por qué resultar
adecuado para predecir valores de y, dado un valor de x. Es decir, PODER EXPLICATIVO no es
equivalente a PODER PREDICTIVO. El poder predictivo del modelo lo determina el GRÁFICO
DE RESIDUALES
Gráfico de residuales: diagrama de dispersión que nos permite evaluar el poder predictivo del
modelo.
Construcción y cálculo:
- En el eje de ordenadas se colocan los residuos
- En el eje de abscisas se colocan x, y ó ŷ
Ejemplo:
Suponemos que tenemos datos sobre el crecimiento de los niños entre los 3 y 8 años de edad y
encontramos una fuerte relación entre Edad (X) y la altura (Y)
Presencia de Outliers
TEMA 4_ INFERENCIA ESTADÍSTICA
Un experimento determinístico es aquel que al repetirlo en idénticas condiciones proporciona
los mismos resultados. Ejemplo: Lanzar una moneda y observar la fuerza de la gravedad con
que cae.
1_ VARIABLES ALEATORIAS
Una variable aleatoria es una variable que toma diversos valores numéricos (dependientes de
los resultados de un experimento aleatorio), con distintas probabilidades.
Dependiendo de que los valores numéricos que puede tomar la variable aleatoria, pertenezcan
al conjunto de los números enteros, o al conjunto de los números reales, tendremos una
variable aleatoria discreta o una variable aleatoria continua, respectivamente
Propiedades:
- Simétrica respecto a x = μ
- Máximo en x = μ
Ejemplos:
P(Z ≤ 1,64) = 0,9495 P(Z ≥ 1,5) = 1- P(Z<1,5) = 1 - 0,9332= 0,0668
P(Z ≤ -1,5) = P(Z ≥ 1,5) = 1 - P(Z<1,5) = P (1,21 ≤ Z ≤ 2,34) = P(Z ≤ 2,34) – P(Z ≤ 1,21)
1- 0,9332 = 0,0668 = 0,9904 – 0,8869 = 0,1035
2. Distribución T Student
Ejemplos:
gl (grado de libertad)= 16
t 0. 10;16 = 1,7459
t 0.30;16 = 1,0711
t 0.05;16 = - 2,1199
3. Distribución Chi-Cuadrado
3_ ESTIMACIÓN
La estimación consiste en el proceso de utilizar información de una muestra para extraer
conclusiones acerca de toda la población. Trata de determinar los parámetros poblacionales
(generalmente desconocidos) sin hacer hipótesis previas sobre los posibles valores de los
mismos.
Establecer una estimación para el intervalo de confianza del 95% de la cantidad promedio
poblacional de combustible consumido al año.
4_ CONTRASTES DE HIPÓTESIS
Es un procedimiento, basado en la evidencia que nos proporciona la muestra y en una prueba o
test estadístico, usado para tomar una decisión acerca de la hipótesis. Se trata de determinar la
validez o no validez de esa hipótesis. Si esa hipótesis se puede aceptar (no rechazar) o rechazar
como válida.
Hipótesis nula (H0/Ho): es la hipótesis que se formula y que se quiere contrastar. Será la que se
acepte o rechace como consecuencia del contraste.
Hipótesis alternativa (H1/Ha): es cualquier otra hipótesis que difiera de la formulada y nos
sitúe frente a la nula. Si rechazamos H0 aceptamos H1.
Estadígrafo de contraste: una variable aleatoria con una distribución de probabilidad dada y
que toma un valor para cada muestra.
Región de aceptación: conjunto de valores del estadístico de contraste que nos llevan a
aceptar la Ho.
Región crítica: conjunto de valores del estadístico de contraste que nos llevan a rechazar Ho, y
por tanto a aceptar la hipótesis alternativa.
Contraste unilateral: región crítica formada por un solo conjunto de puntos
Aceptar (No rechazar) la hipótesis nula Rechazar la hipótesis nula y aceptar la alternativa
Ejemplo 1: Una empresa afirma que el sueldo medio de sus trabajadores es de 1400 euros
mensuales. Para comprobar estadísticamente esta afirmación cogemos a 18 trabajadores y
obtenemos los siguientes resultados:
Ejemplo 3: Sabemos que la variable estatura sigue una distribución Normal (, 5). Tomamos una
muestra representativa de la población de 100 estudiantes y su estatura media resulta ser 178
cm., ¿podemos considerar que la estatura media de los estudiantes de la Universidad de
Salamanca es 176 cm?
Preguntas examen:
¿Si en un contraste de hipótesis rechazo al 5%, rechazo al 1%? No tengo por qué rechazarlo
¿Si en un contraste de hipótesis rechazo al 1%, rechazo al 5%? Sí
Conceptos:
- Error tipo I: rechazo indebido de Ho
- Error tipo II: aceptación indebida de la Ho
- Nivel de significación (α): Probabilidad de cometer el error tipo I
- Potencia del contraste (1-β): Probabilidad de rechazar Ho, siendo falsa
- P-VALOR: probabilidad exacta de cometer el error TIPO I
Datos independientes: aquellos que se obtienen al realizar el contraste con dos muestras
distintas.
Datos apareados: aquellos que se obtienen al realizar dos contrastes sobre una misma
muestra.
Las tablas de contingencia son tablas que recogen información sobre variables aleatorias
cualitativas y los datos aparecen como tablas de frecuencias.
TOTALES MARGINALES
TOTAL DE FILA: fi .(I= Nº de filas)
TOTAL DE COLUMNA: f.j(J =Nº de columnas)
TOTAL GLOBAL: f..
Ejemplo:
¿CÓMO SE CONTRASTA?
Partimos de una tabla de frecuencias observadas y se calculan las frecuencias que cabría
esperar si las dos variables fueran independientes
¿CÓMO MEDIR LAS DISCREPANCIAS?
PASOS:
1. Cálculo individual de las frecuencias esperadas que cabría esperar si H0 fuera cierta.
2. Cálculo de los componentes individuales de x², es decir, cálculo de las divergencias
entre observadas y esperadas para cada casilla.
3. Suma de los valores obtenidos en el apartado anterior y obtención así, del valor
experimental de nuestro estadígrafo de contraste.
4. Determinación de los grados de libertad.
5. Obtención del valor crítico en la tabla de la distribución x² con los grados de libertad
correspondientes y decidir si el estadístico calculado en el paso 3º excede de este valor
crítico con p=0.05 o con p=0.01.
6. Conclusión. Hablar de que existe o no asociación entre ambas variables.
COEFICIENTE DE CONTINGENCIA
Para medir el grado de relación entre las variables se utiliza el denominado Coeficiente de
Contingencia (C).