ESTADÍSTICA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 37

ESTADÍSTICA

1º DOBLE GRADO DERECHO Y CRIMINOLOGÍA


UNIVERSIDAD DE SALAMANCA
ALEJANDRA FLORES CASTAÑÓN
TEMA 1_ ESTADÍSTICA

1_ ESTADÍSTICA
Definición: ciencia que estudia cómo debe emplearse la información y cómo dar una guía de
acción en situaciones prácticas que entrañan incertidumbre.
Función: ayudar al investigador a organizar su estudio de forma lógica para poder obtener
resultados útiles sobre su investigación.
Componentes: marcar los objetivos y el diseño (los individuos con los que se van a trabajar y
las distintas variables)

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir,


hallar irregularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre
sea una causa intrínseca de los mismos; así como de analizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

Tenemos dos tipos de estadística:


● Estadística Descriptiva: cuando los resultados del análisis no pretenden ir más allá del
conjunto de datos.
● Estadística Inferencial: cuando el objetivo del estudio es derivar las conclusiones
obtenidas a un conjunto de datos más amplio.

2_ CONCEPTOS BÁSICOS
Individuos o elementos: objetos que “poseen” la información.
Población: conjunto completo de elementos, con alguna característica común, objeto del
estudio estadístico.
Muestra: subconjunto de elementos representativos de una población (finita o infinita).
Variable estadística: carácter objeto de estudio de los elementos de la muestra, que puede
tomar un conjunto de valores (discreta o continua). Dichas variables pueden ser cualitativas
(variables no numéricas. Ej: grupo sanguíneo, religión, nacionalidad) o cuantitativas (variables
numéricas). Encontramos dos tipos de variables cualitativas: nominales (no lleva un orden
asignado Ej: nº de individuos que utilizan internet) y ordinales (llevan un orden asignado. Ej:
grado de satisfacción). Asimismo, encontramos dos tipos de variables cuantitativas: discretas
(toman valores enteros. Ej: número de hijos) y continuas (toman un número infinito de valores.
Ej: altura)
Parámetro: función definida sobre los valores numéricos de características medibles de una
población.
Estadístico: función definida sobre valores numéricos de la muestra.

3_ LA POBLACIÓN
Criterios de inclusión: definen las características principales de la población diana y de la
población accesible que son relevantes para la pregunta que se investiga.
Criterios de exclusión: se utilizan para identificar subconjuntos de individuos que cumplen los
criterios de selección pero que es probable que interfieran en la interpretación de los
hallazgos.

4_ ¿CÓMO SE LLEVARÍA A CABO EL ESTUDIO?


Estudio observacional: el investigador se mantiene al margen de los hechos que ocurren a los
individuos estudiados.
Estudio experimental: se estudian los efectos de la intervención del investigador.
Estudios transversales: aquel que se realiza en un determinado momento en el tiempo.
Estudios longitudinales: al igual que el estudio transversal se realiza en un determinado
momento en el tiempo, la diferencia radica en que en el longitudinal ocurre algo durante la
investigación que tiene un efecto sobre esta. Encontramos diversos tipos:
- Prospectivos: tratan de detectar hechos que todavía no han ocurrido.
- Retrospectivos: la investigación se centra en hechos pasados y presentes.
- Ambispectivos: el investigador recoge información sobre una exposición en el pasado,
pero la reconstruye hasta el momento presente y continua con un seguimiento de los
sujetos en el tiempo.

5_ ETAPAS DEL ANÁLISIS ESTADÍSTICO


1. RECOGIDA DE DATOS
Población: N
Muestra: n
¿Cuáles?: métodos de muestreo
¿Cuántos?: tamaño de la muestra

Encontramos dos tipos de muestreo:


● Probabilísticos: basados en procedimientos de selección aleatoria de individuos. Con
su empleo se evitan los sesgos (riesgos) de selección.
● No probabilísticos: los individuos no tienen la misma probabilidad de ser incluidos en la
muestra. Se seleccionan por procedimientos en los que no interviene el azar.

Dentro de los probabilísticos encontramos, a su vez, distintos tipos de muestreo:


● Muestreo aleatorio simple: cualquier individuo tiene la misma probabilidad de ser
elegido para formar parte de la muestra.
● Muestreo aleatorio sistemático: se basa en calcular una constante (K) y a partir de ahí
elegir uno de cada K individuos. Este procedimiento exige enumerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios, sólo se extrae
uno.
● Muestreo estratificado: se divide la población en estratos homogéneos, y en cada
estrato se realiza un muestreo al azar.
● Muestreo por conglomerados: cuando la población está dividida en agrupaciones
naturales ( conglomerados), se selecciona una muestra al azar de esas agrupaciones y se
analizan todos los individuos del conglomerado.
Y dentro de los no probabilísticos diferenciamos distintos muestreos:
● Muestreo por cuotas: se aseguran cuotas, pero sin selección aleatoria. Es el método
más utilizado en Sociología y en estudios epidemiológicos.
● Muestreo de casos consecutivos: se seleccionan los sujetos que cumplen los criterios
de inclusión especificados en el protocolo, a medida que se captan. Es el método más
utilizado en los ensayos clínicos.
● Muestreo a criterio: se seleccionan los individuos más apropiados.
● Muestreo de conveniencia: se eligen aquellos miembros de la población accesible de
los que se puede disponer con facilidad.
● Inclusión de voluntarios: participan individuos de forma voluntaria. No es
recomendable, dado que las personas que se ofrecen voluntariamente a la realización
de dicho estudio, en general, no son representativas de la población.
● Muestreo en Bola de Nieve: consiste en seleccionar una muestra inicial de individuos y
establecer en cada entrevista qué nuevas personas de la población en estudio han de
entrevistarse, para así integrar la muestra completa. Generalmente la primera selección
se hace en forma probabilística, mientras que las siguientes entrevistas quedan
determinadas por las anteriores. En sentido muy amplio, la primera muestra puede
seleccionarse en forma intencional o estar constituida por voluntarios.
2. ORDENACIÓN Y PRESENTACIÓN
3. RESUMEN DE LA INFORMACIÓN
4. ANÁLISIS ESTADÍSTICO
TEMA 2 _ GRÁFICOS Y TABLAS DE FRECUENCIA
ETAPAS DEL ANÁLISIS ESTADÍSTICO
1. RECOGIDA DE DATOS
2. ORDENACIÓN Y PRESENTACIÓN
3. RESUMEN DE LA INFORMACIÓN
4. ANÁLISIS ESTADÍSTICO

1 _ TABLAS DE FRECUENCIA
Si los datos corresponden a una variable cuantitativa (o al menos ordinal), es posible calcular,
además, la frecuencia acumulada de cada valor (en símbolos F), la que puede ser de dos formas:
● Frecuencia acumulada ascendente (Fasc): indica cual es la frecuencia de veces que
aparecen respuestas iguales o menores a la que se está analizando.
● Frecuencia acumulada descendente (Fdes): indica la frecuencia de veces que aparecen
respuestas iguales o mayores de las que se están analizando.

VARIABLES DISCRETAS

Frecuencia Absoluta (f): la suma de ellas es n.


Frecuencia Relativa (h): se calcula dividiendo la frecuencia absoluta entre el número total de
datos. La suma de ellas es 1.
Frecuencia Absoluta Acumulada (F): la suma de ella es n.
Frecuencia Relativa Acumulada (H): la suma de ella es 1.
VARIABLES CONTINUAS

Intervalos
Marca de clase: punto medio del intervalo (si no hay nombre)

2_ DIAGRAMA DE BARRAS
Es una representación cartesiana. Sobre el eje de abscisas (x) escribiremos las distintas
categorías, y sobre el de ordenadas (y) los valores de las correspondientes frecuencias
(absoluta o relativa). Levantamos rectángulos de altura igual a la frecuencia correspondiente.

3_ GRÁFICO DE SECTORES
Se toma un círculo, y representamos las distintas
clases mediante sectores circulares cuya área sea
proporcional a la frecuencia de la clase. Esto se
consigue haciendo corresponder 360º a la suma
de las frecuencias y efectuando luego los cálculos
de proporcionalidad.
4 _ PERFIL ORTOGONAL
Es una representación cartesiana.
Representamos en el eje de las abscisas las
diferentes clases y en el de ordenadas sus
frecuencias. Los pares determinan un conjunto
de puntos en el plano, que unidos nos
proporcionan un “perfil ortogonal”.

5 _ PICTOGRAMA
Este tipo de representación utiliza un dibujo alusivo al fenómeno en estudio. Esos dibujos
utilizados deberán tener área proporcional a la frecuencia de las clases, y esto puede tener dos
caminos:
● Pictograma de repetición: se asigna un valor a una figura base y se repite tantas veces
como convenga a la frecuencia.
● Pictograma de ampliación: a cada clase se le asigna una figura con área proporcional a
la frecuencia.

6 _ PERFIL RADIAL
A partir de un punto trazamos tantos radios como
clases distintas tengamos, todos ellos formando
ángulos de la misma amplitud. Sobre cada radio se
toma una distancia al centro proporcional a la
frecuencia. Uniendo cada punto se obtiene un polígono
cerrado que es el “perfil radial”.

7 _ DIAGRAMA DE BARRAS Y DIAGRAMA DE BARRAS ACUMULADO


(discreta)
La idea es la misma que en el anterior diagrama de barras, la diferencia es que se levantan
líneas en vez de rectángulos.

DIAGRAMA DE BARRAS DIAGRAMA DE BARRAS ACUMULADO


8 _ POLÍGONO DE FRECUENCIAS (discreta)
Uniendo los extremos superiores de las barras en el
diagrama de barras anterior, obtenemos una línea
quebrada abierta que recibe el nombre de polígono de
frecuencias.

9 _ HISTOGRAMA (continua)
En el eje de abscisas se marcan los extremos de los intervalos de clase de la variable, y se
levantan rectángulos cuya base es la amplitud del intervalo y su altura es tal que el área del
rectángulo sea igual a la frecuencia.
Diferenciamos dos tipos:

1. Frecuencia= altura 2. Frecuencia no puede tomarse como altura

10 _ POLÍGONO DE FRECUENCIAS Y POLÍGONO DE FRECUENCIAS


ACUMULADO (continua)
A partir del histograma, unimos los puntos medios de los lados superiores de los rectángulos.
La línea quebrada que obtenemos se conoce como “polígono de frecuencias”.

POLÍGONO DE FRECUENCIAS POLÍGONO DE FRECUENCIAS ACUMULADO


11_ STEM & LEAF (TALLO Y HOJA) (continua)
La representación Stem & Leaf es una representación intermedia
entre una tabla y un gráfico. Muestra valores con cifras, aunque su
perfil es el de un histograma.
● Se debe escribir a la izquierda de una línea vertical, de
arriba hacia abajo, todos los posibles dígitos principales del
conjunto de datos.
● Luego se representa cada dato a la derecha de la línea,
escribiendo sus dígitos secundarios en la fila apropiada.
TEMA 3_ ESTADÍSTICA DESCRIPTIVA
ETAPAS DEL ANÁLISIS ESTADÍSTICO
1. RECOGIDA DE DATOS
2. ORDENACIÓN Y PRESENTACIÓN
3. RESUMEN DE LA INFORMACIÓN
4. ANÁLISIS ESTADÍSTICO

La estadística descriptiva es un conjunto de métodos y técnicas por medio de las cuales


podemos recolectar, organizar, resumir, presentar y analizar datos numéricos relativos a un
conjunto de individuos u observaciones.

1_ MEDIDAS DE CENTRALIZACIÓN
Tienen por objeto, obtener un valor que resuma en sí todas las mediciones. La mayoría de ellas
trata de ubicar el centro de la distribución.
Las tablas de distribución de frecuencia ofrecen toda la información disponible, pero a veces,
debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo
que interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre
distintas muestras o poblaciones. En este proceso de síntesis se buscan valores que
determinen el comportamiento global del fenómeno estudiado.

MEDIA (X)
Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos.
Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:

VENTAJAS INCONVENIENTES

- Es única Cuando la variable presenta valores muy


- Considera todos los valores de la extremos, que influyen mucho en la media, la
distribución, en su cálculo hacen poco representativa
intervienen todos los datos
- Es siempre calculable (en variable
cuantitativa)

MEDIANA (Me)
Es el valor que toma la variable y que deja el 50% de los datos por encima y el 50% de los datos
por debajo y se utiliza cuando la media no es representativa.
Para datos no agrupados distinguimos dos casos:
A. PAR: 1, 1, 3, 5 ,5, 6 (n=6) entonces Me=(3+5)/2 =4
B. IMPAR: 1, 1, 3, 5, 5, 8, 9 (n=7) entonces Me = 5
MODA (Mo)
Es el valor o conjunto de valores de la variable con mayor frecuencia absoluta (valor de la
variable que más se repite)

2_ MEDIDAS DE DISPERSIÓN O VARIABILIDAD


Indican la mayor o menor concentración de los datos con respecto a las medidas de
centralización. Nos indican si un grupo de puntuaciones o valores están próximas entre sí o si
por el contrario están muy dispersas.

RANGO O RECORRIDO (Re)


Es la diferencia entre el valor máximo y el valor mínimo de la variable; si este recorrido es
pequeño respecto al número de datos, puede entenderse que existe poca dispersión.

VENTAJAS INCONVENIENTES

- Es la más sencilla de calcular - Sólo tiene en cuenta los valores


- Viene expresada en las mismas extremos de la variable (que no son
unidades de medida que la variable representativos de la muestra)
- No tiene en cuenta las medidas de
tendencia central, por lo tanto no nos
informa de su representatividad.

VARIANZA (S2)
Es la suma de las desviaciones cuadráticas, divididas por el tamaño de la muestra y representa
la desviación de cada dato respecto del valor central.

VENTAJAS INCONVENIENTES

- Tiene en cuenta todos y cada uno de No utiliza las mismas unidades de medida de
los valores de la variable la variable (sino la unidad de medida al
- Valora la representatividad de las cuadrado)
medidas de tendencia central,
generalmente, de la media.
DESVIACIÓN TÍPICA (S)
Es la mejor medida de dispersión que acompaña a la media y se define como la raíz cuadrada
positiva de la varianza:

Sin embargo, no sirve cuando necesitamos hacer una comparación; para ello, utilizamos el
coeficiente de variación.

COEFICIENTE DE VARIACIÓN (CV)


Es el cociente entre la desviación típica y el valor absoluto de la media aritmética. Nunca va en
unidades de medida, lo que permite comparaciones (es adimensional). Sirve para comparar
variables que, viniendo expresadas en las mismas unidades, son magnitudes distintas. Siempre
va a ser positivo.

CUANTILES (medida de posición)


Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas
estas como intervalos que comprenden la misma proporción de valores. Los más usados son:
● Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los
cuantiles 0.25, 0.50 y 0.75)
● Los Percentiles, que dividen a la distribución en cien partes
● Los Deciles, que dividen a la distribución en diez partes

RECORRIDO INTERCUARTÍLICO (RI)


Es la diferencia entre el tercer y el primer cuartil.
BOX-PLOT

3_ MEDIDAS DE FORMA
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de
barras de la distribución, con la distribución normal.

MEDIDA DE ASIMETRÍA
Vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor
central, o si bien la gráfica que representa la distribución de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo.
Si la simetría ha sido determinada, podemos preguntarnos si la curva está más o menos
apuntada. Este apuntamiento habrá que medirlo comparado a cierta distribución de
frecuencias que consideramos normal.

Cuando una distribución de frecuencia es simétrica, la


media, mediana y moda coinciden en su valor ( X = Me =
Mo). En el caso de una distribución binomial simétrica, es
necesario calcular el promedio de las modas.

En una distribución sesgada a la derecha, la moda es menor


a la mediana, y esta a su vez menor que la media.

En una distribución sesgada a la izquierda la relación se


invierte, la moda es mayor a la mediana, y esta a su vez
mayor que la media.
Coeficiente de asimetría de Pearson 1 (AP1):
Teniendo en cuenta que S siempre es positivo
● Si el resultado es >0, indica asimetría a la derecha
● Si el resultado es =0, indica simetría
● Si el resultado es <0, indica asimetría a la izquierda

MEDIDA DE APUNTAMIENTO
Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir
si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y
estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución
normal o gaussina para la que se tiene K=0.

● Si los datos están muy concentrados hacia la


media, la distribución es leptocúrtica.
● Si los datos están muy dispersos, la
distribución es platicúrtica.
● El comportamiento normal exige que la
curtosis sea igual a 0 (distribución mesocúrtica)
TEMA 3_ REGRESIÓN Y CORRELACIÓN
Si queremos realizar un estudio en una muestra en la que se analizan dos o más variables
distintas, se se realizará mediante técnicas diferentes según las dos variables estudiadas sean:
1. VARIABLES CUANTITATIVAS: Análisis de REGRESIÓN y CORRELACIÓN
2. VARIABLES CUALITATIVAS: Test de asociación en TABLAS DE CONTINGENCIA

Y X

Variable dependiente Variable independiente


Variable respuesta Variable regresora

COVARIANZA (Sxy)
Medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio
de la variable independiente (X) como del valor medio de la variable dependiente (Y). Se
determina mediante la expresión:

Propiedades:
- No es adimensional
- El signo refleja el tipo de relación
- La magnitud muestra el grado de relación
- El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no,
pero no nos dice nada sobre el grado de relación entre las variables.

Si la relación es directa la mayoría de los puntos aporta sumandos


positivos y la COVARIANZA ES POSITIVA

Si la relación es inversa la mayoría de los puntos aporta sumandos


negativos y la COVARIANZA ES NEGATIVA

Si no hay relación se compensan los sumandos positivos y los


negativos y la COVARIANZA ES APROXIMADAMENTE CERO
ANÁLISIS DE CORRELACIÓN
- ¿Cómo están relacionadas las dos variables?
- ¿La relación es fuerte o débil?

ANÁLISIS DE RELACIÓN
- ¿Cuál es el tipo de dependencia?
- ¿Podemos predecir la variable dependiente a partir de la independiente?

1_ TIPOS DE DEPENDENCIA

DEPENDENCIA FUNCIONAL

DEPENDENCIA ESTOCÁSTICA

NO DEPENDENCIA
2_ CORRELACIÓN

COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON (ρ)


Nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es
satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones
típica:

Propiedades:
- Presenta valores entre –1 y +1
- Es adimensional
- Tiene el mismo signo que la covarianza

Interpretación:
- r >0 Indica relación lineal directa. A medida que aumentan los valores de una variable
aumentan los valores de la otra.
- r<0 Indica relación lineal inversa. A medida que aumentan los valores de una variable
disminuyen los valores de la otra.
- r=0 Variables independientes y relación no lineal

Si las variables son independientes el coeficiente de correlación es cero. En cambio, si el


coeficiente de correlación es cero las variables no tienen porqué ser independientes
(simplemente la relación entre las mismas puede ser no lineal)

3_ REGRESIÓN
Partimos de una nube de puntos X (variable independiente) e Y (variable dependiente). Esta
nube de puntos me hace intuir el tipo de relación que tienen las variables.
1. Regresión lineal simple: las variables X e Y se relacionan según un modelo de línea
recta.

2. Regresión no lineal o curvilínea: las variables X e Y se relacionan según una línea curva.
3. Regresión múltiple: existen varias variables independientes que explican el
comportamiento de una sola variable dependiente Y.
REGRESIÓN LINEAL SIMPLE

Yi es la i_ésima observación en la variable dependiente

xi es la i_ésima observación en la variable independiente

β0 es la ordenada en el origen o término independiente, es decir, la altura a la que la recta corta


el eje de ordenadas

β1 es la pendiente, inclinación de la recta o coeficiente de regresión, es decir, el incremento que


se produce en la variable Y cuando la X aumenta en una unidad

ɛi el error aleatorio no observable asociado con Y

Método de estimación Mínimos Cuadrados


Permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube
de puntos.

La "mejor recta" tendrá carácter de línea media y será aquella que pase lo más cerca posible de
todos y cada uno de los puntos, es decir, aquella que mejor se ajuste a la mayoría de los datos.
Esta será nuestra recta de regresión. Es decir, entre las infinitas rectas posibles, la que mejor se
ajusta a los datos es aquella que verifica que la “distancia” a los mismos, sea mínima.
Tras hallar las derivadas parciales, nos damos cuenta que:
1. Coeficiente de Regresión: pendiente de la recta. Incremento de y cuando x aumenta en
una unidad.

2. Ordenada en el origen: altura a la que la recta corta al eje de ordenadas (Y). Es el valor
de Y cuando x vale 0.

X (edad), Y (altura)
Ejemplo: Y= 50 + 2x
β0= 50
β1= 2
Interpretación: cuando un niño tiene 0 meses; es decir, cuando el niño nace, en media su altura
es de 50 cm. Cuando el niño aumenta su edad en un mes, su altura aumenta en 2 cm.

Poder Explicativo
La recta de regresión tiene carácter de línea media, por ello debe ir acompañada siempre de
una medida de su representatividad; es decir, de una medida de dispersión.
● Dispersión Pequeña: representatividad del modelo alta
● Dispersión Grande: representatividad del modelo baja

Una forma de medir la bondad del ajuste es medir la suma de los cuadrados de los errores:
Ejemplo: si r vale 0,93, calculamos el coeficiente de determinación, que es 0,93² y da 0,865, que
multiplicado por 100 es el 86,5%. Es decir, el 86,5% de la variabilidad de al altura la explica la
edad y hay un 13,5% que lo explican otras variables (100- 86,5= 13,5)

Poder Predictivo
Que un modelo de regresión posea un alto poder explicativo, no tiene por qué resultar
adecuado para predecir valores de y, dado un valor de x. Es decir, PODER EXPLICATIVO no es
equivalente a PODER PREDICTIVO. El poder predictivo del modelo lo determina el GRÁFICO
DE RESIDUALES

Gráfico de residuales: diagrama de dispersión que nos permite evaluar el poder predictivo del
modelo.

Construcción y cálculo:
- En el eje de ordenadas se colocan los residuos
- En el eje de abscisas se colocan x, y ó ŷ

Interpretación: si la banda de residuales es homogénea y estrecha , entonces el modelo


ajustado a los datos presenta un ELEVADO PODER PREDICTIVO
Extrapolación
Cuando se hacen predicciones no deben extrapolarse los resultados más allá del rango de la
variable x utilizado para ajustar el modelo, ya que fuera de este rango no sabemos qué puede
estar ocurriendo.

Ejemplo:
Suponemos que tenemos datos sobre el crecimiento de los niños entre los 3 y 8 años de edad y
encontramos una fuerte relación entre Edad (X) y la altura (Y)

Presencia de Outliers
TEMA 4_ INFERENCIA ESTADÍSTICA
Un experimento determinístico es aquel que al repetirlo en idénticas condiciones proporciona
los mismos resultados. Ejemplo: Lanzar una moneda y observar la fuerza de la gravedad con
que cae.

Un experimento aleatorio es aquel que al repetirlo en idénticas condiciones NO proporciona


los mismos resultados en cada experiencia particular. Ejemplo: lanzar una moneda y observar
la figura que sale.

La Estadística se encarga de estudiar experimentos aleatorios

SUCESO ELEMENTAL: cada uno de los resultados de un experimento aleatorio


ESPACIO MUESTRAL: conjunto de todos los sucesos elementales

La probabilidad asociada a un suceso es el límite al que tiende la frecuencia relativa


Ejemplo de probabilidad: Ley de Laplace

Es un valor comprendido entre 0 y 1 y la suma de las probabilidades es 1.

1_ VARIABLES ALEATORIAS
Una variable aleatoria es una variable que toma diversos valores numéricos (dependientes de
los resultados de un experimento aleatorio), con distintas probabilidades.

Dependiendo de que los valores numéricos que puede tomar la variable aleatoria, pertenezcan
al conjunto de los números enteros, o al conjunto de los números reales, tendremos una
variable aleatoria discreta o una variable aleatoria continua, respectivamente

Ejemplo variable aleatoria discreta


2_ DISTRIBUCIONES DE PROBABILIDAD
Encontramos dos grandes tipos:
1. Discretas
a. Binomial
b. Poisson: listas de esperas
c. Hipergeométrica: se selecciona al azar un subgrupo de la población antes de
calcular la probabilidad
2. Continuas: aquellas en las que la gráfica, al representar la variable, siguen una forma
determinada
a. Normal
b. T Student
c. Chi-Cuadrado

DISTRIBUCIONES DE PROBABILIDAD CONTINUAS


1. Distribución normal
Curva normal N (µ,σ) o campana de Gauss

Propiedades:
- Simétrica respecto a x = μ
- Máximo en x = μ
Ejemplos:
P(Z ≤ 1,64) = 0,9495 P(Z ≥ 1,5) = 1- P(Z<1,5) = 1 - 0,9332= 0,0668

P(Z ≤ -1,5) = P(Z ≥ 1,5) = 1 - P(Z<1,5) = P (1,21 ≤ Z ≤ 2,34) = P(Z ≤ 2,34) – P(Z ≤ 1,21)
1- 0,9332 = 0,0668 = 0,9904 – 0,8869 = 0,1035
2. Distribución T Student

Ejemplos:
gl (grado de libertad)= 16

t 0. 10;16 = 1,7459

t 0.30;16 = 1,0711

t 0.05;16 = - 2,1199
3. Distribución Chi-Cuadrado

3_ ESTIMACIÓN
La estimación consiste en el proceso de utilizar información de una muestra para extraer
conclusiones acerca de toda la población. Trata de determinar los parámetros poblacionales
(generalmente desconocidos) sin hacer hipótesis previas sobre los posibles valores de los
mismos.

La ESTIMACIÓN PUNTUAL de un determinado parámetro de una población, es el proceso que


nos permite, a partir de la información suministrada por una muestra aleatoria de la misma,
determinar un solo valor numérico que sea un buen indicador de dicho parámetro poblacional.
Al valor obtenido de la muestra se llama estimador. Por tanto, el estimador puntual es el
estadístico que se usa para estimar un parámetro poblacional.

La ESTIMACIÓN POR INTERVALOS consiste en la obtención de un intervalo dentro del cual


estará el valor del parámetro estimado con una cierta probabilidad.
Intervalo de Confianza: intervalo de valores probables para el parámetro.
Error de Estimación: es una medida de su precisión que se corresponde con la amplitud del
intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más
estrecho deberá ser el intervalo de confianza.

En los contrastes de hipótesis se realizarán hipótesis (afirmaciones) sobre los parámetros


desconocidos y se desarrolla un procedimiento para comprobar la verosimilitud de la hipótesis
planteada.

ESM (Error Estándar de la Media)


Tienen que presentar una
variabilidad pequeña
Tamaño de muestra grande: n>30
Tamaño de muestra pequeño: n<30
Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran
número de ellos, el 95% de ellos contendrá a la media

Ejemplo: El gerente de mercadotecnia de una compañía que suministra combustible para


calefacción de centros penitenciarios desea estimar el uso promedio anual de los centros
penitenciarios de la Península Española. Se toma una muestra aleatoria de 35 centros y el uso
anual en ellas se resume en la tabla:

Establecer una estimación para el intervalo de confianza del 95% de la cantidad promedio
poblacional de combustible consumido al año.
4_ CONTRASTES DE HIPÓTESIS
Es un procedimiento, basado en la evidencia que nos proporciona la muestra y en una prueba o
test estadístico, usado para tomar una decisión acerca de la hipótesis. Se trata de determinar la
validez o no validez de esa hipótesis. Si esa hipótesis se puede aceptar (no rechazar) o rechazar
como válida.

Hipótesis nula (H0/Ho): es la hipótesis que se formula y que se quiere contrastar. Será la que se
acepte o rechace como consecuencia del contraste.
Hipótesis alternativa (H1/Ha): es cualquier otra hipótesis que difiera de la formulada y nos
sitúe frente a la nula. Si rechazamos H0 aceptamos H1.

TIPOS DE ERROR AL CONTRASTAR HIPÓTESIS

Error tipo I: rechazo indebido de Ho Error tipo II: aceptación indebida de la Ho

RIESGOS AL TOMAR DECISIONES


H0: Hipótesis nula
- Los datos pueden refutarla
- La que se acepta si las pruebas no indican lo contrario
- Rechazarla por error tiene graves consecuencias

H1: Hipótesis alternativa


- No debería ser aceptada sin una gran evidencia a favor
- Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

Estadígrafo de contraste: una variable aleatoria con una distribución de probabilidad dada y
que toma un valor para cada muestra.
Región de aceptación: conjunto de valores del estadístico de contraste que nos llevan a
aceptar la Ho.
Región crítica: conjunto de valores del estadístico de contraste que nos llevan a rechazar Ho, y
por tanto a aceptar la hipótesis alternativa.
Contraste unilateral: región crítica formada por un solo conjunto de puntos

Contraste bilateral: cuando la región crítica está formada por dos


conjuntos de puntos disjuntos.

PROCEDIMIENTO A SEGUIR EN UN CONTRASTE DE HIPÓTESIS


PASO 1: Establecer la hipótesis nula y la alternativa
PASO 2: Fijar el nivel de significación α
PASO 3: Identificar el estadístico de prueba y su distribución de probabilidad (Normal, t
Student, Chi Cuadrado…)
PASO 4: Establecer una regla de decisión (identificar las regiones de rechazo y de aceptación
de Ho)
PASO 5: Seleccionar una muestra, calcular el valor del estadístico de prueba
PASO 6: Tomar una decisión respecto a la Ho

Aceptar (No rechazar) la hipótesis nula Rechazar la hipótesis nula y aceptar la alternativa
Ejemplo 1: Una empresa afirma que el sueldo medio de sus trabajadores es de 1400 euros
mensuales. Para comprobar estadísticamente esta afirmación cogemos a 18 trabajadores y
obtenemos los siguientes resultados:

Ejemplo 2: En función de la información disponible, la dirección de un centro penitenciario ha


establecido que la media de horas semanales dedicadas por los delincuentes de ese centro al
estudio es inferior a 15. Durante el presente curso, la dirección quiere demostrar que la media
ha disminuido. Para ello, elige una muestra aleatoria de 150 delincuentes, obteniendo una
media muestral de 12,7 horas y con una desviación típica igual a una hora. ¿Puede afirmarse,
con un nivel de confianza del 90%, que ha disminuido el tiempo dedicado al estudio por los
delincuentes?

Ejemplo 3: Sabemos que la variable estatura sigue una distribución Normal (, 5). Tomamos una
muestra representativa de la población de 100 estudiantes y su estatura media resulta ser 178
cm., ¿podemos considerar que la estatura media de los estudiantes de la Universidad de
Salamanca es 176 cm?
Preguntas examen:
¿Si en un contraste de hipótesis rechazo al 5%, rechazo al 1%? No tengo por qué rechazarlo
¿Si en un contraste de hipótesis rechazo al 1%, rechazo al 5%? Sí

Conceptos:
- Error tipo I: rechazo indebido de Ho
- Error tipo II: aceptación indebida de la Ho
- Nivel de significación (α): Probabilidad de cometer el error tipo I
- Potencia del contraste (1-β): Probabilidad de rechazar Ho, siendo falsa
- P-VALOR: probabilidad exacta de cometer el error TIPO I

Variable normal: medida de tendencia normal (media aritmética) contrastes paramétricos


Variable no normal: medida de tendencia central (mediana) contrastes no paramétricos

Datos independientes: aquellos que se obtienen al realizar el contraste con dos muestras
distintas.
Datos apareados: aquellos que se obtienen al realizar dos contrastes sobre una misma
muestra.

Ejemplo: Un grupo de criminólogos ha desarrollado un test para predecir futuros


comportamientos delincuentes de los adolescentes. El test consiste en una serie de preguntas
cuyas respuestas son puntuadas, dando lugar a una valoración global del test. Las pruebas que
se han realizado hasta el momento son prometedoras por cuanto, aplicado a delincuentes y no
delincuentes, los resultados en ambos grupos son:
Ejemplo: Se desea saber si un taller es efectivo para cambiar el nivel de autoestima de un grupo
de delincuentes, para ello se evalúa la calificación de autoestima antes de iniciar el taller y al
finalizar el mismo.
Test de Mann- Test de Wilcoxon
Withney
TEMA 5 _ TABLAS DE CONTINGENCIA Y MEDIDAS DE
ASOCIACIÓN
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS: Test de asociación en TABLAS DE
CONTINGENCIA

Las tablas de contingencia son tablas que recogen información sobre variables aleatorias
cualitativas y los datos aparecen como tablas de frecuencias.

ELEMENTOS DE LA TABLA DE CONTINGENCIA


FRECUENCIAS OBSERVADAS: número de individuos de nuestra muestra que pertenecen a
cada combinación de categorías de las variables en estudio “foij”.

TOTALES MARGINALES
TOTAL DE FILA: fi .(I= Nº de filas)
TOTAL DE COLUMNA: f.j(J =Nº de columnas)
TOTAL GLOBAL: f..

HIPÓTESIS DE PARTIDA (H0): las dos variables en estudio son independientes

HIPÓTESIS ALTERNATIVA (Ha): las dos variables en estudio están relacionadas

Ejemplo:

¿CÓMO SE CONTRASTA?
Partimos de una tabla de frecuencias observadas y se calculan las frecuencias que cabría
esperar si las dos variables fueran independientes
¿CÓMO MEDIR LAS DISCREPANCIAS?
PASOS:
1. Cálculo individual de las frecuencias esperadas que cabría esperar si H0 fuera cierta.
2. Cálculo de los componentes individuales de x², es decir, cálculo de las divergencias
entre observadas y esperadas para cada casilla.
3. Suma de los valores obtenidos en el apartado anterior y obtención así, del valor
experimental de nuestro estadígrafo de contraste.
4. Determinación de los grados de libertad.
5. Obtención del valor crítico en la tabla de la distribución x² con los grados de libertad
correspondientes y decidir si el estadístico calculado en el paso 3º excede de este valor
crítico con p=0.05 o con p=0.01.
6. Conclusión. Hablar de que existe o no asociación entre ambas variables.
COEFICIENTE DE CONTINGENCIA
Para medir el grado de relación entre las variables se utiliza el denominado Coeficiente de
Contingencia (C).

También podría gustarte