ESTADÍSTICA

ESTADÍSTICA
1º DOBLE GRADO DERECHO Y CRIMINOLOGÍA

UNIVERSIDAD DE SALAMANCA
ALEJANDRA FLORES CASTAÑÓN
TEMA 1_ ESTADÍSTICA
1_ ESTADÍSTICA
Definición: ciencia que estudia cómo debe emplearse la información y cómo dar una guía de
acción en situaciones prácticas que entrañan incertidumbre.
Función: ayudar al investigador a organizar su estudio de forma lógica para poder obtener
resultados útiles sobre su investigación.
Componentes: marcar los objetivos y el diseño (los individuos con los que se van a trabajar y
las distintas variables)
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir,

hallar irregularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre
sea una causa intrínseca de los mismos; así como de analizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
Tenemos dos tipos de estadística:

● Estadística Descriptiva: cuando los resultados del análisis no pretenden ir más allá del
conjunto de datos.
● Estadística Inferencial: cuando el objetivo del estudio es derivar las conclusiones
obtenidas a un conjunto de datos más amplio.
2_ CONCEPTOS BÁSICOS
Individuos o elementos: objetos que “poseen” la información.
Población: conjunto completo de elementos, con alguna característica común, objeto del
estudio estadístico.
Muestra: subconjunto de elementos representativos de una población (finita o infinita).
Variable estadística: carácter objeto de estudio de los elementos de la muestra, que puede
tomar un conjunto de valores (discreta o continua). Dichas variables pueden ser cualitativas
(variables no numéricas. Ej: grupo sanguíneo, religión, nacionalidad) o cuantitativas (variables
numéricas). Encontramos dos tipos de variables cualitativas: nominales (no lleva un orden
asignado Ej: nº de individuos que utilizan internet) y ordinales (llevan un orden asignado. Ej:
grado de satisfacción). Asimismo, encontramos dos tipos de variables cuantitativas: discretas
(toman valores enteros. Ej: número de hijos) y continuas (toman un número infinito de valores.
Ej: altura)
Parámetro: función definida sobre los valores numéricos de características medibles de una
población.
Estadístico: función definida sobre valores numéricos de la muestra.
3_ LA POBLACIÓN
Criterios de inclusión: definen las características principales de la población diana y de la
población accesible que son relevantes para la pregunta que se investiga.
Criterios de exclusión: se utilizan para identificar subconjuntos de individuos que cumplen los
criterios de selección pero que es probable que interfieran en la interpretación de los
hallazgos.
4_ ¿CÓMO SE LLEVARÍA A CABO EL ESTUDIO?

Estudio observacional: el investigador se mantiene al margen de los hechos que ocurren a los
individuos estudiados.
Estudio experimental: se estudian los efectos de la intervención del investigador.
Estudios transversales: aquel que se realiza en un determinado momento en el tiempo.
Estudios longitudinales: al igual que el estudio transversal se realiza en un determinado
momento en el tiempo, la diferencia radica en que en el longitudinal ocurre algo durante la
investigación que tiene un efecto sobre esta. Encontramos diversos tipos:
- Prospectivos: tratan de detectar hechos que todavía no han ocurrido.
- Retrospectivos: la investigación se centra en hechos pasados y presentes.
- Ambispectivos: el investigador recoge información sobre una exposición en el pasado,
pero la reconstruye hasta el momento presente y continua con un seguimiento de los
sujetos en el tiempo.
5_ ETAPAS DEL ANÁLISIS ESTADÍSTICO

1. RECOGIDA DE DATOS
Población: N
Muestra: n
¿Cuáles?: métodos de muestreo
¿Cuántos?: tamaño de la muestra
Encontramos dos tipos de muestreo:

● Probabilísticos: basados en procedimientos de selección aleatoria de individuos. Con
su empleo se evitan los sesgos (riesgos) de selección.
● No probabilísticos: los individuos no tienen la misma probabilidad de ser incluidos en la
muestra. Se seleccionan por procedimientos en los que no interviene el azar.
Dentro de los probabilísticos encontramos, a su vez, distintos tipos de muestreo:

● Muestreo aleatorio simple: cualquier individuo tiene la misma probabilidad de ser
elegido para formar parte de la muestra.
● Muestreo aleatorio sistemático: se basa en calcular una constante (K) y a partir de ahí
elegir uno de cada K individuos. Este procedimiento exige enumerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios, sólo se extrae
uno.
● Muestreo estratificado: se divide la población en estratos homogéneos, y en cada
estrato se realiza un muestreo al azar.
● Muestreo por conglomerados: cuando la población está dividida en agrupaciones
naturales ( conglomerados), se selecciona una muestra al azar de esas agrupaciones y se
analizan todos los individuos del conglomerado.
Y dentro de los no probabilísticos diferenciamos distintos muestreos:
● Muestreo por cuotas: se aseguran cuotas, pero sin selección aleatoria. Es el método
más utilizado en Sociología y en estudios epidemiológicos.
● Muestreo de casos consecutivos: se seleccionan los sujetos que cumplen los criterios
de inclusión especificados en el protocolo, a medida que se captan. Es el método más
utilizado en los ensayos clínicos.
● Muestreo a criterio: se seleccionan los individuos más apropiados.
● Muestreo de conveniencia: se eligen aquellos miembros de la población accesible de
los que se puede disponer con facilidad.
● Inclusión de voluntarios: participan individuos de forma voluntaria. No es
recomendable, dado que las personas que se ofrecen voluntariamente a la realización
de dicho estudio, en general, no son representativas de la población.
● Muestreo en Bola de Nieve: consiste en seleccionar una muestra inicial de individuos y
establecer en cada entrevista qué nuevas personas de la población en estudio han de
entrevistarse, para así integrar la muestra completa. Generalmente la primera selección
se hace en forma probabilística, mientras que las siguientes entrevistas quedan
determinadas por las anteriores. En sentido muy amplio, la primera muestra puede
seleccionarse en forma intencional o estar constituida por voluntarios.
2. ORDENACIÓN Y PRESENTACIÓN
3. RESUMEN DE LA INFORMACIÓN
4. ANÁLISIS ESTADÍSTICO
TEMA 2 _ GRÁFICOS Y TABLAS DE FRECUENCIA
ETAPAS DEL ANÁLISIS ESTADÍSTICO
1 _ TABLAS DE FRECUENCIA
Si los datos corresponden a una variable cuantitativa (o al menos ordinal), es posible calcular,
además, la frecuencia acumulada de cada valor (en símbolos F), la que puede ser de dos formas:
● Frecuencia acumulada ascendente (Fasc): indica cual es la frecuencia de veces que
aparecen respuestas iguales o menores a la que se está analizando.
● Frecuencia acumulada descendente (Fdes): indica la frecuencia de veces que aparecen
respuestas iguales o mayores de las que se están analizando.
VARIABLES DISCRETAS
Frecuencia Absoluta (f): la suma de ellas es n.

Frecuencia Relativa (h): se calcula dividiendo la frecuencia absoluta entre el número total de
datos. La suma de ellas es 1.
Frecuencia Absoluta Acumulada (F): la suma de ella es n.
Frecuencia Relativa Acumulada (H): la suma de ella es 1.
VARIABLES CONTINUAS
Intervalos
Marca de clase: punto medio del intervalo (si no hay nombre)
2_ DIAGRAMA DE BARRAS
Es una representación cartesiana. Sobre el eje de abscisas (x) escribiremos las distintas
categorías, y sobre el de ordenadas (y) los valores de las correspondientes frecuencias
(absoluta o relativa). Levantamos rectángulos de altura igual a la frecuencia correspondiente.
3_ GRÁFICO DE SECTORES
Se toma un círculo, y representamos las distintas
clases mediante sectores circulares cuya área sea
proporcional a la frecuencia de la clase. Esto se
consigue haciendo corresponder 360º a la suma
de las frecuencias y efectuando luego los cálculos
de proporcionalidad.
4 _ PERFIL ORTOGONAL
Es una representación cartesiana.
Representamos en el eje de las abscisas las
diferentes clases y en el de ordenadas sus
frecuencias. Los pares determinan un conjunto
de puntos en el plano, que unidos nos
proporcionan un “perfil ortogonal”.
5 _ PICTOGRAMA
Este tipo de representación utiliza un dibujo alusivo al fenómeno en estudio. Esos dibujos
utilizados deberán tener área proporcional a la frecuencia de las clases, y esto puede tener dos
caminos:
● Pictograma de repetición: se asigna un valor a una figura base y se repite tantas veces
como convenga a la frecuencia.
● Pictograma de ampliación: a cada clase se le asigna una figura con área proporcional a
la frecuencia.
6 _ PERFIL RADIAL
A partir de un punto trazamos tantos radios como
clases distintas tengamos, todos ellos formando
ángulos de la misma amplitud. Sobre cada radio se
toma una distancia al centro proporcional a la
frecuencia. Uniendo cada punto se obtiene un polígono
cerrado que es el “perfil radial”.
7 _ DIAGRAMA DE BARRAS Y DIAGRAMA DE BARRAS ACUMULADO

(discreta)
La idea es la misma que en el anterior diagrama de barras, la diferencia es que se levantan
líneas en vez de rectángulos.
DIAGRAMA DE BARRAS DIAGRAMA DE BARRAS ACUMULADO

8 _ POLÍGONO DE FRECUENCIAS (discreta)
Uniendo los extremos superiores de las barras en el
diagrama de barras anterior, obtenemos una línea
quebrada abierta que recibe el nombre de polígono de
frecuencias.
9 _ HISTOGRAMA (continua)
En el eje de abscisas se marcan los extremos de los intervalos de clase de la variable, y se
levantan rectángulos cuya base es la amplitud del intervalo y su altura es tal que el área del
rectángulo sea igual a la frecuencia.
Diferenciamos dos tipos:
1. Frecuencia= altura 2. Frecuencia no puede tomarse como altura
10 _ POLÍGONO DE FRECUENCIAS Y POLÍGONO DE FRECUENCIAS

ACUMULADO (continua)
A partir del histograma, unimos los puntos medios de los lados superiores de los rectángulos.
La línea quebrada que obtenemos se conoce como “polígono de frecuencias”.
POLÍGONO DE FRECUENCIAS POLÍGONO DE FRECUENCIAS ACUMULADO

11_ STEM & LEAF (TALLO Y HOJA) (continua)
La representación Stem & Leaf es una representación intermedia
entre una tabla y un gráfico. Muestra valores con cifras, aunque su
perfil es el de un histograma.
● Se debe escribir a la izquierda de una línea vertical, de
arriba hacia abajo, todos los posibles dígitos principales del
conjunto de datos.
● Luego se representa cada dato a la derecha de la línea,
escribiendo sus dígitos secundarios en la fila apropiada.
TEMA 3_ ESTADÍSTICA DESCRIPTIVA
ETAPAS DEL ANÁLISIS ESTADÍSTICO
La estadística descriptiva es un conjunto de métodos y técnicas por medio de las cuales

podemos recolectar, organizar, resumir, presentar y analizar datos numéricos relativos a un
conjunto de individuos u observaciones.
1_ MEDIDAS DE CENTRALIZACIÓN
Tienen por objeto, obtener un valor que resuma en sí todas las mediciones. La mayoría de ellas
trata de ubicar el centro de la distribución.
Las tablas de distribución de frecuencia ofrecen toda la información disponible, pero a veces,
debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo
que interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre
distintas muestras o poblaciones. En este proceso de síntesis se buscan valores que
determinen el comportamiento global del fenómeno estudiado.
MEDIA (X)
Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos.
Si designamos por xi al valor de la variable X, que se repite fi veces, la media aritmética será:
VENTAJAS INCONVENIENTES
- Es única Cuando la variable presenta valores muy

- Considera todos los valores de la extremos, que influyen mucho en la media, la
distribución, en su cálculo hacen poco representativa
intervienen todos los datos
- Es siempre calculable (en variable
cuantitativa)
MEDIANA (Me)
Es el valor que toma la variable y que deja el 50% de los datos por encima y el 50% de los datos
por debajo y se utiliza cuando la media no es representativa.
Para datos no agrupados distinguimos dos casos:
A. PAR: 1, 1, 3, 5 ,5, 6 (n=6) entonces Me=(3+5)/2 =4
B. IMPAR: 1, 1, 3, 5, 5, 8, 9 (n=7) entonces Me = 5
MODA (Mo)
Es el valor o conjunto de valores de la variable con mayor frecuencia absoluta (valor de la
variable que más se repite)
2_ MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Indican la mayor o menor concentración de los datos con respecto a las medidas de
centralización. Nos indican si un grupo de puntuaciones o valores están próximas entre sí o si
por el contrario están muy dispersas.
RANGO O RECORRIDO (Re)

Es la diferencia entre el valor máximo y el valor mínimo de la variable; si este recorrido es
pequeño respecto al número de datos, puede entenderse que existe poca dispersión.
- Es la más sencilla de calcular - Sólo tiene en cuenta los valores

- Viene expresada en las mismas extremos de la variable (que no son
unidades de medida que la variable representativos de la muestra)
- No tiene en cuenta las medidas de
tendencia central, por lo tanto no nos
informa de su representatividad.
VARIANZA (S2)
Es la suma de las desviaciones cuadráticas, divididas por el tamaño de la muestra y representa
la desviación de cada dato respecto del valor central.
- Tiene en cuenta todos y cada uno de No utiliza las mismas unidades de medida de
los valores de la variable la variable (sino la unidad de medida al
- Valora la representatividad de las cuadrado)
medidas de tendencia central,
generalmente, de la media.
DESVIACIÓN TÍPICA (S)
Es la mejor medida de dispersión que acompaña a la media y se define como la raíz cuadrada
positiva de la varianza:
Sin embargo, no sirve cuando necesitamos hacer una comparación; para ello, utilizamos el
coeficiente de variación.
COEFICIENTE DE VARIACIÓN (CV)

Es el cociente entre la desviación típica y el valor absoluto de la media aritmética. Nunca va en
unidades de medida, lo que permite comparaciones (es adimensional). Sirve para comparar
variables que, viniendo expresadas en las mismas unidades, son magnitudes distintas. Siempre
va a ser positivo.
CUANTILES (medida de posición)

Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas
estas como intervalos que comprenden la misma proporción de valores. Los más usados son:
● Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los
cuantiles 0.25, 0.50 y 0.75)
● Los Percentiles, que dividen a la distribución en cien partes
● Los Deciles, que dividen a la distribución en diez partes
RECORRIDO INTERCUARTÍLICO (RI)

Es la diferencia entre el tercer y el primer cuartil.
BOX-PLOT
3_ MEDIDAS DE FORMA
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de
barras de la distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor
central, o si bien la gráfica que representa la distribución de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo.
Si la simetría ha sido determinada, podemos preguntarnos si la curva está más o menos
apuntada. Este apuntamiento habrá que medirlo comparado a cierta distribución de
frecuencias que consideramos normal.
Cuando una distribución de frecuencia es simétrica, la

media, mediana y moda coinciden en su valor ( X = Me =
Mo). En el caso de una distribución binomial simétrica, es
necesario calcular el promedio de las modas.
En una distribución sesgada a la derecha, la moda es menor

a la mediana, y esta a su vez menor que la media.
En una distribución sesgada a la izquierda la relación se

invierte, la moda es mayor a la mediana, y esta a su vez
mayor que la media.
Coeficiente de asimetría de Pearson 1 (AP1):
Teniendo en cuenta que S siempre es positivo
● Si el resultado es >0, indica asimetría a la derecha
● Si el resultado es =0, indica simetría
● Si el resultado es <0, indica asimetría a la izquierda
MEDIDA DE APUNTAMIENTO
Es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve para medir
si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y
estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución
normal o gaussina para la que se tiene K=0.
● Si los datos están muy concentrados hacia la

media, la distribución es leptocúrtica.
● Si los datos están muy dispersos, la
distribución es platicúrtica.
● El comportamiento normal exige que la
curtosis sea igual a 0 (distribución mesocúrtica)
TEMA 3_ REGRESIÓN Y CORRELACIÓN
Si queremos realizar un estudio en una muestra en la que se analizan dos o más variables
distintas, se se realizará mediante técnicas diferentes según las dos variables estudiadas sean:
1. VARIABLES CUANTITATIVAS: Análisis de REGRESIÓN y CORRELACIÓN
2. VARIABLES CUALITATIVAS: Test de asociación en TABLAS DE CONTINGENCIA
Y X
Variable dependiente Variable independiente

Variable respuesta Variable regresora
COVARIANZA (Sxy)
Medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio
de la variable independiente (X) como del valor medio de la variable dependiente (Y). Se
determina mediante la expresión:
Propiedades:
- No es adimensional
- El signo refleja el tipo de relación
- La magnitud muestra el grado de relación
- El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no,
pero no nos dice nada sobre el grado de relación entre las variables.
Si la relación es directa la mayoría de los puntos aporta sumandos

positivos y la COVARIANZA ES POSITIVA
Si la relación es inversa la mayoría de los puntos aporta sumandos

negativos y la COVARIANZA ES NEGATIVA
Si no hay relación se compensan los sumandos positivos y los

negativos y la COVARIANZA ES APROXIMADAMENTE CERO
ANÁLISIS DE CORRELACIÓN
- ¿Cómo están relacionadas las dos variables?
- ¿La relación es fuerte o débil?
ANÁLISIS DE RELACIÓN
- ¿Cuál es el tipo de dependencia?
- ¿Podemos predecir la variable dependiente a partir de la independiente?
1_ TIPOS DE DEPENDENCIA
DEPENDENCIA FUNCIONAL
DEPENDENCIA ESTOCÁSTICA
NO DEPENDENCIA
2_ CORRELACIÓN
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON (ρ)

Nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es
satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones
típica:
Propiedades:
- Presenta valores entre –1 y +1
- Es adimensional
- Tiene el mismo signo que la covarianza
Interpretación:
- r >0 Indica relación lineal directa. A medida que aumentan los valores de una variable
aumentan los valores de la otra.
- r<0 Indica relación lineal inversa. A medida que aumentan los valores de una variable
disminuyen los valores de la otra.
- r=0 Variables independientes y relación no lineal
Si las variables son independientes el coeficiente de correlación es cero. En cambio, si el

coeficiente de correlación es cero las variables no tienen porqué ser independientes
(simplemente la relación entre las mismas puede ser no lineal)
3_ REGRESIÓN
Partimos de una nube de puntos X (variable independiente) e Y (variable dependiente). Esta
nube de puntos me hace intuir el tipo de relación que tienen las variables.
1. Regresión lineal simple: las variables X e Y se relacionan según un modelo de línea
recta.
2. Regresión no lineal o curvilínea: las variables X e Y se relacionan según una línea curva.
3. Regresión múltiple: existen varias variables independientes que explican el
comportamiento de una sola variable dependiente Y.
REGRESIÓN LINEAL SIMPLE
Yi es la i_ésima observación en la variable dependiente
xi es la i_ésima observación en la variable independiente
β0 es la ordenada en el origen o término independiente, es decir, la altura a la que la recta corta

el eje de ordenadas
β1 es la pendiente, inclinación de la recta o coeficiente de regresión, es decir, el incremento que

se produce en la variable Y cuando la X aumenta en una unidad
ɛi el error aleatorio no observable asociado con Y
Método de estimación Mínimos Cuadrados

Permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube
de puntos.
La "mejor recta" tendrá carácter de línea media y será aquella que pase lo más cerca posible de
todos y cada uno de los puntos, es decir, aquella que mejor se ajuste a la mayoría de los datos.
Esta será nuestra recta de regresión. Es decir, entre las infinitas rectas posibles, la que mejor se
ajusta a los datos es aquella que verifica que la “distancia” a los mismos, sea mínima.
Tras hallar las derivadas parciales, nos damos cuenta que:
1. Coeficiente de Regresión: pendiente de la recta. Incremento de y cuando x aumenta en
una unidad.
2. Ordenada en el origen: altura a la que la recta corta al eje de ordenadas (Y). Es el valor
de Y cuando x vale 0.
X (edad), Y (altura)
Ejemplo: Y= 50 + 2x
β0= 50
β1= 2
Interpretación: cuando un niño tiene 0 meses; es decir, cuando el niño nace, en media su altura
es de 50 cm. Cuando el niño aumenta su edad en un mes, su altura aumenta en 2 cm.
Poder Explicativo
La recta de regresión tiene carácter de línea media, por ello debe ir acompañada siempre de
una medida de su representatividad; es decir, de una medida de dispersión.
● Dispersión Pequeña: representatividad del modelo alta
● Dispersión Grande: representatividad del modelo baja
Una forma de medir la bondad del ajuste es medir la suma de los cuadrados de los errores:
Ejemplo: si r vale 0,93, calculamos el coeficiente de determinación, que es 0,93² y da 0,865, que
multiplicado por 100 es el 86,5%. Es decir, el 86,5% de la variabilidad de al altura la explica la
edad y hay un 13,5% que lo explican otras variables (100- 86,5= 13,5)
Poder Predictivo
Que un modelo de regresión posea un alto poder explicativo, no tiene por qué resultar
adecuado para predecir valores de y, dado un valor de x. Es decir, PODER EXPLICATIVO no es
equivalente a PODER PREDICTIVO. El poder predictivo del modelo lo determina el GRÁFICO
DE RESIDUALES
Gráfico de residuales: diagrama de dispersión que nos permite evaluar el poder predictivo del
modelo.
Construcción y cálculo:
- En el eje de ordenadas se colocan los residuos
- En el eje de abscisas se colocan x, y ó ŷ
Interpretación: si la banda de residuales es homogénea y estrecha , entonces el modelo

ajustado a los datos presenta un ELEVADO PODER PREDICTIVO
Extrapolación
Cuando se hacen predicciones no deben extrapolarse los resultados más allá del rango de la
variable x utilizado para ajustar el modelo, ya que fuera de este rango no sabemos qué puede
estar ocurriendo.
Ejemplo:
Suponemos que tenemos datos sobre el crecimiento de los niños entre los 3 y 8 años de edad y
encontramos una fuerte relación entre Edad (X) y la altura (Y)
Presencia de Outliers
TEMA 4_ INFERENCIA ESTADÍSTICA
Un experimento determinístico es aquel que al repetirlo en idénticas condiciones proporciona
los mismos resultados. Ejemplo: Lanzar una moneda y observar la fuerza de la gravedad con
que cae.
Un experimento aleatorio es aquel que al repetirlo en idénticas condiciones NO proporciona

los mismos resultados en cada experiencia particular. Ejemplo: lanzar una moneda y observar
la figura que sale.
La Estadística se encarga de estudiar experimentos aleatorios
SUCESO ELEMENTAL: cada uno de los resultados de un experimento aleatorio

ESPACIO MUESTRAL: conjunto de todos los sucesos elementales
La probabilidad asociada a un suceso es el límite al que tiende la frecuencia relativa

Ejemplo de probabilidad: Ley de Laplace
Es un valor comprendido entre 0 y 1 y la suma de las probabilidades es 1.
1_ VARIABLES ALEATORIAS
Una variable aleatoria es una variable que toma diversos valores numéricos (dependientes de
los resultados de un experimento aleatorio), con distintas probabilidades.
Dependiendo de que los valores numéricos que puede tomar la variable aleatoria, pertenezcan
al conjunto de los números enteros, o al conjunto de los números reales, tendremos una
variable aleatoria discreta o una variable aleatoria continua, respectivamente
Ejemplo variable aleatoria discreta

2_ DISTRIBUCIONES DE PROBABILIDAD
Encontramos dos grandes tipos:
1. Discretas
a. Binomial
b. Poisson: listas de esperas
c. Hipergeométrica: se selecciona al azar un subgrupo de la población antes de
calcular la probabilidad
2. Continuas: aquellas en las que la gráfica, al representar la variable, siguen una forma
determinada
a. Normal
b. T Student
c. Chi-Cuadrado
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS

1. Distribución normal
Curva normal N (µ,σ) o campana de Gauss
Propiedades:
- Simétrica respecto a x = μ
- Máximo en x = μ
Ejemplos:
P(Z ≤ 1,64) = 0,9495 P(Z ≥ 1,5) = 1- P(Z<1,5) = 1 - 0,9332= 0,0668
P(Z ≤ -1,5) = P(Z ≥ 1,5) = 1 - P(Z<1,5) = P (1,21 ≤ Z ≤ 2,34) = P(Z ≤ 2,34) – P(Z ≤ 1,21)
1- 0,9332 = 0,0668 = 0,9904 – 0,8869 = 0,1035
2. Distribución T Student
Ejemplos:
gl (grado de libertad)= 16
t 0. 10;16 = 1,7459
t 0.30;16 = 1,0711
t 0.05;16 = - 2,1199
3. Distribución Chi-Cuadrado
3_ ESTIMACIÓN
La estimación consiste en el proceso de utilizar información de una muestra para extraer
conclusiones acerca de toda la población. Trata de determinar los parámetros poblacionales
(generalmente desconocidos) sin hacer hipótesis previas sobre los posibles valores de los
mismos.
La ESTIMACIÓN PUNTUAL de un determinado parámetro de una población, es el proceso que

nos permite, a partir de la información suministrada por una muestra aleatoria de la misma,
determinar un solo valor numérico que sea un buen indicador de dicho parámetro poblacional.
Al valor obtenido de la muestra se llama estimador. Por tanto, el estimador puntual es el
estadístico que se usa para estimar un parámetro poblacional.
La ESTIMACIÓN POR INTERVALOS consiste en la obtención de un intervalo dentro del cual

estará el valor del parámetro estimado con una cierta probabilidad.
Intervalo de Confianza: intervalo de valores probables para el parámetro.
Error de Estimación: es una medida de su precisión que se corresponde con la amplitud del
intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más
estrecho deberá ser el intervalo de confianza.
En los contrastes de hipótesis se realizarán hipótesis (afirmaciones) sobre los parámetros

desconocidos y se desarrolla un procedimiento para comprobar la verosimilitud de la hipótesis
planteada.
ESM (Error Estándar de la Media)

Tienen que presentar una
variabilidad pequeña
Tamaño de muestra grande: n>30
Tamaño de muestra pequeño: n<30
Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran
número de ellos, el 95% de ellos contendrá a la media
Ejemplo: El gerente de mercadotecnia de una compañía que suministra combustible para

calefacción de centros penitenciarios desea estimar el uso promedio anual de los centros
penitenciarios de la Península Española. Se toma una muestra aleatoria de 35 centros y el uso
anual en ellas se resume en la tabla:
Establecer una estimación para el intervalo de confianza del 95% de la cantidad promedio
poblacional de combustible consumido al año.
4_ CONTRASTES DE HIPÓTESIS
Es un procedimiento, basado en la evidencia que nos proporciona la muestra y en una prueba o
test estadístico, usado para tomar una decisión acerca de la hipótesis. Se trata de determinar la
validez o no validez de esa hipótesis. Si esa hipótesis se puede aceptar (no rechazar) o rechazar
como válida.
Hipótesis nula (H0/Ho): es la hipótesis que se formula y que se quiere contrastar. Será la que se
acepte o rechace como consecuencia del contraste.
Hipótesis alternativa (H1/Ha): es cualquier otra hipótesis que difiera de la formulada y nos
sitúe frente a la nula. Si rechazamos H0 aceptamos H1.
TIPOS DE ERROR AL CONTRASTAR HIPÓTESIS
Error tipo I: rechazo indebido de Ho Error tipo II: aceptación indebida de la Ho
RIESGOS AL TOMAR DECISIONES

H0: Hipótesis nula
- Los datos pueden refutarla
- La que se acepta si las pruebas no indican lo contrario
- Rechazarla por error tiene graves consecuencias
H1: Hipótesis alternativa

- No debería ser aceptada sin una gran evidencia a favor
- Rechazarla por error tiene consecuencias consideradas menos graves que la anterior
Estadígrafo de contraste: una variable aleatoria con una distribución de probabilidad dada y
que toma un valor para cada muestra.
Región de aceptación: conjunto de valores del estadístico de contraste que nos llevan a
aceptar la Ho.
Región crítica: conjunto de valores del estadístico de contraste que nos llevan a rechazar Ho, y
por tanto a aceptar la hipótesis alternativa.
Contraste unilateral: región crítica formada por un solo conjunto de puntos
Contraste bilateral: cuando la región crítica está formada por dos

conjuntos de puntos disjuntos.
PROCEDIMIENTO A SEGUIR EN UN CONTRASTE DE HIPÓTESIS

PASO 1: Establecer la hipótesis nula y la alternativa
PASO 2: Fijar el nivel de significación α
PASO 3: Identificar el estadístico de prueba y su distribución de probabilidad (Normal, t
Student, Chi Cuadrado…)
PASO 4: Establecer una regla de decisión (identificar las regiones de rechazo y de aceptación
de Ho)
PASO 5: Seleccionar una muestra, calcular el valor del estadístico de prueba
PASO 6: Tomar una decisión respecto a la Ho
Aceptar (No rechazar) la hipótesis nula Rechazar la hipótesis nula y aceptar la alternativa
Ejemplo 1: Una empresa afirma que el sueldo medio de sus trabajadores es de 1400 euros
mensuales. Para comprobar estadísticamente esta afirmación cogemos a 18 trabajadores y
obtenemos los siguientes resultados:
Ejemplo 2: En función de la información disponible, la dirección de un centro penitenciario ha

establecido que la media de horas semanales dedicadas por los delincuentes de ese centro al
estudio es inferior a 15. Durante el presente curso, la dirección quiere demostrar que la media
ha disminuido. Para ello, elige una muestra aleatoria de 150 delincuentes, obteniendo una
media muestral de 12,7 horas y con una desviación típica igual a una hora. ¿Puede afirmarse,
con un nivel de confianza del 90%, que ha disminuido el tiempo dedicado al estudio por los
delincuentes?
Ejemplo 3: Sabemos que la variable estatura sigue una distribución Normal (, 5). Tomamos una
muestra representativa de la población de 100 estudiantes y su estatura media resulta ser 178
cm., ¿podemos considerar que la estatura media de los estudiantes de la Universidad de
Salamanca es 176 cm?
Preguntas examen:
¿Si en un contraste de hipótesis rechazo al 5%, rechazo al 1%? No tengo por qué rechazarlo
¿Si en un contraste de hipótesis rechazo al 1%, rechazo al 5%? Sí
Conceptos:
- Error tipo I: rechazo indebido de Ho
- Error tipo II: aceptación indebida de la Ho
- Nivel de significación (α): Probabilidad de cometer el error tipo I
- Potencia del contraste (1-β): Probabilidad de rechazar Ho, siendo falsa
- P-VALOR: probabilidad exacta de cometer el error TIPO I
Variable normal: medida de tendencia normal (media aritmética) contrastes paramétricos

Variable no normal: medida de tendencia central (mediana) contrastes no paramétricos
Datos independientes: aquellos que se obtienen al realizar el contraste con dos muestras
distintas.
Datos apareados: aquellos que se obtienen al realizar dos contrastes sobre una misma
muestra.
Ejemplo: Un grupo de criminólogos ha desarrollado un test para predecir futuros

comportamientos delincuentes de los adolescentes. El test consiste en una serie de preguntas
cuyas respuestas son puntuadas, dando lugar a una valoración global del test. Las pruebas que
se han realizado hasta el momento son prometedoras por cuanto, aplicado a delincuentes y no
delincuentes, los resultados en ambos grupos son:
Ejemplo: Se desea saber si un taller es efectivo para cambiar el nivel de autoestima de un grupo
de delincuentes, para ello se evalúa la calificación de autoestima antes de iniciar el taller y al
finalizar el mismo.
Test de Mann- Test de Wilcoxon
Withney
TEMA 5 _ TABLAS DE CONTINGENCIA Y MEDIDAS DE
ASOCIACIÓN
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS: Test de asociación en TABLAS DE
CONTINGENCIA
Las tablas de contingencia son tablas que recogen información sobre variables aleatorias
cualitativas y los datos aparecen como tablas de frecuencias.
ELEMENTOS DE LA TABLA DE CONTINGENCIA

FRECUENCIAS OBSERVADAS: número de individuos de nuestra muestra que pertenecen a
cada combinación de categorías de las variables en estudio “foij”.
TOTALES MARGINALES
TOTAL DE FILA: fi .(I= Nº de filas)
TOTAL DE COLUMNA: f.j(J =Nº de columnas)
TOTAL GLOBAL: f..
HIPÓTESIS DE PARTIDA (H0): las dos variables en estudio son independientes
HIPÓTESIS ALTERNATIVA (Ha): las dos variables en estudio están relacionadas
Ejemplo:
¿CÓMO SE CONTRASTA?
Partimos de una tabla de frecuencias observadas y se calculan las frecuencias que cabría
esperar si las dos variables fueran independientes
¿CÓMO MEDIR LAS DISCREPANCIAS?
PASOS:
1. Cálculo individual de las frecuencias esperadas que cabría esperar si H0 fuera cierta.
2. Cálculo de los componentes individuales de x², es decir, cálculo de las divergencias
entre observadas y esperadas para cada casilla.
3. Suma de los valores obtenidos en el apartado anterior y obtención así, del valor
experimental de nuestro estadígrafo de contraste.
4. Determinación de los grados de libertad.
5. Obtención del valor crítico en la tabla de la distribución x² con los grados de libertad
correspondientes y decidir si el estadístico calculado en el paso 3º excede de este valor
crítico con p=0.05 o con p=0.01.
6. Conclusión. Hablar de que existe o no asociación entre ambas variables.
COEFICIENTE DE CONTINGENCIA
Para medir el grado de relación entre las variables se utiliza el denominado Coeficiente de
Contingencia (C).

ESTADÍSTICA

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ESTADÍSTICA

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

1º DOBLE GRADO DERECHO Y CRIMINOLOGÍA

La Estadística se ocupa de los métodos y procedimientos para recoger, clasiﬁcar, resumir,

Tenemos dos tipos de estadística:

4_ ¿CÓMO SE LLEVARÍA A CABO EL ESTUDIO?

5_ ETAPAS DEL ANÁLISIS ESTADÍSTICO

Encontramos dos tipos de muestreo:

Dentro de los probabilísticos encontramos, a su vez, distintos tipos de muestreo:

Frecuencia Absoluta (f): la suma de ellas es n.

7 _ DIAGRAMA DE BARRAS Y DIAGRAMA DE BARRAS ACUMULADO

DIAGRAMA DE BARRAS DIAGRAMA DE BARRAS ACUMULADO

1. Frecuencia= altura 2. Frecuencia no puede tomarse como altura

10 _ POLÍGONO DE FRECUENCIAS Y POLÍGONO DE FRECUENCIAS

POLÍGONO DE FRECUENCIAS POLÍGONO DE FRECUENCIAS ACUMULADO

La estadística descriptiva es un conjunto de métodos y técnicas por medio de las cuales

- Es única Cuando la variable presenta valores muy

2_ MEDIDAS DE DISPERSIÓN O VARIABILIDAD

RANGO O RECORRIDO (Re)

- Es la más sencilla de calcular - Sólo tiene en cuenta los valores

COEFICIENTE DE VARIACIÓN (CV)

CUANTILES (medida de posición)

RECORRIDO INTERCUARTÍLICO (RI)

Cuando una distribución de frecuencia es simétrica, la

En una distribución sesgada a la derecha, la moda es menor

En una distribución sesgada a la izquierda la relación se

● Si los datos están muy concentrados hacia la

Variable dependiente Variable independiente

Si la relación es directa la mayoría de los puntos aporta sumandos

Si la relación es inversa la mayoría de los puntos aporta sumandos

Si no hay relación se compensan los sumandos positivos y los

COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON (ρ)

Si las variables son independientes el coeﬁciente de correlación es cero. En cambio, si el

Yi es la i_ésima observación en la variable dependiente

xi es la i_ésima observación en la variable independiente

β0 es la ordenada en el origen o término independiente, es decir, la altura a la que la recta corta

β1 es la pendiente, inclinación de la recta o coeﬁciente de regresión, es decir, el incremento que

ɛi el error aleatorio no observable asociado con Y

Método de estimación Mínimos Cuadrados

Interpretación: si la banda de residuales es homogénea y estrecha , entonces el modelo

Un experimento aleatorio es aquel que al repetirlo en idénticas condiciones NO proporciona

La Estadística se encarga de estudiar experimentos aleatorios

SUCESO ELEMENTAL: cada uno de los resultados de un experimento aleatorio

La probabilidad asociada a un suceso es el límite al que tiende la frecuencia relativa

Es un valor comprendido entre 0 y 1 y la suma de las probabilidades es 1.

Ejemplo variable aleatoria discreta

DISTRIBUCIONES DE PROBABILIDAD CONTINUAS

La ESTIMACIÓN PUNTUAL de un determinado parámetro de una población, es el proceso que

La ESTIMACIÓN POR INTERVALOS consiste en la obtención de un intervalo dentro del cual

En los contrastes de hipótesis se realizarán hipótesis (aﬁrmaciones) sobre los parámetros

ESM (Error Estándar de la Media)

Ejemplo: El gerente de mercadotecnia de una compañía que suministra combustible para

TIPOS DE ERROR AL CONTRASTAR HIPÓTESIS

Error tipo I: rechazo indebido de Ho Error tipo II: aceptación indebida de la Ho

RIESGOS AL TOMAR DECISIONES

H1: Hipótesis alternativa

Contraste bilateral: cuando la región crítica está formada por dos

PROCEDIMIENTO A SEGUIR EN UN CONTRASTE DE HIPÓTESIS

Ejemplo 2: En función de la información disponible, la dirección de un centro penitenciario ha

Variable normal: medida de tendencia normal (media aritmética) contrastes paramétricos

Ejemplo: Un grupo de criminólogos ha desarrollado un test para predecir futuros