Resumen Parcial Prob - Estadisc
Resumen Parcial Prob - Estadisc
Resumen Parcial Prob - Estadisc
Inferencia estadística
Es el proceso de utilizar datos de una muestra para hacer generalizaciones o
estimaciones sobre una población. Involucra el uso de probabilidades para inferir
características de la población. Un ejemplo de esto : Estimar la media de estatura de
todos los estudiantes de una universidad basándose en una muestra de 100
estudiantes.
Teoría de decisión
Es una rama de la estadística que se enfoca en el proceso de tomar decisiones
óptimas bajo condiciones de incertidumbre. Involucra la evaluación de diferentes
alternativas y la elección de la mejor opción basándose en criterios predefinidos.
Un ejemplo de esto sería : Decidir cuánto inventario mantener en una tienda para
maximizar las ganancias y minimizar el riesgo de quedarse sin stock.
Población
Es el conjunto total de individuos u objetos de interés sobre los que se desea
obtener información.( Todos los estudiantes de una universidad).
1
Etapas de la recopilación de datos
1-Definición del problema y objetivos: Clarificar qué se quiere estudiar y por qué.
2-Diseño del estudio: Planificar cómo se recolectarán los datos (tipo de estudio,
métodos de muestreo, etc.).
3-Recolección de datos: Obtener los datos mediante encuestas, experimentos,
observación, etc.
4-Análisis de datos: Procesar y analizar los datos recolectados utilizando métodos
estadísticos.
5-Interpretación y presentación de resultados: Extraer conclusiones y comunicar
los hallazgos de manera comprensible.
Muestra aleatoria
Es una muestra obtenida de tal manera que cada miembro de la población tiene una
probabilidad conocida y no nula de ser seleccionado. Esto garantiza que la muestra
sea representativa de la población.
Un ejemplo de esto sería: Seleccionar al azar a 50 empleados de una empresa para
participar en una encuesta sobre satisfacción laboral.
Parámetros aleatorios
Son valores numéricos que resumen datos para una población completa, pero cuya
estimación se basa en una muestra. En el contexto de inferencia estadística, los
parámetros pueden ser variables aleatorias.
Un ejemplo de esto sería : La media de la altura de toda la población de una ciudad
es un parámetro, y su estimación a partir de una muestra de 200 personas es una
estimación puntual de ese parámetro.
Enfoque clásico
También conocido como enfoque frecuentista, este enfoque de la probabilidad y la
estadística se basa en la frecuencia o proporción de ocurrencia de eventos. Se
enfoca en la recolección de datos y su análisis sin tener en cuenta conocimientos
previos.
Un ejemplo de esto sería : Estimar la probabilidad de sacar un número par al lanzar
un dado basándose en la proporción de veces que se obtiene un número par en
muchos lanzamientos.
Enfoque Bayesiano.
Este enfoque de la probabilidad y la estadística incorpora información previa (a
priori) junto con la evidencia de los datos (a posteriori) para actualizar las
probabilidades y hacer inferencias.
2
DESCRIPCIÓN DE DATOS
Frecuencia de clase
Es el número de observaciones en un conjunto de datos que caen dentro de un
intervalo específico o clase. Un ejemplo de esto: Si en un grupo de edades 0-10,
hay 15 personas, la frecuencia de clase para el intervalo 0-10 es 15.
Frecuencia relativa
Es la proporción o fracción del número total de observaciones que caen dentro de
una clase específica. Se calcula dividiendo la frecuencia de clase entre el total de
observaciones.
Punto medio
Es el valor central de un intervalo de clase. Se calcula sumando el límite inferior y el
límite superior del intervalo y dividiéndolo por dos. Un ejemplo sería: Para el
intervalo de edades 0-10, el punto medio 5.
Límites
Son los valores que delimitan los intervalos de clase. Hay dos tipos: límites
inferiores y límites superiores.
Histograma
Es una representación gráfica de la distribución de datos agrupados en intervalos.
Se parece a un gráfico de barras, pero las barras están unidas, y cada barra
representa la frecuencia de un intervalo.
3
Histograma de frecuencia relativa
Es similar a un histograma, pero las alturas de las barras representan la frecuencia
relativa de cada intervalo en lugar de la frecuencia absoluta.
Por Ejemplo: Si tus calificaciones en cinco exámenes son 80, 85, 90, 95 y 100, la
media aritmética es 450/5=90. Esto significa que tu calificación promedio es 90.
Media Geométrica: Es una forma de calcular el promedio que se usa cuando los
números están multiplicativamente relacionados, como en tasas de crecimiento.
Por Ejemplo: Si una inversión crece un 10% el primer año (1.10), decrece un 20% el
segundo año (0.80) y crece un 30% el tercer año (1.30), la media geométrica se
calcula como (1.10×0.80×1.30)= 1.144 a la raíz cúbica= 1.05.
Por ejemplo: si los valores son 2,3 y 5 con pesos de 1,2 y 3 respectivamente, la
media ponderada se calculadora con (2*1+3*2+5*3) / 1+2+3 =23/6 = 3.8
Mediana
Es el valor que divide un conjunto de datos ordenados en dos partes iguales. Si el
número de observaciones es impar, es el valor central. Si es par, es el promedio de
los dos valores centrales.
Por ejemplo: Para los números 1,3,3,6,7,8,9 la mediana es 6. Para los números
1,2,3,4,5,6 la mediana es 3+4/2= 3.5
Moda
Es el valor que más se repite en un conjunto de datos. Puede haber más de una
moda si varios valores tienen la misma frecuencia máxima, o puede no haber moda
si todos los valores son diferentes.
Por ejemplo:
4
más de una moda:1, 2, 2, 2, 3, 4, 4, 4, 5, 6 en este conjunto las modas son 2 y 4,
son los que más se repiten.
MEDIDAS DE DISPERSIÓN
Varianza
La varianza mide cuánta variabilidad hay en un conjunto de datos. Indica qué tan
lejos están los valores de la media (promedio). Cuanto mayor es la varianza, más
dispersos están los datos.
Desviación Estándar
Es una medida que indica cuánto se alejan, en promedio, los valores de un conjunto
de datos de la media. Es la raíz cuadrada de la varianza y se expresa en las mismas
unidades que los datos originales.
Desviación Media
Es el promedio de las diferencias absolutas entre cada valor y la media del conjunto
de datos. A diferencia de la varianza y la desviación estándar, se calcula usando
valores absolutos para evitar que las diferencias positivas y negativas se cancelen
entre sí.
Ejemplo: Si tienes un grupo de amigos y todos tienen edades cercanas, como 20,
21, 22 años, la desviación media será baja. Pero si las edades varían entre 18 y 29
años, la desviación media será más alta, indicando una mayor dispersión en las
edades.
Desviación Mediana
5
Ejemplo:Si estás midiendo el tiempo que tardan las personas en llegar al trabajo y
la mayoría tarda entre 20 y 30 minutos, la desviación mediana será baja. Pero si
algunos tardan 10 minutos y otros 50 minutos, la desviación mediana será más alta,
reflejando la variabilidad en los tiempos de viaje.
Rango
Ejemplo:Si estás organizando una fiesta y los invitados tienen edades entre 5 y 50
años, el rango de edades es 50 - 5 = 45 años. Esto muestra la amplitud de las
edades de los invitados.
Imagina que trabajas en una empresa y has agrupado los salarios mensuales de
los empleados en intervalos:
Luego, multiplicas cada punto medio por la frecuencia correspondiente y sumas los
resultados:
● $1500 * 5 = $7500
● $2500 * 10 = $25000
● $3500 * 15 = $52500
● $4500 * 5 = $22500
6
Mide la dispersión de los datos alrededor de la media en un conjunto de datos
agrupados. Para calcularla, se utiliza el punto medio de cada intervalo, la frecuencia
de cada clase y la media del conjunto de datos.
DISTRIBUCIÓN DE FRECUENCIAS
Distribuciones Numéricas
Supongamos que registramos las edades de los asistentes a una conferencia. Las
edades son: 25, 32, 29, 35, 31, 40, 28, 33. La distribución numérica de estas edades
muestra cuántas veces aparece cada edad.
Distribuciones Categóricas
7
Distribuciones Acumuladas
Usando el ejemplo de las edades de los asistentes a la conferencia (25, 32, 29, 35,
31, 40, 28, 33), si las agrupamos en intervalos:
● 20-25: 1 persona
● 26-30: 3 personas
● 31-35: 3 personas
● 36-40: 1 persona
● 20-25: 1
● 26-30: 1 + 3 = 4
● 31-35: 4 + 3 = 7
● 36-40: 7 + 1 = 8
Distribuciones Porcentuales
● "A": 20%
● "B": 20% + 40% = 60%
● "C": 60% + 30% = 90%
● "D": 90% + 10% = 100%
8
La distribución porcentual acumulada muestra el porcentaje acumulado de
estudiantes que obtuvieron calificaciones de "A", "B", "C" y "D".
Límites de Clase
Son los valores que marcan el inicio y el final de cada intervalo en una distribución
de datos agrupados. Se dividen en límites inferiores y superiores.
Rango de Clase
Fronteras de Clase
Son los puntos que marcan las divisiones exactas entre clases adyacentes. Se
calculan promediando los límites superiores de una clase y los límites inferiores de
la clase siguiente.
Marca de Clase
Intervalo de Clase
Ejemplo: Si los intervalos de edades son de 9 años (por ejemplo, 0-9, 10-19,
20-29), entonces el intervalo de clase es 10.
9
Diagrama de Tallos y Hojas
Es una técnica de agrupación de datos que organiza datos numéricos en tallos (los
primeros dígitos) y hojas (los últimos dígitos). Es útil para mostrar la distribución de
datos y sus formas.
Ejemplo: Si tienes las calificaciones de un examen: 75, 78, 82, 84, 90, 91, puedes
organizar un diagrama de tallos y hojas así:
7 | 5, 8
8 | 2, 4
9 | 0, 1
Esto significa que hay calificaciones en los 70s (75, 78), en los 80s (82, 84) y en los
90s (90, 91).
Diagrama de Pareto
Ejemplo: Si estás analizando las quejas de clientes en una tienda y las causas son:
"Producto defectuoso", "Entrega tardía", "Atención al cliente", y "Otros", con
frecuencias de 40, 30, 20 y 10 respectivamente, el diagrama de Pareto mostrará las
barras en orden de frecuencia (de mayor a menor), con "Producto defectuoso"
primero.
10
Diagrama de Puntos
Es una representación gráfica donde cada dato se representa como un punto sobre
una línea. Se usa para mostrar la distribución de datos numéricos y es útil para
identificar patrones o clusters.
Ejemplo: Si registras las alturas de estudiantes: 160, 165, 170, 170, 175, 180,
puedes hacer un diagrama de puntos en una línea horizontal, colocando un punto
en cada altura registrada. Si hay alturas repetidas, colocas puntos adicionales
encima de los primeros:
* * * * *
HISTOGRAMAS
Diagrama de Barras
Rojo | ██████████
11
Azul | ███████████████
Verde | █████
Amarillo | ████████
Polígono de Frecuencias
Es una línea que conecta los puntos centrales de las partes superiores de las barras
de un histograma. Se utiliza para mostrar la forma de la distribución de un conjunto
de datos.
Edad Frecuencia
10-19 5
20-29 15
30-39 20
40-49 10
Ojivas
10-19 5 5
20-29 15 20
30-39 20 40
40-49 10 50
12
Gráficas Circulares: También conocidas como gráficos de pastel, son diagramas
en los que cada sector representa una parte proporcional del total de una categoría
o grupo. Se utilizan para mostrar proporciones relativas de un conjunto de datos.
Ejemplo: Si tienes un presupuesto y lo divides en categorías como alimentación
(30%), transporte (20%), entretenimiento (10%), y ahorros (40%), puedes
representar estos datos en una gráfica circular:
13
Distribución Muestral de Proporción: Es la distribución de las proporciones de
éxito de todas las posibles muestras de un tamaño específico extraídas de una
población. Se utiliza para inferir sobre la proporción poblacional.
14
15