Actividad 1 T1 Resumen Unidad 1 Probabilidad y Estadística
Actividad 1 T1 Resumen Unidad 1 Probabilidad y Estadística
Actividad 1 T1 Resumen Unidad 1 Probabilidad y Estadística
PROBABILIDAD Y ESTADISTICA
RESUMEN
UNIDAD 1
Notación sumatoria
Una operación muy común en la estadística es la suma de un grupo de valores, la
que se representa formalmente con el símbolo (sigma) Cada uno de los valores que
se habrán de sumar con xi , i es un subíndice que identifica a x1. x2. …… xn, de tal
manera que
Población y muestra aleatoria.
La población es el conjunto formado por el total de elementos en estudio por el cual
existe un interés y es elegida por el investigador, ésta puede ser finita o infinita, la
finita es aquella en la cual se conocen todos sus elementos. Por ejemplo: los
alumnos que egresaron en una escuela en un año determinado, y la infinita es
aquella en la que no se conocen todos los elementos bajo estudio. Por ejemplo el
n°. de estudiantes que egresaran de una escuela durante su funcionamiento.
La muestra aleatoria es la selección de un conjunto de individuos representativos
de la totalidad del universo objeto de estudio reunidos como una representación
válida y de interés para la investigación de su comportamiento. Así resulta más
económico y práctico estudiar los elementos de una muestra que sea representativa
de la población, que toda la población, puesto que se tiene un ahorro de tiempo y
dinero.
Clasificación y campo de aplicación de la estadística
3. estadística inferencial
Es la que incluye el análisis e interpretación de los datos que son extraídos de un
grupo mayor, además saca conclusiones de su comportamiento. Por ejemplo: con
base en las estadísticas de inflación registradas en los últimos meses en México se
espera que para el próximo mes de noviembre se vuelva a tener una inflación de un
solo dígito.
Recopilación, organización y representación de datos estadísticos
Recopilación; se refiere a la forma en cómo son obtenidos los datos que servirán
para analizar el problema y pueden ser de dos tipos:
A. Internos: Son aquellos que se localizan dentro de la empresa como son:
sueldos, compras, ventas, estados financieros, contratación de personal,
promociones, etc.
B. Externos. Son aquellos que se localizan fuera de la empresa, y pueden ser
obtenidos por dos fuentes:
1) Primarias: Son los datos que son obtenidos directamente por el investigador,
por medios de: cuestionarios, llamadas telefónicas y observación directa.
2) Secundarias.: Son aquellos datos que fueron obtenidos por otras personas
con anterioridad, y que ya están registrados, por ejemplo: departamentos de
estadística, revistas, bibliotecas, bancos de información.
Organización. En esta etapa los datos que son obtenidos de fuentes primarias son
organizados de acuerdo con ciertas características o cualidades, por ejemplo: sexo,
peso, ingresos, edad, costos altura, religión, nacionalidad, resistencia, producción,
utilidades rendimientos, etc.
Presentación. Después de la organización y tomando en cuenta las características
de los datos se presentan de tres maneras (las más comunes).
a) Mediante enunciados: numerando cada uno de los datos. se recomienda
cuando son pocos datos.
b) Tablas de frecuencia o cuadros estadísticos: son útiles para representar
información con una gran cantidad de datos.
c) Graficas estadísticas: es un medio plástico para representar la información,
son útiles porque permiten captar información en periodos cortos de tiempo,
su inconveniente es que los valores son aproximados y varían de persona a
persona.
La estadística descriptiva, usa los métodos usados para describir conjuntos de
datos se pueden clasificar en dos tipos:
Métodos gráficos.
Métodos numéricos.
Los métodos gráficos: permiten la comparación objetiva de las clases o grupos y
a la vez muestran rápidamente el avance o retroceso de una clase respecto a otras.
Las gráficas más comunes son el histograma, polígono de frecuencia y
circulograma.
Los métodos numéricos: son utilizados cuando los métodos gráficos están
limitados debido al tipo de datos y observaciones de la población o muestra que se
esté analizando, están clasificados en:
Medidas de tendencia central o centralización.
Medidas de posición.
Medidas de dispersión o variabilidad.
Medidas de forma.
Datos no agrupados, medidas de tendencia central y medidas de posición
Datos no agrupados.
Los datos no agrupados es un conjunto de información numérica sin ningún orden
que nos establece una relación clara con lo que se pretende desarrollar a lo largo
de un problema.
Medidas de tendencia central o medidas de centralización (datos no
agrupados).
Son diferentes métodos para localizar el dato central de un conjunto de datos. El
dato alrededor del cual giran todos los demás. Las medidas de centralización más
utilizadas son la medida o promedio, mediana y moda.
Indican valores con respecto a los que los datos parecen agruparse: media,
mediana, moda, media geométrica y media armónica.
1. Media o promedio: para datos no agrupados es igual a la sumatoria de las
observaciones o datos divididos entre n (total de datos).
para calcular la media o promedio poblacional se calcula de igual forma que la media
muestral
Si se tienen una serie de valores, se localiza mediante las siguientes fórmulas: x1,
x2, x3,........, xn.
Deciles
Si se tienen una serie de valores, se localiza mediante las siguientes fórmulas: X1,
X2, X3,…….Xn .
a. cuando n es par:
b. cuando n es impar:
Percentiles o centiles
Si se tienen una serie de valores , se localiza mediante las siguientes fórmulas:
X1 ,X2 ,X3,........, Xn
Para los percentiles:
Datos agrupados
Datos agrupados.
Son aquellos que están organizados en forma de grupos o clases.
Tabla de frecuencia
1. frecuencia: son las veces que se repite un dato característico, se representa
por la letra. f
2. frecuencia relativa: es la razón de la frecuencia individual de cada grupo o clase
entre el total de frecuencia multiplicada por cien para que esté expresada en
porcentaje, esto es: fr
Agrupamiento de datos:
Para la construcción de una distribución de frecuencia se recomienda:
a) determinar el número de grupos que se van a usar en la construcción de la tabla
de frecuencia. De manera conveniente seleccionar entre 5 a 20 grupos dependiendo
del número de datos u observaciones que se estén utilizando o de otra forma
calcular el número de grupos por la regla de sturgges: n = 1 + 3.3 log(n).
b) determinar el tamaño de los intervalos de clase: para encontrar la amplitud o
tamaño de cada grupo se utiliza.
Moda
Medidas de posición (datos agrupados):
Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos: cuartiles, deciles, percentiles,...
Son índices diseñados para revelar la situación de una puntuación con respecto a
un grupo, utilizando a este como marco de referencia.
Las medidas de posición dividen la distribución en partes iguales, sirven para
clasificar a un individuo o elemento dentro de una determinada población o muestra.
Cuando la fracción es la mitad, se trata de la mediana.
Cuartiles: dividen a la distribución en 4 partes iguales. El primer cuartil deja el 25%
de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero deja
el 75%. i Q 3 Q
Los cuartiles se denotan (Qi) y se calculan:
Deciles: dividen a la distribución en 10 partes iguales. El primer decil deja el 10%
de los valores por debajo y el resto por encima. El quinto decil es la mediana. 1 D
5D
Los deciles se denotan (Di) y se calculan:
Percentiles: dividen a la distribución en 100 partes iguales del total. Así, el percentil
24 deja el 24% de los valores por debajo. El percentil 50 es la mediana o el quinto
decil.
Los percentiles se denotan (pi) y se calculan:
Medidas de dispersión o variabilidad (datos agrupados)
Son índices que establecen el grado en que se parecen o se diferencian entre si un
conjunto de datos.
¿Por qué estudiar la dispersión? es posible evaluar la confiabilidad promedio que
se está utilizando. Si los valores se concentran en torno a la media, esta última se
considera representativa de los datos. Por el contrario, una dispersión grande indica
que la media no es confiable.
Medidas que calculan la dispersión
Rango muestral: es la diferencia entre la observación más grande y la menor. Por
ejemplo: el valor más pequeño de colesterol total es 3.8 y el más alto es 8.8.
Por lo tanto el rango muestral: rem=x máximo -x mínimo rem= 8.8- 3.8= 5
Amplitud total o rango: el rango es la medida de dispersión más sencilla. Es la
diferencia entre el valor más alto y el más bajo de un conjunto de datos.
Rango= valor más alto -valor más bajo
Por ejemplo
Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:
A: 6, 6, 6, 6, 6, 6
B: 5, 6, 7, 8, 7,3
C: 2, 3, 4, 7, 9, 11
Los tres grupos poseen la misma media aritmética, pero mientras en el curso a no
hay variaciones, en el curso b (rango=5) y c (rango=9) ha mostrado importantes
variaciones, siendo este último el de mayor variabilidad.
Desviación media absoluta (D.M.A)
Es la suma de los desvíos de todos los valores con respecto a la media aritmética,
en valores absolutos y promediados. Se calcula:
Varianza (S2): es el promedio de las desviaciones cuadráticas con respecto a la
media. Es un índice basado en la idea de que, al elevar al cuadrado las distancias
con respecto a la media antes de hallar su promedio, no suman cero. Además los
cuadrados son siempre positivos.
Histograma
Ojivas
Polígono de frecuencias