Conocimientos en Estadística

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

CONOCIMIENTOS EN ESTADÍSTICA

1.1. Agrupación de datos


Datos de doble entrada
Una tabla de doble entrada o cuadro de doble entrada, también denominadas de
contingencias, son tablas de datos que hacen referencia dos variables. En la cabecera
de las filas establecemos las categorías o valores variables mientras que en la columna
principal se añaden las otras variables. En la confluencia entre la primera fila y la
primera columna encontramos los datos que corresponden a ambas variables.
Una tabla de doble entrada nos ofrece información estadística de dos eventos
relacionados entre si para contrastar los diferentes valores que obtenemos. Se llaman
cuadros o tablas de doble entrada porque organiza los temas en dos direcciones hacia
donde debemos llevar la mirada para saber que es, que hacer o qué valor representa.
Los cuadros de doble entrada nos permiten organizar la información en columnas
horizontales y verticales concentrado en un mismo lugar toda la información obtenida a
partir de una lectura.
1.2. Distribución de frecuencias
Agrupación de datos en clases mutuamente excluyentes, que muestra el número de
observaciones que hay en cada clase.
Paso 1: Defina el número de clases. El objetivo consiste en emplear suficientes
agrupamientos o clases, de manera tal que se perciba la forma de la distribución. Aquí
se necesita criterio. Una gran cantidad de clases o muy pocas podrían no permitir ver la
conformación fundamental del conjunto de datos. La fórmula para determinar el número
de clases es:
log n
k=
log 2
Paso 2: Determine el intervalo o ancho de clase. El intervalo o ancho de clase debería
ser el mismo para todas las clases. Todas las clases juntas deben cubrir por lo menos
la distancia del valor más bajo al más alto de los datos. Expresado esto en una fórmula
sería:
valor máximo−valor mínimo
I=
k
Paso 3: Establezca los límites de cada clase. Este paso es importante para que sea
posible incluir cada observación en una sola categoría. Esto significa que debe evitar la
superposición de límites de clase confusos.
Paso 4: Cuente el número de elementos de cada clase. El número de elementos que
hay en cada clase recibe el nombre de frecuencia de clase.
En ocasión quizá resulte conveniente convertir frecuencias de clase en frecuencias
relativas de clase, igual que con los datos cualitativos, con el fin de mostrar la fracción
del total de observaciones que hay en cada clase.
Frecuencia de clase
Frecuencia relativa=
n
Con frecuencia aparecerán otros dos términos: punto medio de clase e intervalo de
clase. El punto medio, que se encuentra entre los límites inferiores de dos clases
consecutivas, se calcula sumando los límites inferiores de clases y dividiendo el
resultado entre dos. Para determinar el intervalo de clase, se resta el límite inferior de la
clase del límite inferior de la clase anterior.
límite inferior+límite inferior clase consecuente
Punto medio=
2
Intervalo de clase=límite inferior−límite inferior anterior

2.1. Medidas de tendencia central


Tendencia central La tendencia central se refiere al punto medio de una distribución.
Las medidas de tendencia central se conocen también como medidas de posición.
Dispersión La dispersión se refiere a la separación de los datos en una distribución, es
decir, al grado en que las observaciones se separan.
Media aritmética para datos no agrupados
Población

μ=
∑X
N
Muestra

x́=
∑x
n
Media aritmética para datos agrupados:

x́=
∑ ( frecuencia × punto medio )
n
La media aritmética, como un solo número que representa a un conjunto de datos
completo, tiene importantes ventajas. Primero, se trata de un concepto familiar para la
mayoría de las personas y es intuitivamente claro. Segundo, cada conjunto de datos
tiene una media; es una medida que puede calcularse y es única debido a que cada
conjunto de datos posee una y sólo una media. Por último, la media es útil para llevar a
cabo procedimientos estadísticos como la comparación de medias de varios conjuntos
de datos.
La moda es una medida de tendencia central diferente de la media, pero un tanto
parecida a la mediana, pues en realidad no se calcula mediante algún proceso
aritmético ordinario. La moda es el valor que más se repite en el conjunto de datos.
Cuando los datos ya se encuentran agrupados en una distribución de frecuencias,
podemos suponer que la moda está localizada en la clase que contiene el mayor
número de elementos, es decir, en la clase que tiene la mayor frecuencia.

d1
Mo=LMo + ( )
d 1+ d 2
ω

Donde L Mo es el límite inferior de la clase modal, d 1 frecuencia de la clase modal menos


la frecuencia de la clase que se encuentra anterior que ella, d 2 es la frecuencia de la
clase modal menos la frecuencia de la clase siguiente, ω es el ancho del intervalo
modal.
La moda, igual que la mediana, se puede utilizar como una posición central para datos
tanto cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que
podemos clasificar como “muy nítida”, “nítida”, “nítida”, “nítida” y “borrosa”, entonces el
valor modal es “nítida”. De manera análoga, podemos hablar de estilos modales
cuando, por ejemplo, los clientes de una mueblería prefieren muebles tipo “colonial”
sobre cualquier otro estilo.
También, al igual que la mediana, los valores extremos no afectan indebidamente a la
moda. Aun cuando los valores extremos sean muy altos o muy bajos, escogemos el
valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la
moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto
de datos e independientemente de cuál sea su dispersión.
La mediana es un solo valor del conjunto de datos que mide la observación central del
conjunto. Esta sola observación es el elemento que está más al centro del conjunto de
números. La mitad de los elementos están por arriba de este punto y la otra mitad está
por debajo.
Mediana para datos no agrupados
Para hallar la mediana de un conjunto de datos, primero se organizan en orden
descendente o ascendente. Si el conjunto de datos contiene un número impar de
elementos, el de en medio en el arreglo es la mediana; si hay un número par de
observaciones, la mediana es el promedio de los dos elementos de en medio.

Mediana= ( n+12 )
Mediana para datos agrupados
2.2. Medidas de dispersión.
El rango es la diferencia entre el más alto y el más pequeño de los valores observados.
En forma de ecuación, podemos decir:
Rango=valor de la observación más grande−valor de la observación más pequeña

Para calcular la varianza de una población, la suma de los cuadrados de las distancias
entre la media y cada elemento de la población se divide entre el número total de
observaciones en población. Al elevar al cuadrado cada distancia, logramos que todos
los números sean positivos y, al mismo tiempo, asignamos más peso a las desviaciones
más grandes (desviación es la distancia entre la media y un valor).
Varianza de la población

2 ∑ ( x−μ )2
σ =
N
La desviación estándar de la población es simplemente la raíz cuadrada de la varianza
de la población. Como la varianza es el promedio de los cuadrados de las distancias de
las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio
de los cuadrados de las distancias entre las observaciones y la media

∑ ( x−μ )2
σ=
√ N

Varianza de una muestra

2 ∑ ( x−x́ )2
s=
n−1

Desviación de la muestra

∑ ( x−μ )2
s=
√ N
Varianza y desviación para datos agrupados
La simetría de una distribución de frecuencias hace referencia al grado en que valores
de la variable, equidistantes a un valor que se considere centro de la distribución,
poseen frecuencias similares. Media y mediana coinciden en las distribuciones
simétricas. Si sólo hay una moda (distribución unimodal), el valor de ésta también será
igual a las dos anteriores. En distribuciones unimodales, el nivel de simetría se suele
describir de acuerdo a tres grandes categorías: distribuciones simétricas, distribuciones
asimétricas positivas (o sesgada a la derecha) y distribuciones asimétricas negativas (o
sesgada a la izquierda).
Coeficiente de asimetría de Pearson
x́−Moda
As=
s
Los valores menores que 0 indican asimetría negativa; los mayores, asimetría positiva y
cuando sea cero, o muy próximo a cero, simétrica.
Coeficiente de asimetría de Fisher: se basa en las desviaciones de los valores
observados respecto a la media. La interpretación de los resultados proporcionados por
este coeficiente es igual al primer coeficiente de Pearson.
∑ ( x−x́ )3
As=
n s3
Para datos agrupados

∑ ( punto medio−x́ )3 × f recuencia


As=
n s3
El apuntamiento o curtosis de una distribución de frecuencias no tiene un referente
natural como en el caso de la simetría, sino que se sustenta en la comparación
respecto a una distribución de referencia, en concreto, la distribución normal o campana
de Gauss. Expresa el grado en que una distribución acumula casos en sus colas en
comparación con los casos acumulados en las colas de una distribución normal cuya
dispersión sea equivalente.

∑ ( x− x́ )4
K= −3
n s4
Para datos agrupados

K=
∑ ( punto medio−x́ )4 × f recuencia −3
n s4
El valor de este coeficiente para la distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga un valor de K igual o próximo a 0
significará que su nivel de apuntamiento es como el de la distribución normal
(mesocúrtica). Valores mayores que 0, expresan que la distribución es leptocúrtica,
mientras que si son menores que 0 ponen de manifiesto que la distribución es
platicúrtica.

También podría gustarte