Definición de Estadística

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 30

DEFINICIÓN DE ESTADÍSTICA

El termino estadística proviene del latín statisticum collegium(“consejo de Estado”) y de su


derivado italiano statista (“hombre de Estado o político”). En 1749, el alemán Gottfried
Achenwall comenzó a utilizar la palabra alemana statistik para designar el análisis de datos
estatales. Por lo tanto, los orígenes de la estadística están relacionados con el gobierno y sus
cuerpos administrativos.

¿Qué es la estadística descriptiva?

Publicado el 5 de Octubre 2016 a las 12:15 PM

La estadística emplea métodos descriptivos y de inferencia estadística. Los primeros se ocupan de


la recolección, organización, tabulación, presentación y reducción de la información.

En el caso de la estadística descriptiva se sustituye o reduce el conjunto de datos obtenidos por un


pequeño número de valores descriptivos, como pueden ser: el promedio, la mediana, la media
geométrica, la varianza, la desviación típica, etc. Estas medidas descriptivas pueden ayudar a
brindar las principales propiedades de los datos observados, así como las características clave de
los fenómenos bajo investigación.

Estadística inferencial

La estadística inferencial es una parte de la estadística que comprende los métodos y


procedimientos que por medio de la inducción determina propiedades de una población
estadística, a partir de una parte de esta. Su objetivo es obtener conclusiones útiles para hacer
deducciones sobre una totalidad, basándose en la información numérica de la muestra.

Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en


cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones
en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas
características numéricas (estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables de Sam (análisis de
regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y
minería de datos.

Muestra estadística
Ir a la navegaciónIr a la búsqueda
En estadística, una muestra es un subconjunto de casos o individuos de una población. En
diversas aplicaciones interesa que una muestra sea una muestra representativa y para ello
debe escogerse una técnica de muestra adecuada que produzca una muestra aleatoria
adecuada ( se obtiene una muestra sesgada cuyo interés y utilidad es más limitado
dependiendo del grado de sesgo que presente).
Como un subgrupo o subconjunto representativo de la población, extraída seleccionada por
algún método de muestreo. La muestra siempre es una parte de la población. Si se tienen
varias poblaciones, entonces se tendrán varias muestras. La muestra debe poseer toda la
información deseada para tener la posibilidad de extraerla, esto solo se puede lograr con una
buena selección de la muestra y un trabajo muy cuidadoso y de alta calidad en la recogida de
datos.

Muestra estadística
Ir a la navegaciónIr a la búsqueda
En estadística, una muestra es un subconjunto de casos o individuos de una población. En
diversas aplicaciones interesa que una muestra sea una muestra representativa y para ello
debe escogerse una técnica de muestra adecuada que produzca una muestra aleatoria
adecuada ( se obtiene una muestra sesgada cuyo interés y utilidad es más limitado
dependiendo del grado de sesgo que presente).
Como un subgrupo o subconjunto representativo de la población, extraída seleccionada por
algún método de muestreo. La muestra siempre es una parte de la población. Si se tienen
varias poblaciones, entonces se tendrán varias muestras. La muestra debe poseer toda la
información deseada para tener la posibilidad de extraerla, esto solo se puede lograr con una
buena selección de la muestra y un trabajo muy cuidadoso y de alta calidad en la recogida de
datos.

Parámetro estadístico
La media aritmética como resumen de la vejez de un país.

En estadística, un parámetro es un número que resume la gran cantidad de datos que


pueden derivarse del estudio de una variable estadística.1 El cálculo de este número está bien
definido, usualmente mediante una fórmula aritméticaobtenida a partir de datos de la
población.23
Los parámetros estadísticos son una consecuencia inevitable del propósito esencial de la
estadística: crear un modelo de la realidad.4
El estudio de una gran cantidad de datos individuales de una población puede ser farragoso e
inoperativo, por lo que se hace necesario realizar un resumen que permita tener una idea
global de la población, compararla con otras, comprobar su ajuste a un modelo ideal,
realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones.
A estas tareas contribuyen de modo esencial los parámetros estadísticos.
Por ejemplo, suele ofrecerse como resumen de la juventud de una población la media
aritmética de las edades de sus miembros, esto es, la suma de todas ellas, dividida por el total
de individuos que componen tal población.
Población estadística[editar]
En estadística una población es un conjunto de sujetos, individuos, elementos o eventos con
determinadas características. A menudo se obtiene una muestra de dicha población, es decir
un subconjunto representativo. Luego de realizar un análisis estadístico a la muestra, los
resultados se extrapolan al resto de la población (inferencia estadística). La estadística es
comúnmente considerada como una colección de hechos numéricos expresados en términos
de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos. Kendall y
Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística como un
valor resumido, calculado, como base en una muestra de observaciones que generalmente,
aunque no por necesidad, se considera como una estimación de parámetro de determinada
población; es decir, una función de valores de muestra.1

¿Qué es estadístico o
estadígrafo?
El pensanteAdministración, economía y afines

Dentro de las distintas disciplinas matemáticas, se conoce con el


nombre de Estadística a aquella que se enfoca en el ejercicio de
recolectar datos, con el objetivo primordial de analizarlos y poder
sacar conclusiones, basados en sus características y
comportamientos. De esta forma, sus funciones básicas será la toma
de la muestra, su organización, presentación y análisis, proceso éste
que llevará a tomar conclusiones sobre los datos iniciales.

La mediana en estadística
Estadística y probabilidad

En estadística se denomina mediana al dato que se encuentran en el lugar central de una


muestra de números. Podemos obtener la mediana utilizando la calculadora de la
mediana de manera online. Podremos hallar la mediana para variables
únicamente cuantitativas.

¿Qué es la mediana en estadística?


Se denomina mediana en estadística al valor que se encuentra en el lugar central de
todos los datos de un estudio cuando éstos están ordenados de menor a mayor. El símbolo
de la mediana se representa por Me. La mediana es por tanto el número central de un
grupo de números ordenados por su tamaño.

Cómo hallar la mediana en estadística


Para hallar la mediana en estadística, se ordenan los números de una muestra según su
valor y se determina el que queda en el medio. Si la cantidad de términos es impar, la
mediana es el valor central. Si la cantidad de términos es par, suma los dos términos del
medio y divide entre 2.

Ejemplos de mediana
o Tenemos un grupo de datos: 8,5,2,3,6,
o Los ordenamos: 2,3,5,6,8
o Determinamos el número central: 2,3,5,6,8. La mediana estadística es: 5

En el caso de encontrar un resultado par, hallaríamos la mediana de la siguiente forma:

2,3, 4,6,8,9=> 4+6= 10=> 10/2 = 5. La mediana es 5.

Moda (estadística)
Para otros usos de este término, véase Moda (desambiguación).
La moda se conoce como el dígito o individuo que más se repite.
En estadística, la moda es el valor con mayor frecuencia en una distribución de datos.
Se hablará de una distribución bimodal de los datos adquiridos en una columna cuando
encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta
máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. En el
caso de la distribución uniforme discreta, cuando todos los datos tienen la misma frecuencia,
se puede definir las modas como indicado, pero estos valores no tienen utilidad. Por eso
algunos matemáticos califican esta distribución como «sin moda».
El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos
agrupados antes de definir la moda, se ha de definir el intervalo modal.
La moda, cuando los datos están agrupados, es un punto que divide al intervalo modal en dos
partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al intervalo modal.
Varianza
La varianza es una medida de dispersión que representa la variabilidad de una
serie de datos respecto a su media. Formalmente se calcula como la suma de las
residuos al cuadrado divididos entre el total de observaciones.

También se puede calcular como la desviación típica al cuadrado. Dicho sea de paso,
entendemos como residuo a la diferencia entre el valor de una variable en un momento
y el valor medio de toda la variable.

Fórmula para calcular la varianza


La unidad de medida de la varianza será siempre la unidad de medida correspondiente a
los datos pero elevada al cuadrado. La varianza siempre es mayor o igual que cero. Al
elevarse los residuos al cuadrado es matemáticamente imposible que la varianza salga
negativa. Y de esa forma no puede ser menor que cero.

O lo que es lo mismo:

¿Por qué se elevan al cuadrado los residuos?


La razón por la que los residuos se elevan al cuadrado se sencilla. Si no se elevasen al
cuadrado, la suma de residuos sería cero. Es una propiedad de los residuos. Así pues
para evitarlo, tal como ocurre con la desviación típica se elevan al cuadrado. El
resultado es la unidad de medida en la que se miden los datos pero elevada al cuadrado.
Por ejemplo, si tuviésemos datos sobre los salarios de un conjunto de personas en euros,
el dato que arroja la varianza sería en euros cuadrados. Para que tenga sentido la
interpretación calcularíamos la desviación típica y pasaríamos el dato a euros.
1. Desviación -> (2-3) = -1
2. Desviación -> (4-3) = 1
3. Desviación -> (2-3) = -1
4. Desviación -> (4-3) = 1
5. Desviación -> (2-3) = -1
6. Desviación -> (4-3) = 1

Si sumamos todas las desviaciones el resultado es cero.

¿Qué diferencia existe entre la varianza y la


desviación típica?
Una cuestión que se podría plantear, y con razón, sería la diferencia entre varianza y
desviación típica. En realidad, vienen a medir lo mismo. La varianza es la desviación
típica elevada al cuadrado. O al revés, la desviación típica es la raíz cuadrada de la
varianza.

La desviación típica se hace para poder trabajar en las unidades de medida iniciales.
Claro que, como es normal, uno puede preguntarse, ¿de qué sirve tener como concepto
la varianza? Bien, aunque la interpretación del valor que arroja no nos da demasiada
información, su cálculo es necesario para obtener el valor de otros parámetros.

Para calcular la covarianza necesitamos la varianza y no la desviación típica, para


calcular algunas matrices econométricas se utiliza la varianza y no la desviación típica.
Es una cuestión de comodidad a la hora de trabajar con los datos en según qué cálculos.

Ejemplo de cálculo de la varianza


Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno
con un salario diferente:

Juan: 1.500 euros

Pepe: 1.200 euros

José: 1.700 euros


Miguel: 1.300 euros

Mateo: 1.800 euros

La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 +
1.700 + 1.300 + 1.800) /5) 1.500 euros.

Dado que la fórmula de la varianza en su forma desglosada se formula como sigue:

Obtendremos que se debe calcular tal que:

El resultado es de 52.000 euros al cuadrado. Es importante recordar que siempre que


calculamos la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a
euros, en este caso tendríamos que realizar la desviación típica. El resultado
aproximado sería de 228 euros. Esto quiere decir que, en media, la diferencia entre los
salarios de las distintas personas será de 228 euros.
La Desviación Estándar

La desviación estándar es un índice numérico de la dispersión de un conjunto de


datos (o población). Mientras mayor es la desviación estándar, mayor es la
dispersión de la población. La desviación estándar es un promedio de las
desviaciones individuales de cada observación con respecto a la media de una
distribución. Así, la desviación estándar mide el grado de dispersión o variabilidad.
En primer lugar, midiendo la diferencia entre cada valor del conjunto de datos y la
media del conjunto de datos. Luego, sumando todas estas diferencias individuales
para dar el total de todas las diferencias. Por último, dividiendo el resultado por el
número total de observaciones (normalmente representado por la letra “n”) para
llegar a un promedio de las distancias entre cada observación individual y la media.
Este promedio de las distancias es la desviación estándar y de esta manera
representa dispersión.

Matemáticamente, la desviación estándar podría, a primera vista, parecer algo


complicada. Sin embargo, es en realidad un concepto extremadamente simple. En
realidad no importa si usted no sabe calcular con exactitud la desviación estándar,
siempre y cuando usted comprenda claramente el concepto.

La desviación estándar es un indicador en extremo valioso con muchas aplicaciones.


Por ejemplo, los estadísticos saben que cuando un conjunto de datos se distribuye
de manera “normal”, el 68% de las observaciones de la distribución tiene un valor
que se encuentra a menos de una desviación estándar de la media. También saben
que el 96% de todas las observaciones tiene un valor no es mayor a la media más o
menos dos desviaciones estándar (la Figura 18 grafica esta información).

La desviación estándar de una población es normalmente representada por la letra


griega (sigma), cuando se calcula sobre la base de toda la población; por la letra s
(minúscula) cuando se infiere de una muestra; y por la letra S (mayúscula) cuando
simplemente corresponde a la desviación estándar de una muestra. La fórmula de la

desviación estándar es , donde representa la suma de las diferencias


al cuadrado entre cada observación y la media y N representa el número total de
observaciones. La aparente complicación de la fórmula surge del hecho de que al restar
la media a los valores de cada observación individual para calcular las diferencias ( ),
los valores de las observaciones que están bajo la media producirán diferencias
negativas, mientras que los valores de las observaciones que son mayores que la media
proporcionarán valores positivos. Así, las diferencias positivas y negativas se
compensarán entre sí y, en el caso de una distribución simétrica, producirán una suma
igual a cero para la suma de las desviaciones individuales. Para evitar este problema,
las desviaciones se elevan al cuadrado, de modo que todas las desviaciones sean
positivas y se puedan sumar. Después, se calcula la raíz cuadrada para ‘compensar’,
por decirlo así, la elevación al cuadrado anterior de los valores. Cuando no se incluye la
raíz cuadrada, el resultado es otro famoso indicador de dispersión conocido como la
“varianza”.

QUE ES CUARTILES EN ESTADISTICA?

Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales.
Utilizando cuartiles puede evaluar rápidamente la dispersión y la tendencia central de
un conjunto de datos, que son los pasos iniciales importantes para comprender sus
datos.

Cuartil Descripción

1er cuartil 25% de los datos es menor que o igual a este valor.
(Q1)

2do cuartil La mediana. 50% de los datos es menor que o igual a este
(Q2) valor.
Cuartil Descripción

3er cuartil 75% de los datos es menor que o igual a este valor.
(Q3)

Rango La distancia entre el primer 1er cuartil y el 3er cuartil (Q3-Q1);


intercuartil de esta manera, abarca el 50% central de los datos.

Por ejemplo, para los siguientes datos: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51

 Q1 = 14.25
 Q2 (mediana) = 42
 Q3 = 46.50
 Rango Intercuartil = 14.25 a 46.50 ó 32.25
NOTA
Los cuartiles son valores calculados, no observaciones en los datos. A menudo es
necesario interpolar entre dos observaciones para calcular un cuartil con exactitud.
Debido a que no son afectados por observaciones extremas, la mediana y el rango
intercuartil constituyen una mejor medida de la tendencia central y la dispersión de
conjuntos de datos altamente asimétricos, en comparación con la media y la
desviación estándar.

Decil (estadística)
En estadística descriptiva, el concepto decil se refiere a cada uno de los 20 valores que
dividen un grupo de datos (clasificados con una relación de orden) en diez partes iguales, y de
manera que cada parte representa un décimo de la población. En resumen, los deciles son
cada uno de los nueve valores que dividen un conjunto de datos en diez grupos con iguales
efectivos. Son los nueve valores que dividen la serie de datos en 20 partes

Cálculo de los deciles


Los deciles se calculan como si fueran 10-cuartiles, o sea de manera que:

 El primer decil separe el juego de datos entre el 10% de los valores inferiores, y el resto
de los datos.
 Y el noveno decil separe los datos entre el 90% de los valores inferiores y el 10% de los
valores superiores.
El término decil también se usa para designar cada uno de los diez grupos de valores (de la
población o de una muestra) y también, a los diez intervalos que contienen el mismo número
de datos: el decil n-simo, es el intervalo entre el decil-número (n-1) y el decil-número n (desde
n=1 hasta n=10).

Percentil
El percentil es una medida de posición usada en estadística que indica que vez ordenados
los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra
un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el percentil
20º es el valor bajo el cual se encuentran el 20 por ciento de las observaciones.
Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores del 1 al 99.
El i % de la muestra son valores menores que él y el 100-i % restante son mayores.
Aparecen citados en la literatura científica por primera vez por Francis Galton en 18851

 P25 = Q1.
 P50 = Q2 = mediana.
 P75 = Q3.
Cálculo con datos no agrupados
Un método para establecer un percentil sería el siguiente: Calculamos...

donde n es el número de elementos de la muestra e i, el percentil. El resultado de


realizar esta operación es un número real con parte entera E y parte decimal D. Teniendo en
cuenta estos dos valores, aplicamos la siguiente función:

Esta última operación brinda el valor del percentil pedido.

Frecuencia estadística
En estadística, la frecuencia (o frecuencia absoluta) de un evento es el número de veces en
que dicho evento se repite durante un experimento o muestra estadística.1 Comúnmente, la
distribución de la frecuencia suele visualizarse con el uso de histogramas.

Tipos de frecuencias
En estadística se pueden distinguir hasta cuatro tipos de frecuencias:

 Frecuencia absoluta de un valor de la variable estadística X, es el número de veces que


aparece ese valor en el estudio. Se suele denotar por Fi a la frecuencia absoluta del
valor X = xi de la variable X. Dada una muestra de N elementos, la suma de todas las
frecuencias absolutas debe dar el total de la muestra estudiada N.


Frecuencia relativa: (fi), es el cociente entre la frecuencia absoluta y el tamaño de la
muestra (N). Es decir,
siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de puntos en
una distribución de frecuencias. Si multiplicamos la frecuencia relativa por 100
obtendremos el porcentaje o tanto por ciento (pi)

 Frecuencia absoluta acumulada: (Ni), se refiere al total de las frecuencias


absolutas para todos los eventos iguales o anteriores que un cierto valor, en una
lista ordenada de eventos.
 Frecuencia relativa acumulada: (Fi), es el cociente entre la frecuencia absoluta
acumulada y el total de la muestra.

Ejemplos de frecuencias[editar]
Supongamos que las calificaciones de un estudiante de secundaria fueran las siguientes:
18, 13, 12, 14, 11, 08, 12, 15, 05, 20, 18, 14, 15, 11, 10, 10, 11, 13. Entonces:

 La frecuencia absoluta de 11 es 3, pues 11 aparece 3 veces.


 La frecuencia relativa de 11 es 0.16, porque corresponde a la división 3/18 ( 3 de las
veces que aparece de las 18 notas que aparecen en total).
 La frecuencia absoluta acumulada para el valor 11 es 7, porque hay 7 valores menores o
iguales a 11.
 La frecuencia relativa acumulada para el valor 11 es 0.38, porque corresponde a la
división 7/18 (frecuencia absoluta acumulada dividida entre el número total de muestras).

Distribución de frecuencias
En estadísticas, una distribución de frecuencia es una lista, tabla o gráfico que muestra la
frecuencia de varios resultados en una muestra. Cada entrada en la tabla contiene
la frecuencia o el recuento de las ocurrencias de valores dentro de un grupo o intervalo en
particular, y de esta manera, la tabla resume la distribución de valores en la muestra.

Tipos de frecuencias
Frecuencia completa
La frecuencia completa por su denominación es el número de veces que aparece un
determinado valor en un valor estadístico. Se representa por fila. La suma de la frecuencia
completa es igual al número total de datos, que se representa por N. Para indicar
resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee
sumatoria.

Frecuencia relativa
Se dice que la frecuencia relativa es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se
representa por hi. La suma de las frecuencias relativas es igual a 1
Frecuencia relativa (hi) es el cociente entre la frecuencia absoluta y el tamaño de la muestra
(N). Es decir:

DATOS PROBABILISTICOS

Modelo probabilístico o estadístico es la forma que pueden tomar un conjunto de datos


obtenidos de muestreos de datos con comportamiento que se supone aleatorio.
Un modelo estadístico es un tipo de modelo matemático que usa la probabilidad, y que incluye
un conjunto de asunciones sobre la generación de algunos datos muestrales, de tal manera
que asemejen a los datos de una población mayor.
Las asunciones o hipótesis de un modelo estadístico describen un conjunto de distribuciones
de probabilidad, que son capaces de aproximar de manera adecuada un conjunto de datos.
Las distribuciones de probabilidad inherentes de los modelos estadísticos son lo que
distinguen a los modelos de otros modelos matemáticos deterministas.
Un modelo estadístico queda especificado por un conjunto de ecuaciones que relacionan
diversas variables aleatorias, y en las que pueden aparecer otras variables no aleatrias. Como
tal "un modelo es una representación formal de una teoría"1
Todos los tests de hipótesis estadísticas y todos los estimadores estadísticos proceden de
modelos estadísticos. De hecho, los modelos estadísticos son una parte fundamentalmente de
la inferencia estadística.

DATOS NO PROBABILISTICOS

El muestreo no probabilístico es una técnica de muestreo donde las muestras se recogen en un


proceso que no brinda a todos los individuos de la población iguales oportunidades de ser
seleccionados.

En cualquier tipo de investigación es difícil lograr un muestreo aleatorio auténtico.


La mayoría de los investigadores tienen limitaciones temporales, monetarias y de mano de
obra y, gracias a ellas, es casi imposible tomar una muestra aleatoria de toda la población.
Generalmente, es necesario emplear otra técnica de muestreo, la técnica de muestreo no
probabilístico.
A diferencia del muestreo probabilístico, la muestra no probabilística no es un producto de un
proceso de selección aleatoria. Los sujetos en una muestra no probabilística generalmente son
seleccionados en función de su accesibilidad o a criterio personal e intencional del investigador.

¿QUÉ ES LA PROBABILIDAD Y LA ESTADÍSTICA?


La Probabilidad y la Estadística se encargan del estudio del azar desde el punto de vista de
las matemáticas:

La Probabilidad propone modelos para los fenómenos aleatorios, es decir, los que se pueden
predecir con certeza, y estudia sus consecuencias lógicas.
La Estadística ofrece métodos y técnicas que permiten entender los datos a partir de modelos.

De esta manera, el Cálculo de las Probabilidades es una teoría matemática y la Estadística es


una ciencia aplicada donde hay que dar un contenido concreto a la noción de probabilidad.

PROBABILIDAD
En este sentido, el cálculo científico de probabilidades puede ayudarnos a comprender lo que
en ocasiones la intuición nos indica de manera errónea. Un ejemplo típico es la denominada
"paradoja de los cumpleaños". Supongamos que estamos en un grupo de 23 personas. Los
cálculos nos dicen que la probabilidad de que dos personas celebren el mismo día su
cumpleaños es del 50%, algo que a simple vista parece increíble (Paradoja del Cumpleaños
»). No es de extrañar por tanto que la Teoría de Probabilidad se utilice en campos tan diversos
como la demografía, la medicina, las comunicaciones, la informática, la economía y las
finanzas.

Espacio muestral
En la teoría de probabilidades, el espacio muestral o espacio de muestreo (denotado E, S,
Ω o U) consiste en el conjunto de todos los posibles resultados de un experimento aleatorio,
junto con una estructura sobre el mismo (ver más adelante).
Por ejemplo, si el experimento consiste en lanzar dos monedas, el espacio muestral es el
conjunto {(cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es
cualquier subconjunto del espacio muestral con estructura de σ-álgebra,1 llamándose a los
sucesos que contengan un único elemento sucesos elementales. En el ejemplo, el suceso
"sacar cara en el primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los
sucesos elementales {(cara, cara)} y {(cara, cruz)}.
Para algunos tipos de experimento puede haber dos o más espacios de muestreo posibles.
Por ejemplo, cuando se toma una carta de un mazo normal de 52 cartas, una posibilidad del
espacio de muestreo podría ser el número (del as al rey), mientras que otra posibilidad sería el
palo (diamantes, tréboles, corazones y picas). Una descripción completa de los resultados, sin
embargo, especificaría ambos valores, número y palo, y se podría construir un espacio de
muestreo que describiese cada carta individual como el producto cartesiano de los dos
espacios de muestreo descritos.
Los espacios de muestreo aparecen de forma natural en una aproximación elemental a
la probabilidad, pero son también importantes en espacios de probabilidad. Un espacio de
probabilidad (Ω, F, P) incorpora un espacio de muestreo de resultados, Ω, pero define un
conjunto de sucesos de interés, la σ-álgebra F, por la cual se define la medida de
probabilidad P.
Asimetría estadística
Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener
que hacer su representación gráfica. Como eje de simetría consideramos una recta paralela al
eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica,
existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el
mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay
asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de
la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que
hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga
que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.

Intervalo
El término Intervalo puede hacer referencia a:

 En matemática, un intervalo es una porción de recta.


 En música, un intervalo es una diferencia de frecuencia entre dos notas.
 En estadística, intervalo de confianza, par de números entre los cuales se estima que
estará cierto valor desconocido.
 En medicina, intervalo QT, medida de la duración de una parte del latido cardíaco.
 En lingüística, intervalo semántico, es la diversidad de significado de dos descripciones
de la misma cosa.
 Intervalo, el título de una revista de la editorial argentina de historietas Columba, que se
publicaba a mediados del siglo XX.
Espacio o distancia que hay de un lugar a otro o de un tiempo a otro o entre dos fenómenos
físicos, fisiológicos, etc.
Rango estadístico
En estadística, el rango representa la diferencia entre el valor máximo y el valor mínimo
de un conjunto de datos. El rango nos muestra la distribución de los valores en una serie.
Si el rango es un número muy alto, entonces los valores de la serie están bastante
distribuidos. En cambio, si se trata de un número pequeño, quiere decir que los valores de
la serie están muy cerca entre sí. Si quieres saber cómo calcular el rango, tan solo sigue
los pasos a continuación.

Haz una lista con los elementos de tu conjunto de datos. Para encontrar el
rango de un conjunto, debes hacer una lista con todos los elementos para que
puedas identificar los números más altos y los más bajos. Escribe todos los
elementos. Los números de este conjunto son 20, 24, 25, 19, 24, 28 y 14.
 Puede ser más sencillo identificar el valor máximo y el valor mínimo en el conjunto
si pones los números en orden ascendente. En este ejemplo, acomodaremos los
números de esta manera: 14, 19, 20, 24, 24, 25, 28.
 Al poner los elementos en orden también se te facilitarán otro tipo de cálculos,
como encontrar la moda, la media o la mediana del conjunto.

Identifica los valores mínimo y máximo del conjunto. En este caso, el número más
bajo del conjunto es 14 y el más grande es 25.
Réstale el valor mínimo del valor máximo. Ahora que has identificado el número más
grande y el número más chico en el conjunto, lo único que debes hacer es restarlos.
Resta 14 de 25 (25 - 14) para obtener 11, el rango del conjunto.
Etiqueta claramente tu rango. Una vez que hayas encontrado el rango, etiquétalo con
claridad. Esto te ayudará a evitar confundirlo con algún otro cálculo estadístico que tengas
que hacer, como la media, la moda o la mediana.

Variable estadística
Una variable estadística es una característica que puede fluctuar y cuya variación es
susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las
variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte
de una hipótesis o de una teoría. En este caso se las denomina constructos o construcciones
hipotéticas.

Variables cualitativas
Son el tipo de variables que como su nombre lo indica expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta se denomina atributo o
categoría, y la medición consiste en una clasificación de dichos atributos. Las variables
cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles, como sí
y no, hombre y mujer o ser politómicas cuando pueden adquirir tres o más valores. Dentro de
ellas podemos distinguir:
 Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede tomar
distintos valores ordenados siguiendo una escala establecida, aunque no es necesario
que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.

 Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un
criterio de orden, como por ejemplo los colores o el lugar de nacimiento.

Variables cuantitativas
Son las variables que toman como argumento cantidades numéricas, son variables
matemáticas. Las variables cuantitativas además pueden ser:

 Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala


de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de
valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El
número de hijos (1, 2, 3, 4, 5).

 Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg,...) o la altura (1,64 m,
1,65 m, 1,66 m,...), o el salario. Solamente se está limitado por la precisión del aparato
medidor, en teoría permiten que exista un valor entre dos variables.

L A F R EC U E NC I A R E L AT I V A E S E L C O C IE NT E E NT R E L A
F R EC U E NC I A A B S O L U T A :

de un determinado valor y el número total de datos.

La frecuencia relativa se puede expresar en tantos por

ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.


Ejemplo D u ran te el mes de j u lio, en u n a ciu dad se h an registrad o
las sigu i en t es t e mp e rat u r a s má xim as :

32, 3 1, 28 , 29 , 33 , 32, 3 1, 30 , 31 , 31 , 27, 2 8, 29 , 30 , 32 ,

31, 3 1, 30 , 30 , 29 , 29, 3 0, 30 , 31 , 30 , 31, 3 4, 33 , 33 , 29 , 29.

xi fi ni

27 1 0. 03 2

28 2 0. 06 5

29 6 0. 19 4

30 7 0. 22 6

31 8 0. 25 8

32 3 0. 09 7

33 3 0. 09 7

34 1 0. 03 2

31 1

LÍMITES DE CLASE
Cada clase está delimit ad a por el límite inferio r de la

cl a s e y el l í mi te s u pe r io r de l a c l a se .

En u n a di st ri bu ci ón de fr e cu en ci as a g ru pada s el l í mi te

i nf er i o r de u n a cl a se p e rt en e c e al i n te r val o , p er o el lí m it e

su p e ri o r n o p e rt en e c e i n t e rv al o, s e cu en t a en el si gu i en te

i n ter val o .
Ejemplo
3, 15 , 24 , 28 , 33 , 3 5, 38 , 42 , 43 , 38 , 3 6, 34 , 29 , 25 , 17 , 7 , 34 ,
36, 3 9, 44 , 31 , 26 , 20, 1 1, 13 , 22 , 27 , 47, 3 9, 37 , 34 , 32 , 35 , 2 8, 38 ,
41, 4 8, 15 , 32 , 13 .

ci fi Fi ni Ni

[0 ,
2. 5 1 1 0. 02 5 0. 02 5
5)

[5 ,
7. 5 1 2 0. 02 5 0. 05 0
10 )

[1 0,
12 .5 3 5 0. 07 5 0. 12 5
15 )

[1 5,
17 .5 3 8 0. 07 5 0. 20 0
20 )

[2 0,
22 .5 3 11 0. 07 5 0. 27 75
25 )

[2 5,
27 .5 6 17 0. 15 0 0. 42 5
30 )
[30,
32 .5 7 24 0. 17 5 0. 60 0
35 )

[3 5,
37 .5 10 34 0. 25 0 0. 85 0
40 )

[4 0,
42 .5 4 38 0. 10 0 0. 95 0
45 )

[4 5,
47 .5 2 40 0. 05 0 1
50 )

40 1

AMPLITUD DE CLASE
L a a m p l i t u d d e l a c l as e e s l a d i f e r e nc i a e nt r e e l l í m i t e s u p e r i o r e i n f e r i or d e l
i n t e r v a lo d e c l a s e .

MARCA DE CLASE

La marca de clase es el punto medio de

cada intervalo.

La marca de clase es el valor que representa a todo

el intervalo para el cálculo de algunos parámetros como

la media artmética o la desviación típica.

Se representa por ci o xi.


Ejemplo

xi · xi2 ·
xi fi
fi fi

[1 0,
15 1 15 22 5
20 )

[2 0,
25 8 20 0 50 00
30 )

12
[3 0, 40 ) 35 10 35 0
25 0

[4 0, 18
45 9 40 5
50 ) 22 5

[5 0, 24
55 8 44 0
60 ) 20 0

16
[6 0, 70 ) 65 4 26 0
90 0

[7 0, 11
75 2 15 0
80 ) 25 0

1 88
42
82 0 05 0
POLÍGONO DE FRECUENCIA
clase de gráfico que se crea a partir de un histograma de frecuencia. Estos
histogramas emplean columnas verticales para reflejar frecuencias): el polígono de
frecuencia es realizado uniendo los puntos de mayor altura de estas columnas.
Polígono de frecuencia es el nombre que recibe una clase de gráficoque se crea a partir de
un histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor altura de
estas columnas.

Es decir, por tanto, podríamos establecer que un polígono de frecuencia es aquel que se forma a
partir de la unión de los distintos puntos medios de las cimas de las columnas que configuran lo
que es un histograma de frecuencia. Este se caracteriza porque utiliza siempre lo que son
columnas de tipo vertical y porque nunca debe haber espacios entre lo que son unas y otras.

En las ciencias sociales, en las ciencias naturales y también en las económicas es donde con más
frecuencia se hace uso de estos mencionados histogramas ya que se emplean para llevar a cabo lo
que es la comparación de los resultados de un proceso determinado.

Ojiva (estadística)
En estadística, la ojiva es un polígono frecuencial acumulado, es decir, que permite ver
cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo
exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que el dato que se
está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la
que se asigna a valores menores, tendrá una pendiente positiva.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar
parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas,
existen las ojivas "mayor que" y las ojivas "menor que".
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por
esto la aplicación de la técnica es parcial):

 Un extremo de la ojiva no se toca al eje horizontal, para la ojiva "mayor que" sucede con el
extremo izquierdo; para la ojiva "menor que", con el derecho.
 En el eje horizontal, en lugar de colocar las marcas de clase, se colocan las fronteras de
clase. Para el caso de la ojiva "mayor que" es la frontera menor; para la ojiva menor que,
la mayor.
La ojiva "mayor que" se le denomina de esta manera porque viendo el aspire que está sobre el
límite superior se ven las frecuencias que tienen por encima de ese límite superior. De forma
análoga, en la ojiva "menor que" la frecuencia que se representa en cada frontera de clase
son el número de observaciones menores que la frontera señalada (en caso de tiempos sería
el número de observaciones antes de la hora que señala la frontera).

Histograma de pearson
Se utilizan para relacionar variables cuantitativas continuas. Para variables cuantitativas
discretas las barras se dibujan separadas y el gráfico se llama diagrama de frecuencias,
porque la variable representada en el eje horizontal ya no representa un espectro continuo de
valores, sino valores cuantitativos específicos, igual que ocurre en un diagrama de barras,
usado para representar una característica cualitativa o categórica. Su utilidad se hace más
evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado
en intervalos de clase.
Ejemplos de su uso es la representación de edades o estaturas de una población. Por
comodidad, sus valores se agrupan en clases, es decir, en intervalos continuos. En los casos
en los que los datos son cualitativos (no numéricos), como sexto grado de acuerdo o nivel de
estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en
ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Variables independientes
Una variable independiente es aquella cuyo valor no depende de otra variable. Es aquella
característica o propiedad que se supone es la causa del fenómeno estudiado. En
investigación experimental se llama así a la variable que el investigador manipula.
Las variables independientes son las que el investigador escoge para establecer agrupaciones
en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son
las variables de control, que modifican al resto de las variables independientes y que de no
tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
La variable independiente se suele representar en el eje de abscisas.
La variable independiente es la que se le asignan valores arbitrarios

Variables dependientes
Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable.
La variable dependiente es una función que se suele representar por la y. La variable
dependiente se representa en el eje ordenadas. Son las variables de respuesta que se
observan en el estudio, y que podrían estar influidas por los valores de las variables
independientes.
Hayman (1974 : 69) la define como propiedad o característica que se trata de cambiar
mediante la manipulación de la variable independiente.
La variable dependiente es el factor que es observado y medido para determinar el efecto de
la variable independiente.

DATOS ESTADÍSTICOS
dato, con origen en el latín datum, refiere a la información que brinda acceso a un conocimiento
preciso y concreto. Estadístico, por su parte, es aquello vinculado a la estadística: la especialidad
de la matemática que apela a cifras para generar inferencias o para reflejar cuantitativamente un
fenómeno.

Datos estadísticos

Los datos estadísticos, en este marco, son los valores que se obtienen al llevar a cabo un estudio
de tipo estadístico. Se trata del producto de la observación de aquel fenómeno que se pretende
analizar.

Supongamos que un periodista deportivo desea estudiar el rendimiento de un tenista a partir de


los resultados que logró en el último año. En dicho plazo, el jugador disputó 15 encuentros, de los
cuales ganó 5 y perdió 10. Los datos estadísticos obtenidos de la observación de los partidos son
los siguientes: derrota – derrota – derrota – victoria – derrota – victoria – victoria – derrota –
derrota – derrota – derrota- derrota – victoria – derrota – victoria.

VALOR ESTADÍSTICO
U n v a l o r e s t a d í s t i c o e s c a d a u no d e lo s d is t i n t o s r e s u l t a do s q ue s e p ue d e n
o b t e n e r e n u n e s t u d io e st a d í s t i co .

S i l anz am os una m oneda al ai r e 5 ve ces obt enem o s


d o s val ores : car a y cruz .
INDIVIDUO EN ESTADÍSTICA:

Población, muestra, individuo y carácter.Las primeras definiciones


necesarias para el inicio de cualquier estudio estadístico son:

 Población: Conjunto de todos los elementos que verifican una característica que
será objeto de estudio.
 Individuo: Cada uno de los elementos de la población.
 Muestra: Cualquier subconjunto de la población. Este subconjunto es muy
importante que sea representativo de la población.
 Carácter: Cada una de las propiedades que poseen los individuos de la población y
que pueden ser objeto de estudio.

DATOS AGRUPADOS Y NO AGRUPADOS


DATOS AGRUPADOS Y NO AGRUPADOS
Los datos agrupados y no agrupados se les llaman en estadística
a la manera de representar y analizar la información que has
reunido o que dispones.

DATOS NO AGRUPADOS
Datos no agrupados es el conjunto de observaciones que se
presentan en su forma original tal y como fueron recolectados,
para obtener información directamente de ellos. Los datos no
agrupados es un conjunto de información si ningún orden que no
nos establece relación clara con lo que se pretende desarrollar a lo
largo de un problema, esto se soluciona mediante una tabulación
que nos conduce a una tabla de frecuencias.
Muchas veces el proceso de análisis de datos se cuenta con un
gran volumen de información en bruto (datos no agrupados). …ver
más…
a. Determinar el rango o recorrido de los datos. Rango = Valor
mayor – Valor menor
b. Establecer el número de clases (k) en que se van a agrupar los
datos tomando como base para esto la siguiente tabla.

Tamaño de muestra o No. De datos Número de clases


Menos de 50 5 a 7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20

Para que sean datos agrupados tienes que contarlos y


clasificarlos, por ejemplo cuántos niños había de cada año. (y
siguen siendo 20 niños)
Edad..........Frecuencia
1..................2
2..................4
3..................7
4..................4
5..................2
6..................1
Total............20 o también los puedes agrupar (Serie agrupada) en
clases, rangos, grupos o intervalos por ejemplo de 2 años para
este caso (y siguen siendo 20)
Edad..........Frecuencia
1-2...............6
3-4...............11
5-6...............3
Total.............20
EJEMPLO TABLA DE FRECUENCIA TIPO A

Una empresa decide medir el grado de aceptación de 10 clientes sobre un nuevo producto que hace
poco salió al mercado. Para tal fin, se les pide que valoren, empleando una escala del 1 al 5, su
opinión frente al producto. (1 = Muy Malo, 2 = Malo, 3 = Regular, 4 = Bueno y 5 = Excelente). Las
respuestas tabuladas de los 10 clientes son:

Cliente Respuesta

1 2

2 5

3 4
4 5

5 4

6 3

7 4

8 5

9 3

10 5

En presencia de estos puntajes, la persona encargada del proyecto, pide que se simplifiquen y luego
se interpreten los datos.

SOLUCIÓN

Como podemos observar, el numero de resultados que puede alcanzar la variable grado de
aceptación son relativamente pocos (solo cinco posibilidades), por lo cual identificaremos la tabla de
frecuencia resultante como una Tabla Tipo A.

Otra forma de catalogar los datos es conociendo la distancia o variación que hay entre el valor menor
(Xmin) y el valor mayor (Xmax), diferencia que de ahora en adelante la conoceremos como “Rango”.

CARACTERÍSTICAS DE LAS TABLAS TIPO B


Este tipo de tablas suelen ser utilizadas cuando el número de resultados posibles que puede obtener
una variable son tan amplios, que una Tabla Tipo A haría muy poco en resumirlos (estos datos
representan un rango muy amplio).

Debido a esta cantidad de valores, será necesario agruparlos mediante intervalos (la estadística los
llama “Intervalos de Clases”).

Por ejemplo, en el caso de contar con una valoración del 1 al 100 (un rango equivalente a 99), una
tabla de frecuencia Tipo A se encargaría de buscar cuantas veces se repite cada uno de los 99
posibles resultados en un conjunto de datos, teniendo una función contraria a la de resumir los datos.

Agrupar los valores de la variable en intervalos podría simplificar estas fuentes de datos. Por ejemplo,
podríamos hablar de las frecuencias para los valores comprendidos entre 0-20, 20-40, 40-60, 60-80
y 80-100.

En el intervalo 0-20 (que de ahora en adelante le llamaremos intervalo de clase), se sumaran las
frecuencias de los datos cuyos resultados estén entre 0 y 20.
Intervalo de clase: Intervalos empleados en las Tablas de Frecuencias
Estadísticas, capaz de contener diversas medidas de una variable.
Consta de un límite inferior (Lm) y un límite superior (Ls).

Otro punto importante que el estadista debe definir, es la cantidad de intervalos de clase que
empleará en la tabla de frecuencia. Esta cantidad de intervalos no deberían ser muchos, debido a
que no se cumpliría el objetivo de resumir la información, y no tan pocos intervalos, ya que se
perdería mucha información.

No existe una formula, ni unos principios únicos para establecer el numero de intervalos. Para
nuestro libro, optaremos por manejar un número de intervalos convenientes entre 5 y 15.

Algunos autores han propuestos formulas que permiten ayudar en la tarea de conseguir el numero
ideal de intervalos.

Numero de intervalos (Nc): Cantidad de intervalos con los cuales se


compone una tabla de frecuencia.

La primera, la más conocida, establece el número de intervalos al obtener la raíz cuadrada del total
de elementos considerados en el estudio.

Cuando se trabajan con muestras mayores a 225, la formula obtiene un Nc superior a 15, por tanto,
recomendaremos para estos casos la siguiente formula:

Si en ambas formulas obtenemos un Nc mayor a 15, simplemente tomaremos 15 intervalos. El


estadista podrá omitir los resultados de las formulas y conseguirá seleccionar el numero de intervalos
que crea son los mas adecuados, de acuerdo al objeto del estudio o las características que desea
mostrar de la variable.

Cada intervalo posee un número máximo de resultados que puede agrupar. A este valor lo
conoceremos como el “Ancho del Intervalo de Clase (A)”.

Ancho del intervalo de Clase (A): Equivale a la diferencia entre el Limite


superior (Ls) y el Limite inferior (Lm) de cada intervalo. Matemáticamente
se expresa:

Su cálculo resulta de la división del Rango (R) entre el Número de


Intervalos (Nc)

Hay que aclarar, que el ancho puede variar entre los intervalos, pero por razones estéticas,
comprensión y para facilitar el análisis, se recomienda manejar un ancho común.

Gráfico circular
Un gráfico circular es una representación gráfica de una serie de cantidades y consiste en un círculo
dividido en varios sectores, cuyo tamaño se corresponde con las proporciones de las cantidades.
Básicamente, este tipo de gráfico muestra la relación porcentual entre las partes con relación a su
conjunto. Cada segmento representa los valores más elevados de la dimensión del informe que ha
decidido realizar. Los valores más pequeños se agrupan en el segmento "Otro". El gráfico circular se
ajusta para mostrar los segmentos necesarios de forma que coincidan con la forma en que se dividen los
datos.

GRÁFICO LINEAL

El gráfico lineal (gráfico de líneas o diagrama lineal) se compone de


una serie de datos representados por puntos, unidos por segmentos
lineales. Mediante este gráfico se puede comprobar rápidamente el
cambio de tendencia de los datos.
El diagrama lineal se suele utilizar con variables cuantitativas, para ver
su comportamiento en el transcurso del tiempo. Por ejemplo, en las series
temporales mensuales, anuales, trimestrales, etc.

Los pasos para construir el gráfico de líneas son los siguientes:


 En el eje horizontal (eje de abcisas) se colocan los períodos de
tiempo (meses, años, trimestres,…)
 En el eje vertical (eje de coordenadas) se colocan las frecuencias
absolutas o relativas.
 Se señalan los puntos. A cada período de tiempo le corresponde un
punto en el valor de su frecuencia.
 Se unen mediante segmentos lineales los puntos consecutivos.

También podría gustarte