Diccionario Estadistico
Diccionario Estadistico
Diccionario Estadistico
El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una
población se precisa como un conjunto finito o infinito de personas u objetos que presentan características
comunes.
"Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales
intentamos sacar conclusiones". Levin & Rubin (1996).
"Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974).
Marco Poblacional
Muestra
"Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel
(1991).
"Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin
(1996).
"Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan
de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974)
Marco Muestral
Dato
Datos Estadísticos:
Los datos estadísticos no son otra cosa que el producto de las observaciones efectuadas en las personas
y objetos en los cuales se produce el fenómeno que queremos estudiar. Dicho en otras palabras, son los
antecedentes (en cifras) necesarios para llegar al conocimiento de un hecho o para reducir las
consecuencias de este.
Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy difícil en general,
obtener conclusiones de los datos presentados de esta manera. Para poder obtener una precisa y rápida
información con propósitos de descripción o análisis, estos deben organizarse de una manera sistemática;
es decir, se requiere que los datos sean clasificados. Esta clasificación u organización puede muy bien
hacerse antes de la recopilación de los datos.
Ejemplo:
Si se quiere conocer las características de los estudiantes del Núcleo San Carlos de la UNESR, que
solicitan préstamo a la biblioteca de dicha Universidad, la recolección de la información debe clasificar a
cada estudiante sobre la base de: Carrera que estudia, edad, semestre de estudios, etc. Vemos pues que
la clasificación marca la pauta de la clase de datos que debe ser obtenido.
Clasificación de los datos
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de
cantidad.
Ejemplo:
Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil,
observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que
son datos cuantitativos.
Ejemplo:
Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos
que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de
tiempo, los datos son reconocidos como cronológicos.
Ejemplo:
Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes
semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos
geográficos.
Ejemplo
El número de estudiantes de educación superior en las distintas regiones del país.
Unidad Elemental
Característica
Característica de Interés
Muestreo
Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el
muestreo es una técnica que sirve para obtener una o más muestras de población.
Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se
procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra.
Al tomar varias muestras de una población, las estadísticas que calculamos para cada muestra no
necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra.
Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir como tomar una
muestra aleatoria más adelante. Las muestras de juicio evitan el análisis estadístico necesarios para
hacer muestras de probabilidad.
Estadístico
Parámetro
Estimador
Estadística Descriptiva
Estadística Inferencial
DICCIONARIO ESTADÍSTICO
Desviación típica: Valor mayor o igual a cero que mide la dispersión de una característica de
los individuos alrededor de la media del grupo. Los sujetos serán más parecidos u homogéneos entre
sí cuanto más próxima a cero esté la desviación típica. Su unidad de medida coincide con la unidad
de medida de la variable original. Es la raíz cuadrada de la varianza.
Diseño de experimentos: Método estadístico cuyo objetivo es estudiar cómo cambian los
valores de una variable respuesta cuando se modifican los valores de una o varias variables
independientes, denominadas factores experimentales. Un experimento bien diseñado puede ser el
punto de partida para establecer relaciones causales entre las variables estudiadas.
E
Estadística: Ciencia que estudia los fenómenos aleatorios. Es un área de conocimiento
específico de las Matemáticas que comenzó a desarrollarse a mediados del siglo XVII. Sus técnicas
permiten resumir grandes cantidades de información, estudiar la relación entre variables, investigar la
causa de algunos sucesos o predecir la evolución de un fenómeno en el tiempo y en el espacio, entre
otras cosas.
Estimador: Valor numérico extraído de las observaciones de una muestra que se aproxima en
mayor o menor medida al parámetro de la población sobre el que se quiere investigar. Así, la edad
media de un grupo de individuos elegidos aleatoriamente de una población es un estimador de la
verdadera edad media de la población.
Error alfa (α): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al
aceptar como verdadera la hipótesis alternativa de un test de hipótesis. Cuanto más próximo a cero
esté, menor será el riesgo de establecer hipótesis falsas en la población de estudio. Su valor se fija a
priori, antes de comenzar la investigación, para conocer el número de individuos necesario para
llevar a cabo el estudio. Cuanto más pequeño sea el error alfa mayor será el tamaño de la muestra y,
por tanto, más precisos serán los resultados. Habitualmente este error se fija en 0.05, aunque puede
variar dependiendo del tipo de investigación.
Error beta (β): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al
aceptar como verdadera la hipótesis nula de un test de hipótesis. Cuanto más próximo a cero esté,
menor será el riesgo de establecer hipótesis falsas en la población de estudio. Su valor se fija a priori,
antes de comenzar la investigación, para conocer el número de individuos necesario para llevar a
cabo el estudio. Cuanto más pequeño sea el error beta mayor será el tamaño de la muestra y, por
tanto, más precisos serán los resultados. Habitualmente este error se fija en 0.20, aunque puede
variar dependiendo del tipo de investigación.
Error estándar: Variabilidad del estimador cuando se obtiene a partir de muestras diferentes,
resultando un valor distinto en cada muestra. El error estándar siempre es mayor que cero. Cuanto
más pequeño sea mayor es la precisión de la estimación realizada.
Especificidad: Probabilidad de que una prueba diagnóstica proporcione un resultado negativo
cuando el sujeto no está afectado por la enfermedad investigada. Lo ideal es que esta probabilidad
sea 1 siempre que la prueba diagnóstica se aplique en el grupo de población libre de enfermedad.
Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un resultado positivo en un
individuo sano. La especificidad es, por tanto, la capacidad de la prueba diagnóstica para detectar la
ausencia de la enfermedad estudiada.
Falso negativo: Probabilidad de que una prueba diagnóstica proporcione un resultado negativo
cuando el sujeto realmente tiene la enfermedad investigada. Es el valor complementario a la
sensibilidad.
Falso positivo: Probabilidad de que una prueba diagnóstica proporcione un resultado positivo
cuando el sujeto no está afectado por la enfermedad investigada. Es el valor complementario a la
especificidad.
Hipótesis nula: Afirmación establecida por el investigador sobre la población de estudio cuando
realiza un test o contraste de hipótesis. Esta hipótesis siempre se asume verdadera a menos que los
datos de la muestra proporcionen evidencia de lo contrario. Se suele formular mediante una negación
o una igualdad. Así, la hipótesis nula de un estudio sobre cirrosis hepática puede establecer que no
existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente, que el
porcentaje de personas con cirrosis es igual en bebedores y no bebedores.
Hipótesis alternativa: Aseveración opuesta a la hipótesis nula en un test o contraste de
hipótesis. Así, la hipótesis alternativa de un estudio sobre cirrosis hepática puede establecer que
existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente, que el
porcentaje de personas con cirrosis es diferente en bebedores y no bebedores.
Media: Valor numérico en torno al cual se sitúan los valores de una característica de los
individuos. Es un representante del grupo de sujetos analizado.
Muestra: Grupo de individuos extraídos aleatoriamente de la población de estudio. La
información proporcionada por estos sujetos se almacena en una base de datos para analizarla
posteriormente. Los resultados obtenidos en este análisis son una aproximación a lo que realmente
ocurre en toda la población. La inferencia estadística permite extrapolar los resultados de la muestra
a la población y conocer el error cometido en estas estimaciones.
Nivel de confianza (1-α): Probabilidad de que el intervalo de confianza obtenido a partir de los
datos de la muestra contenga al parámetro de la población que se pretende estimar. Aunque puede
tomar cualquier valor entre 0 y 1, el más usual es 0.95 (95%).
Nivel de significación (α): Error alfa.
Población: Todos los individuos sobre los que se desea realizar una investigación o estudio.
Cuando la información necesaria para el estudio ha sido extraída de todos y cada uno de los
individuos de la población se habla de censo de población. Si por el contrario no es posible acceder a
todos los sujetos por falta de recursos se procede a tomar una muestra aleatoria de la población de
estudio.
Potencia (1-β): Valor comprendido entre 0 y 1 complementario al error beta. Mide el grado de
acierto del investigador cuando acepta como verdadera la hipótesis nula de un test de hipótesis. Su
valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos
necesario para llevar a cabo el estudio. Cuanto mayor sea la potencia, mayor será el tamaño de la
muestra y, por tanto, más precisos serán los resultados obtenidos. Habitualmente este error se fija en
0.80, aunque puede variar dependiendo del tipo de investigación.
Probabilidad: Medida adimensional que cuantifica la ocurrencia de los fenómenos producidos
por azar. Sus valores son números comprendidos entre 0 y 1. Cuando la probabilidad es cero, el
suceso no ocurrirá nunca. Si la probabilidad es uno, ocurrirá con total certeza. Los valores
intermedios miden el gradiente de certidumbre.
Prueba diagnóstica: Procedimiento destinado a detectar la presencia o ausencia de una
enfermedad en el individuo. Su capacidad de discriminación está determinada por la sensibilidad y la
especificidad, características propias de cada prueba o test diagnóstico.
Tamaño de muestra: Número de sujetos necesario para llevar a cabo una investigación, de
manera que los resultados obtenidos a partir de ellos se aproximen a los resultados que se hubieran
obtenido al estudiar a toda la población. El error cometido en esa extrapolación de resultados es
conocido y prefijado antes de comenzar la investigación. El tamaño de muestra será mayor cuanto
más pequeño sea el error que se desee cometer.
Test de hipótesis: Técnica estadística utilizada para decidir si una afirmación establecida por el
investigador sobre la población de estudio es compatible con los resultados observados en una
muestra. Cualquier test de hipótesis se compone de una hipótesis nula, formulada en términos de
igualdad o negación, y una hipótesis alternativa.
Test diagnóstico: Prueba diagnóstica
V
Valor P: Valor comprendido entre 0 y 1 que mide el grado de acuerdo entre la información que
proporciona la muestra y la hipótesis nula del test de hipótesis. Cuanto más próximo a cero esté,
menor será el acuerdo entre ambas. Así, la hipótesis nula será rechazada en favor de la alternativa
siempre que el Valor P sea muy pequeño, inferior al nivel de significación preestablecido.
Valor predictivo negativo: Probabilidad de que un individuo no padezca la enfermedad cuando
la prueba diagnóstica aplicada proporcione un resultado negativo. Este valor depende tanto de la
especificidad y de la proporción de falsos negativos de la prueba como del número de personas
enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor
predictivo negativo puede ser diferente dependiendo del país o región en que se calcule, aún
utilizando la misma prueba diagnóstica.
Valor predictivo positivo: Probabilidad de que un individuo padezca la enfermedad cuando la
prueba diagnóstica aplicada proporcione un resultado positivo. Este valor depende tanto de la
sensibilidad y de la proporción de falsos positivos de la prueba como del número de personas
enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor
predictivo positivo puede ser diferente dependiendo del país o región en que se calcule, aún
utilizando la misma prueba diagnóstica.
Variable: Cualquier característica de los individuos que componen la muestra que toma un valor
diferente para cada uno de ellos. La edad y el sexo son variables habituales en muchas
investigaciones.
Variable cualitativa: Característica que recoge una cualidad de los individuos de la muestra.
Una variable cualitativa no puede medirse con un instrumento ni lleva asociada una unidad de
medida. La gravedad de un accidente es una variable cualitativa ordinal, ya que registra una cualidad
que pueden ordenarse de forma natural de menor a mayor severidad. El sexo, en cambio, es una
variable cualitativa nominal porque sus categorías, masculino y femenino, no tienen un orden natural
preestablecido.
Variable cuantitativa: Característica de los individuos de la muestra que puede medirse con un
instrumento y lleva asociada una unidad de medida. El peso es una variable cuantitativa, ya que
puede medirse con una báscula y su unidad de medida es el gramo. Además, esta variable es
continua, ya que el valor del peso asignado a cada individuo puede tener tantos decimales como
admita la precisión de la báscula. Otras variables cuantitativas, como el número de hijos, se
denominan discretas porque sus valores solo pueden ser números enteros, sin decimales.
Varianza: Valor mayor o igual a cero que mide la dispersión de una característica de los
individuos alrededor de la media del grupo. Los sujetos serán más parecidos u homogéneos entre sí
cuanto más próxima a cero esté la varianza. Su unidad de medida es la unidad de medida de la
variable original elevada al cuadrado. Su valor coincide con el cuadrado de la desviación típica.
Glosario de términos
A
Amplitud de variación. Se considera como el dato mayor menos el dato menor
A l0 ln
k
Amplitud de clase
A
B
C
Censo. En el caso particular en que la muestra sea del mismo tamaño que la
población el estudio estadístico se conoce como censo.
Carácter estadístico. Es la propiedad que permite clasificar a los individuos de
una población estadística, puede haber de dos tipos:
Cartogramas. Son gráficos en los que se puede agrupar para una misma clase
diferentes frecuencias, por lo que se hace apropiado su uso cuando se desea analizar
diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase.
D
Domesday es el vocablo resultante de la deformación de la palabra doomsday (el
día del Juicio Final o Universal) la obra fue llamada de este modo por sus dictámenes
relativos a las imposiciones y a las tasaciones, que eran irrevocables.
Diagrama de sectores. Este tipo de diagramas puede ser de dos tipo, se puede
considerar una figura geométrica en la que la información se distribuye dentro de la
figura como puede ser una dona o un anillo en el que cada porción dentro de la figura
representa la información porcentual del total de datos. La segunda opción es la
utilización de pasteles en los que una porción del pastel determinada por sectores
individuales la información para ese sector especifico.
E
La estadística es una ciencia de las matemáticas encargada del estudio del
comportamiento de una población mediante un estudio cuyo propósito es hacer
inferencias a partir de un subconjunto de datos, llamado muestra, tomados de ella.
F
La frecuencia absoluta f(xi) se determina como el número de veces que se repite
un dato xi.
G
H
Histogramas. Los histogramas de frecuencias son gráficas que representan un
conjunto de datos que se emplean para representar datos de una variable cuantitativa. En
el eje horizontal o de las abscisas se representan los valores tomados por la variable, en
el caso de que los valores considerados sean continuos la forma de representar los
valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical
se representan los valores de las frecuencias de los datos. Las barras que se levantan
sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante
en el manejo de la información bajo el uso de histogramas es el hecho de poder
comparar, bajo un proceso en control, que a medida que se crecen las clase tiene
aproximadamente la forma de una campana centrada, es la de una de las distribuciones
mas importantes conocidas como frecuencia normal o gaussiana.
I
J
K
L
Los Libros de las Crónicas dos libros del Antiguo Testamento que interpretan la
historia de Israel y Judea desde la creación de Adán hasta mediados del siglo VI a.C.
M
N
Números es el nombre del cuarto libro que forma parte de la colección del
Pentateuco, uno los libros del antiguo testamento de la cultura judía, porque en su
primer capítulo refiere el censo llevado a cabo después de concluida la legislación
sinaítica y antes de la salida del monte de Dios.
O
P
Una población es conjunto de elementos que tiene características comunes, al
menos una. Por ejemplo, una población es el grupo de estudiantes de un país.
x
x i
Pirámides de población. Este gráfico se construye utilizando pirámides para
construir la representación de los datos bajo cierta clase, la diferencia de información
considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la
frecuencia de cada clase se coloca en el extremo superior de cada clase, sin embargo
también, al igual que en las anteriores puede resultar útil colocar información, como el
porcentaje de información en la punta de cada pirámide.
Q
R
S
Staat. Palabra alemana que se refiere a estado como expresión de unidad política
superior. Asociada con el origen etimológico de la palabra estadística.
Status. Palabra latina que significa situación, posición, estado. Asociada con el origen
etimológico de la palabra estadística.
Statera. Palabra griega que quiere decir balanza, ya que la estadística mide o pesa
hechos. Asociada con el origen etimológico de la palabra estadística.
T
U
V
Variables nominales. Son aquellas variables que son descritas por algunas
características de sus integrantes.
Variables cuantitativas discretas. Son aquellas cuyo valor esta determinado por
valores enteros.
Variables cuantitativas continuas. Son aquellas cuyo valor esta determinado por
valores reales, generalmente esas variables pueden tomar toda una gama de valores
dentro de la recta real.
Coefficient
10. LINEA DE REGRESION: Cuando observamos una nube de puntos podemos apreciar
si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos
se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La
recta se denomina recta de regresión.
11. MEDIA ARITMETICA: es el número que se obtiene al dividir la suma de todas las
observaciones por la cantidad de observaciones sumadas
13. MODA: es el valor de la variable que más veces se repite, o sea, el valor que presenta
mayor frecuencia.
15. MUESTRA ALEATORIA: Trata de obviar las dificultades que presentan los anteriores
ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de
la muestra.
18. PRUEBA DE HIPOTESIS Proceso que permite tomar una decisión entre dos hipótesis
opuestas. Estas hipótesis se plantean de modo que una es la negación de la otra, Luego,
una hipótesis se prueba con la esperanza de poder demostrar que su ocurrencia es muy
improbable, implicándose así que la otra hipótesis es probablemente verdadera.
19. SUMA CUADRADA DEBIDO A LA REGRECION: En un modelo de regresión lineal
simple, y = mx + b, SSR está dada por la suma de los cuadrados de las diferencias de la
media de y al valor correspondiente en la línea recta.
20. TEORIA DEL LIMITE CENTRO: consiste en un conjunto de resultados acerca del
comportamiento de la distribucion de la suma (o promedio) de variables aleatorias.
24 .VARIABLES DISCRETAS:. Aquellas a las que se les puede asociar un número entero,
es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por
ejemplo número de hermanos, páginas de un libro, etc. Variable que tiene un número
limitado de valores. El sexo, por ejemplo, es una variable discreta. Compárese con variable
continua.
25. VARIABLE DEPENDIENTE : Es aquella que teóricamente puede tomar cualquier valor
en una escala de medidas, ya sea entero o fraccionario.
Cuartil.
Percentil cuyo valor que indica su proporción es un múltiplo de 25. Primer cuartil es el percentil
25, segundo cuartil es la mediana, tercer cuartil es el percentil 75.
Decil.
Percentil cuyo valor que indica su proporción es un múltiplo de diez. Percentil 10 es el primer
decil, percentil el segundo decil, etc.
E
Estadística.
Función de los datos muestrales que no contiene parámetros desconocidos.
Escala de Intervalo.
Escala de medición que permite calcular diferencias (además de asignar nombres y orden)
entre los datos.
Escala Nominal.
Escala de medición que sólo permite asignar nombres a los datos.
Escala Ordinal.
Escala de medición que permite asignar orden (además de nombres) a los datos.
Escala de Razón.
Escala de medición que permite calcular proporciones (además de diferencias y de asignar
nombres y orden) entre los datos.
Exactitud.
Cercanía de una medición al ‘verdadero’ valor que se pretende medir.
Experimento.
Proceso, sin una definición específica en el contexto de estadística, mediante el cual se
obtienen datos.
Gráfico Circular.
Gráfico formado por un círculo dividido en sectores, de modo que cada uno de ellos representa
una categoría distinta de la variable observada, manteniendo su proporción relativa respecto
del total de la muestra.
Gráfico de Caja.
Gráfico dibujado de acuerdo a cinco estadísticas: Mínimo de la muestra, 1er. Cuartil, Mediana,
3er. Cuartil, Máximo de la muestra.
Histogramas.
Representación gráfica formada por rectángulos, de una tabla de frecuencias cuya variable es
numérica, de modo que cada dato de la muestra ocupa igual área que los demás.
Mediana.
Percentil 50.
Medidas de Dispersión.
Estadísticas que expresan criterios para describir la ubicación relativa de los datos.
Medidas de Localización.
Estadísticas que describen características generales de la ubicación de los datos dentro de un
conjunto de valores posibles.
Muestra.
Subconjunto de la Población Muestral.
P
Percentil.
Valor del recorrido de una variable, bajo el cual se encuentra una proporción determinada de la
población.
Población Muestral.
Subconjunto de la Población Objetivo cuyos elementos son susceptibles de ser escogidos para
su estudio. Usualmente denominada ‘población’.
Población Objetivo.
Conjunto de elementos sobre los que interesa obtener información o tomar decisiones.
Precisión.
Número de cifras decimales con las que se representa una medición.
Promedio.
Medida de tendencia central que se obtiene sumando los datos y dividiéndolos por el número
de ellos.
Promedio Ponderado.
Promedio de datos a los que se asigna distinta importancia relativa.
Promedio Recortado.
Promedio de un conjunto de datos al que se ha descartado una proporción de sus valores
extremos.
Quintil.
Percentil cuyo valor que indica su proporción es un múltiplo de veinte. Primer quintil es el
percentil 20, segundo el percentil 40, etc.
Redondeo.
Procedimiento para expresar un número de acuerdo a un precisión establecida.
Tablas de Frecuencias.
Tabla que muestra el número de veces que en un conjunto de datos aparece cada una de las
clases de interés especificadas en el recorrido de los datos.
Tabligrama.
Representación de los datos en la que la última cifra decimal de un número se escribe
separada de las restantes, de acuerdo a un orden que facilita la descripción de las frecuencias
sin perder información.