PSICOPATOLOGÍA ADULTOS (Resumen Completo)
PSICOPATOLOGÍA ADULTOS (Resumen Completo)
PSICOPATOLOGÍA ADULTOS (Resumen Completo)
● ibliografía:https://psicoresumenes.weebly.com/bibliocuantitativas.html
B
● Pruebas de practica:https://psicoresumenes.weebly.com/pruebascuanti.html
● Resúmenes de primer año:https://psicoresumenes.weebly.com/primerano.html
● Resúmenes de segundo año:
https://psicoresumenes.weebly.com/segundoano.html
Resúmenes de tercer año:https://psicoresumenes.weebly.com/tercerano.html
●
Unidad 3 - Variables categóricas II: gráficos, tendencia central y dispersión pág. 16
Alejandro Busto
2
Unidad 1 - Presentación del curso y nociones básicas acerca de variables
a ciencia que recoge, ordena y analiza los datos de una muestra extraída de una
L
determinada población, para hacer inferencias acerca de esa población valiéndose del
cálculo de probabilidades es laestadística.
Análisis de datos
Alejandro Busto
3
a unión de ambas en el siglo XIX dio lugar a una nueva ciencia interesada en estudiar
L
cómo obtener conclusiones de la investigación empírica mediante el uso de modelos
matemáticos.
ara poder llegar a esas conclusiones, es decir, para poder efectuar un salto de lo particular
P
a lo general, es crucial que el conjunto de datos utilizados para obtener información sea
representativo del conjunto total de datos sobre el que se desea realizar la inferencia, o sea,
es necesario efectuar una correcta selección de los datos. Esto se consigue mediante
técnicas de muestreo.
ara encontrar relaciones de tipo general (leyes) capaces de explicar el comportamiento de
P
uno o varios eventos reales, a partir de la inducción o generalización inductiva.
n la mayoría de las ciencias empíricas (medicina, biología, psicología, sociología, etc), la
E
variación existente entre las distintas observaciones de un mismo evento no puede ser
sometida, habitualmente, a un control riguroso. Las fuentes de variación existentes son muy
numerosas y resultan extremadamente difíciles de identificar, medir y controlar. En estas
circunstancias, las conclusiones a las que es posible llegar inductivamente requieren la
utilización de una metodología especial. Y es precisamente la estadística la encargada de
proporcionar a las ciencias empíricas esa metodología.
Alejandro Busto
4
manera que lo que ocurre con uno o varios de ellos puede ser explicado recurriendo
a otro o varios diferentes.
stas dos formas difieren, básicamente, en el grado de control que se ejerce sobre los
E
diferentes elementos de la situación en la que se da el fenómeno que se desea estudiar,
siendo este control máximo en la metodología experimental.
Metodología correlacional
o que interesa destacar es que la utilización de una u otra técnica de análisis no determina,
L
por ella misma, el tipo de conclusiones que es posible extraer de un análisis. No permiten
saber a que se deben las diferencias y relaciones detectadas. El principal determinante del
nivel de indagación en el que es posible situarse no es la técnica de análisis aplicada, sino
la estrategia de recogida de datos utilizada.
Alejandro Busto
5
¿Que es una variable?
uede ser tanto una característica física, como la altura, o el color de pelo, como un
P
constructo que no se puede ver a simple vista, estos últimos siendo los que se usan
habitualmente en psicología, por ejemplo, la depresión; estas son también denominadas
comovariables latentes.
n cuanto a las variables que no se pueden ver, como la depresión, está no es posible
E
distinguir a simple vista sino que está construida (por eso es un constructo) por diferentes
dimensiones, por ejemplo:
- alteraciones del sueño
- sensación de fatiga
- pensamientos recurrentes acerca de la muerte
- etc
stos indicadores se pueden utilizar para intentar determinar el nivel de depresión de una
E
persona, así para poder conocer si una persona está deprimida, es necesario medir esas
diferentes dimensiones a través de preguntas relacionadas con esos indicadores, este
proceso anterior es denominado comooperacionalizaciónde una variable.
a depresión es una variable debido a que hay personas que pueden tener valores bajos de
L
depresión, otras intermedio y otras muy altos.
ntonces podemos decir que una variable es una propiedad de un sujeto u objeto que varía,
E
pudiendo adquirir así diferentes valores.
Variables en Psicología
as variables son las dimensiones o facetas de la conducta que son analizadas y pueden
L
tomar dos o más valores.
a mayoría de las variables son latentes, es decir, no tenemos “acceso” a su medida de
L
forma directa. Por ejemplo, la satisfacción, inteligencia, ansiedad, etc.
s importante destacar que no todas las variables son iguales. Hay distintos “formatos” de
E
variables cuando trabajamos con métodos cuantitativos. Esto tiene que ver con la
formulación de la pregunta, no es lo mismo preguntar sobre el departamento donde vive una
persona, lo cual la respuesta va a ser cerrada pero va a estar dentro de un margen de
opciones limitado que serán la cantidad de departamentos; que preguntar sobre si una
persona tiene agua potable en la casa, lo cual va a dar una respuesta de “si” o “no”.
Alejandro Busto
6
Entonces, podemos decir que los formatos de variables dependeran de:
- La pregunta formulada
- Las opciones de respuesta de esa pregunta
sto es porque también es posible preguntar la misma cosa, pero formulando la pregunta
E
de una manera que de opciones de respuesta distinta. Por ejemplo, frente a una pregunta
sobre cómo una persona valora determinado servicio brindado, la pregunta puede
formularse de las siguientes maneras:
ipos de variables.
T
Podemos clasificarlas en:
- Variables categóricas:también denominados como variablescualitativas. Estas
toman valores o niveles discretos para cada categoría.
or ejemplo, ante la pregunta ¿usted trabaja? las respuestas pueden ser “si” y “no”. Cuando
P
se ingresan esas respuestas a la base de datos, a “si” se le otorga el valor 1, a “no” se le
otorga el valor 2.
Entonces, las variables categorías sirven para clasificar las distintas opciones de respuesta.
Alejandro Busto
7
Niveles (o escalas) de medida
s necesario que las relaciones presentes en el sistema formal reflejen las presentes en el
E
sistema empírico para que la correspondencia efectuada se considere una medición.
ependiendo del tipo de relaciones que puedan establecerse entre los valores (números)
D
asignados a una característica, es posible definir diferentes niveles o escalas de medida.
Tradicionalmente se distinguen 4 niveles: nominal, ordinal, de intervalos y de razón.
n un tipo de variable categórica, los “valores” de su medida son los de sus categorías de
E
respuesta. Es importante recordar que, el “valor” de determinada categoría no es en sí
mismo valorativo de la categoría en sí, es decir, trabajar no vale 1, sino que el 1 representa
a la categoría “trabaja” y el 2 representa a la categoría “no trabaja”. Dicho de otra forma, no
hay una relación jerárquica entre los valores “si trabajo” y “no trabajo”, trabajar no vale
menos, ni es peor ni mejor que no trabajar, la función de los números es meramente
representacional.
Alejandro Busto
8
2) N
ivel ordinal (orden):en las ciencias sociales yde la salud es frecuente
encontrarse con características en las que resulta apropiado utilizar está escala. La
satisfacción con un producto o servicio, el bienestar psicológico, el dolor percibido,
etc., son ejemplos de características que suelen medirse con una escala ordinal. En
este nivel se desconoce si la diferencia existente entre los sujetos a los que se les
ha asignado un 1 y un 2 es igual (o distinta) a la diferencia existente entre los sujetos
a los que se les ha asignado un 3 y un 4. Pero si es posible ordenarlos de manera
jerárquica. Consiste en asignar a los sujetos u objetos medidos un número que
permita ordenarlos según la cantidad que poseen de la característica medida.
Entonces sus categoríastienenun orden jerárquicoperono representan valores
realesde una variable en sí misma sino un orden ojerarquía de las mismas.
ada una de estas respuestas va a tener un valor, y cada valor va a ser correspondiente
C
con la jerarquía de esas respuestas, en este sentido:
- Alto vale 30
- Medio vale 20
- Bajo vale 10
s decir, que los valores respetan el orden jerárquico, no son al azar. Y si bien los valores
E
no importan, o sea, alto podría haber valido 18 en vez de 30, pero “medio” siempre tiene
que tener un valor menor al de “alto”, y a su vez, “bajo” siempre tiene que tener un valor
menor a “medio”, perfectamente podrían haber sido:
- Alto 18
- Medio 11
- Bajo 3
Alejandro Busto
9
Características de está escala:
- Presenta intervalos constantes.
- El cero de la escala es arbitrario, se puede comenzar a medir por debajo del cero.
- Las “razones” de las medidasdependen de la escala.
- El doble en una escala no equivale al doble en otra escala.
2) N
ivel de razón:está medida añade a la de intervalosla
presencial del cero absoluto, lo cual permite afirmar que la
característica medida se da el doble, el triple, etc, que en otro.
Alejandro Busto
10
- specíficos:se centran en una técnica concreta o en un conjunto reducido de
E
técnicas
ntre los de carácter general, destacan entre otros: SPSS, SAS, R/S-Plus, Minitab y Stata.
E
Y entre ellos, quizá el SPSS sea el de mayor implantación tanto en el ámbito académico
como en el profesional: a su innegable potencial para el análisis hay que añadir sus
prestaciones como base de datos y su facilidad de manejo.
n las BD cada una de las preguntas del cuestionario es representada como una columna.
E
Cada pregunta es una variable.
uando las variables son categóricas (sexo: hombre, mujer, otro), cada opcion de respuesta
C
de la variable se llama “categoria” o “valor” de la variable.
uando las variables son numéricas (edad), cada opción de respuesta de la variable se
C
llama “valor” o “nivel” de la variable.
En una base de datos, las respuestas de cada persona es considerada un “caso”.
uando la BD es muy extensa, es decir, muchas personas han contestado a las preguntas y
C
por consiguiente se pasa a tener entonces muchos casos, es necesario resumir la
información para contestar las preguntas planteadas en la investigación. Para ello existen
herramientas.
s una forma de ordenar resumidamente los datos de una variable. Es decir, permiten
E
resumir y analizar la información de variables categóricas.
- entro de la distribución:es el valor con la frecuenciamás alta (el valor que más
C
se repite). Este recibe el nombre demoda.
- Forma de la distribución:es visible a partir deltamaño de las frecuencias, que son
las que indican donde tienden a agruparse los valores y qué categorías tienen
frecuencias pequeñas.
- Dispersión:grado de concentración o alejamiento delos valores en torno al centro
de la distribución. La información de una tabla de frecuencias es poco precisa
respecto de está característica. Sabemos que la dispersión es mínima o nula cuando
todas las frecuencias estan concentradas en un mismo valor y máxima cuando estan
repartidas homogéneamente por todos ellos. Cuando las frecuencias estan
concentradas en una sola categoría, es decir, tiene dispersión mínima o nula, la
dispersión toma el valor cero, cuando las frecuencias estan uniformemente
Alejandro Busto
1
1
repartidas entre todas las categorías, es decir, tiene dispersión máxima, la dispersión
toma el valor uno.
a variable sexo tiene 3 categorias: varon, mujer, otro. La frecuencia absoluta muestra los
L
valores de cada una de esas categorías.
ste tipo de frecuencias constituyen el punto de referencia de una tabla de frecuencias, es
E
decir, todas las demás frecuencias se calculan a partir de las absolutas. Por tanto, es
recomendable incluirlas siempre.
Se calcula, para cada categoría como:frecuencia absoluta/ número total de casos.
Alejandro Busto
12
ara calcular la frecuencia porcentual de la categoría “mujer” se debe calcular primero la
P
frecuencia relativa, es decir, realizar la división
1154/1049, lo cual da como resultado 0,819, y
este resultado multiplicarlo por 100, lo cual
daría como resultado 81,9%
Las frecuencias relativas, así como las porcentuales, son útiles para hacer comparaciones.
a frecuencia acumulada se define comola suma detodas las frecuencias hasta una
L
categoría dada.
stá frecuencia nos permite conocer cuántas personas ganan hasta X cantidad de dinero.
E
Por ejemplo, hasta 9.999 pesos. Es decir, supongamos que tenemos dos franjas, una entre
1 peso hasta 4.999 pesos, y otra franja entre 5.000 pesos hasta 9.999 pesos. A través de la
encuesta sabemos cuántas personas ganan entre 1 y 4999, y también sabemos cuántas
ganan entre 5000 y 9999, pero la frecuencia acumulada nos permite sumar ambas franjas
para conocer el total que ganan entre 1 y 9999.
Alejandro Busto
13
or ejemplo, si queremos saber cuántas personas ganan hasta 9999 pesos, a partir de la
P
tabla anterior se hace la cuenta 480 + 58 + 143, lo que da como resultado 681. Este último
número es la frecuencia absoluta acumulada. Lo mismo para la frecuencia porcentual,
considerando las mismas franjas, hacemos la cuenta 34.1 + 4.1 + 10.1, que da como
resultado 48.3, está última es la frecuencia porcentual acumulada.
s decir, las 681 personas que ganan hasta 9999 pesos representan el 48.3% del total de
E
personas que contestaron la encuesta. Entonces, las frecuencias acumuladas sólo cobran
sentido cuando existe un orden lógico en las categorías de la variable. Por eso se calculan
solamente para variables categóricas con nivel de medición ordinal.
n definitiva, las distribuciones de frecuencias nos sirven para organizar, resumir y analizar
E
la información, y además nos permiten conocer cuales son las categorías de la variable con
las que estamos trabajando, cómo se distribuye la variable, cuáles son las categorías más
frecuentes y menos frecuentes, y que tan frecuentes son esas categorías, y además a
través de las frecuencias acumuladas, nos permiten conocer la cantidad de casos hasta una
determinada categoría de la variable.
diferencia de las tablas de frecuencias, las cuales permiten describir de forma resumida la
A
información deunasola variable, las tablas de contingenciao bivariadas permiten describir
dosvariables al mismo tiempo.
Alejandro Busto
14
los valores que corresponden a la frecuencia absoluta de las variables sexo y salarios, se
A
les llamafrecuencias marginales.
los valores que corresponden al cruce de ambas frecuencias, es decir, al interior de la
A
tabla de contingencia, se le llamafrecuencias condicionales.
i quisiéramos responder a la pregunta ¿es mayor la proporción de mujeres sin salarios que
S
la de los varones en la misma situación?, sería necesario calcular tablas de contingencia
porcentuales.
as tablas de contingencia porcentuales resultan más útiles para comparar datos que las
L
tablas de valores absolutos.
Alejandro Busto
15
Tabla N° 3: “Distribucion porcentual de estudiantesde MyTC segun sexo, por salario”
veces las tablas se muestran sinlos resultadosmarginalesde 100%, eso ocurre porque
A
ese 100 está implícito en la tabla, ya que la suma de las frecuencias condicionales suma
100.
Porcentajes
s decir, si tenemos un grupo de personas que en total son 50, y nos interesa calcular el
E
porcentaje de mujeres en este grupo, primero es necesario saber cuántas mujeres hay,
supongamos que hay 17, entonces la cuenta sería:(17 / 50 ) x 100.Lo que daría como
resultado 34, es decir, 34% de las personas de este grupo son mujeres.
Alejandro Busto
16
Gráficos para variables categóricas
os gráficos más utilizados, y también los más apropiados, con variables categóricas son
L
los de barras y los de sectores. Ambos son equivalentes, es decir, ofrecen la misma
información, pero cambian en su aspecto.
Gráfico de barras
n gráfico de barras se construye sobre un plano definido por dos ejes cartesianos: en el
U
eje horizontal se colocan los valores de la variable y en el eje vertical las frecuencias, y
sobre cada valor se levanta una barra de altura proporcional a su frecuencia.
ara construir gráficos de barras hay que tomar algunas precauciones para no distorsionar
P
la información que se está ofreciendo:
- Debe evitarse cortar el eje vertical
- Es muy desaconsejable sustituir las barras por figuras o dibujos de aquello que se
quiere representar
os gráficos de barra no solo son útiles para representar variables categóricas, sino también
L
para representar variables cuantitativas discretas cuando estas toman solo unos pocos
valores.
Gráfico de sectores
n general, un gráfico de sectores no permite comparar el tamaño de los sectores con la
E
misma facilidad que lo hace un gráfico de barras. Y pierde eficacia cuando la variable tiene
muchas categorías. Sin embargo, tiene una ventaja: es posible, en caso de que se
considere conveniente, destacar un sector separándolo del resto.
Representaciones gráficas
- Nos ofrecen información muy útil y de forma “economica”
- Son imágenes que “representan” los casos que tenemos en una matriz datos en
función de una/s variable/s que componen a dicha matriz (o base de datos)
- Se construyen a partir de las frecuencias
- Hay que interpretarlas en función de las variables que analizamos para que la
interpretación de esos datos tenga sentido
Alejandro Busto
7
1
Los gráficos de barras se construyen sobre un plano definido por dos ejes cartesianos: en el
eje horizontal se colocan los valores de la variable, y en el vertical las frecuencias, y sobre
cada valor se levanta una barra de altura proporcional a su frecuencia.
os gráficos de barra no solo son útiles para representar variables categóricas, también lo
L
son para representar variables cuantitativas discretas cuando estas toman solo unos pocos
valores.
Se construyen también a partir de las frecuencias (absolutas, relativas, porcentajes, etc)
on gráficos de barra donde cada variable está representada en cada una de las
S
categorías, por ejemplo en un gráfico donde hay 3 variables (varón, mujer, otros) y varias
categorías de salarios (sin salario, entre 1 y 4999 pesos, etc) las 3 variables estarán
representadas en cada una de las categorías, teniendo cada variable una barra en esa
categoría, por lo tanto, cada categoría tendrá un número de barras igual al número de
variables representadas:
Alejandro Busto
18
iene una capacidad descriptiva muy limitada, por lo que debe interpretarse con cautela.
T
Puede ocurrir que el valor que más se repite tenga una frecuencia baja, o también puede
ocurrir que haya más de una moda, o que haya muy poca diferencia entre las dos
categorías que más se repiten.
uando hay dos puntuaciones con la mayor frecuencia, o sea, dos modas, en ese caso se
C
dice que la distribución es bimodal.
l cálculo de la moda proviene de la suma de las veces de cada valor o categoría. Por
E
ejemplo, en la siguiente tabla donde tenemos 3 categorías en la variable “sexo” (mujer,
varón, otros), la categoría que más se repite es “mujer” por lo que la moda es esa categoría.
Alejandro Busto
19
Dispersión
n el caso de los datos categóricos, la dispersión informa que tan heterogéneas son las
E
puntuaciones.
os cuantiles son medidas de “posición”, sirven para organizar y resumir la información de
L
una variable numérica pero además nos permiten comparar las características de un
individuo dentro de un grupo determinado.
Alejandro Busto
20
ediana
M
Es el valor de la variable que divide al total de las medidas (ordenadas) en 2 partes iguales.
Es el centro de la variable en sentido literal: es el valor que ocupa la posición central cuando
los casos estan ordenados.
or encima de la mediana se encuentra el 50% de los casos, por debajo de ella se
P
encuentra el otro 50%.
ara hacerlo, primero se debe seleccionar una variable numérica, por ejemplo la edad. Para
P
calcular la mediana se usa la información tal cual como aparece en la base de datos, luego
se siguen los siguientes pasos:
onviene advertir que los cuantiles no son porcentajes, sino valores de la variable. Así,
C
como el percentil 50 del grupo de 9 vale 27, eso quiere decir que el 50% de las personas
tienen al menos 27 años. Si bien los cuantiles tienen distintos nombres como ya hemos
visto (mediana, cuartiles, etc), lo cierto es que todos ellos pueden ser concebidos como
percentiles: la mediana es el percentil 50; los cuartiles los percentiles 25, y así
sucesivamente.
or lo tanto, para conocer el valor de un cuantil cualquiera, basta con calcular el
P
correspondiente percentil. No existe una única manera de calcularlos, pero la más usada se
ajusta a una regla sencilla. Se comienza ordenando los casos de forma ascendente por su
valor en el eje Y, y calculando:
i=k(n+1)/100
Alejandro Busto
1
2
Donde k es el porcentaje de casos acumulados que se busca; Yies el valor de la variable
que ocupa la posición correspondiente a la parte entera de i; y d es la parte decimal de i.
Cuartiles
on los 3 valores de la variable que dividen al total de las medidas (ordenadas) en 4 partes
S
iguales.
Alejandro Busto
22
Quintiles
Son los 4 valores de la variable que dividen al total de las medidas en 5 partes iguales.
Alejandro Busto
23
Mediana y equivalencia en los distintos tipos de cuantiles
ambién se puede observar que elquintil 1es equivalentealpercentil 20,y que elquintil
T
4es equivalente alpercentil 80.
Alejandro Busto
24
Cuantiles como grupo de puntuaciones
os cuantiles muchas veces también se consideran, no como puntos de corte, como hemos
L
visto anteriormente, sino como grupos de puntuaciones.
n este caso, la línea de corte, es decir, el cuartil Q1, no representa sólo el número 21, sino
E
que representa a todas las personas que tienen entre 20 y 21. De la misma forma, el cuartil
Q2 no representa el 27.5 sino que a todas las personas que tienen entre 21 y 27.5, y así
sucesivamente.
n está forma de considerar cuantiles, no son medidas si no que se trata de una variable
E
categórica construida a partir de esas medidas.
Alejandro Busto
25
e está forma, la caja representa entonces la amplitud intercuartil, lo cual sería la distancia
D
entre el primer y tercer cuartil. La amplitud intercuartil sirve para definir cuales son los
valores típicos de la variable y cuales son los valores atípicos.
os bigotes del diagrama muestran los valores inferior y superior de la variable, siempre que
L
no haya casos atípicos, es decir nos proporciona información sobre el rango de esa
variable. El bigote inferior es el valor más pequeño que no llega a ser atípico, así como el
bigote superior representa los valores más grandes que no llegan a ser atípicos.
n este caso, los valores atípicos estan por encima del rango superior de los valores
E
superiores de la variable.
Alejandro Busto
26
¿Cómo saber cuando un caso es atípico?
os casos atípicos son siempre los valores situados a más de 1.5 amplitudes intercuartiles
L
del cuartil 1 o del cuartil 3. Es decir, si los casos atípicos estan por encima del bigote
superior, estarán entonces a 1.5 amplitudes del tercer cuartil, pero si los casos atípicos
estan por debajo del bigote inferior, estarán a 1.5 amplitudes del primer cuartil.
n el ejemplo anterior, podemos ver que la mediana está en 15000, eso quiere decir que el
E
50% de los empleados ganahasta15000 pesos, entoncesel centro de la distribución es
15000.
obre la dispersión, en este ejemplo, se puede ver que la distribución de “sueldo 1” es más
S
dispersa que la de “sueldo 2”, esto puede observarse tanto en la amplitud de la caja como
en la amplitud de los bigotes.
n el sueldo 1, hay más dispersión porque hay gente que gana hasta 12 mil pesos, y
E
algunos casos atípicos que ganan incluso mucho menos que eso, y otros que ganan hasta
casi 18000 pesos, y algunos casos atípicos que ganan incluso más que eso. Por otro lado,
en el sueldo 2, hay quienes ganan hasta 13 mil pesos y algunos casos atípicos que ganan
un poquito menos pero no demasiado, lo mismo con el salario máximo, algunos llegan a
ganar hasta 17 mil pesos y algunos casos atípicos un poquito más, pero no tanto.
n estos casos es importante destacar que la dispersión, para ambos gráficos, es
E
asimétrica.
Alejandro Busto
27
Gráfico con dos variables categóricas, una referente a quintiles de ingreso
ste gráfico muestra el porcentaje de repetición en niños de primaria por quintil de ingresos
E
per cápita del hogar.
e los niños que viven en un hogar perteneciente al quintil 1 de ingresos, el 43.2% repiten.
D
De los niños que viven en un hogar dentro del quintil 5 (de los que tienen mayores ingresos)
el porcentaje de repetición es bajo (4.6%).
or lo tanto este gráfico nos sirve para conocer la desigualdad en el desempeño educativo
P
en función del ingreso.
Tendencia central
na buena manera de identificar el centro de una variable consiste en elegir el valor que
U
mejor representa el resto de los valores. El centro de una variable cuantitativa puede
encontrarse de diferentes maneras, todo depende del aspecto de la variable que se
considera relevante: puede prestarse atención a todos los valores de la variable o solo a
parte de ellos; si se decide no prestar atención a todos los valores, la decisión puede
atender a distintos criterios; pueden ponderarse todos los valores por igual o pueden
asignarse ponderaciones distintas a valores distintos, etc. No existe un estadístico perfecto
para describir el centro de todas las variables en el sentido de que no existe ningún
estadístico capaz de captar toda la complejidad de una variable cuantitativa; cada
estadístico se centra en un aspecto de la variable y ese detalle le confiere sus fortalezas y
sus debilidades.
a media por si sola tiene una capacidad descriptiva bastante limitada, ya que por un lado,
L
no dice nada acerca de lo bien o mal que está representando al resto de valores, y por otro
lado, el hecho de que en el cálculo de la media intervengan todos los valores hace de ella
un estadístico muy sensible a la presencia de asimetría en la distribución, es decir, a la
presencia de valores muy alejados del centro por uno de los dos extremos de la distribución.
Alejandro Busto
28
Estadísticos resistentes:
a media aprovecha las propiedades cuantitativas (de intervalo o razón) de los datos. La
L
mediana sin embargo solo aprovecha sus propiedades ordinales. Las implicancias de está
diferencia son importantes. La mediana no se alteraría si uno de los valores más alejados
de ella se cambiara, en cambio, la media cambiaria en cierta cantidad, sea cual sea el
cambio, de manera significativa o menos significativa.. Es decir que mientras que el cambio
de un solo dato altera la media, la mediana permanece inalterada.
a mediana por tanto, es un estadístico más resistente a la media. Pero la mediana no es el
L
único estadístico resistentes, también se encuentran:
- La media recortada o media truncada
- La media winsorizada
- La trimedia
- Los estimadores M
Dispersión
Alejandro Busto
29
Unidad 5 - Variables numéricas II - tendencia central y dispersión
ara describir de forma organizada los valores de una variable cuantitativa se requiere
P
utilizar 3 propiedades centrales: centro, dispersión y forma de la distribución.
na buena manera de identificar el centro de una variable consiste en elegir el valor que
U
mejor representa el resto de los valores. El centro de una variable cuantitativa puede
encontrarse de diferentes maneras, todo depende del aspecto de la variable que se
considera relevante: puede prestarse atención a todos los valores de la variable o solo a
parte de ellos; si se decide no prestar atención a todos los valores, la decisión puede
atender a distintos criterios; pueden ponderarse todos los valores por igual o pueden
asignarse ponderaciones distintas a valores distintos, etc. No existe un estadístico perfecto
para describir el centro de todas las variables en el sentido de que no existe ningún
estadístico capaz de captar toda la complejidad de una variable cuantitativa; cada
estadístico se centra en un aspecto de la variable y ese detalle le confiere sus fortalezas y
sus debilidades.
n estadístico es una herramienta que nos permite caracterizar un conjunto de datos que
U
tenemos acerca de diferentes variables, es decir, es un resumen de una determinada
cantidad de información que tenemos acerca de un u otro fenómeno psicológico.
l igual que un resumen de un PDF sintetiza los puntos centrales de ese PDF, el estadístico
A
hace lo mismo, y en ese sentido, tanto los resúmenes como los estadísticos no son capaces
de brindar toda la información contenida en eso que resumen. En el caso de los
estadísticos, no son capaces de brindar toda la información contenida en esos datos. y por
tanto, siempre hay algo de información que queda fuera.
a media por si sola tiene una capacidad descriptiva bastante limitada, ya que por un lado,
L
no dice nada acerca de lo bien o mal que está representando al resto de valores, y por otro
lado, el hecho de que en el cálculo de la media intervengan todos los valores hace de ella
un estadístico muy sensible a la presencia de asimetría en la distribución, es decir, a la
presencia de valores muy alejados del centro por uno de los dos extremos de la distribución.
Alejandro Busto
30
a media consiste en la suma de todas las puntuaciones dividida por el número de
L
puntuaciones. Es decir, si tenemos las puntuaciones 1, 2 y 4 (3 puntuaciones), la cuenta a
hacer será 1+2+4=7, y luego 7/3= 2.33, la media entonces es 2.33.
l problema de la media es que es muy sensible a valores extremos, por lo tanto, si se
E
agrega un valor que sea muy por encima (o por debajo) de los valores más comunes, la
media se verá afectada altamente. Por ejemplo, si tenemos las puntuaciones 1, 2, 4 y 30 (4
puntuaciones), la cuenta a hacer será 1+2+4+30= 37, y luego 37/4= 9.25.
e puede ver que hay una gran diferencia entre 2.33 y 9.25. Por lo tanto tener únicamente
S
la media como información no es muy útil, por eso es necesario tener otros tipos
complementarios de información.
ediana:el método de cálculo más extendido se ajustaa una regla bastante simple. Hay
M
que recordar que para calcular la mediana hay que ordenar los casos de mayor a menor.:
- Si el número de casos es impar, la mediana es el valor que ocupa i=(n+1)/2. Es
decir, si tenemos 5 casos (impar), la mediana de ese valor será entonces la posición
i, que se calcula así: (5+1)/2, siendo n=5 (n es el número de casos totales).
Básicamente sumándole 1 al número de casos impar para convertirlo en par, 5+1= 6,
y luego dividiéndolo entre 2. Entonces la mediana estaría en la posición número 3.
- Si el número de casos es par, la mediana es el punto medio entre los dos valores
que ocupan las posiciones n/2 y (n/2)+1, es decir, entre la posición resultante de
dividir el número de casos entre 2 y dividir el número de casos entre 2 y sumarle 1.
Si tenemos 6 casos, estas dos cuentas nos dan las posiciones 3 y 4, entonces la
mediana será el número que este entre esas posiciones. Si por ejemplo, la posición
3 vale 31 y la posición 4 vale 32, la mediana entonces será 31.5, si la posición 3 vale
10 y la posición 4 vale 12, la mediana será 11, etc.
Alejandro Busto
31
omparación entre estadísticos de tendencia central:uno de los principales objetivos
C
del análisis descriptivo consiste en identificar el centro de una variable. El grado de parecido
entre estos estadísticos depende, básicamente, de la forma de la distribución de la variable:
si la distribución es simétrica, todos los estadísticos toman el mismo valor; la diferencia
entre ellos va aumentando conforme aumenta el grado de asimetría.
a media aritmética utiliza las propiedades cuantitativas de los datos y se basa en una
L
ponderación uniforme de todos ellos. Esto la convierte en un estadístico muy sensible a la
presencia de asimetría en la distribución de los datos. Las medias recortada y winsorizada
intentan corregir la falta de resistencia de la media aritmética modificando el tratamiento que
dan a un determinado porcentaje de casos de los extremos de la distribución, está
modificación, lógicamente, implica una pérdida de información que debe tenerse en cuenta.
La mediana lleva al límite esa modificación del tratamiento que se da a los valores más
extremos: elimina del análisis todos los casos menos los que ocupan la posición central; de
este modo, su resistencia a la presencia de anomalías en los datos es máxima. Por lo tanto,
la media aritmética es el estadístico más sensible a la presencia de asimetría en la
distribución.
ero entonces ¿qué estadístico de tendencia central conviene elegir para informar de
P
nuestros resultados?
a fase descriptiva sólo representa el comienzo del análisis, terminada esa fase se pasa a
L
la fase inferencial para efectuar comparaciones. Las herramientas disponibles para efectuar
comparaciones se basan sobre todo en la media aritmética, y por lo tanto, debe incluirse en
el informe descriptivo ya que si bien posee limitaciones descriptivas, tiene excelentes
propiedades inferenciales. En este sentido, el resto de los estadísticos de tendencia central
se pueden utilizar para recomendar si conviene prestar atención a la media o a la mediana.
Dispersión
s un concepto muy útil para complementar con la media dado que brinda información
E
adicional relevante para comprender el resumen de los datos.
a dispersión es esencialmente positiva, puede ser baja dispersión, media o elevada, pero
L
nunca existirá una dispersión negativa.
Usemos este ejemplo en el que cada grupo tiene una media de 50:
omo conocer únicamente la edad promedio de cada grupo no permite identificar el grupo
C
del que se está hablando (pues todos tienen la misma edad promedio): es necesario
conocer, además, el grado de dispersión, es decir, el grado de parecido entre los datos en el
sentido de concentración o alejamiento entre ellos.
mplitudes
A
El estadístico de dispersión más simple de todos consiste en calcular la diferencia entre el
valor más grande y el más pequeño. A está diferencia se le llamaamplitud total,aunque
también puede encontrarse como rango, recorrido o, simplemente, amplitud.
ango o amplitud:consiste en la diferencia entreel valor más bajo de los datos y el más
R
alto. En el caso del ejemplo en el que las puntuaciones eran (1, 2 y 4) esos valores serían 1
y 4, en el ejemplo (1, 2, 4 y 30) esos valores serían el 1 y el 30.
ara calcularla lo que se debe hacer es simplemente tomar el valor más elevado y restarle
P
el valor más bajo, o sea:
rimer ejemplo: 4 - 1= 3
P
Segundo ejemplo: 30 - 1= 29
s importante recordar que en este estadístico únicamente intervienen los dos valores
E
extremos, lo cual significa que no se está prestando atención a la disposición de los valores
intermedios. Y esto tiene dos consecuencias indeseables:
1. puede ocurrir que conjuntos de datos muy diferentes tengan la misma amplitud total;
basta con que los dos valores extremos sean los mismos
2. la presencia de un solo caso muy distante del resto es capaz de alterar
sensiblemente el valor de la amplitud total
arianza
V
Es uno de los estadísticos de dispersión más utilizados. Se basa en las desviaciones de la
media, pero para evitar que su suma valga cero, en lugar de tomar esas desviaciones en
valor absoluto (como la media de las desviaciones) se elevan al cuadrado.
anto -2 al cuadrado (-2 x -2) como 2 al cuadrado (2 x 2) dan 4, es decir, tenemos dos
T
puntuaciones que dan 4, y si hallamos el promedio de dos valores que son 4, vamos a
obtener un 4 de promedio:
i tomáramos el ejemplo (1, 2, 4 y 30) sería algo así, teniendo en cuenta que su media era
S
9.25.
rimer paso
P egundo paso
S ercer paso
T
Tenemos que la Calculamos el cuadrado de Calculamos el promedio o media de
diferencia entre: cada uno: los cuadrados:
1 y 9:25 es -8.25 -8.25 al cuadrado es: 68.06
8.06+52.56+27.56+430.56=578.74
6
2 y 9.25 es -7.25 -7.25 al cuadrado es: 52.56
, y luego 578.74/4= 144.68
4 y 9.25 es -5.25 -5.25 al cuadrado es: 27.56
30 y 9.25 es 20.75 20.75 al cuadrado es: 430.56 La varianza en este caso es 144.68
omo podemos observar en el ejemplo anterior, la varianza no permite formarse una idea
C
acertada del grado de dispersión de una variable. La razón de esto es que las distancias a
la media estan elevadas al cuadrado. La varianza puede servir, sin embargo, para comparar
entre sí distintos grupos (lógicamente, en la misma variable) y saber en cuál de ellos hay
mayor dispersión, pero no sirve para formarse una idea sobre el grado de dispersión. Por
está razón, lo que suele hacerse es utilizar la raíz cuadrada de la varianza, odesviación
típica.
o que se hace básicamente es hallar la raíz cuadrada del valor de la varianza. Por ejemplo,
L
en los ejemplos anteriores teníamos dos resultados:
- En el primer ejemplo la varianza era 4
- En el segundo ejemplo la varianza era 144.68
ara hallar la desviación típica simplemente hallamos raíz cuadrada de 4 o raíz cuadrada de
P
144.68:
a raíz cuadrada de 4 es 2. Por lo tanto la
L a raíz cuadrada de 144.68 es
L
desviación típica es 2 aproximadamente 12.03. Por lo tanto la
desviación típica es 12.03
Alejandro Busto
34
Forma de la distribución
demás de ayudar a elegir entre estadísticos, es útil por sí misma: permite obtener una
A
visión rápida de las características de la variable, detectar valores anómalos, advertir
inconsistencias de los datos (valores que se repiten demasiado o valores que no aparecen),
etc. Por tanto, conocer la forma de una distribución tiene un interés comparable al de
identificar su centro o cuantificar su dispersión.
1) L
a asimetría:refiere a la forma en que los datosse distribuyen por encima y por
debajo del centro. Es una medida que nos indica acerca de la distribución de los
valores en relación a la media, específicamente nos indica si existen más elementos
antes o después de la media. Si hay más elementos antes de la media esto se
conoce comoasimetría positivaoasimetría con colahacía la derecha.Si hay
más elementos antes de la media esto se conoce comoasimetría negativao
asimetría con cola hacía la izquierda.También existendistribuciones simétricas,
que es donde existe el mismo número de elementos a la izquierda como a la
derecha.
Distribución simétrica
Alejandro Busto
35
Asimetría positiva o con cola hacía la derecha
n este tipo de asimetría se encuentra en general que la media está a la derecha de la
E
mediana, debido a que muchos valores atípicos “arrastran” a la media en esa dirección:
En este caso la media es inferior a la mediana, es decir, va a estar más a la izquierda.
Alejandro Busto
6
3
2) La curtosis:refiere al grado de apuntamiento de unadistribución, es decir, al nivel
de concentración de casos en un punto particular de la distribución:
stá característica se valora por comparación con una distribución teórica llamada curva
E
normal (mesocúrtica)
a curtosis expresa el grado en que una distribución acumula casos en sus colas en
L
comparación con los casos que acumulan las colas de una curva normal con la misma
medida y con la misma desviación típica.
Histograma
Es diferente del gráfico con barras utilizado con variables categóricas.
Alejandro Busto
37
Características del histograma:
- Sirve únicamente para trabajarcon una variable.Sise requiere analizar varias
variables se necesita un histograma para cada variable.
- Las variables deben ser numéricas continuas
- A cada intervalo de valores le corresponde solo una barra
- El alto de las barras es determinado en función del valor de la frecuencia de cada
uno de esos valores
- El gráfico puede ser presentado en forma vertical u horizontal
- Las barras se disponen juntas generando una impresión de continuidad que
permiten ver si hay patrones en los datos
ntre los gráficos disponibles para describir la forma de la distribución de una variable
E
cuantitativa los más utilizados son: el histograma, el polígono de frecuencias, el diagrama
de tallo y hojas y el diagrama de caja.
i se voltea el histograma para que aparezca verticalmente puede compararse con el
S
diagrama de cajas.
Alejandro Busto
38
Unidad 6 - Puntuaciones Z y distribución normal
Puntuaciones Z
orman una distribución que siempre tiene el mismo centro, la misma dispersión y la misma
F
métrica.
Alejandro Busto
39
or lo tanto, comparando por centiles puedo saber que significa haber obtenido cierta
P
puntuación en una determinada prueba (podes saber si fue una puntuación que no es muy
común, por ejemplo, si está dentro del 25%, pero si está dentro del 75% no es tan rara, ya
que el 75% se saca al menos esa nota), y en ese sentido, se puede definir en cada
distribución a que estudiantes les fue “mejor” en la prueba.
in embargo, está forma de comparar con centiles convierte la métrica original en ordinal
S
(posiciones relativas) alterando la forma de la distribución. Para que esto no ocurra, se
utilizan las puntuaciones típicas o Z.
as puntuaciones Z obtenidas forman una distribución que siempre tiene el mismo centro,
L
misma dispersión y misma métrica, y por lo tanto pueden compararse. Y representan el
número de desviaciones típicas o estándar por encima o por debajo de la media.
or ejemplo, si tenemos una puntuación directa de 7.4 en una distribución que tiene una
P
media de 6 y una desviación típica de 1.1, hacemos la siguiente cuenta:
l dividir cada distancia a la media entre la desviación típica, el resultado queda expresado
A
en unidades de dispersión.
esumiendo, entonces, las puntuaciones Z obtenidas forman una distribución que siempre
R
tienen:
- El mismo centro:0
- La misma dispersión:desvío típico 1
- La misma métrica:unidades de dispersión
lgo importante para recordar es que, aunque en teoría las puntuaciones Z no tienen límite
A
máximo, siempre suelen tomar valores entre -3 y +3 desvíos estándar(lo cual es
denominado curva normal). Los valores que salgan de está curva normal son, en general,
vistos como atípicos.
Escalas derivadas
as puntuaciones Z poseen una interesante utilidad que refiere a que toda variable
L
cuantitativa, cualquiera que sea su métrica, puede ser tipificada en una nueva variable, es
decir, puede ser convertida a puntuación Z, y estas, a su vez, pueden ser transformadas a
un nuevo conjunto de puntuaciones con media y desviación típica conocidas. Esto significa
Alejandro Busto
40
ue toda variable cuantitativa, cualquiera que sea su métrica, puede ser transformada en
q
otra variable equivalente con media y desviación típica conocida.
s posible observar acá que, aunque las curvas originales eran distintas, ambas curvas son
E
idénticas cuando se las transforma a puntuaciones Z, y en ese sentido, será posible
comparar las originales.
Distribución normal
as distribuciones teóricas como la normal o binomial, son distribuciones que, aunque no
L
estan generadas a partir de los datos sino a partir de una función matemática, son
representaciones de los datos que tienen la enorme utilidad de ayudar a interpretarlos
mejor.
uchas veces las variables cuantitativas que medimos tienen una forma particular: la
M
mayoría de los valores se encuentran próximos al centro de la distribución y van siendo
menos frecuentes a medida que va aumentando la distancia al centro. Es el caso de la
distribución normal. La curva normal puede concebirse como una especie de histograma
suavizado cuyas barras se han levantado sobre intervalos infinitamente pequeños.
acurva normales entonces, una distribución teóricade probabilidad que sirve como
L
referente del comportamiento de muchas de las variables cuantitativas.
Alejandro Busto
41
Si los datos que se recogen son debidos a la suma de cierto número de causas
independientes entre sí, cada una con un efecto parcial, la distribución de los datos
recogidos se asemejara tanto más a la curva normal cuantos más datos se recojan.
s decir, mientras más datos recogemos de algo la distribución de esos datos se va a ir
E
pareciendo cada vez más a la curva normal a medida que la cantidad de datos recogidos
aumente.
o interesante es que no existe una única curva normal, sino muchas, pero todas ellas
L
comparten las mismas características:
- ienen un único máximo enµY,por lo tanto son unimodales.
T
- Tienen forma de campana, lo cual implica que los valores centrales son más
probables que los que se van alejando del centro
- on simétricas respecto al eje central situado enµY,por lo que las diferentes
S
medidas de tendencia central (mediana, media, moda) coinciden.
- Son asintóticas respecto al eje horizontal (por mucho que se extiendan nunca llegan
a tocarlo), por lo que los valores mínimo y máximo del eje de abscisas son−∞y
+∞.
- xisten dos puntos de inflexión por encima y por debajo deµY,
E
- El área total bajo la curva vale 1. Todas las puntuaciones posibles se encuentran
entre−∞y+∞, por lo tanto la probabilidad de encontrarvalores menores que−∞
y mayores que+∞vale cero.
uando tipificamos las puntuaciones directas obtenemos una media de 0 y un desvío de 1,
C
y de esa manera los valores obtenidos se deben leer en términos de valores estándar.
Alejandro Busto
42
a distribución de las puntuaciones Z tiene forma de “Campana de Gauss”, la cual es la
L
distribución teórica más importante en estadística, debido a que:
- Es la más frecuente
- Es muy usada en test de hipótesis
- Muchos test estadísticos asumen que la distribución de los datos es normal
Distribución de probabilidad
omo se puede ver, el 99.6% de las puntuaciones van a aparecer entre -3 y 3, y es por ello
C
que se dice que las puntuaciones que sean menores a -3 o mayores a 3 son atípicas.
Alejandro Busto
43
Unidad 7 - Muestreo - Introducción a la inferencia
stadística inferencial:su objetivo es buscar reducirla incertidumbre sobre aquello que no
E
observamos.
no de los objetivos del análisis de datos es extraer conclusiones generales a partir de unos
U
pocos datos particulares, a este salto de lo particular a lo general es lo que se llama
inferencia estadística.
ara esto es preciso utilizar procedimientos que permitan realizar de forma correcta está
P
generalización, los análisis de datos a implementar deben ser tan apropiados como la
propia selección de los mismos.
o primero que hay que hacer es definir una pregunta de investigación, ¿que queremos
L
saber?, esto tendrá implícito una cierta población de investigación, por ejemplo, si queremos
saber la edad de los psicólogos del Uruguay, la población implícitamente de la investigación
serán Psicólogos que trabajen en Uruguay, o más aún, si se quiere ser más específico, y se
quiere saber la edad de los psicólogos recibidos en la UdelaR, la población de la
investigación serán los psicólogos recibidos en la UdelaR.
ómo investigar sobre una población entera muchas veces es muy caro y lleva mucho
C
tiempo, no es viable, por lo que luego de definir la población lo que se hace es definir una
muestra de esa población.
Muestra
or lo tanto para que las conclusiones obtenidas sean válidas, la muestra utilizada debe ser
P
representativa de la población que se supone representa, esto se logra a través de las
técnicas de muestreo.
uanto mayor sea el tamaño de la muestra utilizada, mayor precisión tendrán las medidas
C
obtenidas en relación a la población.
uestreo:se refiere al proceso seguido para extraeruna muestra de una población. Puede
M
ser de 2 tipos:
Alejandro Busto
44
- robabilístico:un subtipo de este muestreo es elmuestreo aleatorio,en el cual
P
todos los elementos de la población tienen la misma probabilidad de ser elegidos, y
el resultado de cada extracción no afecta ni depende del resultado de cualquier otra,
es decir son independientes entre sí.
- No probabilístico
a forma más sencilla de lograr una muestra que no este sesgada es calcularla
L
aleatoriamente, es decir, de la población total se seleccionan al azar individuos
pertenecientes a ella.
s importante destacar que dado que las poblaciones con las que trabajamos son
E
desconocidas, no hay manera de saber si la muestra elegida es representativa o no de la
población muestreada. Lo que podemos saber es si se ha utilizado un método de selección
que garantiza que la muestra elegida sea representativa de la población.
l problema al tomar muestras de una población, es que cada muestra tendrá una media
E
distinta, porque a pesar de que la media de la población es una constante, la media de las
muestras es una variable.
Población y muestra
Los parámetros de la población, es decir, media, desvío, etc se representan a menudo con:
- Media:mú (μ)
- Desvío:sigma (σ)
Es importante destacar que una de las características de los parámetros es que son
constantes, no varían.
or otro lado, cuando se habla demuestrasno nosreferimos a parámetros, sino que nos
P
referimos aestadisticos
Un estadístico es un valor numérico que describe una característica muestral. Por lo tanto
un estadístico es a la muestra, lo que un parámetro es a la población.
o es posible calcular los parámetros, pero cada parámetro poblacional posee su réplica
N
muestral en un estadístico concreto que sí puede ser calculado. De este modo, los
estadísticos muestrales se van a utilizar para intentar formarnos una idea sobre los
verdaderos valores de sus correspondientes parámetros poblacionales desconocidos. A
este proceso se lo conoce con el nombre deestimación.
ero si no tenemos cómo comparar los datos de la muestra con el de la población ¿es
P
posible conocer el tamaño del error?
ara conocer el tamaño del error es necesario conocer cómo varían los datos de la
P
muestra, por ejemplo, en distintas muestras.
Uno de los estadísticos más útiles y utilizados en el contexto de la inferencia estadística es
la media aritmética: . Si tenemos varias muestrasy en cada una de ellas calculamos la
media aritmética, esos posibles valores de este estadístico son los que constituyen su
distribución muestral.
a media aritmética puede tomar el mismo valor en más de una muestra, y aunque todas
L
las muestras que tenemos son equiprobables, los posibles valores de la media aritmética no
lo son: hay algunos valores de la media aritmética que son más probables que otros porque
unos pueden obtenerse en un mayor número de muestras que otros.
or todo esto decimos que ladistribución muestrales un constructo teórico que nos
P
permite conocer qué tanto y de qué forma varían las medias muestrales (medias
aritméticas). Otra característica que presenta la distribución muestral es que cuando se
grafica en un histograma está es simétrica, independientemente de la forma de la
distribución poblacional.
Resumiendo:
- la media de la distribución muestral coincide con la media poblacional
- La distribución muestral permite relacionar los estadísticos obtenidos en una
muestra con los parámetros de la población
ste teorema afirma que si los datos que se recogen son debidos a la suma de cierto
E
número de causas independientes entre sí, cada una con un efecto parcial, la distribución
de los datos recogidos se asemejará tanto más a la curva normal cuantos más datos se
recojan.
Alejandro Busto
6
4
- Que la media de la distribución muestral es igual a la media poblacional, es decir, si
promediamos todas las distribuciones muestrales de las muestras que tenemos, ese
promedio (o media) sería igual a la media poblacional (o sea, sería igual a μ). Si esto
se da de esa forma, eso significa que las muestras y el estadístico elegido (la media
en este caso) no estan sesgados.
- Que el desvío de la distribución muestral se lo conoce comoerror estándar
Error estándar
l error estándarlo que muestra es que tanto se alejala media muestral de la media
E
poblacional.
n error estándar grande significa que las medias muestrales pueden errar por mucho con
U
respecto de la media poblacional. Por el contrario, un error estándar bajo significa que las
medias muestrales son cercanas a la media poblacional.
ara reducir el error a la mitad, es necesario multiplicar por 4 la muestra (por eso la raíz
P
cuadrada), por lo que una muestra de 10 tendrá el doble de error que una muestra de 40, y
una muestra de 40 tendrá el doble de error que una muestra de 160.
ste resultado, es decir, el error estandar que en está cuenta se da como resultado, es un
E
estimativo y se representa con el +/-, por ejemplo, se puede decir que la media de una
distribución es 30 +/- 3, eso quiere decir que se estima un error estándar de +/-3 por lo que
la media podría en realidad estar entre 27 y 33.
Resumiendo
D
● istribución muestral
- Indica cómo varían los estadísticos muestrales
- Muchas son distribuciones normales
Alejandro Busto
47
D
● istribución muestral de la media
- Media: es la media poblacional
- Desvío: se le llama error estándar
E
● rror estándar
- Aumenta a mayor variabilidad en la población
- Disminuye al aumentar el tamaño muestral
mbas estrategias son posibles gracias a las distribuciones muestrales. Tanto el contraste
A
de hipótesis como la estimación de parámetros se basan en la variabilidad inherente a todo
estadístico. Y son las distribuciones muestrales las que informan sobre esa variabilidad.
Estimacion de parametros
ota:En el PDF los parámetros cualesquiera que seanson representados por la letra
N
griega theta θ. A los estadísticos utilizados para efectuar estimaciones se les llama
estimadores y se representan con la letra griega theta θ con un gorrito.
iempre que se efectúa una estimación es importante conocer laprecisión(y, por tanto, el
S
error) con la que se está trabajando. Esto puede conseguirse recurriendo a la estimación
por intervalos.
omo vimos anteriormente, este tipo de estimación seconsiste en asignar al parámetro que
C
se desea estimar unrango de valoresentre los quese espera que pueda encontrarse el
verdadero valor del parámetro conprobabilidad conocida.
Alejandro Busto
9
4
La utilidad de está estrategia radica justamente en que permite conocer la probabilidad con
la que cabe esperar que el intervalo construido incluya el verdadero valor del parámetro
estimado. A esa probabilidad se le llamanivel deconfianza.
ntonces elnivel de confianzase refierea la probabilidadcon la que cabe esperar que el
E
intervalo construido incluya el verdadero valor del parámetro estimado. Para esto se deben
tener en cuenta 2 cosas respecto al nivel de confianza:
- A mayor confianza, menor precisión:cuanto mayor seaEmax, mayor será la
amplitud del intervalo y mayor también la probabilidad de que el intervalo construido
incluya el verdadero valor del parámetro.
- A menor error, mayor precisión:respecto a lo anteriormentedicho, es importante
tener en cuenta que, cuanto mayor sea Emax, menorserá la precisión de la
estimación, pues se estará atribuyendo al parámetro un rango más amplio de
valores.
or eso, si el intervalo es más estrecho (más preciso), ese aumento de precisión implicará
P
una disminución del nivel de confianza.
Esto sugiere que es necesario buscar un equilibrio entre dos objetivos contrapuestos:
ue el intervalo construido sea lo bastante amplio como para garantizar que la
Q
probabilidad de incluir el parámetro sea alta y, al mismo tiempo, lo bastante
estrecho como para ofrecer una precisión razonable. Este equilibrio se ha buscado
tradicionalmente en la literatura estadística estableciendo un nivel de confianza de
0.95 y, por tanto, un nivel de riesgo de 0.05.
Alejandro Busto