Resumen Estadisticos KERLINGER 1
Resumen Estadisticos KERLINGER 1
Resumen Estadisticos KERLINGER 1
RELACIONES CAPITULO 5
Las relaciones en la ciencia siempre se dan entre pares de conjuntos. Una manera
de ver las relaciones entre pares de conjuntos es mediante un gráfico de dispersión
en donde cada par toma un punto en un plano cartesiano. Por lo tanto una relación
es un conjunto de pares ordenados. Existe otra forma de definir una relación que nos
puede ayudar. Sean A y B conjuntos. Si pareamos de manera individual cada
miembro de A con cada miembro de B, obtendremos todos los pares posibles entre
ambos conjuntos, lo que se denomina el producto cartesiano de los dos conjuntos y
se enuncia A x B. Una relación se define como un subconjunto de A x B; es decir,
cualquier subconjunto de pares ordenados tomados de A x B constituye una
relación.
Además de las tablas y gráficos, los científicos sociales por lo general calculan
índices de relación, con frecuencia llamados coeficientes de correlación, entre
conjuntos de pares ordenados para obtener estimaciones más precisas de la
dirección y grado de las relaciones.
Y= a+ b,X, + b,X,
FORMULAS
La varianza es una medida de dispersión del conjunto de puntuaciones: nos dice qué
tanto se dispersan los valores.
Para propósitos descriptivos, por lo general se usa la raíz cuadrada de la varianza, y
se denomina desviación estándar. Algunas propiedades matemáticas, sin embargo,
hacen a la varianza más útil en investigación.
TIPOS DE VARIANZA.
VARIANZA SISTEMÁTICA
La varianza entre grupos es un término que abarca todos los casos de diferencias
sistemáticas entre grupos, tanto experimentales como no experimentales. La
varianza experimental con frecuencia se asocia con la varianza originada por la
manipulación activa de las variables independientes por parte de los investigadores.
Ejemplo
FORMULA
He aqui un ejemplo de varianza entre grupos --en este caso, varianza experimental-.
Suponga que un investigador prueba la eficacia relativa de tres diferentes clases de
reforzamiento en el aprendizaje. Después de reforzar a los tres grupos de sujetos de
forma diferencial, el experimentador calcula la media de los grupos. Suponga que
son 30, 23 y 19. La media de las tres medias es 24, y calculamos la varianza entre
las medias o entre ws grupos:
VARIANZA DEL ERROR
Sin embargo, no debe pensarse que la varianza aleatoria es la única fuente posible
de varianza del error. La varianza del error puede constar también de otros
componentes como lo señaló Barber (1976). Todo lo que pudiera estar incluido en el
término "varianza del error" puede incluir errores de medición en el instrumento
usado, errores de procedímiento llevados a cabo por el investigador, registro erróneo
de las respuestas y la expectativa que el investigador tiene de los resultados. Es
posible que "sujetos iguales" difieran en la variable dependiente porque uno de ellos
puede estar experimentando un funcionamiento fisiológico o psicológico distinto al
momento en que las mediciones fueron tomadas. Para regresar a nuestra discusión
principal, puede decirse que la varianza del error es la varianza en las mediciones
debida a ignorancia.
5. Tan sólo tratamos las dos medias como si fueran puntuaciones individuales, y
seguimos adelante con un cálculo ordinario de varianza. La varianza entre grupos,
V,, es entonces, 2.25.
FORMULA
Esta es la varianza total Vt contiene todas las fuentes de variación en las
puntuaciones. Ya sabemos que una de elelas es las varienza entre grupos Ve =
2.25.
Esta varianza no se afecta por la diferencia entre las dos medias. Se demuestra con
facilidad al restar una cosntante de 3 a las puntuaciones de A2,; con ello, la media
de A1, es 3. Entonces, si se calcula la varianza de A2, será la misma que antes: 2.
Como es obvio la varianza intragrupos será la misma: 2.
Vt= Ve + Vd
Si sustituimos los valores obtenidos 4.25 = 2.25 + 2.00. Nuestro método funciona -y
muestra, también, que las varianzas son aditivas (como se calculó)-.
En la figura 6.1 se divide un círculo en dos partes. Sea el área total del círculo la
varianza total de las 10 puntuaciones o Vt;. La porción más grande y sombreada
representa la varianza entre grupos o Ve. El área más pequeña sin sombrear
representa la varianza del error o varianza dentro de grupos o Vd,. Esta última
varianza se deriva de fuentes desconocida, y se le puede llamar varianza del error.
¿Qué hay de las <diferencias individuales en inteligencia, género, etcétera? Ya que
asignamos a los estudiantes a los grupos experimentales de manera azarosa,
suponga que esas fuentes de varianza se distribuyen de igual forma, o casi igual,
entre A1 y A1• Y, debido a la asignación al azar, no podemos aislar ni identificar
otras fuentes de varianza. Esta varianza remanente se denomina varianza del error,
con lo que sabemos muy bien que es probable que haya otras fuentes de varianza
pero bajo el supuesto (y esperamos estar en lo correcto) de que están distribuidas
de forma equitativa entre ambos grupos.
Primero, sea cada una de las medias de A1 y A2 igual a la media total; retiramos la
varianza entre grupos. La media total es 4.5. (Véase arriba donde la media de las 10
puntuaciones fue calculada.)
Estudie las puntuaciones "corregidas" y compárelas con las originales. Observe que
variaron menos de lo que lo hicieron antes. Retiramos la varianza entre grupos, una
porción considerable de la varianza total. La varianza que permanece es la parte de
la variama total debida, presumiblemente, al azar. Calculamos la varianza de las
puntuaciones "corregidas" de A 1, A2 y la total, y observamos estos resultados
sorprendentes:
La varianza intragrupos es la misma de antes. No se afecta por la operación de
corrección. Como es evidente, la varianza entre grupos ahora es 0. Y, ¿qué sucede
con la varianza total, V,? Al calcularla, obtenemos ~ x,' = 20, y V,= 20 / 1 O = 2. Así
la varianza intragrupos es ahora igual a la varianza total. El lector debe estudiar este
ejemplo con cuidado hasta que entienda con claridad lo que ha sucedido y por qué.
Ejemplo extendido.
Recapitulando
Ésta ha sido una larga operación. Una breve recapitulación de los principales puntos
puede resultar útil. Cualquier conjunto de medidas tiene una varianza total. Si las
medidas a partir de las cuales se calcula esta varianza se han derivado de
respuestas de seres humanos, siempre habrá al menos dos fuentes de varianza.
Una se deberá a fuentes sistemáticas de variación como las diferencias individuales
de los sujetos CU}"'S características o logros se han medido, y las diferencias entre
los grupos o subgrupos involucrados en la investigación.
La otra se derivará del error aleatorio, fluctuaciones de las medidas de las que no se
puede dar cuenta en la actualidad. Las fuentes de varianza sistemática tienden a
hacer que las puntuaciones se inclinen hacia una dirección u otra, lo que implica
diferencias en las medias.
Tenemos una variable X con tres valores. Sea X= {0, 1, 2). También tenemos otra
variable, Y, con tres valores. Sea Y= {0, 2, 4). X y Y son, entonces, fuentes
conocidas de varianza. Asumimos una condición experimental idónea con dos
variables independientes que actúan concertadamente para producir efectos en la
variable dependiente, Z. Esto es, cada puntuación de X opera con cada puntuación
de Y para producir una puntuación Z de la variable dependiente. Por ejemplo, la
puntuación X, O, no tiene influencia. La puntuación X, 1, opera con Y como sigue:
{(1 + 0), (1 + 2), (1 + 4)). De forma similar, la puntuación X, 2, opera con Y: {(2 + 0),
(2 + 2) y (2 + 4)). Todo esto es fácil de visualizar si generarnos Z de una forma clara.
Este ejemplo ilustra que, bajo ciertas condiciones, las varianzas operan de forma
aditiva para producir las medidas experimentales que analizamos. Aunque el
ejemplo es "puro" y por lo tanto irreal, es razonable. Es posible concebir a X y Y
como variables independientes; pudieran ser el nivel de aspiración y las actitudes de
los alumnos. Z puede ser el aprovechamiento verbal, una variable dependiente. El
hecho de que las puntuaciones reales no se comportan exactamente de esta forma
no modifica la idea. Se comportan así de manera aproximada. Planeamos la
investigación para hacer este principio tan verídico como sea posible, y analizamos
los datos como si fuera verdadero. ¡Y funciona'
COVARIANZA
Sea X {0, 1, 2, 3}, un conjunto de medidas de actitud de cuatro niños. Sea Y={!, 2, 3,
4}, nn conjunto de medidas de aprovechamiento de los mismos niños, pero no en el
mismo orden. Sea R un conjunto de pares ordenados de los elementos de X y Y,
donde la regla de apareamiento sería: se parea cada medida de actitud con cada
medida de aprovechamiento del sujeto, con la medida de actitud colocada primero.
Suponga que resulta que R = {(0, 2), (!, 1), (2, 3), (3, 4)}. De acuerdo a nuestra
definición previa de relación, este conjunto de pares ordenados consriruye una
relación, en este caso, entre X y Y. El resultado del cálculo de la varianza de X y de
la varianza de Y es:
ESTADÍSTICA: PROPÓSITO, ENFOQUE Y MÉTODO. CAPITULO 11
El principio básico detrás del uso de las pruebas estadísticas de significancia puede
enunciarse de la siguiente forma: comparar los resultados obtenidos con lo esperado
por el efecto del azar; dicho de otra forma, ¿se obtuvo lo que se esperaba por efecto
del azar? Cuando se realiza una investigación y se obtienen resultados estadísticos,
éstos se comparan con los resultados esperados por el azar.
Si una persona u cosa posee el atributo, se dice que esta persona o cosa está
"incluida". Cuando algo se "incluye" porque posee el atributo en cuestión, se le
asigna el número l. Si no posee el atributo, se le asigna el O. Éste es un sistema
binomial
Suponga que se lanza una moneda 1, 10, 50, 100, 4{)0 y 1 000 veces, y que se
desea conocer los resultados de las caras. Se calculan medias, varianzas,
desviaciones estándar y dos nuevas medias.
LA CURVA NORMAL DE PROBABILIDAD Y LA DESVIACIÓN ESTÁNDAR
La razón estadística más importante para utilizar la curva normal consiste en poder
interpretar fáciltnente las probabilidades de los estadísticos que se calculan. Si los
datos son, como se dice, "normales" o aproximadamente normales, se tiene una
clara interpretación de lo que se hace.
Se dibuja una curva normal y se especifican dos conjuntos de valores sobre el eje
horizontal. En lUlo de los conjuntos se utilizan puntuaciones de una prueba de
inteligencia, con nna media de 100 y una desviación estándar de 16. Suponga que la
muestra es de 400 sujetos y que los datos (las puntuaciones) están distribuidos de
forma aproximadamente normal (se dice que los datos están "distribuidos
normalmente"). La curva se parece a la presentada en la figura 11.1. Imagine un eje
Y (vertical) con frecuencias (o proporciones) marcadas sobre el eje. Las principales
características de las curvas normales son la unimodalidad (una curva), la simetría
(un lado similar al otro) y ciertas propiedades matemáticas, las cuales son de
principal interés ya que permiten rea1izar inferencias estadísticas de poder
considerable.
Una desviación estándar puede concebirse corno una extensión a lo largo de la línea
base de la curva, que va de la media o mitad de la línea base, hacia la izquierda o
derecha, hasta el punto donde la curva se inflexiona. También puede visualizarse
como un punto en la línea base a cierta distancia de la media. Una desviación
estándar a partir de la media de esta distribución en particular es 100 + 16 = 116. La
línea gruesa en la figura 11.1 indica la distancia de 100 a 116. De forma similar, una
desviación estándar debajo de la media es 100- 16 = 84.
Z = x /DE
Es importante recordar que, puesto que el área de la curva completa es igual a 1.00
o 100% y que, por lo tanto, es equivalente a U en la teoría de la probabilidad, los
porcentajes de área pueden ser interpretados como probabilidades. De hecho, los
valores de la tabla de probabilidad normal se dan en porcentajes de áreas
correspondientes a puntuaciones Z.
Considere que se aplica la misma prueba al mismo grupo de alumnos una y otra vez;
yendo todavía más lejos, suponga que la prueba se aplica 100 000 veces, con todos
los aspectos en las mismas condiciones: los niños no aprenden nada nuevo en
todas estas repeticiones, no se cansan, las condiciones ambientales son iguales,
etcétera.
Continuando con el tema de las medias, si se tuvieran los datos de las múltiples
aplicaciones de la prueba de matemáticas al mismo grupo, se calcularían una media
y una desviación estándar. Tal media calculada estaría cercana al valor de la media
"verdadera". Si se tuviera un número infinito de medias de un número infinito de
aplicaciones de la prueba y se calculara la media de las medias, entonces se
obtendría la media "verdadera".
Esto sería similar para la desviación estándar de las medias. En efecto, ello no
puede hacerse ya que no se tiene un número infinito, ni siquiera lo bastante grande,
de aplicaciones de la prueba.
Por fortuna existe una forma más simple para resolver el problema. Consiste en
aceptar la media calculada para la muestra como la media "verdadera", y después
estimar qué tan precisa es esta decisión (o suposición). Para hacerlo, se calcula un
estadístico conocido como el error estándar de la media. Se define de la siguiente
manera:
Nuevamente, considere una población grande de medias de esta prueba. Si se
integran en una distribución y se grafica la curva de dicha distribución, ésta se
observará como la curva mostrada en la figura 11.2. Es importante recordar que se
trata de una distribución imaginaria de medias de muestras y no de una distribución
de puntuaciones. Resulta sencillo notar que las medias de esta distribución no son
muy variables. Si se duplica el error estándar de la media, se obtiene 2. Se resta y
se suma esta cifra a la media de 70: 68 a 72.
COEFICIENTES DE CORRELACIÓN
Los coeficientes de correlación se reportan en grandes cantidades en las
revistas científicas. Deben formularse preguntas respecto a la significancia de
los coeficientes y a la "realidad" de las relaciones que expresan. Por ejemplo,
para resultar estadísticamente significativo, un coeficiente de correlación
calculado entre 30 pares de mediciones debe ser de aproximadamente 0.31 al
nivel de 0.05, y 0.42 al nivel de 0.01. Con 100 pares de mediciones, el problema
es menos severo (de nuevo la ley de los números grandes); al nivel de 0.05,
una r de 0.16 es suficiente; al nivel de 0.01, una r de 0.23 lo logra. Si las r son
menores que estos valores, se considera que no son significativamente
diferentes de cero.
Generalmente una r menor a 0.10 no puede tomarse con mucha seriedad; una r de
0.10 significa que tan sólo el!% (0.102 = 0.01) de la varianza de y se comparte o
explica conx. Por otro lado, si una r de 0.30 resulta estadísticamente significativa,
puede ser relevante porque quizá señale una relación importante. El problema se
complica con r comprendidas entre 0.20 y 0.30. (RECUERDE que con N grandes,
las r entre 0.20 y 0.30 son estadísticamente significativas.) Para estar seguros, una r
de, por ejemplo, 0.20 indica que las dos variables comparten tan sólo El 4% de su
varianza. Pero una r de 0.26 (7% de la varianza compartida), o incluso una de 0.20,
pueden ser relevantes, ya que tal vez provean de un avance importante. a la teoría y
a las investigaciones subsecuentes. El problema se vuelve complejo. En
investigación básica, las correlaciones bajas (que deben ser estadísticamente
significativas, por supuesto) enriquecen la teoría y la investigación. Es en la
investigación aplicada donde la predicción resulta importante, y donde han crecido
los juicios de valor respecto a las correlaciones bajas y a las cantidades triviales de
varianza compartida. No obstante, en la investigación básica el panorama se
complica más. Una conclusión es segura: los coeficientes de correlación, como otros
estadísticos, deben probarse respecto a su significancia estadística.