Libro Estadistica

Descargar como pdf
Descargar como pdf
Está en la página 1de 246
Introducci6én a la Estadistica En este capitulo pretendemos, principalmente, introducir al alumno en el contexto de la Estadistica. En primer lugar, presentamos el con- cepto de Estadistica y su interés en el drea de las Ciencias Sociales. En segundo lugar, introducimos unas breves referencias hist6ricas que ayudan a visuatizar la Estadfstica como algo cotidiano, algo que de un modo u otro siempre ha existido. A continuacién, hablamos de las etapas de un estudio estadistico donde identificaremos las principales ramas de la Estadistica con las que visualizaremos el contexto en el que se desarrolla la estadistica descriptiva, objetivo principal de este manual. Por tltimo, definimos los conceptos basicos que utilizaremos en los siguientes capitulos. 1.1 Definicién de Estadistica Si buscamos en el Diccionario de la lengua espafiola de la Real Academia Espafiola la palabra “estadfstica”, nos aparecen tres acep- ciones: 14 M.D, Molina, J. Mulero, M. J. Nueda y A. Pascual 1. Estudio de los datos cuantitativos de la poblacién, de los recur- sos naturales e industriales, del trafico o de cualquier otra mani- festacién de las sociedades humanas. 2. Conjunto de estos datos. 3. Rama de la matemdatica que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cdlculo de pro- babilidades. En la vida cotidiana, nos encontramos habitualmente el término “estadistica” usado con cualquiera de estas tres acepciones, siendo qui- zs el segundo concepto el mds usado hoy en dia, con el que nos refe- timos a resultados ya elaborados en un estudio en el que se empleé la Estadistica como método. Desde el punto de vista matematico, pode- mos resumir los tres conceptos con la siguiente definicién: La Estadistica es la parte del método cientifico que me- diante el andlisis matemdtico nos permite obtener infor- macién sobre ia realidad que nos rodea. Lo cierto es que la Estadistica constituye una poderosa herramienta para generar conocimiento y ha experimentado un vigoroso desarrollo desde sus orfgenes hasta nuestros dias. Actualmente, se aplica en todas las areas del saber y, de manera de- terminante, en las Ciencias Sociales. Por ejemplo, en Administracién de Empresas se utiliza para evaluar la aceptacién de un producto antes de comercializarlo; en Economia, para medir la evolucién de los pre- cios 0 los habitos de los consumidores; en Sociologia, para investigar y estudiar los perfiles y dindmica de colectivos sociales; en Relaciones Laborales, para el andlisis de salarios, de desempleo o de accidentes laborales; y en Criminologia, para el andlisis de la delincuencia o la prevencién del crimen. Estadistica aplicada a tas Ciencias Sociales 15 1.2 Breve introduccién histérica Desde los comienzos de las distintas civilizaciones han existido formas sencillas de Estadistica, pues ya se utilizaban simbolos en pie- les, rocas, palos de madera o huesos para contar el mimero de personas, animales u objetos de interés. Desde que surgen las primeras civiliza- ciones: Babilonia, Egipto, China. ..se han recogido datos sobre sus habitantes con el objetivo principal de recaudar impuestos y reclutar a jovenes para el ejército. Durante los siglos XVII y XVII, los estados europeos comien- zan a realizar censos de poblacién y a recopilar de manera sistematica datos demograficos, sociales y econémicos. Hasta el siglo XIX, la Es- tadistica es una ciencia descriptiva que utiliza medias y gr4ficos para sintetizar datos sociales y econdémicos. En el siglo XIX, Ja necesidad de estimar cantidades desconocidas a partir de muestras va transformando paulatinamente la disciplina en una ciencia normativa para extraer conclusiones de los datos, estudiar la evolucién de las variables y guiar la toma de decisiones en ambientes de incertidumbre. Esta transformacién es posible por la incorporacién del concepto de probabilidad. Gauss introduce la distribucién normal como modelo de los errores de medida y Quetelet, padre de la so- ciologia cuantitativa, utiliza una distribucién para describir y estimar las caracteristicas sociales medias de los miembros de una comuni- dad. A finales de siglo, Francis Galton y Karl Pearson en Inglaterra desarrollaron métodos para medir relaciones entre variables sociales e introdujeron la idea de regresién y de coeficiente de correlacién. Enel siglo XX, la Estadistica se extiende a todos los campos cienti- ficos gracias a los importantes avances realizados a principios de siglo en Inglaterra por Fisher, Pearson y Neyman dando lugar a disciplinas especificas como la Econometria, la Biometrfa o la Psicometria. 16 M.D. Molina, J. Mulero, M.J. Nueday A. Pascual 1.3 Etapas de un estudio estadistico El siguiente esquema resume las etapas que se podrian evar a cabo en el proceso de un estudio estadfstico: Rocopilacién de informacion Emisiéa del informe Interpretacion 1. Planteamiento del problema ‘Toda investigaci6n comienza por una primera fase de indaga- ci6n preliminar y revisién del conocimiento existente sobre al- gtin fenémeno, necesaria para después concretar los objetivos y formular hipétesis de partida, delimitando el alcance y las carac- teristicas generales del problema que nos ocupa. En concreto, en esta primera etapa, se define el objeto de ja investigacién y se precisa el universo o poblacién al que se refiere el estudio. 2. Planificacién del trabajo de campo En esta etapa se toman decisiones con respecto a la forma de obtener la informacién, el enfoque a adoptar, las tdcticas de la Estadistica aplicada a las Ciencias Sociales 17 investigaci6n y, cuando se recurre a datos primarios, se disefia todo el proceso del trabajo de campo, procedimientos de entre- vista, caracteristicas del muestreo, disefio de herramientas, etc. 3. Recopilacién de informacién Incluye la recogida de los datos y también Ia depuracién de la informaci6n obtenida, es decir, tratar los problemas de la no- respuesta, los errores de campo, los errores de oficina, los datos desaparecidos y los datos anémalos. 4. Anilisis de los datos El resultado de tas fases anteriores es la obtencién de una tabla o matriz de datos que requiere un andlisis. En principio este andli- sis sera de tipo descriptivo y en el caso de trabajar con muestras, que es Jo mas habitual en Ciencias Sociales, se recurriré a un andlisis inferencial para generalizar los resultados y asf obtener conclusiones generales. a) Anilisis descriptive: Organizar y resumir los datos dis- ponibles para extraer la informacién relevante en nuestro estudio. Esta fase proporciona tablas, grdficos y una serie de medidas que describen los valores analizados. b) Inferencia estadistica: Se basa en el supuesto de que la poblacién sigue un modelo o una distribucién conocida y los datos que tenemos son realizaciones aleatorias de ese modelo, Para cuantificar la fiabilidad de estos resultados se recurre al célculo de probabilidades. Hemos de indicar que sera necesario diagnosticar la validez de los supuestos del modelo que nos permiten interpretar los datos y llegar aconclusiones sobre la poblacién. 5. Interpretacién y elaboracién de un informe Con los resultados definitivos se procede a la interpretacién de Jos mismos para obtener las conclusiones del estudio. Esta tarea 18 M.D. Molina, J. Mutero, M. J. Nueda y A. Pascual precisa de un experto en Ja materia del estudio que pueda en- juiciar si las conclusiones son coherentes con la teorfa 0 con el conocimiento que se tenga al respecto y comentar la sensibilidad y la posibilidad de extrapolacién de las conclusiones alcanzadas. Por tiltimo, el estudio debe ser plasmado en un informe 0 memo- ria en el que se comunica la investigacién realizada. El informe es fundamental y determinante para la valoracién que se hace de la inyestigacién realizada, sirve de registro histérico y, por tanto, es itil para futuras investigaciones. En el caso de estudios rela~ cionados con el mundo empresarial, el informe es el documento que sirve de base para la toma de decisiones gerenciales. En el proceso descrito aparecen las tres ramas fundamentales de la Estadistica como ciencia y que son objeto de estudio en las asignaturas habituales de Estadistica: ® Estadistica descriptiva. & Cdlculo de probabilidades. @ Inferencia estadistica. En este manual, que estd ligado a las asignaturas de Estadistica de primer curso que impartimos en grados de Ciencias Sociales, nos vamos a centrar exclusivamente en la Estadistica descriptiva. 1.4 Conceptos basicos Generalmente, el objetivo de un estudio estadistico es obtener in- formaci6n sobre alguna caracterfstica de cierto conjunto de elementos. Este conjunto de elementos normalmente tiene un tamaiio excesiva- mente grande para poder abarcar dicho estudio en su totalidad, lo que nos obliga a centrarnos en el estudio de Ja informacién a partir de un subconjunto del total que, si est bien seleccionado, permitira extrapo- lar los resultados posteriormente a la totalidad del conjunto. Por tanto, los conceptos que han de tenerse en cuenta en un estudio estadfstico son: Estadistica aplicada a las Ciencias Sociales 19 ® Poblacién: Conjunto de personas, objetos, ideas 0 acontecimien- tos sometido a una observaci6n estadistica. & Individuo 0 unidad estadfstica: Cada uno de los elementos de la poblacién. ® Muestra: Subconjunto de una poblacién. ® Caricter o variable: Cada una de las propiedades, rasgos 0 cua- lidades que poseen los elementos de una poblacién y que son objeto de estudio. Haremos la siguiente clasificacién: % Variables cualitativas 0 categéricas: Los valores que to- man estas variables estan establecidos en clases o catego- rias que, normalmente, no son cuantificables, Las podemos clasificar como: Ordinales: Variabies cuyas categorias tienen estable- cido un orden. Por ejemplo, la categoria profesional o el rango militar, Nominales: Variables cuyas categorias no tienen prees- tablecido un orden. Por ejempio, el sexo, el estado ci- vil o bebida preferida, § Variables cuantitativas 0 medibles: Los valores que to- man se pueden cuantificar o medir numéricamente, Depen- diendo de Ja naturaleza de dichos valores, las podemos cla- sificar como: Discretas: Pueden tomar valores de un conjunto fini- to 0 infinito numerable. Dicho de otro modo, los va- lores que pueden tomar son aislados. Por ejemplo, el ntimero de hermanos o el mtimero de bajas laborales tomadas en un afio, Continuas: Pueden tomar valores de un conjunto infi- nito no numerable, es decir, cualquier valor de la recta real o de un intervalo. Por ejemplo, el precio de unas acciones 0 el tiempo de espera en la consulta de ur- gencias. 20 M.D. Molina, J. Mutero, MJ. Nueday A, Pascuai Como veremos en el tema siguiente, ala hora de realizar tablas y grficos, cada tipo de variable requiere un tratamiento especifico y adecuado a la naturaleza de los datos con los que se trabaja. Una de las principales diferencias en cuanto al tratamiento de va- siables discretas y continuas es que con las variables continuas, normalmente se dispone de gran variedad de resultados, es de- cir, datos que se repiten poco. En este caso, optaremos por hacer grupos o intervalos de valores. No obstante, podrfamos encon- trarnos con variables discretas que toman muchos valores y, por lo tanto, interesaria agrupar o variables continuas que toman po- cos valores e interesaria considerarlas como discretas. Por ejem- plo, la edad, que es una variable continua, se puede tomar como. discreta si s6lo se toma la parte entera y tenemos Pocos casos, 0 incluso podriamos tratarla como cualitativa ordinal si se toman las categorfas nifios-j6venes-adultos-tercera edad. Parametro: Es un valor numérico calculado a partir de todos los datos de la poblacién a través de una determinada expresi6n matematica. Estadistico: Es un valor numérico calculado a pattir de los datos de cada muestra a través de una determinada expresién matema- tica, con el objetivo de estimar o inferir caracteristicas de una poblacién. Por tanto, un estadistico es un valor que depende de la muestra escogida. Asi pues, hablaremos de pardmetros en 1a poblacién, que nor- malmente seran desconocidos, y de estadfsticos en la muestra, que se podrdn calcular con los datos disponibles: Muestra_ (Estadistico) Estadistica aplicada a las Ciencias Sociales 21 une e Un-centro comercial realiza todos los aiios una prueba para seleccionar personal: La siguiente tabla recoge Ja informaci6n de 20 candidatos so- bre siete de las variables que aparecen en Ia ficha de cade uno de ellos: SEXO | NOTA | CALIF. | CONV. 7 | NOT 34 | SUS 33, |_APR 61 APR 3. [APR 5 [CAPR 9 [SOB SUS: SUS: APR APR APR: APR APR NOT NOT. eel pf to] | a) on) no fe) ei] ta] Ge ne) ee Sy S| Sy S| Sl) “APR M.D. Molina, J. Mulero, M. J. Nueday A. Pascual Ejemplo 1.1 (continuacién). En particular, EDAD, es Ja edad en el momento de la prue- ba; SEXO, si es hombre 0 mujer; NOTA, el resultado de la prueba realizada; CALIF, ia nota codificada en las categorias suspenso, aprobado, notable o sobresaliente; CONV., el niime- ro de veces que ha realizado las pruebas; ALT., la altura del individuo en metros; y PESO, el peso en kilogramos, Indica de qué tipo son las variables consideradas. eee Veamos su clasificacién: % EDAD; variable cuantitativa continua. ® SEXO: variable cualitativa nominal. 8 NOTA: variable cuantitativa continua. ® CALIFICACION: variable cualitativa ordinal. CONVOCATORIA: variable cuantitativa discreta. ®@ ALTURA: variable cuantitativa continua, PESO: variable cuantitativa continua. Este ejemplo nos servird para analizar los diferentes tipos de va- tiables que aparecen y para aplicar los conceptos estadisticos de los préximtios capitulos. Estadistica apticada a las Ciencias Sociales 2B 1.5 Usando R A lo largo de este manual iremos mostrando sentencias basicas para utilizar el programa estadistico denominado R. En este capitulo introductorio, explicamos brevemente qué es R, cémo se instala y Ja forma mas sencilla de introducir datos para abordar con R los proble- mas planteados. No se pretende elaborar un manual de R, simplemente es una introducci6n sencilla al programa para la resoluci6n del tipo de cuestiones que planteamos. Res un sistema para andlisis de datos que esta considerado como algo mds que un programa de andlisis estadfstico debido a su doble naturaleza, ya que dispone de: % Una colecci6n de programas con los que se puede hacer calcu- los, gréficos y almacenar datos. ® Un lenguaje de programacién bien desarrollado y efectivo. Se considera que es un dialecto del lenguaje S (AT&T Bell) y su cédigo fuente esté en C y Fortran. Se distribuye gratuitamente bajo los términos de la GNU General Public Licence. La comunidad de R es muy dinamica e integrada por estadisticos de gran renombre. Se obtiene en: http://cran.r-project.org/ y se puede descargar para Windows, LINUX y MacOS X. La docu- mentacién es muy completa y accesible. En el apartado Documenta- tion de la web anterior, se puede acceder a manuales elaborados por los desarrolladores de R (R Development Core Team), manuales que también podemos encontrar en la misma pagina web traducidos al es- pafiol. Cuando abrimos R, aparece una pantalla que denominamos conso- la de trabajo (workspace). Teclearemos las instrucciones a continua- cién del simbolo > denominado prompt. A la hora de elaborar los ejercicios conviene guardar las intruc- ciones en scripts, que son archivos de texto que se pueden crear a partir de la consola seleccionando desde el meni desplegable: 24 M.D. Molina, J. Mulero, M. J. Nueday A. Pascual Archivo - Nuevo Script © bien, para abrir uno ya creado previamente: Archivo — Abrir Script Tener las instrucciones guardadas en scripts permitira repetir un mismo ejercicio cuando se desee sin necesidad de teclear de nuevo las instrucciones, Para ejecutar las instrucciones desde el script nos situaremos en Ja linea que deseamos ejecutar y al pinchar el siguiente botén que aparece en Ja barra de herramientas, la instruccién pasaré autométicamente a la consola y sera ejecutada. Ralmacena los datos, los resultados, las funciones y los programas en objetos. Asignaremos un valor a un objeto usando los simbolos <- 0 el simbolo =. Por ejemplo, para asignar el valor 5 al objeto x: Utilizaremos c () para introducir los datos de la variable objeto de estudio en un vector de datos. Los valores del vector iran separados por comas. Por ejemplo, para asignar el vector (2,4,5) al objeto v: e42/455) Cada vector se identificaré con un nombre adecuado para su poste-” rior tratamiento. Por ejemplo, para los valores de Jas variables EDAD, NOTA, ALTURA y PESO del Ejemplo 1.1: Estadistica aplicada a las Ciencias Sociales 25 EDAD So €(1G/ 19/27. 19, 22,21, 22,19; 19} 28427) 22, 23;18, 18, 37, 36/19; 20,19) 2 NOTA <— 6(7,3,4,5.3, 6.1, 5,5; 9, 4.1, 4,555,6.4, 3.6, 4,5) “ : ALTURA <= ¢(1.68,1,80, 1.71,1,56/1.90/ 1.79, 3.84, 1,65,1.85,1.70, 4579, 1565, 1.80, 1.62,1.60/1,72,1.78)1.67;1.8%, 2,55) ESC <6 (60, 75, 60, 50, 57/75, 58,35, 80; 66, 70,58, 78, 62, 64, 65,80, 70, 20/58} 1375.5) 9.5, 7.8,8, Para introducir una variable categ6rica cuyos valores son incémo- dos de escribir por tener varios caracteres, conviene utilizar la funcién factor () con la que podremos codificar cada categoria de una for- ma sencilla sefialando los valores mediante etiquetas . Por ejemplo, para los datos de las variables SEXO y CALIFICACION: SEXO edit (paras) 26 M.D, Molina, J. Mulero, M.J. Nueda y A. Pascual Extadistica aplicada a las Ciencias Sociales a7 1.6 Problemas resueltos 1. A partir de los siguientes titulos de posibles estudios, indi- ca la poblacién que deberfa considerarse y qué variables se podrian estudiar, identificando de qué tipo son: a) Caracteristicas generales de los alumnos matriculados en la Universidad de Alicante. b) Resultados de las Elecciones Generales de 2011. a) Poblacién: Todos los alumnos de la Universidad de Alican- te. Variables: como es un estudio general y no se especifica més, podriamos incluir variables personales, de descrip- ci6n fisica 0 académica: Altura: cuantitativa continua. Peso: cuantitativa continua. Color de ojos: cualitativa nominal. Lugar de nacimiento: cualitativa nominal. Nota de las pruebas de acceso: cuantitativa continua. Etc, b) Poblacién: Todos los espaiioles con derecho a voto. Variable: Partido votado, cualitativa nominal. 2. Clasifica las siguientes variables indicando las posibles cate- gorias sila variable es cualitativa: a) Intencién de voto para la alcaldia de la ciudad de Ali- cante en los préximos comicios electorales. b) Salario de los trabajadores de la Universidad de Alican- te. ¢) Gravedad de los accidentes laborales ocurridos en una empresa. 28 M.D. Molina, J. Mutero, M. J. Nueda y A, Pascual a) Variable cualitativa nominal, cada partido politico serfa una categoria. b) Variable cuantitativa continua. c) Variable cualitativa ordinal, se podrfa clasificar cada acci- dente como leve, grave, muy grave, etc. Estadistica aplicada a las Ciencias Sociales 29 1.7 Problemas propuestos 1. A partir de los siguientes titulos de posibles estudios, indica la poblacién que deberia considerarse y qué variables se podrian estudiar, identificando de qué tipo son: a) Encuesta sobre el gasto en educacién de los hogares a nivel nacional. b) Resultados de las Pruebas de Acceso a la Universidad en la convocatoria de junio de 2014 en la Comunidad Valencia- na. ¢) Estudio de los accidentes laborales en una empresa en un perfodo determinado. 2. Clasifica las siguientes variables indicando las posibles catego- rias en aquellas variables que sean cualitativas: a) Gasto de las familias alicantinas en la campafia navidefia de 2013. b) Tipo de delitos denunciados en una comisaria. c) Nivel de estudios de los asistentes a un concierto de jazz. d) Compaiifa de telefonfa mévil con Ja que se tiene contrato. ©) Modo de acceso a la Universidad de los alumnos de primer curso de Criminologfa en la Universidad de Alicante. 30 M.D. Molina, J. Mulera, M. J. Nueda y A. Pascual 1.8 Cuestionario de autoevaluacién 1. El conjunto de todos los elementos sobre los que se pretende realizar un estudio estadistico se denomina: a) Muestra. b) Poblacion. ¢) Subpoblacién. . Cada una de las propiedades que poseen los elementos de una poblacién y que son objeto de estudio se lama: a) Pardémetro. b) Estadistico. c) Variable. . La rama de la Estadistica que se encarga de generalizar los re- sultados de la muestra a la poblacién se denomina: a) Inferencia estadistica. b) Estadfstica descriptiva. c) Econometria. . La variable “Nivel de agresividad” (Nada agresivo, Poco agresi- vo, Muy agresivo, Totalmente agresivo) es una variable: a) Cuantitativa discreta. b) Cualitativa ordinal. c) Cualitativa nominal. . Para estudiar el gasto en combustible de los taxistas espaiioles se seleccionan 100 taxistas y se controla su gasto. Entonces: a) Esos 100 taxistas son la poblacién objeto de estudio. b) La poblacién de este estudio son las gasolineras espaiiolas. c) Los 100 taxistas son una muestra de la poblacisn y el gasto en combustible es la variable de Ja poblacion a analizar. Estadistica aplicada a las Ciencias Sociales 31 6, Un individuo 0 unidad estadistica: a) Siempre es una persona. b) Es un elemento de la poblacién. c) Puede ser cualitativo o cuantitativo. 7. La variable “Valor en bolsa de una accién” (medida en euros) es una variable: a) Cuantitativa continua. b) Cualitativa continua. c) Cuantitativa discreta. 8. Unestadistico: a) Es un valor numérico calculado a partir de todos los indi- viduos de la poblacién, b) Es una expresién matemiatica. c) Es un valor numérico calculado a partir de los datos de una muestra. 9. El andlisis de los datos: a) Se realiza después de la interpretacion del modelo. b) Incluye la validacién del modelo a estudiar. c) Requiere de la ordenaci6n de los datos en cualquier caso. 10. La variable “Numero de delitos al afio” es una variable: a) Cualitativa ordinal. b) Cuantitativa discreta, ¢) Cuantitativa continua. Tabulaci6n y representacion de datos Tal y como hemos descrito en el capitulo anterior en la descripcién de las etapas de un estudio estadistico, tras plantear el problema y pla- nificar el trabajo de campo, llega el momento de recopilar los datos y analizarlos. Una vez recogidos y depurados los datos, tarea que como se ha sefialado no se contempla en este manual, y con el fin de enten- der mejor la informacién que nos pueden aportar, nos veremos en la necesidad de organizarlos y resumirlos. El objetivo fundamental de este capitulo es organizar y ordenar los datos previamente recogidos para obtener una mejor comprensién de ellos, asi como hacer uso de graficos para presentar la informacién obtenida de forma resumida, clara e intuitiva. 2.1 Variables cualitati Recordemos que las variables categéricas o cualitativas son aque- Ilas que representan una caracteristica cualitativa no susceptible de me- dida, con un mimero fijo de clases 0 categorias. Veamos cémo pode- mos organizar y representar graficamente los datos que nos proporcio- nan este tipo de variables. 34 M.D. Molina, J. Mulero, MJ. Nueday A. Pascual 2.1.1. Tabla de frecuencias La tabla de distribucién de frecuencias, o simplemente tabla de frecuencias, es una tabla que recoge, ordena y clasifica la informacién que la muestra proporciona. Consideremos una poblacién o muestra de n individuos, descrita segtin un cardcter o variable X cualitativo, cuyas categorfas son X), X9,..., X;. Para cada una de las categorias, definimos: ® Frecuencia absoluta de la categorfa X;: Numero de observacio- nes que presenta dicha categorfa. La denotaremos por fj. & Frecuencia relativa de la categorfa X;: Tanto por uno de obser- vaciones que pertenecen a la categoria. La denotaremos por f,j y se calcula como el cociente entre su frecuencia absoluta yel numero total de observaciones, es decir, fi tise ® Porcentaje de la categoria X;: Tanto por ciento de observaciones que pertenecen a la categoria, Lo denotaremos por p; y se calcula como Pi = 100 fur %. La tabla de frecuencias para una variable cualitativa con k catego- rfas se construird de la siguiente manera: en la primera columna apa- recern cada una de las categorfas de la variable X. En las sucesivas columnas, iremos recogiendo los valores de las magnitudes que acaba- mos de definir. La tiltima fila representa la suma de los datos de cada columna. Con todo ello, la tabla quedara: X | fi | fil pv: X | Al fal pm XA da Xe | fe | fa] Pe n | 1 | 100 Estadistica aplicada a las Ciencias Sociales 35 Construye Ja tabla de frecuencias para la variable SEXO. ae Ejemplo 1.1. La tabla de frecuencias sera: Xl, Pi HOMBRE | 13 | 0.65, 65% MUJER: Construye Ja tabla de frecuencias para la variable CALIFL- CACION del et Renate 1. La tabla‘de frecuencias serd: x Hie SUSPENSO 5. |.0.25 | 25% ~.APROBADO 10.) 0.5 | 50% : NOTABLE. 3-] 015} 15% SOBRESALIENTE ee Hemos encuestado a 19 miembros de una poblacién obtenien- do‘en sus respuestas 4 personas solteros; 5 casados, 7 viudos y 3 divoreiados, Construye s ‘su tabla de frecuencias. 36 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Ejemplo 2.3 (continuacién). ene Consideremos la variable. cualitativa “Estado civil”, La tabla.de frecuencias sera: ° x [Afi fri Pi Solteros 4 [4/19 =0.2105 1 31.05% - + Casados | 5 5/19 = 0.2632 26.32% | Viudos TV T/l9 = 0.3684 36.84% Divowiades {73 [3/19 = 0.1579 | 15.70% “ 19 1 100-% we 2.1.2 Representaciones graficas Tras resumir y organizar la informacion que nos proporciona la muestra en una tabla, es conveniente realizar alguna representacién grafica que nos permita hacemos una idea del comportamiento de nues- tra variable a simple vista. Actualmente, son muchos Jos programas informaticos que nos posibilitan la realizaci6n de graficos muy elabo- rados. Sin embargo, todos ellos estén basados fundamentalmente en dos tipos de gréficos: el diagrama de barras y el diagrama de sectores. @ Diagrama de barras Representamos unos ejes cartesianos situando las categorfas de la variable en el eje horizontal y las frecuencias en el eje vertical. Para cada una de las categorias, dibujamos una barra hasta su frecuencia correspondiente. En el eje vertical, podemos situar la frecuencia abso- luta, la frecuencia relativa 0 el Porcentaje, : : : : ’ E Estadistica aplicada a las Ciencias Sociales 37 Ejemplo 2.4. Contruye el diagrama de barras para los datos del Ejemplo 23. eee El diagrama de barras seré: E Diagrama de sectores Se trata de dividir los 360° de un cfrculo entre las diferentes cate- gorfas de la variable representada. A cada categoria le asociamos un sector circular con un mimero de grados proporcional a su frecuencia relativa. El mtimero de grados, @;, para cada categoria X; se calcula del siguiente modo: @; = 360 x fyi. ATT Construye el diagrama de sectores para la variable del Ejem- plo 2.3. 38 M.D. Molina, J. Mulero, M. J, Nueda y A, Pascual PCR PARC tet Primero calculamos el néimero de grados que le corresponde a cada categoria: ®oirero§ = 360 X 0.2105 ~ 76°, Qoasados = 360 x 0,2632 ~ 95°, : Qindos = 360 x 0.3684.~ 133°, Qdivorciados. = 360 x 0.1579 ~ 572, El grafico de sectores sera: 2.2 Variables cuantitativas discretas Recordemos que los valores que toma una variable cuantitativa dis- creta son valores aislados que se pueden cuantificar 0 medir, A conti- nuacién veremos cémo podemos organizar y representar grdficamente los datos que nos proporcionan este tipo de variables. Estadistica aplicada @ las Ciencias Sociales 39 2.2.1 Tabla de frecuencias Consideremos una poblacién o muestra de n individuos, descrita segtin un caracter o variable X cuantitativa discreta, cuyas modalida- des son X;, Xz,..., X; ordenadas de menor a mayor. Para cada una de esas modalidades introducimos, igual que en el caso cualitativo, las siguientes magnitudes: Frecuencia absoluta de la modalidad X;: némero de observa- ciones que presenta dicha modalidad. La denotaremos por fi. & Frecuencia relativa de la modalidad X;: tanto por uno de obser- vaciones que pertenecen a Ja modalidad. La denotaremos por fj y se calcula como el cociente entre su frecuencia absoluta y el nimero total de observaciones, es decir, faa = Porcentaje de la modalidad X;: tanto por ciento de observacio- nes que pertenecen a la modalidad. Lo denotaremos por p; y se calcula como Pi = 100 x fi %. La existencia de un orden entre las modalidades nos permite intro- ducir tres magnitudes adicionales que, en el caso cualitativo, en prin- cipio, no tienen sentido: & Frecuencia absoluta acumulada de la modalidad X;: némero de observaciones de la poblacién o muestra cuya modalidad es menor o igual que X;. La denotaremos por F; y se calcula como =fitft+.tfi- & Frecuencia relativa acumulada de la modalidad X;: tanto por uno de observaciones de la poblacién o muestra cuya modalidad es menor 0 igual que X;. La denotaremos por F,; y se calcula como F; Fis int fat-.+fi= 40 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascual ® Porcentaje acumulado de la modalidad X;: tanto por ciento de observaciones iguales © menores que X;. Lo denotaremos como Py se calcula por P.= pit pa+...+ pj) = 100 x Fi %. La notacién para las magnitudes acumuladas es la misma pero con las letras maytisculas. Por tanto, la tabla de distribucién de frecuencias tendra en general Ja forma: Xl Alfil | i By X|ff{ii} ma | A Fa PB Xo Al fe) pr Fy Fo Py Xe | fic | fre | De | Fe=n | Fx=1) P, = 100 n | 1 | 100 Construye Ja tabla de frecnencias para la variable CONVO- CATORIA del Ejemplo 1.1. La tabla de frecuencias seré: Xt} fi pi | lB: B 19 5045.) 45% | 9 | 0.457 45% 2| 5 | 0.25 | 25% | 14] 0.70) 70% 31.2 | 0.10) 10% | 1670.80) 80% 41-3 [0.15 | 15% | 19°) 0.95 | 95% S]1 10.05] 5% {20} 1 100% 1 100% Estadistica apticada a las Ciencias Sociales 4l Se ha preguntado-a 12 familias el numero de hijos, obteniendo | los siguientes dates: 1,3, 2, 3, 2, 3, 4, 4, 2,3, 3, 4. Construye la tabla dle frecuencias. zQué porcentaje de fami- lias numerosas hay? Sillamamos X; “Niimero-de hijos”, 1a tabla de frecuencias seré: fil fi pe | | Fae | i [0.0833 | 8.33% 0.0833 | 833% 3 0.252 25% 0.3333 | 2 5 3 0.4167. 41,67% 0.75 0.25 25%. 1. fe 1 100% y EE poteentije de familias numerosas serén Jas familias con. tres y con ‘cuatro hijos. Para caleularlo, se. sumardn los. porcentajes; ede : las familias que tiene, 4 6 2 hijos: 41.67 %-+ 25 %.= 66.67%. Otro modo de calcularle es como: el complementario de las Ie milias con dos 0. menos de dos hijos, es decir, Ja diferencia entre el 100% y el 33. 33% que es el porcentaje de. familias. condos 0 menos hijos: 100% +33, 33% = = 66. 67%. 2.2.2 Representaciones graficas Las representaciones serdn las mismas que para las cualitativas, es decir, el diagrama de barras y el diagrama de sectores; aunque en este caso podemos afiadir una més: el diagrama de barras acumulado. M.D. Molina, J. Mutero, M. J. Nueda y A. Pascual Construye el grafico. de sectores, el diagrama de barras yel diagrama de barras acumulado para la variable CONVOCA: TORIA del Ejemplo 1.1. Los graficos serén: Biagraina de sectores ‘Diagrama de barras Diagrama de barras acumulado 2.3. Variables cuantitativas continuas Por tiltimo, estudiemos c6mo podemos organizar y representar gré- ficamente los datos que nos proporcionan las variables cuantitativas continuas. Recordemos que estas variables pueden tomar cualquier va- lores de la recta real. 2.3.1 Tabla de frecuencias Si intentamos construir la tabla de frecuencias de la variable EDAD del Ejemplo 1.1 como variable discreta, observamos que, dada la can- Estadistica apticada a las Ciencias Sociales 4B tidad tan grande de valores distintos que puede tomar la variable, la tabla de frecuencias no es adecuada, pues estaria formada por tantas filas casi como datos tenemos. Lo mismo ocurre si nuestra variable es continua donde, en principio, el nimero de valores distintos que puede tomar la variable son infinitos. En ambos casos, conviene configurar la tabla de frecuencias de otra forma: agrupando los datos en interva- Jos o clases. Esta agrupacién permitird el tratamiento de los datos de manera eficiente, aunque supondré cierta pérdida de informacién. Para construir esta tabla, tendremos en cuenta los siguientes aspectos: & Escogeremos un mimero adecuado & de intervalos. Aunque son muchas las formas de elegir este valor, nosotros tomaremos el niimero entero mas cercano a \/n. % Cada uno de Jos intervalos viene definido por una pareja de valo- res: Li; y LS;, que son los limites inferior y superior del intervalo i, respectivamente. En el intervalo [LJ;, LS;[ estaran todos los va- lores de X mayores o iguales que LJ; y menores que LS;, excepto en el tiltimo intervalo: [Lf,,£S,] en el que también se incluird el limite superior. ® A la diferencia a; = LS; ~ Li, se le llama amplitud del interva- lo. En nuestra construccién todos los intervalos tendran la misma amplitud a. No obstante, en ocasiones la naturaleza de los datos puede Jlevar a construcciones mds adecuadas con intervalos de distinta amplitud. § AI punto medio de cada intervalo HS, se le llama marca de clase, la denotaremos como m.c.;, y sera el representante del intervalo. 8 Se calculan, para cada uno de los intervalos, las frecuencias ab- solutas, absolutas acumuladas, relativas, relativas acumuladas, Pporcentajes y porcentajes acumulados, definidas anteriormente para las variables discretas. a4 M.D. Molina, J, Mulero, M. J. Nueday A. Pascual Entonces, la tabla completa quedard de la siguiente manera: x mec. fi\fe| pe lA | Be | PB Lets] Gh+i921 A [in| | Ali | A WET | Mee] ct ete (Le, LS) | (Lh +ES:)/2 | fi [fe [im | ni [100 a | 1 [100] ® = Construccién de los intervalos Para determinar el ntimero de intervalos existen diferentes crite- tios como por ejemplo la férmula de Sturges [22], el algoritmo de Freedman-Diaconis [6] 0 el de Scott [19]. El conocimiento del usua- tio acerca de su muestra puede inducir también a la elecci6n de un nimero de intervalos de interés para el estudio en cuestién. En este texto escogeremos una forma sencilla para la elaboracién de Ja tabla de frecuencias con intervalos de la misma amplitud. El proceso seré el siguiente: 1. Calculamos el rango, R = Xmix ~Xmins €S decir, la diferencia entre el valor mas grande y el valor mas pequeiio de la muestra, 2. Calculamos el niimero de intervalos, k = Vn, y se redondea al entero mas cercano, 3, Calculamos [a amplitud de cada intervalo que, como hemos di- cho, sera constante y denotaremos por a. Para no dejar fuera ningun valor de la muesira, el producto del nimero de intervalos Por su amplitud debe ser mayor 0 igual que el rango: ka>R. Por tanto, a > g. EL valor de Ia amplitud podré tener decimales, aunque en muchas ocasiones conyiene redondear (no necesaria- mente a un valor entero) para una presentacién mas elegante de la distribucién. Estadistica apticada a las Ciencias Sociales 45 8 OPCION 1: Sino redondeamos, es decir, si tomamos a = g + entonces ka = R. E OPCION 2: Si redondeamos, deberd ser por exceso, de manera que a > g y ka > R. En este caso, aparece un “so- brante” 0 “exceso” Sobrante = ka— R, ya que estamos cubriendo un recorrido superior a nuestro tango. Este “sobrante” se tendré que repartir a Partes igua- les entre el primer y el Ultimo interyalo para que no recaiga todo en un solo intervalo. A Ia hora de escoger el redondeo de A intentaremos que su valor sea el mas adecuado para que este sobrante sea pequefio, 4. A partir de estos resultados, calculamos el limite inferior del pri- mer intervalo: ® OPCION 1: Lh = Xmnin- 8 OPCION 2: Lh, = Xin — SRE, 5. Calculamos el resto de los intervalos: LS, =Lh +a, Li) = 1S;, Sj.) = Lh +a,is Una vez calculados los intervalos, podemos construir Ja tabla de frecuencias correspondiente. Asi, Por ejemplo, la frecuencia absoluta fi del intervalo [L/;,S,) sera el ntimero de datos que son mayores 0 iguales que LJ; y menores que LS;. El resto de frecuencias y porcenta- Jes, es decir, frecuencias relativas y acumuladas, porcentajes absolutos Y porcentajes absolutos y acumulados se calculan siguiendo el mismo patrén que para los datos sin agrupar. 46 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Ejemplo 2.9, Agrupa por intervalos y construye la tabla de frecuencias pa- ra la variable PESO del Ejemplio 1.1. B R= Xintx ~ Xion = 90-50 = 40. B k= a= V20 =4.47. Tomamos k = 4 intervalos. ii a= f = 2 = 10. No es posible redondear, escogemos la OP- CION 1. 8 Sobrante =ka~R=40—40 =0. Ld, = Konig — PME = 50—~ ‘Su tabla de frecuencias sera: mc. | fit |. fi 35} 6 | 03 65 | 6 | 03 15 | 5 85 | 3 20 PE OCPR Le Agrupa por intervalos y construye la tabla de frecuencias pa- raja variable ALTURA del Ejemplo 1.1. eee R= Xinax —Xmnin = 1.87 1.55 = 0.32. ® k= Vn= 20 = 4.47. Tomamos k = 4 intervalos, B a= f = 9% — 008. Estadistica aplicada a las Ciencias Sociales 47 TRUER URC nN En este caso, disponemos de las siguientes opciones: ® OPCION 1: No sedondear, es deci, tomar a = 0.08, No hay sobrante. Lh = Xmniy = 1.55. X fmol fil film [al me | A [L.55,1.63/ 1.59 [4 7 0.2 20 | 4 | 0.2 | 20 (1.63,10-71[ 7 1.67) 7 1035 35 | 11) 0.557 55 (L71,1-79[ 175 4 | 0.2 20 | 151 0.75 | 75 [1.79 187] [183 5 [0.257 35 [2011 7 i00 T 20, 1 1100 § OPCION 2: Redondear y dejar un s6lo decimal, es decir, tomar a = 0.1. En este caso, si hay sobrante: Sobrante = ka—R = 0.40 —0.32 = 0.08, Ly = Xin ~ SOPsgute — 1.55 — 208 1.550.045 51, x me. | fi fa | pil Al Bi | PB W31Leil 156) 3 1015] 15) 3 fois} 15 (161,171 17.66 [8 [0.40140 Par) 038) 35 (1.71, 181! 1.76 | 7 [0.35 [35 | 18; 0.50 | 60 (L81,197] [186.2 | 01 | 10 20T ft Ti00 20] 1 | 100 2.3.2 Representaciones graficas A partir de la tabla de frecuencias con intervalos construiremos dos nuevos grdficos: el histograma y el poligono acumulativo. Ademas afiadimos el grafico tallo y hoja que sirve tanto para variables discretas como continuas. 4g M.D. Molina, J. Mulero, M. J. Nueday A. Pascual @ Histograma Es la representacién equivalente al grafico de barras de las varia- bles categdricas y cuantitativas discretas, pero en este caso siempre con las barras solapadas. Las condiciones basicas para un trazado correcto del histograma son: ® En el eje horizontal representaremos siempre los limites de los intervalos. © Las barras deben aparecer yuxtapuestas para respetar la conti- nuidad de la variable, 3 La medida de la base de cada recténgulo debe ser la amplitud de la clase correspondiente. §® Si todos los intervalos tienen la misma amplitud, en el eje verti- cal podemos representar las frecuencias absolutas, relativas 0 el porcentaje. 4 Si los intervalos son de distinta amplitud, en el eje vertical re- presentaremos la densidad de frecuencia, obtenida para cada intervalo como fi a d= donde a; es amplitud del intervalo i. Ejemplo 2.11. Dibuja el histograma para Ia variable PESO del Ejemplo 1.1 a partir de Ja tabla de frecuencias construfda en el Ejemplo 2.9, Estadistica aplicada a las Ciencias Sociales 49 Ejemplo 2,11 (continuacién). een Se han contabilizado el nimero de dias que 45 delincuentes comunes han pasado por dependencias policiales en el Gitimo afio. Los datos los tenemos resumides en la siguiente tabla: xX lfhla o-s [15] 5 5-10 [10] 5 10-15] 5 | -5 15~30 | 15 | 15 45 Dibuja su histograma. 50 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Ejemplo 2.12 (continuacién). En este. caso, los intervalos tienen diferentes amplitudes, por lo que hemos calculado la densidad de cada uno, y el histograma seré: Histograms Intorveloe detinta ampttud 4 Dian sevardencis pais ® Poligono acumulativo De nuevo situaremos en el eje horizontal los limites de los inter- valos, mientras que el eje vertical ser4 ocupado por las frecuencias acumuladas (las absolutas, las relativas o el porcentaje). Supongamos que vamos a construir el polf{gono acumulativo para las frecuencias absolutas. Una vez situados los ejes, marcaremos los puntos (Lh, ,0), (L581, Fi); (E82, 03), ..-, (ZS, Fi). Representados estos puntos, uniremos los puntos consecutivos me- diante segmentos. Estadistica aplicada a las Ciencias Sociales 51 Dibuja el poligono. acumulative para la variable PESO del Ejemplo 1.1. eee A partir de la tabla de frecuencias-construfda en el Ejemplo 2.9; uepo seems Dibuja el poligono acumulativo. para Jos datos del Ejempio 2.12. ooe El poligono acumulativo serd: agen seuratato iar stint emplad : VA 352 M.D. Molina, J. Mutero, M. J. Nueda y A, Pascuat EI grafico de tallo y hojas Este grafico se construye a partir de los datos originales de las va- tiables cuantitativas tanto discretas como continuas y es una represen- tacién de la forma: 1|8 2 3/2 4 4}1 2 4 6 S713 9 6{1 1 La utilidad de este grafico estriba en: ®& Presenta los datos ordenados, lo que sera titi! para el cdiculo de algunas medidas que veremos posteriormente. 8 Si lo giramos 90° hacia la izquierda, presenta la forma que tiene el histograma. Para su construccién, hemos de tener en cuenta las siguientes ob- servaciones: 1. Los grdficos deben tener siempre de cuatro a doce filas. 2. Los datos deben tener el mismo ntimero de digitos (0 cifras) tan- to enteros como decimales. Si no es asi, afiadiremos ceros a de- recha 0 izquierda, segtin nos convenga, sin modificar los datos. Si los datos contienen decimales, una vez conseguido el mis- mo numero de digitos para todos ellos, procedemos ignorando la coma decimal. 3. Los datos asf conseguidos se dividen en dos partes: la de la iz- quierda sera el tallo, la de la derecha, la hoja. 4. Las hojas siempre tienen que estar ordenadas de menor a mayor. Estadistica aplicada a las Ciencias Sociales 53 5. Si queremos conseguir més filas en nuestro grafico, podemos di- vidir cada tallo en dos filas 0 en cinco. En el caso de dividir cada tallo en dos filas, utilizamos el simbolo * para Ja primera mitad de las hojas posibles, es decir, las hojas que sean o empiecen por 0, 1, 2, 3, 6 4, y el simbolo - para el resto, es decir, las hojas que sean o empiecen por 5, 6, 7, 8 6 9. Para dividir cada tallo en cinco filas utilizamos los siguientes simbolos: * para el 20% inicial de hojas: es decir, 0, 1; tpara el 20% siguiente: 2, 3; f para el 20% siguiente: 4, 5; $ para el 20% siguiente: 6, 7; - para el Ultimo 20%: 8, 9. 6. Los tallos intermedios que queden vacfos no pueden ser elimi- nados, pero silos que quedan al principio o al final. 7. En caso de que los datos contengan decimales, se indica en la parte inferior del grafico, Por ejemplo, si los datos tienen un de- cimal, escribimos x0.1, si tienen dos, x0.01, y asf sucesivamen- te. 34 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual renin ees A continuacién, debemos identificar los tallos y las hojas, En nuestro caso, Ja tihica opcidn es que el primer digito sea el tallo y el segundo Ja hoja. Asi, observamos seis tallos distintos que calo- camos verticalmente en orden creciente junto a una linea vertical de la siguiente manera: ‘ : BONS Ss Por iiltimo, escribimios Jas hojas junto alos tallos y obtenemos el siguiente grafico: UR WN OS IN WD OF ae wa DNs L eI , Construye el grafico de tallo y hojas para la variable EDAD del Ejemiplo 1.1: ° . - eee EI grafico de tallo y. hojas sera: 78.8 899 9 9 9 9 O-1-2>2.2 3°78 7 WR Oe 6 Estadistica aplicada a las Ciencias Sociales 55 Construye el grafico de tallo y hojas para los datos: 27, 29, 32, 26, 25, 22, 33; 31, 29, 36. eos En este caso, tenemos dos posibilidades: Pate Construye el grafico de tallo y hojas para los datos: 1,3, 6,7, 12, 14, 21, 23, 27, 29, 29, 29, eee El grdfico de tallo y hojas serd: ; je 1 6 2 56 M.D. Molina, J. Mulero, M. J. Nueday A. Pascnat eee RON Construye el grafico de talle y hojas para los datos: - 2,7, 2,9, 3.2, 4.1, 2.8, 6.0, 4.8, 6.2, 4.2. ae El grafico de tallo y hojas ser4: eee Construye el Brdfico de tallo y hojas para los datos: 146,158, 134, 170, 135, 123, 168, 159, 124, 158,140, 128, 169, 119, Observemos..que todos tienen tres digitos, por lo que debemog decidir qué es el tallo y qué es la hoja. En principio, tenemos dos posibilidades: que las dos primeras constituyan el tallo'y la tiltima Ja hoja, o bien elegir la primera cifra como talio y las dos tiltimas como hoja. Consideremos Ja primera-de las Posibilidades..En este caso, él dato: 146 tendrd tallo 14 y hoja 6, el dato 158 tendré tallo 15 y hija. 8, y-asf sucesivamente, Estadistica aplicada a las Ciencias Sociales ST San oParACO tee ts Por tanto, el grafico de tallo y hojas' sera: iy] 122}3 4 8 13|4 5 14/0 6 15/8 8 9 16/8. 9 17} 0 Si elegimos la otra posibilidad, todos los datos tendrén tallo 1, por lo que para que el grafico sea correcto deberemos dividirlo en 5 filas por tallo. Nuéstras hojas tendrn dos cifras y la cortespon- diente divisién nos.quedara: * hojas desde 00 hasta 19, thojas desde 20 hasta 39, fhojas desde 40 hasta 59, s hojas desde.60 hasta 79, +hojas desde 80 hasta 99, Con todo ello el grafico sera: I 19 23-24. 28 34.35 40° 46 58 58 59 68 69 70 aa Construye el grafico de tallo y hojas para los datos: 1.46, 1.58, 1.34, 1.70, 1.35, 1.23, 1.68, L 1.59, 1.24, 1.58, 1.40, 1.28, 1.69, 1.19. 58 M.D, Molina, J. Mulero, M. J. Neda y A, Pascual Ejemple 2.21 (continuacién). 7 eee En este caso, tenemos dos opciones en la eleccidén del tallo y la hoja, por tanto, dos tipos de grafico nos pueden servir: 19 23 24 28 34 35 40° 46 58. 58 59 68. 69°70 eee Construye el grafico de tallo y hojas para los datos: 1.27, 1.3, 1.38, 1.54, 1.72, 2.03, 2.15, 2, 3,93, 2.68, 3. eee Ala vista de los datos, la mejor opcién sera: 27 30 38 54°72. 00 03) «15 68 00 93 Estadistica aplicada a las Ciencias Sociales 59 2.3.3 La distribucién normal Durante todo este tema hemos trabajado con los datos obtenidos a partir de muestras elegidas de la poblacién y hemos obtenido las distribuciones de frecuencia Para ciertas variables cuantitativas. De la misma forma, para representar la distribucién poblacional de una va- riable cuantitativa, se usa la curva poblacional de frecuencia ocurvade densidad, que tiene una especial importancia en Teorfa de Probabilidad y en Inferencia Estadistica. Para ilustrar el concepto, consideremos el grafico de tallo y hojas de la variable ALTURA del Ejemplo 1.1: Realizando un giro de 90 grados, la forma del grdéfico de tallo y ho- jas, sugiere una curva poblacional de frecuencia como la que aparece en la siguiente figura: 60 M.D. Molina, J. Mulero, M, J. Nueda y A. Pascual La frecuencia poblacional de individuos con altura entre 1.60 y 1.80 cm viene dada por el rea marcada en el grafico. Intuitivamente, podemos justificar esta representacién de la distri- bucién poblacional de frecuencia mediante una curva utilizando el his- tograma: si incrementamos el tamafio muestral y a la vez disminuimos la longitud de Jos intervalos, es razonable suponer que, conforme cre- ce el tamafio muestral los histogramas resultantes, tiendan a una curva suave. Esta curva se conseguir cuando el tamafio muestral se hace in- finito y la amplitud de los intervalos tiende a cero, tal y como se ve en la siguiente figura: 18 18 17 «18 19 1415 16 17 18 19 20 e020 ne50 nn Pot 16 16 17 18 19 20 14 16 16 17 18 19 20 n=500 ‘nstamamo poblacional Asf, las curvas poblacionales de frecuencia pueden considerarse una extensién de los histogramas cuando el tamafio de la muestra crece indefinidamente. Estadistica aplicada a las Ciencias Sociales 6h Una distribucién poblacional de frecuencia que juega un papel cen- tral en Ja Inferencia Estadistica es la lamada distribucién normal, cu- ya representacién, denominada también campana de Gauss, aparece en ja siguiente figura: La funcién de densidad de una distribucién normal viene determi- nada por dos parametros: la media pt y la desviacién tfpica o y presenta ciertas caracteristicas como son Ja simetria y un nivel de apuntamiento determinado. Todas estas medidas se estudiarén en el préximo tema. 62 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual 2.4 Usando R En esta seccién vamos a trabajar con las variables del ejemplo 1.1 que fueron introducidas en R en el capitulo anterior para elaborar ta- blas y graficos con R. En concreto vamos a usar la variable categérica CALIFICACION y las variables cuantitativas PESO y ALTURA. Tabla de frecuencias Utilizaremos la funcién table () para realizar un recuento de da- tos. Esta funcién nos proporciona las frecuencias absolutas. orn! > table (CALIPICACTON) CALIFICACION SUSPENSO APROBADO NOTABLE SO@RZSALTENTE 2 A partir de esta tabla, se podra calcular el tamafio muestral usando Ja funcién sum (): on > sum(zable (CALTPICACTON) } (iy 20 Podemos asignar estos resultados a objetos con el fin de manipu- larlos para conseguir otros resultados. Por ejemplo asignamos la tabla al objeto T. cal y el tamafio muestral al objeto n: Estadistica aplicada a las Ciencias Sociales 6 > T.cal <- table (CALEFICACTON) > n <-‘sum(T.cal) Utilizando estos objetos podemos calcular las frecuencias relativas del siguiente modo: > Tecal/n CALTSTCACTON SUSPENSO APROBADO NOTABLE SOBRESALIENTE 0,25 0.50 o.18 0.10 Tanto para variables cualitativas ordinales como para variables cuan- titativas, el cdlculo de las frecuencias acumuladas se lleva a cabo me- diante la funcién cumsum (): > cumsuim (Tea) SUSPENSG APROBADO NOTABLE SOBRESALIENTE 3 15 28 20 > cumsum (T-cal/n} SUSPENSG APROZADO NOTABLE SOBRESALTENTE 0.25 0.75 0.90 4.00 64 M.D. Molina, J. Mulero, M, J. Nueda y A, Pascual Representaciones graficas A partir de Ja tabla también podremos elaborar el diagrama de barras con la funcién barplct () y el diagrama de sectores con pie(). Para elaborar los graficos mostrados en el Ejemplo 2.8, se utiliz6: Cédigo en R > pie(T.cal) > baxplotiT.cal) > bagplot (cumsum (T.cal) } En los gréficos elaborados con R, se podran insertar los titulos que se descen utlizando los siguientes argumentos: ®& Titulo del gréfico: main ("...") & Etiquetas de los ejes: xLab("..."), ylab("...") Si deseamos agrupar Jos datos en intervalos, utilizaremos 1a fun- cién hist () para hacer el histograma. El histograma que calcula R utiliza por defecto el criterio de Sturges para hacer Jos intervalos. > nist-(Pso) Si deseamos elaborar un histograma utilizando otro criterio dife- rente al de Sturges, habrd que indicar las especificaciones deseadas en los argumentos de Ja funcién hist (), entre Jas cuales encontramos las siguientes: Estadistica aplicada a las Ciencias Sociales 65 & Para especificar los limites de los intervalos: breaks (). & Para representar las frecuencias absolutas: freq-TRUE. % Para especificar que el I{mite superior del intervalo es abierto: right=FALSE. Por ejemplo, para generar el histograma de la variable PESO, que mostramos en el Ejemplo 2.11, utilizamos: Cédigo en R > hist (PESO, free-TRUE, bréaks=e(50, 60,70, 86,90), right=FALSE, + main-"Histograma", yleb="Frécuencia absolute") Por iiltimo, para elaborar el grafico tallo y hojas, utilizaremos la funcién stem (): > stem(ALTURA} The decimal point is 1 digit(s) to the lest of the | 1s 1 56 16 | 0245578 47 | 9012589 28 | 0057 66 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascuat 2.5 Problemas resueltos 1. Los dias de baja por accidente laboral que 24 empleados de una empresa han tenido en el tiltimo aio, son los siguientes: 55, 64, 70, 74, 75, 70, 64, 93, 60, 62, 70, 80, 61, 60, 62, 68, 65, 65, 66, 68, 70, 72, 72, 71. a) Qué tipo de variable se esta estudiando? b) Obtén Ja tabla de frecuencias agrupada en intervalos solapados. c) Construye los graficos oportunos para representar esta variable. a) Es una variable cuantitativa discreta, pero vamos a darle el tratamiento de continua agrupando los datos en intervalos ya que una tabla de distribucién de frecuencias simple no aporta ningtin resumen significativo. b) En este caso, R=Xmnix —Xmin = 93-55 = 38. k= fn = 24 = 4.89895. Tomamos k = 5 intervalos. Disponemos de las siguientes opciones: ¢ OPCION 1: No redondear, es decir, tomar a = 7.6. En este caso, no hay sobrante y, por tanto, LI) = Xin = 55. @ OPCION 2: Redondear y tomar a = 8, en cuyo ca- so, Sobrante = ka— R = 40 — 38 = 2. LR = Xmin — Sobgonte -.. §§ — 3 = 55-1 = 54. Estadistica apticada a las Ciencias Sociates Las tablas de frecuencias serdn: 67 OPCION 1 OPCION 2 x me. | fi | Fi X |me.| f| FB [55,62.6| | 58.8] 6 | 6 (54,62[| 58 [4] 4 (62.6,70.2[ | 66.4) 11 | 17 (62,70[ | 66 [9 | 13 (70.2,77.8| | 74 [5 [22 [70,78[ | 74 | 9 [22 (77.8,85.4{ | 81.6 | 1 | 23 [78,86 | 82 | 1/23 (85.4,93] [392/71 | 24 [86,94] | 90 [1 | 24 Podriamos ampliar la tabla calculando frecuencias relativas y acumuladas y porcentajes absolutos y acumulados. © Los histogramas correspondientes seran: _ cs 5 . § J i: i mL =~ «(C:! - . Los resultados en una prueba de seleccién de personal, han sido los siguientes: 12.5, 13.8, 13.0, 13.5, 13.2, 12.2, 13.4, 14.0, 13.6, 13.3, 13.3, 14.1, 14.6, 13.1, 12.1, 13.7, 13.4, 12.8, 12.6, 12.7. a) Forma un diagrama de tallo y hoja para estos datos. b) 2Se puede decir que la puntuacién en la prueba de se- lecci6n tiene una distribucién simétrica? 68 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual eee a) Para formar un diagrama de tallo y hoja para datos con tres digitos, en primer lugar hemos de decidir qué digitos se- rn los tallos y qué digitos seran las hojas. Si elegimos el primer digito como tallo, el diagrama nos daria Ppoca infor- macién, tanto si dividimos el tallo en cinco como si no, por tanto la opcién mas interesante es considerar los dos pri- meros digitos como tallo, el tiltimo digito como la hoja y dividir el tallo en dos: 12 * |1 2 *- 15 678 3 * 10123344 5.67 8 4 « |O 1 * | 6 xO.1 b) Se observa que los datos se distribuyen de forma simétrica alrededor del valor 13. Estadistica aplicada a las Ciencias Sociales 69 2.6 Problemas propuestos 1. Ante el lanzamiento de una nueva campaiia publicitaria se ha en- trevistado a una muestra de 400 personas elegidas al azar sobre sus preferencias acerca de tres productos A, B y C. Los resulta- dos indican que el 35.25% prefieren el producto A, el 28.75 % prefieren el producto B, el 31.75% prefieren el producto C y el resto no muestra ninguna preferencia. A partir de estos datos construye la correspondiente tabla de distribucién de frecuencias y realiza los graficos oportunos. 2. En cierto pais la poblacién activa esta constituida por 20 millo- nes de personas, de las cuales 4 millones trabaja en el sector Primario, 7 millones en el sector secundario, 6 millones en el sector servicios y el resto son parados. a) Construye una tabla de frecuencias con los datos del enun- ciado. b) Dibuja los graficos adecuados a partir de los datos de la tabla anterior. 3. Una fabrica empaqueta en lotes de 100 unidades las bombillas que produce. Se establece un plan de inspeccién por muestreo consistente en examinar, de cada lote, 20 bombillas al azar y rechazar el lote si de las 20 aparecen mas de 4 defectuosas; al- macenar el lote como “revisable” si el mimero de defectuosas es menor que 5 y mayor que 1, y aceptarlo en otro caso. Se ins- peccionan 26 lotes, y resulta el siguiente ntimero de bombillas defectuosas en cada muestra: a) {Qué tipo de variable es la que se est4 estudiando? 70 MD. Molina, J. Mulero, M. J. Nueda'y A. Pesewal b) Construye una tabla de frecuencias y el diagrama de barras para la variable niimero de bombillas defectuosas encon- itadas en cada muestra, ¢) Construye la tabla de distribucién de frecuencias de la cla- sificacién de los lotes en: Techazado, tevisable, aceptado. d) A partir de ia tabla anterior, construye los graficos que con- sideres adecuados para representar esta variable, 4. Se leva a cabo un estudio acerca de Ia creacion de nuevas empre- sas a nivel nacional, Para ello, se comenz6 registrando el ntimero de empresas que se crearon en 20 municipios durante el dltimo trimestre del afio 2008, teniéndose los siguientes datos: 30, 15, 20, 35, 13, 5, 21, 21, 14,1, 26, 18, 24, 12, 17, 16, 27,21, 16, 15. @) {Qué tipo de variable se estudia? b) Dibuja un diagrama de tallo y hojas adecuado, {Qué po- drias decir sobre la forma del diagrama? c) Construye una tabla de frecuencias adecuada. d) Realiza los graficos adecuados. 5. En un estudio sobre el crecimiento de nifios de 0 a 3 afios se ob- tuvieron estas observaciones sobre Ja variable perimetro craneal del nifio al nacer en centimetros: 33.1, 34.6, 34.2, 36.1, 34.2, 35.6, 35.5, 35.8, 34.5, 34.2, 34.3, 35.2, 33.7, 36, 34.7, 35.6, 34.3, 34.2, 33.4, 35.9, 33.8, 33.6, 35.2, 34.6, a) Construye un diagrama de tallo y hojas. b) Construye una tabla de distribucién de frecuencias adecua- da. Estadistica aplicada a las Ciencias Sociales 1 ¢) Construye los grdficos pertinentes a partir de la tabla ante- rior. 6. En la siguiente tabla se muestra la distribucién de frecuencias absolutas del ntimero de empleados en 70 establecimientos ho- teleros: Niimero de empleados i 10 a) Completa la tabla de distribucién de frecuencias. b) Dibuja el histograma de frecuencias. ¢) Dibuja el poligono acumulativo. 7. El departamento de prevencién de riesgos laborales de cierta empresa [leva a cabo todos los afios una revisién médica a sus trabajadores. De la uiltima revisién hemos obtenido a partir de los anélisis de sangre las siguientes cantidades de colesterol en me/dl: 135, 169, 126, 149, 197, 221, 220, 147, 165, 178, 212, 184, 173, 195, 218, 139, 212, 230, 159, 148, 201, 159, 192, 214, 178, 188, 205, 196, 174, 201, 142, 199, 178, 245, 200, 191, 187, 138, 201, 216. a) Construye un grafico de tallo y hojas apropiado. b) Agrupa los datos en una tabla de frecuencias con interva- los. 2 M.D. Molina, J, Mulero, M. J. Nueda y A. Pascual 2.7 Cuestionario de autoevaluacién 1. Las ventas de cierto medicamento (en miles de unidades) de cua- tro marcas son: Marca | fj Entonces: a) La frecuencia absoluta acumulada es 10, b) La frecuencia absoluta acumulada de B es 5. c) No pueden calcularse las frecuencias absolutas acumula- das. 2. Si queremos dibujar el diagrama de sectores para el ejemplo an- terior, el ntimero de grados correspondiente a cada categoria se- tia: a) @s = 54, @p = 126, Oe = 72, @p = 104. b) @4 = 54, Op = 126, @ = 72, wp = 108. c) No puede representarse el diagrama de sectores. 3. La frecuencia relativa acumulada para la marca C es: a) 0.39, b) 0.77. ¢) Ninguna de las anteriores. 4. En un estudio sobre el ntimero de delitos cometidos en un dia en una ciudad, se obtuvieron los siguientes resultados: 5, 0,0, 1, 0,5, 2, 3, 1,2, 4,0, 5,2,0,0,1,4,2, 1. Entonces: Estadistica apticada a las Ciencias Sociales B a) El porcentaje de dias en que se produjeron menos de tres delitos es del 70%. b) El porcentaje de dias en que se produjeron dos 0 mas deli- tos es del 20%. c) El porcentaje de dias en que produjo algtin delito es del 50%. 5. Las notas de un control de 53 alumnos son agrupadas de la si- guiente manera: Si el profesor decide aprobar a los alumnos con un 5, el porcen- taje de suspensos sera: a) 37.74%. b) 2.65%. c) Ninguna de los anteriores. 6. Si queremos dibujar un polfgono acumulativo para la variable anterior, podremos representar: a) Frecuencia absoluta acumulada. b) Densidad de frecuencia acumulada. c) Porcentaje de cada clase. 7. Queremos elaborar una tabla de frecuencias para agrupar 15 da- tos de los cuales sabemos que el valor maximo es 33 y el valor minimo 4, Entonces: a) Se deben tomar tres intervalos. 'b) Se debe tomar la amplitud de los intervalos igual a 4 en cualquier caso. c) Ninguna de las anteriores cierta, 74 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascual 8. Queremos elaborar una tabla de frecuencias para agrupar unos datos de los cuales sabemos que el rango es 10.8; el valor mi- nimo, 6; el ntimero de intervalos (después del redondeo), 5 y la amplitud, 2.2. El limite inferior del primer intervalo sera: a) 5.9. b) 6.1. c) Ninguno de los anteriores. 9. Si el diagrama de tallo y hoja de cierta variable es el siguiente: 12 * 12° 33 t 3 23 28 34 f 12 12 58 71 72 s 7 x0.01 Se puede afirmar que: a) Se observa cierta simetria en la distribucién de los datos. b) El tercer dato es 12.03. c) Ambas son ciertas. 10. En un diagrama de tallo y hojas: a) Aparecen los datos ordenados y el ntimero de filas debe estar entre 4 y 12. b) Las filas que quedan vacfas deben desaparecer en cualquier caso. c) No se pueden representar los valores atipicos. Estadistica descriptiva unidimensional Una vez organizados los datos disponibles, el objetivo de este ca- pitulo es elaborar medidas resumen de los mismos. Dichas medidas serdn nuevas variables, es decir, valores que dependerén de la muestra escogida y, en general, recibirdn el nombre de estadisticos. Estas mis- mas medidas existen también para Ja poblacién, aunque normalmente son desconocidas, y reciben el nombre de pardmetros. Podran ser de diferentes tipos en funcién del andlisis que realizan de la muestra. En particular, veremos medidas de posicién, de dispersion, de forma y de concentracion. 3.1 Medidas de posicién Las medidas de posicién nos facilitan informacién sobre la ubica- cién de los datos analizados. Existen dos tipos de medidas de posicién: las medidas de posicién central y las medidas de posicién no central. 16 M.D. Molina, J. Mulero, M. J. Nueday A, Pascnal 3.1.1 Medidas de posicién central Las medidas de posicién central son aquellas que tienden a situarse en el centro de la distribucién de los datos ordenados dividiendo dicha distribucién en dos partes. Estudiaremos las tres medidas de posicién central mas conocidas: la media aritmética, la mediana y moda. @ Media aritmética La media aritmética, 0 simplemente media, puede ser considerada el centro de gravedad de una distribucién. El pardmetro media se re- presenta por jt. En cuanto al estadistico, lo denotaremos por X y se calcula como la suma de todos los valores de la variable dividida entre el ntimero total de elementos. CASO 1: Calculo de la media a partir de los datos originales (dis- puestos en una lista). La media se calcularé a partir de la siguiente férmula: a X+Xa+. +X iE n “oR X= ee Las edades de las mujeres que ocupan cétedras en la Univer- sidad son; 37, 39, 42, 48, 49, 51, 51, 53, 53, 53, 59, 4Cuail es entonces la edad media de las catedraticas? Estadistica aplicada a las Ciencias Sociales 17 eRe mcr aren La media sera: ee Mb Xebe + Xn a 37+39-+42-4 48 +494 514-51 +534+53453 +59 W 535 ah = 48.64 .afios. Observar que podfamos haberlo escrito: y= 37 +39 +42 4-48 +49-+ (51x 2) +(53 x 3) +59 ~ i =. 48.64 aifos. CASO 2: Calculo de la mediana a partir de datos agrupados en una tabla de frecuencias (con 9 sin intervalos). La media serd: _ EX k X= ae a ifris donde los X; son ahora los datos 0 las marcas de clase de los respectivos intervalos. Calcula la media para la variable PESO del Ejemplo 1.1 a partir de los dates agrupados en el Kjemplo 2.9. 7B M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Ejemplo 3.2 (continuacién). La media sera; x = GSO) + (65% 6) 4 (75x 5)+ (85 x3) = RIAD RIESE) 1350 = 39 = 67.5 kgs. Utilizando las frecuencias relativas: X = (55x 0,3) + (65 x 0.3) -+ (75. 0.25) + (85 x 0:15) 67.5 kgs. La media satisface las siguientes propiedades: 1. Las distancias de los datos respecto a la media, C; = X; — X, pueden ser positivas (en caso de que los datos se encuentren ala derecha de la media) o negativas (en caso de que se encuentren ala izquierda) y la suma de dichas distancias es cero, es decir, 2. Influencia de un cambio de origen: Si a todos los valores de una muestra se le suma (0 resta) una constante c, la media de la nueva imuestra es igual a la media de la muestra inicial mas (0 menos) Ja constante. 3. Influencia de un cambio de escala: Si todos los valores de una qauestra son multiplicados (0 divididos) por una constante c, la media de la nueva muestra es igual a la media de la muestra inicial multiplicada (0 dividida) por c. Estadistica aplicada a las Ciencias Sociales i) Comprueba las propiedades de la media considerando los da- tos: 2,3, 3, 6, 8, 14, 3 36 . . La media es X = — = 6. Veamos que, efectivamente, se satisfa- cen las tres propiedades anteriores: 1. Las distancias de los datos respecto a la media son -4, -3, -3, 0, 2, 8, cuya suma es 0. 2. Si sumamos 2 a todos los datos, obtenemos 4,5, 5, 8. 10, 16, cuya media es 8 = 8, que efectivamente coincide con la media original mas 2. - Si ahora multiplicamos por-3 todos los datos; obtenemos 6; 9,9, 18, 24, 42, cuya media es 448 == 18, que efectivamente coincide con 1a media original multiplicada por 3, i Mediana La mediana es el valor que deja un 50% de los datos a su izquierda y el otro 50% a su derecha, La mediana es un pardmetro que, como Ja media aritmética, constituye un valor central, pero al contrario de ésta, no est ligada al valor numérico de Jas observaciones sino a su posicién relativa dentro de la masa total de los datos. El estadistico mediana se representa por Me. El calculo de la mediana se leva a cabo siempre a partir de los datos ordenados de menor a mayor, Xa Xia) ---)X{q), y el procedi- miento dependera del formato en que tengamos los datos de Ja muestra: datos originales o datos agrupados en una tabla de frecuencias con 0 sin intervalos. 80 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual CASO 1: Cdlculo de la mediana a partir de los datos originales (dispuestos en una lista ordenada). Bsis 5 No es entero (ves impar), la mediana es el dato que ocupa la posicién E (2) + 1, donde £ (-) representa la parte entera del niimero que aparece entre paréntesis, es decir, Me=X(e(s)s1) SS Si 5 es entero (nes par), la mediana es la media entre el dato 5 y el siguiente, § + 1, es decir, ees Calcula la mediana para los datos: a) 1,3, 7,8, 9, 15. p) 1,3, 7, 8, 9, 15, 17. a) Se tiene quen=6y $= $= 3, luego =75. _XatXay _ 748 a or) b) Se tiene quen=7y 5 = 3 = 3.5, luego Me = Xwas\aiy= Xa+1 =a = 8 Estadistica aplicada a las Ciencias Sociales CASO 2: Calculo de la mediana a partir de datos agrupados en una tabla de frecuencias (sin intervalos), sl Buscamos § en la columna de frecuencias absolutas acumuladas F; 4o bien, 0.5 en la columna F,;, 0 bien, 50 en PF). % Si 5 no aparece en Ja columna de las frecuencias acumuladas, la mediana es la primera observacién cuya frecuencia acumulada supere dicho valor. # Si 3 aparece como un valor de las frecuencias acumuladas, la mediana es la media entre la observacidn que presenta dicha fre- cuencia absoluta acumulada y la siguiente. Pee Calcula la mediana para la variable “Numero de hijos’* cnyos datos estan recogidos en la siguiente tabla: A Fri 20 01333 58 0.3733 1i7 0.78 141 0.94 146 0.9733 149 0.9933 150 1 En este caso, n = 150, por tanto, 3 = Apo = 75, Buscamos la pri- mera observacion cuya frecuencia acumulada supere 75 y obtene- mos que Me = 2. 82 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Ejemplo 3.5 (continuacién). Observar que este procedimiento es andlogo a buscar la prime- ra observaci6n cuya frecuencia relativa acumulada, F,,, supere el 0.5, o también equivalente a buscar la primera observacion cuyo porcenitaje acumulado, P,, supere el 50%. Calcula la mediana para los siguientes datos agrupados: X| Ale | Fi 1/10 | 10 | 0.1136 3 | 20 130) 0.3409 4) 14/447] 05 7126 | 7 | 0.7954 8 | 10 | 807 0.909 9) 8 [887 7 eee Ahora, n= 88, por tanto, = 8 = 44, Observamos.en la tabla que 44 aparece en la columna ; y, por tanto, 447 Me= 7 =5.5. =) CASO 3: Calculo de Ia mediana a partir de datos agrupados en una tabla de frecuencias con intervalos: Identificamos en la tabla el intervalo cuya frecuencia absoluta acu- mulada sobrepasa por primera vez el valor 4. Si [L/;,L5;| es dicho in- Estadistica aplicada a las Ciencias Sociales 83 tervalo, la mediana ser 37 fi-t Zl, Me = Lh +2— , fi ais donde a; es la amplitud del intervalo. También se puede calcular con las frecuencias relativas acumula- das, indentificando el intervalo donde por primera vez sobrepasa 0.5, © con los porcentajes acumulados, identificando el intervalo cuyo por- centaje acumulado sobrepasa por primera el 50%. La férmula anterior se obtiene a partir de un sencillo célculo de Proporciones utilizando el Teorema de Tales. Si dibujamos la parte del poligono acumulativo del intervalo que nos interesa, [LF,LS;) y uni- mos Fj_) con F} aparece un tridngulo cuya base y altura identificamos con maytisculas y en su interior podemos trazar, a partir de la mediana que buscamos, un triéngulo més pequefio cuya base y altura identifica- mos con minisculas: Fiat Li; Me LS; "ap —___+ x Estos tridngulos son equivalentes y, por el Teorema de Tales, sabe- mos que: BASE __ base ALTURA altura” Con nuestros tridéngulos podemos identificar estos valores como: 84 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascual BASE = ai, ALTURA = fi, base Me-Li;, altura = 3-Fiu1. Entonces, sustituyendo, aj _ MeL fi 3-Fia? y despejando obtenemos la férmula de la mediana. Calcula la mediana para la variable PESO del Ejemplo 1.1, cuya tabla de frecuencias fue calculada en el Ejemplo 2.9. coe La mediana sera: 106 x 10 = 66.67 puntos, 0 bien, —P 50— 50 Fi xa; = 60+ o x 10 = 66.67 puntos. Me=Lh+ Moda La moda recoge el valor de la variable que corresponde al maximo de frecuencia. El estadistico moda se representa por Mo y satisface las siguientes propiedades: 1. En una muestra pueden existir varias modas. Estadistica aplicada a las Ciencias Sociales 85 2. La moda, a diferencia de la media y la mediana, también se pue- de definir para variables categéricas siendo ésta, ia categoria que més se repite. Los siguientes datos datos reeogen el estado civil de 15 perso- nas (¢asado, soltero 0 divorciado): CS, €,C, C,D,C,S,C, C, C, C, D,§, 8. Identifica la moda. oon Al ser, una variable categorica, la moda sera la‘ Cates eta: mie mis se repite, es decir, C, que representa a los casados. » Si la variable es cuantitativa, calcularemos la moda atendiendo a los siguientes casos: CASO 1: Si tenemos los datos originales dispuestos en una lista 0 agrupados en una tabla de frecuencias sin intervalos, la moda serd el dato que ms se repita. ees Calcula la moda para los datos del Kjemplo 3. 5. 2 ae La moda sed 86 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascual Caleula la moda para los datos del Ejemplo 3.6. eee La moda sera: CASO 2: Si tenemos la tabla de frecuencia con intervalos de jgual amplitud, la moda serd la marca de clase del intervalo que mayor frecuencia relativa tenga, que se conoce como intervalo modal. Lau ae - €aleula la moda para la variable PESO del Ejemplo 1. 1, euya tabla.de freeuencias aparece en el Ejemplo 2.9. Esta variable tiene dos modas (distribuci6n bimodal), Mo, = 55 y Moz = 65, puesto que hay dos intervalos con la mayor frecuencia “absoluta, CASO 3: Si tenemos la tabla de frecuencia con intervalos de di- ferentes amplitudes, la moda serd Ja marca de clase del intervato que mayor densidad tenga. une Calcula Ja moda para la variable del Ejemplo 2.12. Estadistica aplicada a las Ciencias Sociales 87 PT RM eACc cn Esta variable est4 agrupada por intervalos con amplitud desigual, por tanto, para calcular su moda utilizamos las densidades de fre- cuencia. La tabla de frecuencias serd: xX me.| fr | ai | di 0-5 [| 25 [i5[5 5-107) 7.5-4 10 | 5 10-15 512.57 5 | 5 15-30 ; 22.5 | 15 | 15 45 El intervalo modal sera [0,5{ y la moda seré Mo = 2.5. {Qué medida de posicién central es la mas adecuada? Normalmente la moda no se suele usar como representante de la muestra, escogeremos entre la media y la mediana segtin las caracte- risticas de la distribucién en cuanto a su simetria y a la existencia de valores atipicos. En particular: % Una distribucién es simétrica si tiene la misma forma a los dos lados de la mediana. En este caso, Me = X. ® Una distribucién cs asimétrica o sesgada si tiene mayor con- centracién de datos al principio (sesgo positive y Me < X) 0 al final de ésta (sesgo negative y Me > X). Por otra parte, los valores atipicos son observaciones de Ja variable muy alejados del resto cuya definicién formal veremos mas adelante. 88 M.D. Molina, J. Mulero, M. J. Nueday A. Pascual En resumen: B Sila distribucién de la variable es simétrica (o aproximadamente simétrica) y no hay valores atfpicos, la media y la mediana to- man valores muy parecidos y, por tanto, cualquiera de ellos seria un buen representante de la muestra, En este caso, escogeremos la media. Cuando entre nuestros datos aparecen valores atipicos o bien hay asimetrias (los datos se desplazan hacia uno de sus extremos), la mediana es mas adecuada que la media. Consideremos la muestra que recoge.los ingresos anuales (en miles de euros) de 10 familias de un determinado edificio: 30, 32, 35, 38, 50, 44, 42, 55, 50, 40. Calcula la media-y la mediana. Sicalculamos la media de la variable X : “Ingresos anuales”, obte- nemos X = 41.6 miles de euros, es decir, la media de los ingresos: es de 41600 curos. Si ordenamos los datos, 30, 32,35, 38, 40, 42, 44, 50, 50, 55, se observa que la media es una buena medida de posicidn central, ya que se sitta en el centro de la distribucién-de datos. Si calcularhos la mediana, se tiene que Me == #9442 — 41 miles de euros qlic.es muy similar a la media, En este caso, escogeremos la media como medida de posicién central ‘mds adecuada. Ki Estadistica aplicada a las Ciencias Sociales 89 Ejemplo 3.13 (continuacién). Sin embargo, si al afio siguiente volvemos considerar los ingresos de las mismas familias, obteniendo los siguientes datos 32, 32, 37, 38, 40, 42, 45, 57, 59, 1000, (a la Ultima familia le ha podido tocar la loteria) y calculamos Ja media, se tiene que: X = 138.2 euros es decir, 138200 euros. En este caso, la media no va a ser una buena medida de posicién central, pues no es representativa de los.datos de nuestra muestra ya que difiere mucho de ellos. Sin embargo, la mediana contintia siendo Me = “442 = 41 eu- ros, quedando de manifiesto la robustez de la mediana frente a los valores atipicos. 3.1.2 Medidas de posicién no central Las medidas de posicién no central dividen el conjunto de datos en cuatro o mas partes. Veremos los cuartiles y los percentiles. B Cuartiles Los cuartiles dividen la distribucién en cuatro partes iguales, en cuanto al porcentaje de datos que contienen: 25% 25% 25% 25% Xmin Qi Q2=Me Qs Xmax Existiran, por tanto, tres cuartiles que denotaremos Q) (primer cuar- til), 2 (segundo cuartil) y @3 (tercer cuartil). Observemos que Qo = Me, es decir, el segundo cuartil Q2 coincide con la mediana. 90 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual El calculo de los cuartiles Q1 y Q3 se realiza a partir de los datos ordenados de menor a mayor de forma similar al realzado para la ob- tencién de la mediana. Sean X(.),X(2);--- +X) los datos ordenados de menor a mayor. CASO 1: Célculo de Q; y Qs a partir de los datos originales (dis- puestos en una lista). 1. CAlculo de Qi: BS Si 7 es entero: Xe teeny Q z & Si J noes entero: Or =X(eqyan)- 2. Célculo de Qs: © Si a es entero: o= a), ® Si 4 noes entero: 25 Xeon) Ejemplo 3.14, Caicula Q) y Q3 para los datos: 30,32, 35, 38, 30, 44, 42, 55, 50, 40. eoe En primer lugar, ordenamos los datos y obtenemos: 30, 32, 35, 38, 40, 42, 44, 50, 50, 55. Estadistica aplicada a las Ciencias Sociates 1 Ejemplo 3.14 (continuacién). Eneste caso, n= 10, yf = 2 = 2.5. Como este valot noes entero; - el primer cuartil sera él dato que ocupa la posicién He . g(G)+1=8@5)+1=24123, es decir, Or =Xg)= 35. De la misma manera; in = 2 = 7.5 tampoco es entero, luego el tercer cuartil serd el dato que ocupa la posi¢ién #(2) 41-205) 41=741=8, es decir, O3 = Xig) = 50. Ejemplo 3.15. Calcula Q) ¥ Q5 para los datos: 2,3, 2.7, 2.7, 3.4, 4.5, 3,4, 3.6, 4.5, 4.7, 5.6, 5,5, 5.2, 5.3, 6.4, 6.8, 2.7. Construimos el grafico de tallo y hojas para tener los datos orde- nados, obteniendo: ‘ 92 M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual PAU ORAL RRC eet anys En esté caso, n = 16 y $ = 18 = 4. Ahora, este valor es entero, por lo que . . # O= XQ tX Xa tXig_ 2.7434 = 305 = 2 2 ne De la misma forma, #4 = “8 = 12. oy = DP _ Xan ¢Xpy 2 3 CASO 2: Célculo de Q) y Qs a partir de datos agrupados en una tabla de frecuencias (sin intervalos). 1, CAlculo de Q;: Calculamos 4) y buscamos dicho valor en la co- jumna de frecuencias absolutas acumuladas. También podemos calcularlo buscando 0,25 en F; 0 25 en P;. &@ Si no aparece en Ja columna de Jas frecuencias acumu- ladas, Q) serd la primera observacién cuya frecuencia acu- mulada supere dicho valor. § Si aparece como un valor de las frecuencias acumula- das, Q) serd Ja media entre la observacién que presenta esa frecuencia absoluta acumulada y la siguiente. 2. Calculo de Q3: De forma andloga, calculamos ae y buscamos dicho valor en Ja columna de frecuencias absolutas acumuladas. También podemos calcularlo buscando 0.75 en. Fi, 0 75 en P. S Si an ‘ho aparece en Ja columna de las frecuencias acumu- ladas, Q3 serd la primera observaci6n cuya frecuencia acu- mulada supere dicho valor. Estadistica aplicada a tas Ciencias Sociales 93 a si ” aparece como un valor de las frecuencias acumula- das. Qs seré la media entre la observacién que presenta esa frecuencia absoluta acumulada y la siguiente. CASO 3: Calculo de Qi y Q3 a partir de datos agrupados en una tabla de frecuencias con intervalos. . CAlculo de Q;: Calculamos fe jdentificamos en la tabla el inter- valo cuya frecuencia absoluta acumulada sobrepasa por primera vez dicho valor. Si [LJ;,LS;[ es dicho intervalo, Qy sera: —Fu a Q=Lh+4 x ai, i donde a; es la amplitud del intervalo. También se puede calcular con los porcentajes acumulados iden- tificando el intervalo cuyo porcentaje acumulado sobrepasa por primera vez el 25 %. Entonces: 25-P_ Q)= + St kas i 2, Céleulo de Q3: En este caso, calculamos se y procedemos de la misma forma que para Q1. =Li+4—— xa, Q3 i Fi i oO bien, 5 —P 05 = Ly | 2S Pa. 25-0 Pi 30 El primer intervalo de la tabla cuyo porcentajé acumulado supera el 75% es el tercero: [70, 80[, que tiene un porcentaje acumulado P3 == 85%. Por tanto, Bo Pes 75 ~ 60 = Ld; +$ =. = 10= 76. Q3 3 a 10+ 3g 16 % & Percentiles Mientras que los cuartiles dividen la distribuciéa en cuatro partes iguales, los percentiles, como su propio nombre indica, dividen la dis- tribucién en 100 partes iguales. Existirdn, por tanto, 99 percentiles que denotaremos 41,42, -.-,499+ Notad que q25 = Q1, gs0 = Me y 475 = Q3- El valor gq sera entonces el valor que deja el o¢ % de los datos a su izquierda y el (100 — cf) % de los datos a su derecha. Estadistica aplicada a las Ciencias Sociales 95 Para calculartos, procederemos como en el caso de la mediana 0 los cuartiles, teniendo en cuenta que la posicién del cuartil Ya sera si lo hacemos a partir de las frecuencias absolutas acumuladas, o que el porcentaje acumulado a buscar ser a % si lo hacemos a partir de los porcentajes absolutos acumulados, Al igual que como se vio con Ja mediana podemos deducir la for mula a partir del grafico: ya que qj x Pi Py Entonces, a-P Ja =U =x g,, Pi emplo 3.17, Calcula el percentil 68 para la variable PESO del Ejemplo 1.1, cuya tabla de frecuencias la encontramos en el Ejemplo 2.9, 96 M. D. Molina, J. Mulero, M. J. Nueda y A, Pascual Rin eAC CLs El primei intervalo dela tabla cuyo porcentaje.acumulado supera el 68% es [70,80{, que tiene un porcentaje acumulado F; = 85% (el anterior tiene un porcentaje acumulado de P;_; = 60%, por lo que no supera el'68-%). Entonces, oR, CaAlculo de porcentajes En muchas ocasiones interesa el problema inverso, es decir, el cAlculo de un porcentaje a partir de un valor dado. Cuando dispone- mos de una tabla de frecuencias con datos individuales este cdleulo ser sencillo: bastard con localizar el porcentaje buscado a partir de la tabla. eee A partir de los. datos sobre el ntimero de hijos que: aparecen _en.el Ejemplo 3.5, : : : a) {Qué porcentaje de familias tiene 2 ¢ menos hijos? “p): ZQué porcentaje de familias tiene 3 o mas hijos? Estadistica aplicada a las Ciencias Sociales 97 Ejemplo 3.18 (continuacié6n). a) Bastard con tomar el porcentaje acumulado del valor 2 que es el 78%. 'b) En este caso, podremos sumar todos los porcentajes asocia- dos a 3, 4, 5-y 6 (16+3.334+2+0,67=22); o bien, restarle a 100 el porcentaje acuimulado para el valor 2: 100-78=22, Sin embargo, cuando los datos vienen agrupados en intervalos con- viene afinar el calculo utilizando el mismo procedimiento que para el calculo de los percentiles: Ba 7 Li Ga LS; ——— 4; —__+ Por la equivalencia de tridngulos, se tiene: Pi x G _ qa-hh Despejando, obtenemos la siguiente formula con la que calculare- mos el porcentaje de datos acumulados, @, hasta el valor, ahora cono- cido ga: qa Li a= Py + —— X pj. i 98 M, D. Molina, J, Mulero, M. J. Nueda y A. Pascual =—————_———— A partir de la tabla. de frecuencias de la variable PESO del Ejemplo 2.9, a) ZQué porcentaje de individuos pesa menos de 75 kg.? b) gQué porcentaje de individuos pesa mAs de 70 kg.? °) {Qué porcentaje de individuos pesa entre 55 y 75 kg.? eee a) 75 es un valor qué estd en el intervalo [70,80!, por tanto, a= P+ Be x pi = 60-+ Bal x 25 = 72.5%. b) k= 100-60 = 40%. c) Habré que caleular el porcentaje acumulado hasta 55,4, el acumulado hasta 75, @, y restarlos: Li 55-50 Uy yoo a = Pat O = 72.5%. x30 = 15%. i El porcentaje buscado ser4 72.5 — 15 =57.5%. % ~~ GrAfico de caja y bigotes El grfico de caja y bigotes se construye a partir de Jos cuartiles, es decir, la mediana, Q; y Qs. y es una representaci6n visual de los datos donde podemos reconocer el modo en que éstos se distribuyen. Estadistica aplicada a las Ciencias Sociales 99 En particular, el gréfico de tallo y hojas es una representacion de la siguiente forma: Como se observa, consiste en una caja rectangular y unos segmen- tos dibujados a partir de la caja que se denominan bigotes. El grafico se podrd dibujar en horizontal o en vertical. Si lo dibujamos en ver- tical, la altura del recténgulo representa el recorrido intercuartflico y Ja anchura ser4 un valor arbitrario para mantener cierta estética en el dibujo. La caja esté dividida por un segmento que indica la posicién la mediana y, por tanto, su relacién con los cuartiles primero y tercero. Los bigotes representan los valores de la muestra que, sin pertenecer a la caja (al 50% de datos centrales) 10 pueden considerarse atfpicos. Por el contrario, los valores de la muestra que se consideran atipicos seran representados fuera de estos bigotes con algtin simbolo para su identificacién. Su utilidad se basa en que muestra de forma clara algunas de las ca- racteristicas mds importantes de la distribuci6n, nos servird, por ejem- plo, para estudiar la simetrfa y 1a longitud de las colas de nuestra dis- wibucién. M.D. Molina, J. Mulero, M. J. Nueda y A. Pascual Para su construccidn, hemos de proceder de la siguiente manera: J. Ordenamos los datos. 2. Calculamos Me, Q; y Q3. 3. Calculamos el factor de escala F.E. = 1.5 x (Q3—Q;). 4. Calculamos de las fronteras, f), fo, Fi y F, donde & 1 = Q1 — FE. es la frontera interior inferior. Bf. = Q3 + FE. es la frontera interior superior. & F — f| — F-E. es la frontera exterior inferior. & F) = f)+F-E. es la frontera exterior superior. 5. Calculamos los valores adyacentes, es decir, los valores hasta donde debemos dibujar los bigotes: % Valor adyacente inferior: Dato mds cercano a f{, siendo mayor 0 igual que |. & Valor adyacente superior: Dato mas cercano a fo, siendo menor 0 igual que fy. 6. Identificamos los valores atfpicos, que serén & Valores atipicos menores: Inferiores: Datos comprendidos entre F, y fi. « Superiores: Datos comprendidos entre fo y F). & Valores atfpicos mayores: Inferiores: Datos mds pequeiios que F). © Superiores: Datos més grandes que Fy. Estadistica aplicada a las Ciencias Sociales 101 La siguiente muestra recoge el ntimero de dias que han: faltade al trabajo en un afio 20 trabajadores: 25, 24, 26, 24, 25, 0, 25, 28, 68, 39, 26, 27, 28, 0, 22, 38, 23, 12, 40, 25. Construye el grafico de caja'y bigotes. aoe 1. Ordenamos los datos: Q, O, 12, 22, 23, 24, 24, 25, 25, 25, 25, 26, 26, 27, 28, 28, 38,39, 40, 68. 2. Calculamos de Me, Q) y Q3. En este caso; Me =25, Q1 = 23.5 y Q3 = 28. 3. Calculamos el-factor de escala: FE. = 15x (Q3— Qi) = 1.5 (28—23.5) $6.75. 4. Calculamos fi, /2, Fi y Fo donde ® fi = Q)~ FE. =23.5-6.75 = 16.75, fp = Qs + FE, =2846.75 = 34.75, W Fi = fi- FE. =16.75-6.75 = 10, BM Fy = ft PE. = 34.75 +6.75 = 41.5, 5. Calculamos los valores -adyacentes: ® Valor adyacente inferior: 22, & Valor adyacente superior: 28. 102 M.D. Motina, J. Mulero, MJ. Nueda y A. Pascual Ejemplo 3.20 (continuacién). 6, Identificamos los valores atfpicos, que serén: Valores atipicos menores: ¢ Inferiores: 12. ‘ Superiores: 38, 39; 40, § Valores atipicos mayores: « Inferiores: 0, 0. Superiores: 68. Con todo ello, wTERe Se 7 7 4 5 3 8 Estadistica aplicada a las Ciencias Sociales 103 Ejemplo 3.21 (continuacién). eee Los datos estén ordenados, calculamos Q; = 3.05, Me = 4.5 y Q3=5.4. El factor de escala sera PLE. = 1.5 x RIQ = 1.5 x 2.35 = 3.525. Las fronteras serén: ® fi =Q1—F.E. = 3.053.525 = -0.475, © P=Os+- FE. = 5.443.525 = 8.925, SOF, = fi ~ PE. = -0.475 -3.525 = ~4, By = ft FE, = 8.925 +3.525 = 12.45, Calculamos los valores adyacentes: § Valor adyacente inferior: 2.3. §) Valor adyacente superior: 6.8. En este caso, no aparecen valores atfpicos y, por tanto, Gréfico caja lod M.D. Molina, J. Mulero, M. J. Nueda y A, Pascuat youu Compara Ja distribucién de las notas del Ejemplo 1.1 segiin el sexo:de los alunos. : ove Para ello, podemos representar sus respectivos gréficos de caja. y bigotes, siendo éstos los siguientes: Se observa que, aunque la mediana de ambas distribuciones es anuy similar, en general, las notas més bajas corresponden a hom- bres y las mas altas corresponden a mujeres. Observamos también que en las mujeres las notas son menos simétricas. Un 50% de los hombres tienen notas por debajo de 5, mientras que-sdio suspen- den un 25% de Jas mujeres. 3.2. Medidas de dispersién Hemos visto que las medidas de posicién son muy valiosas porque pueden representar con un solo ntimero una distribucién. Sin embargo, en muchos casos esto no es suficiente. Por ejemplo, disponemos de las notas del control de estadistica de los grupos A y B. En el grupo A todos tienen un 5 y en el grupo B la mitad tienen un 0 y la otra Estadistica aplicada a las Ciencias Sociales 105 mitad tienen un 10. En ambos casos la media y la mediana es 5, pero los grupos son muy diferentes. Este ejemplo nos indica la necesidad de incluir un pardmetro que nos informe sobre sobre la variabilidad © dispersién de los datos entorno al pardmetro de posicién escogido. Ademéas, nos proporcionara una medida de la representatividad de las medidas de posicién central. 3.2.1 Medidas de dispersién absolutas Las medidas de dispersién absolutas vienen expresadas en unida- des que dependen de las unidades en que se expresan los datos de nuestra muestra, Las mas importantes son las siguientes: & Rango Es una medida de dispersion global de los datos. Lo denotaremos como R y se calcula come Ja diferencia del maximo y del mfnimo de la variable, es decir, R= Xx — Xin unridades. BH Recorrido intercuartilico Es una medida de dispersién asociada a la mediana. Lo denotare- mos como RQ y se calcula como la diferencia entre el primer y el tercer cuartil, es decir, RIQ = Q3 —Q, unidades, Si este valor es muy pequefio significa que el 50 % de Jos datos centra- dos estén muy cercanos a la mediana y si este valor es grande es porque hay mucha dispersién de los datos centrales en torno a la mediana. @ Varianza Es una medida de la dispersién de los datos en torno a la media. El pardmetro varianza se representa por 6”. En cuanto al estadistico, lo denotamos por S?, y se calcula como: 106 M.D. Molina, J. Mulero, M. J. Nueda y A, Pascuat k — DAN? aX” unidades”. n-1 n— Observemos que la varianza es siempre mayor o igual que cero. A partir de la férmula, se deduce que si la varianza es grande, los datos difieren mucho de la media, mientras que pequefios valores conducen a mayor cercania a la media y, por tanto, menor dispersién. Desviacién tipica Es una medida de dispersidn de los datos en torno a la media. El pr&metro desyiaci6n tipica se representa por 0. En cuanto al estadis- tico, lo denotamos por S, y se calcula como la rafz cuadrada de la varianza, es decir, S=+VS? unidades. Es importante observar que: § La varianza y la desviacién tipica son las medidas de dispersion absolutas més utilizadas. § La varianza se mide en las mismas unidades que nuestros datos elevadas al cuadrado, mientras que la desviacién tipica sf que se expresa en las mismas unidades que nuestros datos. 8 La varianza y la desviaci6n tipica siempre son mayores 0 iguales que cero. Estadistica apticada a fas Ciencias Sociales 107 Caicula las medidas de dispersién para la variable PESO con Ja tabla de distribucién de frecuencias del Ejemplo 2.9, eee ® Ya vimos que Q; = 58.33 kg y. Q3 = 76 ke. WW Rango: R = 90—50= 40 kg. ® Recorrido intercuartilico: RIQ = 76 — 58.33 = 17.67 kg. @ -Varianza: mo. | fi | AX) XP | sxx? 55 | 6 | 330 | 3025| 18150 65. 6. 390 | 4225 | 25350 7535 | 375 | 5625 | 28125 85.3). 25517225 | 21675 20.) 1350 93300 Entonces, = 2 : 2 — 93300 20.67.59" _ 2075 14.4797 kg. 19 38 Desviacién tipica: S = V'114.4737 = 10.6992 kg. Se ha analizado la distribucién del ndmero de hijos de 50 fa- milias pertenecientes a dos regiones, obteniéndose los siguicn- tes datos: 108 M.D. Molina, J. Mutero, M. J. Nueda y A, Pascuat ontinuacién). Regién A. Regién B Alf i “0] 4 oO; 21 “i[ 8 “1/5 “21 44 2) 6 3, 8B “3/9 “48 “4! 6 “573 “S| 3 w= 50 n=30 Calcula las medidas de dispersién absolutas de ambas regio- nes, & Rango: Ra =5-0=5 y Rp =5-0=S hijos. ®& Recotrido intercuartilico: Para la regidn.A, Q) = X13 = 2 hijos y @3 = X33 = 3 hijos; Por tanto, RIQs = Q3-- Q) = 3—2= 1 hijo. De la misma forma, se tiene que RIQz =3 hijos. _ 384-50 x 2.44? — wed, ST = 17616 hijos?, SB = 2.9229 hijos?. Estadistica aplicada a las Ciencias Sociales 109 Ejemplo 3.24 (continuacién). Desviacién tipica: Sa. = V'1.7616 = 1.3273 hijos, Sp = V2.9229 = 1.7096 hijos. La varianza y la desviacién tfpica satisfacen las siguientes propie- dades: 1. Influencia de un cambio de origen: Si a todos los valores de una muestra se Je suma (0 resta) una constante c, la varianza y la desviacién tipica de Ja nueva muestra no varfan. 2. Influencia de un cambio de escala: Si todos los valores de una muestra son multiplicados (0 divididos) por una constante ¢, la varianza de la nueva muestra queda multiplicada (0 dividida) por dicha constante c elevada al cuadrado y la desviacién tfpica por la constante en valor absoluto. Comprueba las propiedades de la mediana a partir de los da- tos 2, 3,3, 6, 8, 14. En primer lugar, calculamos la varianza y la desviacion tipica. En este caso, S* = 20.4 y S = 4.5166. Ho M.D. Molina, J. Mulero, M.J. Nueday A, Pascua! Ejemplo 3.25 (continuaci6n). 1. Si, por ejemplo, restamos 3.a los datos anteriores, obtene- mos ~1, 0, 0, 3,5, 11 y podemos comprobar que para estos nuevos datos sigue siendo S? =.20.4 y $ = 4.5166, 2. Si dividimos.enire 2 los datos anteriores, 1; 3/2, 3/2, 3, 4, 7, se tiene que ¥ = 3, $2 = 5.1 y § = 2.2583, 3.2.2, Medidas de dispersién relativas Las medidas de posici6n relativas son adimensionales (sin unida- des), caracterfstica que les permite ser utilizadas Para comparar mues- tras de diferente naturaleza. Estudiaremos el Coeficiente de variacién de Pearson. & Coeficiente de variacién de Pearson Es una medida de dispersion relativa que compara la desviacién ‘pica con la media. Cuanto menor sea el coeficiente de variacfon, ma- yor significativa sera la media. Lo denotaremos como CV y se calcula como; v= Pll Ejemplo 3.26. Calcula el coeficiente de variacién para la variable PESO con Ja tabla de distribucién de frecuencias del Ejemplo 2.9. Ya vimos que X¥ = 67.5 kg. Se tiene que CV = $ = 10,6992 _- . Eee Estadistica aplicada a las Ciencias Sociales Ww Pen uReae Calcula los coeficientes de variacién del niimero de hijos para cada:regién que aparece en los datos del Ejemplo 3.24. eee Se tiene que CVa = 3 = 499R = 0.5440 y CVp = 12026 — 1.0299. Podemos ver que en Ja regién A la media es mucho més repre- sentativa que en la B porque su CV es menor. Esto se debe a la simetria de su distribucién. Penne, En una empresa se determinan dos magnitudes: a) El rendimiento medio, r, de los trabajadores, en una es- eala arbitraria, que da 80 puntos de media y 20 de des- viacién tipica, b) Los ingresos, i, con 12.000 euros de media y una desvia- cién tipica de 2.400 euros. {Qué magnitud tiene mayor variabilidad? eee Como las magnitudes estén expresadas en diferentes unidades, no podemos comparar sus desviaciones. Sin embargo, el cAlculo de los coeficientes de variacién. seran, por ser una medida de dispersidn relativa, una buena medida para poder dar una respuesta a nuestra pregunta, Los correspondientes coeficientes de variacién son 2400, Cv, =F = 025 y CV = Sap 792: 112 M.D. Molina, J. Mulero, M.J. Nueday A. Pascual POU DOT RCE Te Tee Se tiene que CV, > CV; y, por tanto, la magnitud con mayor dis- persion es la de rendimiento. 3.3 Medidas de forma Las medidas de forma ayudan a determinar la forma de Ia distri- bucién de Ja muestra sin necesidad de dibujarla. Estudiaremos el coe- ficiente de asimetrfa y el de curtosis. Estas medidas se suelen estudiar en base a una referencia: la curva normal. Como ya indicamos en la Seccién 2.3.3 del capitulo anterior, la distribucién normal juega un papel primordial en Inferencia Estadisti- ca pues permite modelar numerosos fenémenos naturales y sociales y son muchos los métodos estadfsticos que parten de la hipétesis de que nuestros datos provienen de una poblacién que sigue esta distribucién. Por ello, es titil comparar ciertas caracteristicas de la distribucién de nuestros datos con las que tendria si la distribucién fuera normal. Dos de estas caracteristicas son la simetria y el apuntamiento 0 curtosis. Aunque podemos encontrar numerosas medidas que valoran 1a sime- tria o asimetria de una distribucién asi como su apuntamiento, nosotros nos limitaremos s6lo una medida para cada una de estas caracterfsticas. § Coeficiente de asimetria Las curvas de frecuencia que no son simétricas se denominan asi- métricas. Las distribuciones en las que la cola més larga es la de la derecha se denominan asimétricas a la derecha (los datos se agru- pan mayoritariamente a la izquierda de la distribucién), mientras que las distribuciones en las que la cola més larga es la de Ia izquierda se denominan asimétricas a la izquierda (los datos se agrupan mayori- tariamente a la derecha de la distribucién). Estadistica aplicada a las Ciencias Sociales 13 Recordemos que: ® Una distribucién es simétrica si tiene Ja misma forma a Sos dos Jados de la mediana y, en tal caso, la media y 1a mediana coinci- den. Una distribucidn es asimétrica o sesgada si tiene mayor con- centracion de datos al principio (sesgo positive y Me < X) 0 al final de ésta (sesgo negative y Me > X). En la siguiente figura podemos ver dos ejemplos de distribuciones asimétricas: _/ [ot ‘Asimaétrioa ala derecha, Asimétrica a la zquierda El coeficiente de asimetria es un indicador de la asimetria de la distribucién de la muestra. Lo denotaremos por B, y se calcula como: n ¥ (% -Y B= (n- 1S El numerador de esta formula viene dado por el cubo de las dife- rencias con la media que es un valor que conserva el signo indicando al tipo de asimetria. Al dividir por la desviacién tipica al cubo y por ‘n— 1) se elimina el efecto de las unidades de medida, por lo que By se puede usar para comparar la asimetria de diferentes muestras. 4 MD. Molina, J. Mulero, M. J. Nueda y A. Pascual Su interpretacién es la siguiente: @ Si B, <0, la distribucién es asimétrica por Ia izquierda o existe sesgo negativo. & Si B, = 0, la distribucién es simétrica. % Si B, > 0, la distribucién es asimétrica por la derecha o existe sesgo positive. % Coeficiente de curtosis La distribucién normal se caracteriza también por tener una deter- minada tasa de descenso (denominada apuntamiento o curtosis) desde el centro hacia sus colas. Las distribuciones para las cuales esta tasa de descenso es menor se denominan distribuciones de colas largas (0 dis- tribuciones platoctrticas). Serén aquellas para las que existen datos “anormalmente” lejos del centro de la distribuciGn (valores atfpicos). Por el contrario, las distribuciones para las cuales esta tasa de descenso es mayor se denominan distribuciones de colas cortas (0 distribucio- nes leptoctirticas). Las distribuciones mesoctirticas son Jas que tienen una tasa de descenso como Ia distribucién normal. En la siguiente figura podemos ver un ejemplo de estos tipos de distribuciones: Leptoctiriica — Mesovurtica > Platoctitica, Estadistica aplicada a tas Ciencias Sociales us El coeficiente de curtosis es un indicador del apuntamiento 0 apla- namiento de la distribucién de la muestra. Lo denotaremos por B2 y se calcula como: h 2% x)" (n—1)S4 Su interpretacién es la siguiente: By= ® Si By < 3, la distribucién es menos apuntada que Ja normal, es una distribucién aplanada o platiciirtica. # Si By = 3, la distribucién tiene una forma igual de apuntada que Ja distribucién normal, que es la referencia, es mesoctirtica. Si Bo > 3, la distribucién es mds apuntada que la normal,es apun- tada o leptoctirtica. Ejemplo 3.29. Calcula la ‘media,.la varianza, los coeficientes de simetria‘) y : curtosis del ntimero de hijos para cada nee gue aparece en - Jos datos del Ejemplo 3.24, : eee Llamemos C; = X; ~ X. Para la regién A, se tiene: XL ALMxA] G [LOxfil xn 4. 6 =2.44.[ 23.81 | ~58.11 8 8 —144 | 16.59: | —-23.89 14 28 0.44 [2.71 LAD 13 | 39 0.56 | - 4.08 2.28 8 3 50 32 [156 | 19473037 15_| 2.56 | 19,66. 50.33 122 86.32 -|. —0.20 116 M.D. Molina, J. Mulero, M, J. Nueda y A. Pascual Ejemple 3.29 (continuacién). La quinta, sexta y séptima columna donde aparecen las diferen- cias de las observaciones respecto a la media G se utilizan para calcular la varianza, el coeficiente de simetria y el de curtosis, respectivamente, Por tanto, i X = 2.4400. BS = 1.7616, @ By = -0.0018, es decir, es una distribucion asimétrica por la izquierda o existe sesgo negativo. . © Bo = 2.3294, és decir, es una distribucién Platictirtica 0 me- nos apuntada que la normal. ~ De Ia misma forma para la regién B, se tiene: XL Alexhl G |GxflOxpiaxs 0 | 21 0 ~1.66 | 57.87 | —96.06 | 159.46 5 5 0.667 2.18 —1.44 0.95 6 12 0.34 0.69 0.24 0.08. 9 27 1.34 16.16. | 21.65 | 39.02 6 24 2.34 | 32.85 76.88 | 179.89 3 15 3.34 | 33.47 | 111.78 373.34 50 83 143.22 | 113.05. | 742.74 Por tanto, BX = 1.6600 hijos, B S? = 2.9229 hijos?. ® B, =.0.4617, es decir, es una distribucién asimétrica por la derecha 0 existe sesgo positivo. 8 Bo = 1.7743, es decir, es una distribuci6n platiciittica o me- nos apuntada que Ja normal, Estadistica aplicada a las Ciencias Sociales ua 3.4 Medidas de concentracién Las medidas de concentracién de una distribucién de frecuencias tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de Ja variable. Son, por tanto, indicado- res del grado de equidistribucién de Ja variable. Estas medidas tienen especial aplicacién en variables econémicas (rentas, salarios, etc.). Se denoraina concentracién a la mayor o menor equidad en el reparto de la suma total de la variable considerada. Para medir el nivel de concentracién en la distribuci6n de una variable vamos a utilizar dos herramientas: una analitica, el indice de Gini y otra gréfica la curva de Lorenz. @ Indice de Gini El indice de Gini es una medida de concentracién muy utilizada para comparar el reparto de los ingresos o de Ja riqueza. Para su cAlculo, supongamos que disponemos de los datos X; agru- pados en una tabla de frecuencias (si aparecen intervalos tomamos > como sus marcas de clase) donde ya tenemos calculadas las frecuen- cias absolutas y acumuladas J; y F; y las frecuencias relativas acumu- ladas F,;. Para obtener el valor del indice de Gini, que denotaremos por Ig, seguimos los siguientes pasos: 1. Calculamos en otra columna los productos hj == X; x fi- 2. Afiadimos, en una nueva columna H;, los valores acumulados de Ay. 3. Calculamos los valores relativos Hy; = #. 4. Una vez calculados los valores H,;, aplicamos la férmula del indice: kel x (Fri ~ Ari) & Ie et x Fu &

También podría gustarte