Academia.eduAcademia.edu

MEDIDAS , ERRORES EN ANALIISS DE DATOS UNIVARIADOS

2023, Seminario de problemas 1

CUANDO NOS ENFRENTAMOS A DATOS ESTOS DEBEN SER ANALIZADOS. ESTO LO DENOMINAMOS TRATAMIENTO DE DATOS ESTE PUEDE SER INTUITIVO (NOS FALTA ESTADÍSTICA Y TIEMPO) O PRÁCTICO (QUEREMOS TRABAJAR EN EL “LABORATORIO”)

Seminario de problemas 1 Clase 1 09/07/23 prof. Dr. Carlos N. Bouza-Herrera CUANDO NOS ENFRENTAMOS A DATOS ESTOS DEBEN SER ANALIZADOS. ESTO LO DENOMINAMOS TRATAMIENTO DE DATOS ESTE PUEDE SER INTUITIVO (NOS FALTA ESTADÍSTICA Y TIEMPO) O PRÁCTICO (QUEREMOS TRABAJAR EN EL “LABORATORIO”) 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Comparar una cantidad con su respectiva unidad, con el fin de averiguar cuantas veces la segunda está contenida en la primera es unproblema numrico , estiditico, coputacional, denepdiendo del problema y el insotrumetal del matimatico. Medimos es usual en la vida real… 09/07/23 prof. Dr. Carlos N. Bouza-Herrera ASÍ Si medimos el largo de una mesa ... El resultado podría ser ? 125,434 125,434 cm 125,434 ± 17,287 cm 125 ± 17 cm 09/07/23 prof. Dr. Carlos N. Bouza-Herrera 5 Conceptualizando es que en cada medición se espera haya un error Partes de una medida II Al medir una mesa podemos obtener valor ± 17 cm unidades ±incertidumbre 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Presentación 125 6 Es decir, que si pensamos como matemáticos diríamos que hay un modelo Error e incertidumbre I Muchas veces se cometen errores al medir. Debemos corregirlos o al menos estimarlos DX Xreal Xmedido DX 8 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Podemos explicar al cliente en una forma quizás más clara Error e incertidumbre II Error = Xreal –Xmedido Xreal Î(Xmedido -DX, Xmedido +DX) DX Xreal Xmedido DX 9 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Un matemático estadístico formula el problema así Nivel de Confianza n n DX depende de lo seguros que queramos estar Nivel de confianza = fracción de las veces que quiero acertar. 99%, 95%... Xreal DX Xmedido 09/07/23 prof. Dr. Carlos N. Bouza-Herrera DX 10 Vale clasificar las medidas. .. Eso es crucial para modelar Tipos de medidas n Medidas directas Las anoto de un instrumento L1, L2 n L2 Medidas indirectas Provienen de aplicar operaciones a medidas directas A = L1 x L2 L1 11 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Entonces podemos pensar en como se expresan los errores a partir del tipo de medida Tipos de errores n Medidas directas • Sistemáticos • Aleatorios n Medidas indirectas • Derivados de los anteriores 12 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Errores sistemáticos nErrores sistemáticos Limitaciones de los aparatos o métodos 09/07/23 Debidos a Precisión o Calibración prof. Dr. Carlos N. Bouza-Herrera Ejemplo Usando una balanza se mide 5 veces la masa de una esfera de radio r = 1.0 ±0.1 cm. Se pide calcular su densidad. n0 M (g) 1 2 3 4 5 14.3 14.5 14.7 14.4 14.1 1 3 M r = V 2 49 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Ejemplo n Me peso varios días seguidos en iguales condiciones Día Masa (kg) L M X J V 73 72 74 72 73 (73 + 72 + 74 + 72 + 73) M= = 72,8 kg 5 20 09/07/23 prof. Dr. Carlos N. Bouza-Herrera En la práctica es común que los errores sean impredecibles y no haya forma de controlarles por ser producido por la interacción de múltiples causas 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Errores aleatorios I n Factores que perturban nuestra medida. • • • • • Suma de muchas causas Tienden a ser simétricos. Se compensan parcialmente. Repetir las medidas. Estadística Xreal 09/07/23 prof. Dr. Carlos N. Bouza-Herrera medidas 14 Conceptualizado en la estadística como debidos a múltiples causas desconocidas y no medibles Errores aleatorios II n Distribuciones n Representamos la frecuencia de sucesos aleatorios. Tienden a curvas típicas x xx x x x x xx x x x Xreal 09/07/23 prof. Dr. Carlos N. Bouza-Herrera 15 Repasemos lo visto en el pre de estadística descriptiva 09/07/23 prof. Dr. Carlos N. Bouza-Herrera MEDIDA DE TENDENCIA CENTRAL Definición: Son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. MODA Las medidas de tendencia central más utilizadas son: MEDIA MEDIANA 18 19 20 PROMEDIO O MEDIA ( ) (Datos no Agrupados) Equivale al cálculo del promedio simple de un conjunto de datos. Para diferenciar datos muestrales de datos poblacionales. Fórmula para Calcular la Media Aritmética 21 MEDIANA En el ámbito de la estadística, la mediana (del medio) representa el valor de la variable de posición central en un conjunto de datos ordenados. Se le denota mediana 22 La moda es el valor o valores màs frecuentes 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Ejemplos de la media aritmética Supongamos que nuestras calificaciones en la escuela son: Solución N = número total de asignaturas = 4 Asignatura Nota Matemáticas 7 Educación Física 8 Biología 5 Economía 10 ; Entonces aplicando la fórmula que acabamos de exponer, el resultado sería Nuestra nota media será de un 7,5. 24 Recuerdan? 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Ejemplo 01: Calcular la mediana de los siguientes precios de un kilo de manzanas en diferentes supermercados: 9, 11, 8, 7, 13, 10, 12. 1. Ordenamos los valores de menor a mayor: 7, 8, 9, 10, 11, 12,13. 2. Al ser una serie de un número impar de valores (7), la mediana sería el valor central: Me = 10. Ejemplo 02: Calcular la mediana de las siguientes notas de exámenes: 8, 13, 12, 10. 1. Ordenamos los valores de menor a mayor: 8, 10, 12, 13 2. Al ser una serie de un número par de valores (4), la mediana sería la media de los valores centrales: Me = (10 + 12) / 2 = 11 26 Medidas de dispersión 09/07/23 prof. Dr. Carlos N. Bouza-Herrera La varianza mide la dispersión de los datos con respecto a la media de ellos. Si trabajamos con D esta es definida como σ#" = ∑" &'( (x& − µ)# N Si trabajamos con jnametra de temño n<N esta es # S" = 09/07/23 ∑0&'( (x& − x1)# n prof. Dr. Carlos N. Bouza-Herrera Se dice que la primera es la varianza poblacional y la segunda varianza muestral. Las cuasi varianzas están dadas por # .σ = # S = 09/07/23 6 ∑345 (73 89): , "8( ; ∑345 (73 817): . 08( prof. Dr. Carlos N. Bouza-Herrera De la varianza se deriva la desviación estándar o típica. Esta es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística. Definición: la desviación estándar o típica es la raíz cuadrada de la varianza 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Definición: Son medidas de dispersión alternativas a la desviación típica: La desviación absoluta media • ( 1 DAM = ∑" &'( x & − x " La desviación mediana absoluta • DMA = x& − x? : x& ∈ S o D El recorrido • R = Min x( , … , x" − Max x( , … , x" El recorrido inter-cuartìlico • R H = Q JK − Q #K . R es una medida grosera del la dispersión y Rq da una idea de la variabilidad cerca del centro de los datos. 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Recordaron? 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Así que si regresamos a la medición de la mesa…y analizar los datos podríamos decir al carpintero Y no resolvemos el problema general en la Mypimes Al medir una mesa podemos obtener valor ± 17 cm unidades ±incertidumbre 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Presentación 125 17 Podemos ver los errores considerando la incertidumbre 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Incertidumbre n Incertidumbre: Estimación del error no corregible n Se suele expresar como: 1. Absoluta: DX 2. Relativa: n DX d X º Er = X DX d X º Er en % = 100 X Se suele descomponer para medidas directas en: 1. Incertidumbre factores sistemáticos: ES1,ES2... Destaca la de precisión 2. Incertidumbre factores aleatorios: EA 09/07/23 prof. Dr. Carlos N. Bouza-Herrera 21 Incertidumbre en medidas directas 1. Incertidumbre de precisión Es n En casos sencillos la estimaremos como: La mitad de la (una) división menor de la escala Ej: Balanza n A veces depende del experimentador No hay reglas sencillas para estimarla Ej: Cronómetros n No es fácil definir su intervalo de confianza 22 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Otra mirada con cifras Incertidumbre en medidas directas 2. Incertidumbre Aleatoria EA n S: dispersión de los datos X =4 3 4 5 Xreal MM ¿¿ edir edirlalaseparación separacióncon conrespecto respectoalalvalor valormedio real ?? ¿Cómo? No conocemos el valor real s 09/07/23 2 ( n ) ( 2 ) ( 2 ) 2 x (3 3å -(xx )+ +)2(44-x (5 5-x 2 xx4 ))2++ +(5 xx+)(5 - 4 2 2 2 i - x+ 2 ( ) ) 3 + 4 4 s = = 0 2 s = i 1 = = = s= = n -1 = 3 3 3 3 3 n -1 3 -1 prof. Dr. Carlos N. Bouza-Herrera = 2 =1 2 24 Una hipótesis usada con frecuencia es Incertidumbre en medidas directas 2. Incertidumbre Aleatoria EA n S: Propiedades n Es la distancia del valor real a la que estará más probablemente un nuevo dato s ¾n¾ ¾® cte ®¥ n Tiene las mismas unidades que el resultado 25 09/07/23 prof. Dr. Carlos N. Bouza-Herrera En eso hicieron sus teorías sobre errores Gauss y Laplace 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Johann Carl Friedrich Gauss también conocido como El Príncipe de las Matemáticas, fue un matemático, astrónomo, físico y geodesta alemán. Es considerado como el matemático más importante de la historia. 09/07/23 Descubrió la ley de los mínimos cuadrados. . Gauss desarrolló numerosas herramientas para el tratamiento de los datos observacionales. Entre ellas destaca la curva de distribución de errores que lleva su nombre, conocida también con el apelativo de distribución normal y que constituye uno de los pilares de la estadística. Demostró que un sistema de lentes cualquiera es siempre reducible a una sola lente con las características adecuadas. prof. Dr. Carlos N. Bouza-Herrera 𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑐𝑖ó𝑛 𝑖 = 𝑋X − 𝜇 # 𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎 𝑑𝑒 𝑜𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑐𝑖𝑜𝑛 ∶ 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑐𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑜𝑠 𝑒𝑛 𝑢𝑛 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝑑𝑒 𝑁 𝑚𝑒𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠: d ∑ 𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 X'( 𝑋X − 𝜇 # d 𝐸𝑙 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 g X'( 𝑋X − 𝐴̅ k 1 = g 𝑋X = 𝑋1 𝑛 X'( 09/07/23 prof. Dr. Carlos N. Bouza-Herrera # 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑠𝑖 𝐴 En estadística y probabilidad se llama distribución normal, distribución de Gauss, distribución gaussiana, distribución de Laplace-Gauss o normalidad estadística a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades.1 La función de distribución de la distribución normal está definida como sigue: 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Nacido en una humilde familia de granjeros de la baja Normandía, se marchó a estudiar a la Universidad de Caen, donde fue recomendado a D'Alembert, quien, impresionado por su habilidad matemática, lo recomendó a su vez para un puesto de profesor en la Escuela Militar de París en 1767, en la que tuvo entre sus discípulos a Napoleón Bonaparte.2 En 1785 fue nombrado miembro de la Academia de Ciencias y en 1795, miembro de la cátedra de matemáticas del Nuevo Instituto de las Ciencias y las Artes, que presidió en 1812. En 1788 se casó con la joven MarieCharlotte de Courty de Romanges En estadística y en teoría de la probabilidad la distribución de Laplace es una densidad de probabilidad continua, llamada así en honor a Pierre-Simon Laplace. Es también conocida como distribución doble exponencial puesto que puede ser considerada como la relación las densidades de dos distribuciones exponenciales adyacentes. La distribución de Laplace resulta de la diferencia de dos variables exponenciales aleatorias, independientes e idénticamente distribuidas. 09/07/23 prof. Dr. Carlos N. Bouza-Herrera E𝑟𝑟𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑐𝑖ó𝑛 𝑖 = 𝑋X − 𝜇 𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎 𝑑𝑒 𝑜𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑐𝑖𝑜𝑛 ∶ 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑐𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑜𝑠 𝑒𝑛 𝑢𝑛 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝑑𝑒 𝑁 𝑚𝑒𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠: d 𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 g 𝑋X − 𝜇 X'( d 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 g 09/07/23 = Mediana X'( 𝑋X − 𝐴 prof. Dr. Carlos N. Bouza-Herrera 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑠𝑖 𝐴 Una variable aleatoria posee una distribución de Laplace(μ, b) si su densidad de probabilidad es 𝑥−𝜇 𝑒𝑥𝑝 𝑏 ,𝑥 ∈ 𝑅 𝑓 𝑥 = 2𝑏 Siendo μ un parámetro de localización (lamedia) y b > 0 un parámetro de escala. (la disviación estándar) 09/07/23 prof. Dr. Carlos N. Bouza-Herrera This distribution is often referred to as "Laplace's first law of errors". He published it in 1774, modeling the frequency of an error as an exponential function of its magnitude once its sign was disregarded. Laplace would later replace this model with his "second law of errors", based on the normal distribution, after the discovery of the central limit theorem,[13][14] Keynes published a paper in 1911 based on his earlier thesis wherein he showed that the Laplace distribution minimised the absolute deviation from the median.[15] 09/07/23 prof. Dr. Carlos N. Bouza-Herrera CHISME 09/07/23 prof. Dr. Carlos N. Bouza-Herrera La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733,5 que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace. Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos6 y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.7 Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la ley de Stigler. El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez en 1872 para una distribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita requerida] A pesar de esta terminología, otras distribuciones de probabilidad podrían ser más apropiadas en determinados contextos; véase la discusión 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Asi que los alemanes dicen que una Gaussiana, los franceses que es la Moivre-Laplace y Legendre casi se vuelve loco Lo más prudente es llamarle distribución Normal y a la de Laplace Doble -exponencial 09/07/23 prof. Dr. Carlos N. Bouza-Herrera ES USUAL EN ESTADÍSTICA SE CONSIDERE COMO ERROR LA DESVIACIÓN TÍPICA D E LA MUESTRA Incertidumbre en medidas directas 2. Incertidumbre Aleatoria EA n Dispersión de la media s sX = n n n n n 09/07/23 SI hicieramos muchos grupos de n medidas... La media es más precisa que cualquier dato, los errores aleatorios se compensan Pero despacio .... Los errores de precisión no se compensan 26 prof. Dr. Carlos N. Bouza-Herrera Nacido en Canterbury, era hijo de Agnes Sealy Vidal y del coronel Frederic Gosset. Asistió a la famosa escuela privada Winchester College antes de estudiar química y matemática en el New College de Oxford. Tras graduarse en 1899, se incorporó a las destilerías Guinness en Dublín Guinness prohibió a sus empleados la publicación de artículos independientemente de la información que contuviesen. Esto significaba que Gosset no podía publicar su trabajo usando su propio nombre. De ahí el uso de su pseudónimo Student en sus publicaciones, para evitar que su empleador lo detectara. Por tanto, su logro más famoso se conoce ahora como la distribución t de Student, que de otra manera hubiera sido la distribución t de Gosset. Gosset publicó El error probable de una media y casi todos sus artículos usando el pseudónimo Student en la publicación 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Incertidumbre en medidas directas 2. Incertidumbre Aleatoria EA n Factor de cobertura: t de Student n Ya tenemos X y s X pero el intervalo... DX = s X es pequeño y conlleva un nivel de confianza variable 4 multiplicamos por un factor corrector. tn n Si a es el nivel de confianza t n -1 = t p=0.05. n Para pocas medidas s=s para compensar. n ¿Quien fue Student ? n-1 n -1 (1 - a ) = t n -1 ( p ) a = 0,95 se estima mal y el factor es mayor 27 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Incertidumbr e 2. Incertidum bre n Coeficiente M tm P=0.1 tm P=0.05 tm P=0.01 1 6,31 12,7 en medidas directas Aleatoria E A s tm (m gra dos de libe rtad) 2 2,92 4,30 63,6 9,92 3 4 5 10 20 40 ¥ 2,35 2,13 2,01 1,81 1,72 1,68 1,64 3,18 2,78 2,57 2,23 2,08 4,03 3,16 2,85 2,70 2,58 5,84 4,60 2,02 1,96 28 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Incertidumbre en medidas directas 2. Incertidumbre Aleatoria EA n Ejemplo: Me peso varios días seguidos en iguales condiciones M = 72,8 kg Día Masa (kg) L M X J V 73 72 74 72 73 s n -1 = 0,837 kg t n -1 = t 4 = 2,78 2 2 2 0, 837 2 2 s s n -,1 n 1+ (74 - 72,8) + ( ) ( ) ( ) ( ) 73 72 8 + 72 72 , 8 72 72 , 8 + 73 72 , 8 EsAn -1= = t4 = 2, 78 = 1, 04 kg = tn n 5 5 -1 5 30 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Incertidumbre en medidas directas 3. Incertidumbre Total Viendo el error con integralidad este es la suma del error aleatoroi y el sistemático! n Combinaremos las incertidumbres en cuadratura: DX = n + ES 2 Propiedades E A , ES < E A >> E S , 09/07/23 EA 2 2 E A + ES 2 2 < E A + ES E A + ES prof. Dr. Carlos N. Bouza-Herrera 2 ® EA 31 RESUMIENDO Resumen medidas directas X final = X DX final = s 1 n EA = t n -1 n 2 E A + ES 2 ES= (Media) división mínima 32 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Representaciones Gráficas Consideramos que un gráfico es un diagrama formado por líneas, figuras, mapas. Estos son utilizados para representar, datos estadísticos . Estos entre sus funciones tenemos: • Hacer más visibles las características de los datos. • Evidenciar las variaciones y evolución histórica o espacial de los datos. • Evidenciar las relaciones entre los diversos elementos o variables. • Aclarar y complementar las tablas y las exposiciones teóricas o cuantitativas. Evidenciar la existencia de relaciones que sugieren hipótesis 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Diagramas de barras: representamos en el eje de ordenadas las modalidades y en el de abscisas las frecuencias absolutas, o las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas. Ejemplo. Si la trabajamos con el estado civil de 16 personas de mas de 60 años y observamos 3 solteros, 5 casados, 6 viudos y 2 divorciados los gráficos se presentan en la figura siguiente en términos de la frecuencia absoluta 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Si queremos analizar el comportamiento de mayores de 60 años con otra muestra con edad entre 25 y 40 años se presenta un gráfico con ambas distribuciones en términos de la frecuencia relativa véase la figura siguiente 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Gráficos de puntos: Es una variación del diagrama lineal simple el cual está formado por líneas rectas o curvas, que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia Ejemplo. Se toman 30 proyectos de investigación y se toma el número de horas de uso de Internet en sus presupuestos en miles d pesos. Los datos obtenidos se presentan en la siguiente tabla Tabla. Número de horas de uso de Internet solicitados por proyectos de investigación X=horas de uso Marca de clase Frecuencia 300-400 350 2 400-500 450 6 500-600 550 10 600-700 650 8 700-800 750 4 Total 09/07/23 30 prof. Dr. Carlos N. Bouza-Herrera Figura. Grafico de puntos para el número de horas de uso de Internet solicitados por proyectos de investigación El gráfico de las frecuencias permite tener una visión rápida de la forma de la distribución. Solo los entendidos obtienen mucha mas información de esta. 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Gráfico de puntos (dot plot) Este agrupa los datos tratando de que los individuos pierdan poca identificabilidad. Para ello cada observación de sitúa en el eje horizontal indicando su valor. Si hay varios iguales o semejantes los puntos se apilan. Ejemplo. El análisis de los litros de leche producidos y enviados al mercado por un hato de vacas fue medid y se obtuvo que estos fueron 49 47,5 30 35 34 38 58 40 34 47,5 35 40 46,5 47,5 48,3 35 46,5 39 40 47,5 48,3 36 46,5 47,5 37 47,5 49 54 54 48,3. El dot-plot de ellos está en la próxima figura 09/07/23 prof. Dr. Carlos N. Bouza-Herrera 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Gráfico de tallos y hojas (stem-andleaf ) Este tipo de gráfico brinda una forma rápida de obtener una representación visual ilustrativa del conjunto de datos. Se selecciona uno ó más dígitos iniciales determinando un “tallo”, el dígito o dígitos finales se convierten en “hojas”. O sea cada valor se divide en dos partes, los dígitos mas informativos forman un tronco y se representan los demás (hojas). Una lista de valores de tallo se sitúa en el eje vertical. Se registra cada hoja identificando cada observación junto al valor correspondiente de tallo. Este es útil cuando se trabaja con listas grandes. Su desventaja es que no brinda sino los datos, sin información sobre frecuencias y otros elemento importantes. 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Gráficos de caja (box plot) Estos gráficos son excelentes por dar información sobre la localización y dispersión de los datos. Al tener varios grupos de datos la comparación entre ellos es ilustrada fácilmente. En una versión del grafico las cajas se forman poniendo la variable respuesta en el eje vertical y en el horizontal el factor de interés. En la caja se señalan la mediana y los cuartiles así como el máximo y el mínimo Al hacer este grafico para varios juegos de datos y presentarlos simultáneamente puede representarse el numero de observaciones en el ancho de caja. Estos permiten establecer que factor es significativo en el estudio, si la localización y la Dispersión de los grupos es similar o no. En algunos softwares se señalan los outliers también. En tal caso no se señalan el mínimo y el máximo sino estos outliers. Ejemplo. Se mide el tiempo de vida de dos tipos de máquina. Los datos son Tabla. Tiempo de vida de dos tipos de máquina 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Máquina tipo 1 Máquina tipo 2 10,00 21,00 23,00 24,00 34,00 37,00 11,00 38,00 23,00 15,00 17,00 17,00 25,00 19,00 36,00 26,00 8,00 24,00 19,00 33,00 Los resultados de sus estadísticos fueron, en la salida del SPSS, Tabla. Medidas estadísticas del tiempo de vida de dos tipos de máquina N Media Mediana Moda Desv. típ. Varianza Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Percentiles 09/07/23 Válidos Perdidos ,1 ,9 25 50 75 prof. Dr. Carlos N. Bouza-Herrera edadmaq1 10 0 20,6000 21,0000 23,00 9,58239 91,822 ,323 ,687 -,834 1,334 8,0000 8,0000 10,7500 21,0000 edadmaq2 10 0 25,4000 24,0000 24,00 8,12677 66,044 ,499 ,687 -1,068 1,334 15,0000 15,0000 18,5000 24,0000 Su gráfico de cajas es el dado en la siguiente figura edadmaq1 edadmaq2 40 Se evidencia un mayor tiempo para la maquina 2 y una dispersión similar entre ellas 30 20 10 0 1,00 VAR00003 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Deben ver en Excel el módulo de estadística y rehacer los ejemplos trabajados 09/07/23 prof. Dr. Carlos N. Bouza-Herrera Hasta 09/07/23 la próxima prof. Dr. Carlos N. Bouza-Herrera Como en las Películas de. 09/07/23 de superhéroes… prof. Dr. Carlos N. Bouza-Herrera La saga Bueno les dejo un “chivo” conque se orienten como hacerlo… En los cursos de estadística usarán softwares especializados… el SPSS generalmente09/07/23 prof. Dr. Carlos N. Bouza-Herrera