Histograma

representación gráfica en columnas ou barras (rectángulos) dun conxunto de datos tabulados previamente e divididos en clases uniformes ou non uniformes

O histograma, tamén coñecido como distribución de frecuencias, é a representación gráfica en columnas ou barras (rectángulos) dun conxunto de datos tabulados previamente e divididos en clases uniformes ou non uniformes.[1] A base de cada rectángulo representa unha clase. A altura de cada rectángulo representa a cantidade ou frecuencia absoluta coa que se produce o valor da clase no conxunto de datos para as clases uniformes ou a densidade de frecuencia para as clases non uniformes.[2] [3] Sendo unha ferramenta estatística importante, o histograma tamén é unha das chamadas sete ferramentas de calidade.[4] [5]

Histograma dun grupo de 18 pacientes. Recolección de HDL con 6 clases definidas e intervalos de 5 mg/dL.

Cando o volume de datos aumenta indefinidamente dentro do conxunto de datos e o rango de clases tende a cero (o que fai que os rectángulos sexan cada vez máis finos e máis altos), a distribución de frecuencias convértese nunha distribución de densidade de probabilidade. A construción de histogramas é preliminar en calquera estudo e é un indicador importante da distribución de datos. Os histogramas poden indicar se unha distribución se aproxima a unha función normal, así como indicar a mestura de poboacións cando son bimodais.[6]

Definición informal

editar

Un histograma representa unha distribución de frecuencias a través de rectángulos, cuxos anchos representan intervalos de clase e cuxas áreas son proporcionais ás frecuencias (absolutas ou relativas). A altura de cada rectángulo é a frecuencia dividida polo tamaño do intervalo.[7] Se os intervalos de clase adxacentes non teñen ocos, os rectángulos tócanse para indicar que a variábel orixinal é continua.[8] Por exemplo, un histograma pode conter dous intervalos de ligazóns 10,5 - 20,5 e 20,5 - 33,5, mais non pode conter dous intervalos de ligazóns 10,5 - 20,5 e 22,5 - 32,5. Os intervalos baleiros represéntanse como baleiros (non se ignoran).

Ás veces, os histogramas confúndense cos gráficos de barras. [9] Un histograma úsase para datos continuos, onde os intervalos de clase representan a extensión dos datos. Un gráfico de barras é un gráfico de variábeis discretas. Algúns autores recomendan que os gráficos de barras teñan espazos entre os rectángulos para aclarar a diferenza.

Definición formal

editar
 
Un histograma acumulativo común dos mesmos datos. Os datos presentados son unha mostra aleatoria de 10.000 puntos dunha distribución normal cunha media de 0 e unha desviación estándar de 1.

En termos matemáticos, un histograma é unha función   que conta o número de observacións de cada un dos intervalos de clase. Un gráfico é só unha forma de representar un histograma. Entón, se   é o número total de observacións e se   é o número total de intervalos de clase, o histograma   cumpre a seguinte condición

  [10]

Histograma acumulativo

editar

Un histograma acumulativo é unha asignación que conta o número acumulado de observacións en todos os intervalos de clase ata o intervalo de clase especificado. Un histograma acumulativo   dun histograma   defínese como  .[11]

Número de barras e ancho

editar

Non existe un número ideal de intervalos de clase. Diferentes tamaños de intervalos de clases poden revelar diferentes características dos datos. A agrupación de datos é polo menos tan antiga como o traballo de John Graunt no século XVII, aínda que non xurdiu ningunha orientación sistemática ata o traballo de Herbert Sturges en 1926.[12] [13]

Escolla do número de barras mediante a regra da amplitude

editar

O número de intervalos de clase   pódese calcular directamente ou a partir dun ancho de intervalo de clase suxerido   como

 ,[14] no que   é o número enteiro mínimo maior ou igual a  , e   son os valores máximo e mínimo da mostra.

Escolla do número de barras como raíz cadrada do número de observacións

editar

 , [14] que toma a raíz cadrada do número de puntos de datos da mostra. Isto é usado polos histogramas de Excel, entre outras ferramentas.[15]

Escolla do número de barras mediante a fórmula de Sturges

editar

A fórmula de Sturges   baséase nunha aproximación da distribución binomial á normal, [13] aquí o logaritmo é a base 10. Obsérvase que  , o que leva á fórmula  . A fórmula de Sturges relaciona os tamaños dos intervalos de clases en función da extensión dos datos. Pode funcionar mal se   porque o número de intervalos de clase será pequeno (menos de 7) e probablemente non se mostren ben as tendencias dos datos. Tamén pode funcionar mal se os datos non se distribúen normalmente. [14]

Escolla número de barras usando a regra de Rice (Rice University, EUA)

editar

A regra de Rice   é unha alternativa sinxela á regra de Sturges. [16]

Escolla do número de barras mediante a fórmula de Doane

editar

A fórmula de Doane é unha modificación da fórmula de Sturges que tenta mellorar o seu rendemento con datos non normais. [17]

 , no que   é a estimación da distorsión do terceiro momento da distribución e   .

Escolla de ancho pola referencia normal de Scott

editar

 ,[18] no que   é a desviación estándar da mostra. A regra de referencia normal de Scott [19] é ideal para mostras aleatorias de datos distribuídos normalmente, no sentido de que minimiza o erro cadrado medio integrado da estimación da densidade. [12] Este enfoque de minimizar o erro cadrado medio integrado pódese xeneralizar máis aló das distribucións normais.[20]

Escolla de ancho mediante a fórmula de Freedman-Diaconi

editar

A escolla de Freedman–Diaconi [21] [12] baséase no rango intercuartílico (ou  , en inglés), no que  . Substitúe a desviación estándar   da regra de Scott polo duplo do intervalo intercuartílico  . É menos sensíbel que a desviación estándar aos valores atípicos.

Escolla do número de barras en función de minimizar unha función de risco  

editar

A escolla do número de barras en función de minimizar unha función de risco   está dada por  , no que   e   son a varianza media e con nesgo dun histograma cun ancho de intervalo de clase  ,   e  .[22][23]Obsérvase que   e   depende da escolla de  ,  ,  . É dicir, a regra escolle o valor   que minimiza a función   .

Exemplo

editar

A partir dunha análise estatística e datos demográficos dunha poboación é posíbel construír un histograma. Por exemplo, a Oficina do Censo dos Estados Unidos [24] oferece datos de 124 millóns de persoas que traballan fóra das súas casas. Usando datos sobre o tempo de viaxe desde a casa ao traballo, a táboa seguinte mostra o número absoluto de persoas que usan determinado tempo de viaxe. [24]

A construción dun histograma mostra o número de casos por intervalo unitario como a altura de cada bloque, de xeito que a área de cada bloque é igual ao número de persoas correspondente á súa categoría de tempo de viaxe. A área das barras do histograma representa o valor absoluto ou número total de casos (124 millóns de persoas). Considerouse a cantidade (Q) en miles para este tipo de histograma, que mostra números absolutos. É dicir, non hai representación por porcentaxe e/ou decimais.[24]

 

A maiores do histograma construído a partir de números absolutos, é posíbel construír outro histograma a partir de datos de proporción. É dicir, a área de cada bloque é a fracción do total que representa cada categoría e a área total de todas as barras é igual a 1 (a fracción significa "todas"). A partir das barras do histograma é posíbel debuxar unha curva que é unha estimación simple de densidade. Este tipo de histograma mostra proporcións, polo que se diferenza do primeiro histograma só na escala vertical. Este tipo de histograma tamén se coñece como histograma de área unitaria.[25]

 

Lectura dun histograma

editar

Nun histograma é a área a que indica a frecuencia de aparición de cada barra. Isto significa que a altura da barra non indica necesariamente o número de ocorrencias dentro dela. É o produto da altura e o ancho da barra a que indica a frecuencia de aparición dentro da barra. Unha das razóns polas que a altura da barra se confunde co indicador de frecuencia de barras é o feito que moitos histogramas teñen barras igualmente espazadas.[26]

Aprender a ler os histogramas tamén require comprender as partes do gráfico. O eixo X ou eixo horizontal mostra o rango ou os valores dos rangos variábeis de interese. Denomínanse comúnmente intervalos de clase, que representan ou resumen grandes conxuntos de datos. O eixo Y ou eixo vertical mostra os valores de altura das barras.[27]

Tipos gráficos dun histograma

editar

Frecuencia absoluta

editar

Unha frecuencia absoluta é o número que representa a cantidade de datos nunha determinada mostra ou intervalo de clase específico.[28] Polo tanto, a gráfica de frecuencia absoluta é o histograma habitual, onde o eixo Y (ordenada) indica a frecuencia (absoluta) coa que aparece unha clase no conxunto de datos.

 

 
gráfico de histograma de frecuencias relativas e acumulativas

Frecuencia relativa

editar

Unha frecuencia relativa é o valor porcentual que se obtén a través do resultado de dividir o valor absoluto e o número de elementos da poboación ou mostra. Para construír a frecuencia relativa e acumulativa é necesario crear unha táboa asociando a clase coa porcentaxe na que aparece no conxunto de datos.[29] Por exemplo, na clase entre 45 e 50 mg/dL da táboa seguinte, a frecuencia absoluta foi de 4 do total de 18 mostras enviadas para a análise. Entón,

 .[30] 

Frecuencia acumulada

editar

A frecuencia acumulada está ligada á suma dos valores de frecuencia relativa. Para obter o gráfico de frecuencia acumulada, engadimos en orde ascendente o valor dunha frecuencia relativa de calquera clase con todas as clases con valores máis baixos. Este gráfico é útil para obter información sobre un rango de valores. Por exemplo, na táboa anterior pódese observar que o 61,11% das mostras teñen un valor inferior a 55 mg/dL.[31] Deste xeito, obtense os seguintes datos, que representan os histogramas de frecuencia absoluta, relativa e acumulada

 

Polígono de frecuencia

editar

O polígono é unha forma xeométrica que, por definición, é unha rexión pechada dun plano limitada por un conxunto de segmentos finitos.[32] A diversidade do concepto de polígonos permite a creación dunha área, conectando os puntos centrais na parte superior de cada barra dun histograma, dando como resultado a creación dun polígono de frecuencias.[33]

 
Histograma 2
 
polígono de frecuencia, usado no Histograma anterior


Exemplos de histogramas estándar

editar

Vemos exemplos de histogramas estándar simétricos e unimodais, inclinados á dereita, á esquerda, bimodais, multimodais e simétricos. Tamén é posible atopar medidas de tendencia central, media, moda e mediana.[34] [35]

 
Uso do histograma para calcular a mediana da poboación {2, 2, 3, 7, 8, 9, 9}.
 
Uso do histograma para calcular a media aritmética da poboación {2, 2, 3, 7, 8, 9, 9}.
 
Usando o histograma para calcular o modo de poboación {1, 7, 4, 6, 5, 5, 3, 5}.

Simétrico e unimodal

editar

 

Un histograma unimodal ou simétrico centra os datos na media (medida central) e ten características mediante a distribución da media e a desviación estándar. Unha característica do histograma unimodal ou simétrico é que contén o maior número de datos do centro do gráfico. Por exemplo, comezando dende o centro da base das barras e sumando á dereita e restando a desviación estándar do gráfico á esquerda, atoparás o 68% dos datos. En estatística, este modelo denomínase normal e permítenos analizar cantos outros datos se desvían deste modelo.[36]

Con nesgo á dereita

editar

 

Un histograma ten nesgo cara á dereita cando a distribución de datos indica a aparición de valores altos con baixa frecuencia. Este modelo emprégase xeralmente para representar fenómenos identificados na economía por variábeis como prezo, Produto Interior Bruto (PIB), salarios, entre outras.[37]

Con nesgo cara á esquerda

editar

 

Un histograma ten nesgo cara á esquerda cando a frecuencia de datos se concentra en valores altos. Obsérvase que hai máis información por riba da media pola falta de simetría.[37]

Bimodal

editar

 

Un histograma é bimodal cando aparecen dous picos.

Multimodal

 

Un histograma é multimodal cando aparecen varios picos. No procesamento de imaxes, os picos son as representacións das rexións con maior número de píxeles.[38]

Meseta

editar

  Un histograma ten o formato Meseta cando as súas barras teñen practicamente os mesmos tamaños de altura. Isto ocorre cando hai varias distribucións xuntas con diferentes medias.[39]

  1. Zvirtes, Leandro. "Ferramentas da Qualidade" (PDF). p. 2. Consultado o 16/01/2017. 
  2. FREUND, John E (2004). Estatística Aplicada Economicamente. Porto Alegre. p. 42. ISBN 0130467170. 
  3. "1.6 - Histograma - Estatística Básica | Portal Action". Arquivado dende o orixinal o 03 de abril de 2019. Consultado o 2016-12-02. 
  4. Magalhães, Juliano M. de. "AS 7 FERRAMENTAS DA QUALIDADE" (PDF). p. 2. Consultado o 16/01/2017. 
  5. Tague, Nancy R. (2005). The Quality Toolbox, Second Edition. ISBN 978-0-87389-639-9. 
  6. Zvirtes, Leandro. "Ferramentas da Qualidade" (PDF). p. 17. Consultado o 16/01/2017. 
  7. "Gráficos Descritivos" (PDF). p. 49. Arquivado dende o orixinal (PDF) o 20/06/2021. Consultado o 16/01/2017. 
  8. Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. ISBN 9780840031976.
  9. Martins, André. "Estatística Descritiva: Tabelas e Gráficos" (PDF). p. 25. Consultado o 16/01/2017. 
  10. Ana Maria Lima de Farias. "Métodos Estatísticos Aplicados à Economia II" (PDF). p. 5. Arquivado dende o orixinal (PDF) o 02/02/2017. Consultado o 17/01/2017. 
  11. Paul L. Meyer (2003). Probabilidade - Aplicações à Estatística. Rio de Janeiro. 
  12. 12,0 12,1 12,2 Scott, David W. (1992). Multivariate Density Estimation: Theory, Practice, and Visualization. New York. 
  13. 13,0 13,1 STURGES, Herbert A (1926). "The Choice of a Class Interval" (PDF). Journal of the American Statistical Association (en inglês) 21 (153): 65-66. Arquivado dende o orixinal (PDF) o 16 de outubro de 2014. Consultado o 12 de outubro de 2014. 
  14. 14,0 14,1 14,2 Costa, Fabrício Martins (2011). Estatística. Belém - Pará. ISBN 978-85-88375-63-5. 
  15. EXCEL 2007: Histogram
  16. Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Project Leader: David M. Lane, Rice University (chapter 2 "Graphing Distributions", section "Histograms")
  17. Doane DP (1976) Aesthetic frequency classification. American Statistician, 30: 181–183
  18. Scott, David W. (14/03/2015). "Scott’s Rule". p. 1. Consultado o 17/01/2017. 
  19. David W. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605. 
  20. "Cópia arquivada". Arquivado dende o orixinal o 2015-06-19. Consultado o 2017-01-30. 
  21. David Diaconis, P. (1981). "On the histogram as a density estimator: L2 theory". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868. 
  22. Shigeru, Hideaki (2007). "A Method for Selecting the Bin Size of a Time Histogram". Massachusetts Institute of Technology. p. 1508. Consultado o 17/01/2017. 
  23. Shimazaki, H. (2007). "A method for selecting the bin size of a time histogram" 19 (6). Neural Computation: 1503–1527. PMID 17444758. doi:10.1162/neco.2007.19.6.1503. 
  24. 24,0 24,1 24,2 US 2000 census.
  25. US 2000 census.
  26. "Histograms". Consultado o 24 de janeiro de 2017. 
  27. "Understanding Histograms and Their Uses". 24 de janeiro de 2017. 
  28. Medeiros, Luiz. "DISTRIBUIÇÃO DE FREQUÊNCIA" (PDF). p. 2. Consultado o 26/01/2017. 
  29. Caetano, Marco Antonio Leonel. "ESTATÍSTICA" (PDF). Consultado o 26/01/2017. 
  30. "HISTOGRAMA". p. Única. Arquivado dende o orixinal o 03/04/2019. Consultado o 16/01/2017. 
  31. "HISTOGRAMA". p. Única. Arquivado dende o orixinal o 03/04/2019. Consultado o 16/01/2017. 
  32. Montenegro, Anselmo. "Geometria Computacional" (PDF). p. 5. Arquivado dende o orixinal (PDF) o 22/06/2021. Consultado o 26/01/2017. 
  33. Ferreira, José. "Polígono de frequência" (PDF). p. única. Consultado o 16/01/2017. 
  34. Artes, Rinaldo. "Coeficiente de Assimetria" (PDF). p. 1 - 4. Consultado o 16/01/2017. 
  35. Alves, Marcelo Corrêa (2016). "Proc Univariate:Testando a normalidade" (PDF). p. 9. Consultado o 16/01/2017. 
  36. Artes, Rinaldo. "Coeficiente de Assimetria" (PDF). p. 1. Consultado o 26/01/2017. 
  37. 37,0 37,1 Artes, Rinaldo. "Coeficiente de Assimetria" (PDF). Consultado o 26/01/2017. 
  38. Israel Andrade Esquef, Márcio Portes de Albuquerque, Marcelo Portes de Albuquerque (18/02/2003). "Processamento Digital de Imagens" (PDF). p. 6. Arquivado dende o orixinal (PDF) o 25/11/2020. Consultado o 26/01/2017. 
  39. Maurício, Plínio (2016). Administração Geral Para Concursos. 

Véxase tamén

editar

Outros artigos

editar

Ligazóns externas

editar