Interval de confiança

segment numèric que conté un valor desconegut amb una determinada probabilitat

En estadística matemàtica, un interval de confiança d'un paràmetre poblacional (per exemple, la mitjana poblacional) és un interval numèric construït a partir d'una mostra, el qual conté aquest paràmetre amb determinada probabilitat (per exemple, el 95 %) que s'anomena el nivell de confiança.

El nivell de confiança desitjat és establert per l'investigador (no és determinat per les dades). És molt habitual utilitzar el nivell de confiança del 95%,[1] no obstant això, es poden utilitzar altres nivells de confiança, per exemple, el 90% o el 99%.

En contrast amb un estimador puntual d'un paràmetre, on es dona un únic nombre, en un interval de confiança, tal com hem dit, es proporciona tot un rang de nombres entre dos valors, i a més, es quantifica en termes probabilístics la confiança que es té en què aquest interval contindrà l'autèntic valor del paràmetre.

Quan es proporciona un interval de confiança es suposa que les dades poblacionals tenen determinades característiques, més o menys exigents; en els casos més habituals es suposa que ho fan mitjançant la distribució normal. La construcció d'intervals de confiança també es pot realitzar usant el teorema central del límit, la desigualtat de Txebixev, o altres tècniques.

Els intervals de confiança intervenen en pràcticament totes les àrees de l'estadística; en aquest article ens limitarem a considerar alguns dels casos més habituals, concretament, els intervals de confiança per a la mitjana d'una població normal amb desviació típica coneguda o no, i l'interval de confiança per a una proporció en una població de mida gran.

Exemple introductori. Estimació puntual i per interval de l'alçada de les dones d'un poble

modifica

Les alçades de 10 dones de 18 anys d'un poble són les següents[2] (en cm): (Per claredat tipogràfica, en tot l'article escriurem els decimals de la forma 171'2 en lloc de 171,2). L'alçada mitjana és Però el que volem és estimar l'alçada mitjana de totes les dones de 18 anys, que designarem per  , i no només la de les dones de la mostra. El nombre 165'88 és un estimador puntual d'aquesta mitjana  , i normalment s'escriu   Però, ¿estem segurs que   ? ¿No podria ser que   o que  ? Aquests dubtes provenen del fet que hem preguntat a 10 dones, i per estar segurs de la mitjana de tota la població hauríem de preguntar a totes les dones! Però podem afinar més aquest resultat i quantificar la incertesa associada amb aquesta estimació. Per fer això, necessitem un model estadístic adient: suposarem que l'alçada de les dones de 18 anys d'aquell poble segueix una distribució normal de mitjana   i desviació típica  ; en altres paraules, l'alçada genèrica d'una dona de 18 anys es modelitza per una variable aleatòria  . En mesurar les alçades de 10 dones tenim 10 variables aleatòries, que s'anomenen una mostra,  Aquestes variables aleatòries són independents (suposem que la mostra s'ha triat a l'atzar) i cadascuna d'aquestes variables segueix la mateixa distribució que la genèrica:  Els nombres concrets obtinguts, 166, 171'2, etc. s'anomenen una realització de la mostra.

En aquesta primera part suposarem que a partir d'estudis anteriors o per comparació amb dades similars, que la desviació típica és coneguda:  .

Interval de confiança per a la mitjana

modifica

Volem calcular un interval de confiança per a  ; per concretar, començarem calculant un interval amb una confiança del 95% (equivalentment, en tant per u, una confiança de 0'95). Per tal d'escriure fórmules generals designarem la mida de la mostra per  , i la mitjana mostral per     Argumentarem més endavant que un interval amb confiança del 95% per   s'obté per la fórmula   En aquest exemple, tenim que l'interval és  Es diu que  (o confiança del 95%). Atès que  , també s'escriu   Cal entendre que la confiança la tenim en la fórmula (1), no en l'interval  , això és, tenim la probabilitat és a dir, quan utilitzem la fórmula (1), el 95% de les vegades l'interval resultant contindrà l'autèntic valor de  . Si, per exemple utilitzem la fórmula 20 vegades (en pobles de similars característiques), aleshores 19 intervals contindran l'autèntic valor de   i 1 no el contindrà. (Per aquest motiu es diu que la feina d'estadístic és l'única en què ets pots equivocar el 5% de les vegades sense que et despatxin).

I si volem més confiança?

modifica
 
Figura 1. Intervals de confiança del 95% (línia blava) i del 99% (línia vermella discontínua) de la mitjana de les alçades de dones de 18 anys d'un poble.

Raonarem més endavant que si volem una confiança del 99%, aleshores a la fórmula (1) cal canviar 1'96 per 2'58, i per tant, la fórmula a utilitzar és  A l'exemple, l'interval de confiança del 99% és   Noteu que en augmentar la confiança també augmenta la llargada de l'interval, vegeu la figura 1. Per tant, com més confiança volem tenir, és a dir, com més segurs vulguem estar que l'interval que calculem conté l'autèntic valor del paràmetre desconegut, més llarg ens donarà l'interval. Pregunta al lector: ¿quin seria l'interval per tenir una confiança del 100%?

Formula general de l'interval de confiança per la mitjana d'una població normal amb desviació típica coneguda

modifica

Donat un nivell de confiança  , que habitualment és 0'9, 0'95 o 0'99 (s'expressa en tant per u; si es vol en tant per cent, es multiplica per 100), aleshores l'interval de confiança és   on   és el nombre tal que   on   és una variable aleatòria normal estàndard. Aquest nombre   es troba en unes taules estadístiques o bé amb un full de càlcul (per exemple, l'excel) o un programari estadístic (per exemple, l'R). Pels casos més habituals tenim:

   
0,90 1,64485
0,95 1,95996
0,99 2,57583

La confiança, la llargada de l'interval i la mida de la mostra

modifica

Hi ha un factor que encara no hem tingut en compte i és la mida de la mostra  ; en l'exemple que estem considerant hem pres   per tal de treballar amb un nombre petit de dades, però, en general, les mides mostrals són més grans, ja que, d'acord amb la fórmula (3), en augmentar  , disminueix la llargada de l'interval de confiança.

Així, en un interval de confiança hi ha tres ingredients:

  • El nivell de confiança  . Evidentment, com més gran sigui   més confiarem que l'interval ens proporciona valors correctes per  .
  • La llargada de l'interval, que també s'anomena la precisió. És clar que com més petita sigui la llargada, millor.
  • La mida de la mostra  . Com més gran sigui, més precisió tindrem (més curt serà l'interval), però prendre una mostra és car, en temps o en diners.

L'ideal seria tenir la màxima confiança, la mínima llargada de l'interval i la mida de mostra petita, però tot alhora no pot ser: aquests tres ingredients és com si fossin els angles d'un triangle (vegeu la Figura 2): dos angles determinen el tercer: si volem molta confiança i molta precisió caldrà prendre una mida de mostra molt gran, que serà molt car! (<<Res és perfecte>>, sospirà la guineu...)

 
Figura 2. Els tres factors d'un interval de confiança

Demostració de la fórmula de l'interval de confiança

modifica

Per simplificar les notacions veurem a demostració pel cas d'una confiança  . De les propietats de les variables aleatòries normals es dedueix que

  Normalitzant aquesta variable tenim D'altra banda, per a qualsevol variable  ,   Llavors,   d'on s'obté   o equivalentment,  expressió que també s'escriu  

Interval de confiança per a la mitjana d'una població normal amb desviació típica desconeguda

modifica

Quan la desviació típica de la població és desconeguda, aleshores es fa una estimació a partir de la mostra utilitzant la desviació típica mostral modificada  Llavors, l'interval amb nivell de confiança   és  

on   és el nombre tal que on   és una variable aleatòria amb distribució   de Student amb   graus de llibertat.

En resum, si la desviació típica   és desconeguda, aleshores per calcular l'interval de confiança per a   fem dos canvis:

  1. Canviem la quantitat desconeguda   per l'estimació  .
  2. Canviem el valor   de la fórmula (3) obtingut amb una llei normal estàndard pel valor   calculat a partir d'una variable   de Student amb   graus de llibertat.

Tornem a l'exemple de les alçades

modifica

Si a l'exemple de les alçades de les dones de 18 anys no suposem la desviació típica coneguda, aleshores l'estimem per  , que dona  Per calcular l'interval de confiança del 95% necessitem el valor   corresponent a una   de Student amb 9 graus de llibertat. Igual que el cas de la llei normal, aquest valor es troba en unes taules estadístiques o bé amb un full de càlcul o un programari estadístic. S'obté  Llavors, l'interval és   Cal notar que l'interval que hem calculat suposant la desviació típica coneguda tenia una longitud de 4'96 cm, mentre que aquest últim mesura 5'56 cm, i per tant és més llarg. Això és degut al fet que en estimar la desviació típica introduïm més incertesa en els càlculs.

Demostració de la fórmula de l'interval de confiança amb desviació típica desconeguda

modifica

El genial estadístic anglès R. A. Fisher va demostrar el 1923 que, sota les hipòtesis de normalitat que estem suposant, la variable aleatòria  segueix una distribució   de Student amb   graus de llibertat.[3] Aleshores, donat un nivell de confiança  , tal com dit, busquem el nombre   tal que  on   és una variable aleatòria amb distribució   de Student amb   graus de llibertat. Llavors, tindrem   Ara es procedeix exactament igual que en la demostració de l'interval de confiança amb desviació típica coneguda que hem vist abans i es dedueix la fórmula (4).

Interval de confiança per a una proporció (cas d'una població gran)

modifica

Exemple

modifica

Segons dades del Centre d'Estudis d'Opinó [4] en una enquesta a 800 persones, entre 12 i 79 anys, a Catalunya realitzada a finals de 2018, 323 persones van dir que utilitzaven la bicicleta amb alguna freqüència (diàriament o esporàdicament). A la mostra, la proporció de gent que utilitza la bicicleta és  

o, equivalentment, un 40'4% de la mostra. Però estem interessats en estimar la proporció en tota la població de Catalunya, no només a la mostra.

Fórmula de l'interval de confiança per una proporció

modifica

Considerem una població gran [5][6] (a l'exemple, <<persones de Catalunya entre 12 i 79 anys>>) en la qual una proporció   (desconeguda) té determinada característica (a l'exemple, <<utilitza la bicicleta amb alguna freqüència>>). Volem estimar  , i amb aquest objectiu prenem una mostra de mida  , i designem per   la proporció obtinguda en la mostra de mida.[7] Suposarem també que la mida de la població és gran. Per construir un interval de confiança per a  , del Teorema central del límit es dedueix que, si la mida de la mostra   és gran, llavors   té una distribució aproximadament normal de mitjana   i variància  ; s'escriu   Exactament igual que en el cas de l'interval de confiança per a la mitjana  , es demostra que per un nivell de confiança   l'interval de confiança per a   és

 on 

on   és una variable aleatòria normal estàndard. Però la fórmula (5) depén de  , que és desconeguda, i llavors es substitueix per la seva estimació   i s'obté  Equivalentment, aquest interval també s'escriu   Aplicat a l'exemple de la bicicleta, amb un nivell de confiança  , tenim que l'interval és  O, escrit d'una altra manera,  

Una altra manera de calcular l'amplada de l'interval

modifica

Hem passat de la fórmula (5) a la fórmula (6) canviant la quantitat desconeguda   per l'estimació  . Un mètode diferent per resoldre la dificultat que a (5) intervé una quantitat desconeguda és basa en el fet que 

 
Figura 3. Gràfic per calcular la mida de l'interval de confiança

Això es veu gràficament perquè la funció   és una paràbola invertida amb el vèrtex al punt (0'5, 0'25). Vegeu la Figura 3. Aleshores, l'interval de confiança més llarg possible (el que tindrà menys precisió) serà el corresponent a  , i l'interval de confiança serà  O escrit d'una altra manera,  Aquest interval és diu que és el més conservador, ja que el que pretén és ser molt prudent i intentar equivocar-nos el mínim possible. A l'exemple de la bicicleta, amb  , aquest interval és  . Aquest interval té una longitud 0'07, lleugerament més gran que l'anterior de 0'068. En aquest cas la diferència és petita perquè l'estimació   és propera a 0'5.

Una recepta per a la mida de la mostra

modifica

A l'Estadística hi ha fórmules per a calcular en diversos casos la mida de la mostra necessària per assolir una confiança i precisió donades. Com a exemple, veurem el cas de la proporció.

Suposem que volem una confiança del 95% i que l'interval tingui una llargada màxima de 0'05, és a dir, que l'error sigui com a màxim d'un 2.5 % en més o menys. D'acord amb la fórmula (5), la llargada de l'interval és   Atès que volem que la llargada de l'interval sigui 0'05, tenim   Aïllant  ,   Ara, tal com hem fet a l'apartat anterior, ens posem en el pitjor dels casos, on  , d'on   i, per tant, hem de prendre  

Referències

modifica
  1. Zar, J.H. (1984) Biostatistical Analysis. Prentice-Hall International, New Jersey, pp 43–45.
  2. Dades simulades a partir de la informació de l'article «millennialsgrowth2017CAT.pdf». [Consulta: 30 juny 2020].
  3. Degroot, M. H. (1988) Probabilidad y estadística. Addison-Wesley Iberoamericana, México, cap. 7.
  4. «Barómetre de la bicileta. 2019». [Consulta: 13 octubre 2020].
  5. En cas de poblacions petites cal utilitzar altres fórmules per als intervals de confiança
  6. Com en tota l'estadística, població s'entén en sentit ampli: persones, peces fabricades per una màquina, etc.
  7. El lector haurà notat la pràctica estadística habitual de designar un paràmetre de la població per una lletra, i una estimació a partir de la mostra per la mateixa lletra amb un accent circumflex