Riassunto Statistica Di Base Come Quando Perche
Riassunto Statistica Di Base Come Quando Perche
Riassunto Statistica Di Base Come Quando Perche
FENOMENO,UNITA' E POPOLAZIONE
I fenomeni d'interesse per la Statistica sono detti fenomeni statistici → fenomeni che si presentano
con una molteplicità di manifestazioni. Questa molteplicità è la caratteristica che determina la
necessità di metodi statistici per il trattamento quantitativo dei fenomeni.
I supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico sono dette unità
statistiche. Presso le unità statistiche è possibile osservare e registrare le manifestazioni del
fenomeno d'interesse. L'insieme delle unità statistiche sulle quali interessa studiare il fenomeno è
chiamato popolazione statistica o universo di riferimento ( in inglese: target).
NOTAZIONE
• la lettera U (maiuscolo) per denotare la popolazione o universo statistico
• le lettere latine maiuscole ( tranne la U) per indicare i fenomeni statistici
• le lettere minuscole per indicare ogni singola manifestazione del fenomeno indicato con la
corrispondente lettera maiuscola. In linguaggio tecnico parleremo di modalità o valori del
fenomeno.
Esempio:
Y: secolarizzazione
U: insieme di soggetti
y: licenza media o diploma o laurea ecc.
NUMEROSITA' DI U
I fenomeni d'interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite
in cui cioè N è un numero intero positivo ( 1<N <infinito).
Ma questo non è il solo caso; è possibile pensare a fenomeni statistici presenti su popolazioni
infinite, cioè composte da un numero virtualmente infinito di unità statistiche (N= infinito).
Esempio:
X: numero di italiani affetti da HIV
U: collettivo degli italiani sieropositivi passati, presenti e futuri
N= infinito
Talvolta la dimensione N di U pur essendo finita è però talmente elevata che ai fini dell'analisi
statistica è conveniente pensarla infinita.
1. Osservarne le manifestazioni, ciò recarsi fisicamente presso le unità statistiche per registrare
le manifestazioni del fenomeno. In questo modo si creano i dati. Talvolta i dati sono già
disponibili oppure provengono da fonti ufficiali. Tecnicamente questa fase consiste nella
rilevazione di X su U.
3. Elaborare i dati strutturati. Qui inizia l'analisi vera e propria del fenomeno. L'obiettivo è
quello di far emergere più chiaramente dai dati le informazioni che interessano e di
comprenderei meccanismi che determinano le diverse manifestazioni del fenomeno su
quella popolazione, cioè il suo variare. Tecnicamente si tratta di sintetizzare i dati attraverso
la costruzione di indici e valori sintetici e di studiarne le eventuali relazioni (statistiche)
con altri fenomeni.
4. Comunicare i risultati. Anche il risultato più interessante e più elaborato è inutile se non è
ben comunicato. E' il momento conclusivo dell'analisi statistica, coinvolge interessi diversi e
perciò è caratterizzato da una marcata interdisciplinarità.
RILEVAZIONE CAP.3
RILEVAZIONE DI X SU U : è il processo di creazione dei dati. In genere consiste nel recarsi
fisicamente presso le unità statistiche per osservare e registrare le diverse manifestazioni x di X.
Classificazione dei fenomeni statistici → la prima distinzione è fra nomi e numeri cioè fra
fenomeni qualitativi e fenomeni quantitativi.
Fenomeni qualitativi : si manifestano nella popolazione osservata attraverso attributi o
categorie,qualità appunto.
Esempi:
X : genere
Y: squadra di calcio tifata
S: titolo di studio
Fenomeni quantitativi : si manifestano nella popolazione osservata attraverso numeri, quantità
appunto.
Esempi:
A: numero di accessi ad un certo sito internet in un dato giorno
T: temperatura massima giornaliera a Milano-Linate nel maggio2014
Per certi tipi di analisi statistica è necessario che le manifestazioni del fenomeno analizzato possono
essere ordinate. Le manifestazioni dei fenomeni quantitativi possono essere sempre ordinate poiché
fra i numeri esiste una relazione d'ordine naturale. Per i fenomeni qualitativi invece è importante la
sotto-classificazione.
Fenomeni qualitativi ordinali → sono i fenomeni che pur essendo qualitativi, si manifestano con
attributi e categorie che si possono ordinare secondo un qualche criterio oggettivoe
convenzionalmente accertato.
Esempio: scuola dell'obbligo < diploma < laurea triennale < titolo post- laurea
Fenomeni qualitativi categoriali → sono tutti i fenomeni qualitativi per i quali non abbiamoun
criterio oggettivo (ma solo personale e variabile) per ordinare le categorie con cui si manifesta.
Esempio :
fenomeno R : città di residenza
Fra i fenomeni quantitativi una sotto- classificazione importante è fra i fenomeni discreti e continui.
Fenomeni quantitativi discreti → sono i fenomeni quantitativi che possiamo contare, enumerare.
Esempio:
E: numero di esami registrati sul libretto al termine del primo anno
Y: numero dei furti di motorini denunciati a Milano città nel maggio 2014
Z: accessi al sito internet del Dipartimento di Sociologia di Milano-Bicocca ad aprile 2014
Fenomeni quantitativi continui → sono i fenomeni quantitativi che si possono misurare, una volta
scelta un'opportuna unità di misura e con la disponibilità del corretto strumento di misurazione.
Esempio:
C: peso corporeo alle ore 8.00 a digiuno
T: temperatura massima giornaliera a Milano-Linate nel maggio 2014
Abbiamo imparato a distinguerei fenomeni, ora ci occupiamo della rilevazione, ovvero il processo
di creazione dei dati.
La scala delle modalità con cui si rileva X è l'insieme di tutte le diverse manifestazioni di X
osservabili su U.
Le caratteristiche principali della scala delle modalità sono: esaustività e mutua esclusività.
Esaustività → la scala delle modalità con cui si effettua la rilevazione deve essere esaustiva, cioè
deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U.
Mutua esclusività → la scala con cui si effettua la rilevazione deve prevedere solo modalità che si
escludono a vicenda,senza possibilità di confusione o sovrapposizione.
L'obiettivo è di evitare all'unità statistica qualunque ambiguità nella scelta della casellina in cui
classificarsi.
Scala qualitativa → in una scala qualitativa le modalità sono attributi o categorie, qualità appunto.
Scala quantitativa → in una scala quantitativa le modalità sono numeri, quantità appunto.
Fra le scale qualitative un'importante sotto-classificazione distingue fra scale ordinali e scale
sconnesse.
Scala qualitativa ordinale → è una scala qualitativi nella quale gli attributi o le categorie di cui
consta possono essere ordinati secondo un qualche criterio oggettivo o convenzionalmente
accettato.
Scala qualitativa sconnessa → è una scala qualitativa nella quale gli attributi o le categorie di cui
consta non ammettano un ordinamento oggettivo ma solo un ordinamento casuale o personale.
Un sottotipo di scala sconnessa è la scala dicotomica o binaria che consta di 2 sole modalità,
esaustive ed esclusive.
Esempio:
X: genere con modalità femmina/maschio
o tutte le scale del tipo vero/falso; si/no ecc.
Per le scale quantitative la sotto-classificazione è fra scale quantitative rapporto e non rapporto che
si distinguono rispetto all'origine ( ovvero da dove si parte).
Scala quantitativa rapporto → è una scala quantitativa nella quale l'origine è il numero 0 con
significato assoluto cioè quando 0 indica assenza del fenomeno.
Esempio: quella con cui si rileva il fenomeno A: numero di accessi a un sito internet in un dato
giorno. È costituita da tutti i numeri interi 0,1,2,3,.. fra i quali lo 0 è assoluto.
Scala quantitativa non rapporto → è una scala quantitativa nella quale l'origine (in genere ancora
lo 0) non sia assoluta ma convenzionale, cioè scelta secondo un qualche criterio.
Esempio: scala con cui si rileva il fenomeno T: temperatura massima giornaliera a Milano-Linate
nel maggio 2014.
La classificazione delle scale di modalità è importante perchè dalla tipologia di scala dipende il
livello di analisi statistica che si può effettuare sui dati così rilevati. Le scale qualitative consentono
un livello di analisi inferiore rispetto alle scale quantitative. Fra le modalità di una scala qualitativa
sconnessa possiamo istituire soltanto relazioni di uguaglianza o di diversità. Se la scala è qualitativa
ordinale possiamo aumentare il livello di analisi perché fra le sue modalità oltre alla relazione = o
diverso è istituibile anche la relazione d'ordine maggiore o uguale oppure minore o uguale. Una
scala quantitativa rapporto consente il livello maggiore dii analisi: le sue modalità numeriche
ammettono le relazioni uguale, diverso, minore o uguale, maggiore o uguale e le 4 operazioni
elementari ( somma,sottrazione,moltiplicazione e rapporto.
Dunque le scale quantitative non rapporto sono quelle che, pur essendo quantitative, non
consentono il rapporto cioè l'operazione di divisione.
Indicheremo con k il numero di diverse modalità della scala utilizzata per la rilevazione. Useremo
poi l'indice i per distinguere le diverse modalità previste dalla scala con cui andiamo a rilevare le
manifestazioni x del fenomeno X. La rilevazione di X su U avviene con la scala di modalità
x1,x2,x3...xk.
Le modalità xi di un fenomeno X quantitativo discreto si rilevano contando e sono di solito numeri
interi. Il numero k (i=1,..,k) ,con cui indichiamo il numero di tutte le possibili modalità con cui X è
rilevato su U, può essere finito o infinito. Nel primo caso si parla di fenomeni discreti finiti, nel
secondo di fenomeni discreti numerabili. Useremo poi una notazione particolare per i fenomeni
quantitativi continui. I fenomeni quantitativi si misurano e e le modalità xi sono degli intervalli.
Useremo il simbolo xl per indicare l'estremo inferiore dell'intervallo e il simbolo xL per l'estremo
superiore dell'intervallo. Fra i due estremi dell'intervallo inseriremo un simbolo per indicare se gli
estremi sono o meno compresi nell'intervallo.
Infine k indicherà il numero di intervalli xi con cui si rileva X continuo (i= 1,...,k). Con xi
indicheremo secondo i casi un attributo o una categoria, un numero oppure un intervallo (di numeri
reali ).
CONSIDERAZIONI:
• La natura qualitativa o quantitativa del fenomeno di interesse ha ovviamente a che fare con
la tipologia di scala delle modalità adottabile per la sua rilevazione, ma non la vincola
rigidamente. I fenomeni quantitativi possono essere rilevati con scale qualitative o
viceversa, alcuni fenomeni pur essendo qualitativi possono essere rilevati con scale
quantitative.
• Il caso di fenomeno qualitativo ordinale rilevato con scala quantitativa è molto frequente
nella ricerca sociale e di mercato.
• La natura discreta o continua di un fenomeno quantitativo può non essere semplice da
stabilire: quando il fenomeno quantitativo si presenta con un numero di modalità k molto
elevato conviene trattarlo come se fosse continuo raggruppando la modalità in classi, che
sono un po' sorelle degli intervalli.
Esempio pag. 25
Il risultato delle rilevazioni fornisce i cosiddetti dati grezzi. L'analisi statistica procede per sintesi
successive. L'obiettivo è fa emergere le informazioni utili a descrivere e spiegare il comportamento
X su U. La prima sintesi consiste nel dare una struttura ai dati grezzi, organizzandoli in tabelle e
grafici in modo da renderli più leggibili. In linguaggio tecnico tabelle e grafici sono distribuzioni di
frequenze e variabili statistiche.
Effettuando l'operazione di conteggio delle modalità di X che si ripetono in U, i dati grezzi vengono
organizzati in una tabella.(es. Pag. 26)
xi Fi
(frequenze
assolute)
x1 f1
…. ….
xk fk
La colonna delle modalità xi ha a che fare con il fenomeno X e dunque può contenere
attributi,categorie, numeri o intervalli. La colonna delle frequenze assolute fi ha a che fare con le
unità statistiche e dunque con la popolazione U. le frequenze assolute sono sempre numeri interie >
o = 0 e con somma pari a N. Il complesso della tabella costituisce la variabile statistica detta anche
serie o seriazione statistica.
La modalità possono avere natura varia mentre le frequenze assolute sono numeri interi positivio
nulli la cui somma riproduce la numerosità N di U. formula pag. 27
Il passaggio dai dati grezzi alla v.s. ci ha portato il vantaggio di rendere i dati più organizzati e
leggibili ma ci ha fatto perdere l'ordine in cui i dati sono stati rilevati.
Le frequenze assolute non sono l'unico tipo di frequenze costruibili.
Frequenza relativa → associata alla modalità xi è il rapporto (divisione) fra le frequenza assoluta di
xi e la numerosità N di U. indicheremo la frequenza relativa con pi. In formule e più brevemente
che a parole : pi=fi/N
Le percentuali sono le frequenze relative moltiplicato per 100. Le percentuali sono sempre
comprese tra 1 e 100 e la loro somma è pari a 100.
A livello di analisi statistica è preferibile lavorare con le frequenze relative, a livello di
interpretazione e comunicazione dei risultati è conveniente passare alle percentuali.
La colonna delle frequenze relative pi costituisce la distribuzione di frequenze relative di X su U
che è confrontabile.
FREQUENZE CUMULATE
Quando il fenomeno di interesse è almeno ordinale possiamo aumentare il livello di analisi e
costruire un ulteriore tipo di distribuzione di frequenze. In questo caso è buona pratica costruire la
v.s ordinando in senso crescente le modalità osservate partendo dal minimo x1 e arrivando al
massimo xk: x1<x2<...<xk-1 < xk
Per compilare le colonne delle Fi e PHI abbiamo sommato le frequenze di tutte le righe precedenti.
Frequenze cumulate assolute → Fi= f1+f2+...+fi= sommatoria che va da j=1 a i di fj
Frequenze cumulate relative → PHI=p1+p2+...+pi= sommatoria che vada j=1 a i di pj= Fi/ N
1. Le frequenze cumulare assolute sono numeri interi compresi fra 0 e N mentre quelle relative
sono comprese fra 0 e 1. la prima frequenza cumulata coincide con la frequenza della
modalità più piccola; l'ultima frequenza cumulata coincide con la numerosità N di U se
parliamo di freq. Cumulate assolute, coincide con 1 se parliamo di freq. Cumulate relative.
Il fenomeno X è almeno ordinale e le modalità xi sono ordinate, dunque xi è la più piccola e
xk è la più grande
DENSITA' DI FREQUENZA
Limitiamo la nostra attenzione ai fenomeni quantitativi continui. Se X è continuo le modalità xi
sono intervalli. All'interno del generico intervallo xi:xl |- xL sappiamo che appartengono fi unità
statistiche, tuttavia sappiamo solo ciò: la distribuzione di frequenze all'interno degli intervalli è
ignota.
Esempio pag.33
Siamo di fronte ad una mancanza di informazioni. Ogni volta che ci troviamo in una situazione di
questo tipo, per superare l'ostacolo si ricorre all'emissione di ipotesi in sostituzione delle
informazioni ignote. L'ipotesi adottata deve essere ragionevole cioè argomentabile sostenibile e
convincente. Due sono le ipotesi comunemente emesse :
1. ipotesi del valore centrale. L'obiettivo è di assegnare a ciascuna delle fi unità statistiche un
unico punto interno all'intervallo stesso. Il principale adottato è in medio stat virtus. Il
metodo consiste nell'associare tutte le fi al valore centrale dell'intervallo. Il valore centrale è
la semisomma dei suoi estremi. Indicheremo il valore centrale di un itervallo con l'asterisco:
xi*= xl+xL/2
(esempio pag.33)
Con questa ipotesi si attua una sostanziale discretizzazione della v.s. : si supera il problema
dell'ignota distribuzione ma si perde la natura continua rappresentata dagli intervalli.
2. Ipotesi di distribuzione uniforme. Consiste nel considerare alla pari ogni possibilità. Se
non sappiamo niente circa dove si posizionano esattamente le fi, allora le distribuiamo in
modo uniforme ed equidistante lungo tutto l'intervallo.
A seconda del contesto applicativo si decide quali frequenze è conveniente usare per calcolare le
densità di frequenza.
RAPPRESENTAZIONI GRAFICHE
Con le distribuzioni di frequenze possiamo costruire i grafici.
Si tratta di presentare i dati sotto una diversa forma. La forma grafica è preferibile a quella tabellare
in fase di interpretazione e comunicazione dei risultati dell'analisi statistica. Per i fenomeni
qualitativi il grafico è un semplice disegno che affianca o sostituisce la tabella. Esempio pag. 36
Il confronto grafico fra due o più distribuzioni di frequenza che derivano dall'osservazione del
medesimo fenomeno su due o più diverse popolazioni è agevolato se si rappresentano insieme su un
unico grafico. Se le popolazioni sono di dimensione diversa sono necessarie le frequenze relative o
percentuali. Esempio pag.38
Per i fenomeni quantitativi il discorso cambia. Quando anche le xi (oltre che le fi ) sono numeri, si
costruiscono veri e propri diagrammi cartesiani. Le modalità xi sono poste sulle ascisse e le
frequenze fi sulle ordinate. Il diagramma è molto diverso a seconda che X sia discreto o continuo
cioè a seconda che le xi siano numeri o intervalli. Quando X è discreto un diagramma efficace è a
bastoncini. Esempio pag.38/39
DENSITA' E ISTOGRAMMI
Quando X è un fenomeno continuo le modalità xi sono intervalli xi: xl |- xL .
Ponendole sulle ascisse del diagramma si identificano dei segmenti.
La distribuzione di frequenze all'interno degli intervalli è ignota. Bisogna dunque adottare
un'ipotesi. Sappiamo che adottare l'ipotesi del valore centrale si traduce nella discretizzazione
della v.s. attraverso i valori centrali x*i degli intervalli. Una volta ricondotti al caso discreto si può
procedere alla rappresentazione grafica prevista nel caso discreto,cioè a bastoncini. Se invece si
adotta l'ipotesi della distribuzione uniforme, si presenta la natura continua del fenomeno e
l'obiettivo di associare la frequenza a tutti gli infiniti punti dell'intervallo, in modo che sia
uniformemente distribuita, si raggiunge rappresentando la frequenza come un'area. Per
rappresentare la distribuzione di frequenze assolute,sotto l'ipotesi di una distribuzione uniforme, si
pongono gli intervalli xi:xl|- xL sulle ascisse e le densità di frequenza phi piccolo sulle ordinate. Se
invece si vogliono rappresentare le frequenze relative, cioè rettangoli di area p.=fi/N, si pongono
sulle ordinate le densità di frequenze relative phi piccolo/N. Il diagramma che si ottiene è a
rettangoli accostati e prende il nome di istogramma o diagramma areale. In un istogramma le
frequenze sono rappresentate come aree. (esempio pag. 40/41)
L'area totale sottesa all'istogramma è:
• pari a N se si rappresentano le frequenze assolute fi (phi sulle ordinate).
• Pari a 1 se si rappresentano le frequenze relative pi(phi/N sulle ordinate).
Sull'istogramma sono automaticamente rappresentate come aree anche le frequenze cumulate,
assolute Fi o relative PHI, a seconda che le aree dei rettangoli dell'istogramma rappresentano fi o pi.
L'istogramma permette il calcolo delle frequenze cumulate per qualunque valore del fenomeno
continuo X, interni ed esterni agli intervalli osservati. Il calcolo avviene sotto l'ipotesi della
distribuzione uniforme, cioè l'ipotesi adottata per costruire l'istogramma stesso. (es. pag. 42)
L'istogramma è l'unica rappresentazione grafica sensata quando la v.s. si presenta con intervalli di
ampiezza diversa. Il problema si supera costruendo v.s. della stessa ampiezza. In questo caso non è
più necessario ricorrere alla densità. Il termine istogramma va riservato a diagrammi in cui l'area ha
un significato preciso.
Moda → o norma di una v.s. è la modalità a cui è associata la frequenza più elevata fra le k
osservate, cioè la modalità più osservata.
(esempi pag.46)
Per indicare la moda useremo la notazione x0 (x con zero).
La moda x0 è tanto più informativa quanto più elevata è la frequenza corrispondente, cioè il numero
di unità statistiche che rappresenta. È una buona pratica associare alla modalità di X la
corrispondente frequenza che ne aiuta l'interpretazione e ne una misura della sua capacità di
descrivere sinteticamente il fenomeno su quella popolazione. La moda è un valore medio di sintesi
calcolabile per X qualunque. X0 è immediatamente individuabile:
• Quando la v.s. è data sotto forma di tabella basta scorrere la colonna delle frequenze e
individuare la più elevata.
• Quando la v.s. è rappresentata graficamente, la frequenza più elevata si individua a occhio. È
la barra più alta/più lunga in un diagramma a barre...
Un accorgimento particolare è necessario in caso di X continuo. Se gli intervalli sono di ampiezza
differente, la frequenza è influenzata dall'ampiezza degli intervalli e dunque perde la sua carica
informativa per l'individuazione di x0. È allora necessario utilizzare le densità di frequenza.
Chiamiamo intervallo modale quello a cui è associata la densità phi più elevata fra le k osservate.
È poi convenzione diffusa far coincidere la moda x0 con il valore centrale dell'intervallo modale.
(es. Pag.47)
talvolta la v.s. è priva di moda o è difficile individuare una modalità che spicca. In tali casi la moda
non è un buon valore medio e non svolge adeguatamente il proprio compito di indicatore sintetico
del comportamento di X su U. (ES.PAG.48) Talvolta la v.s. si presenta con più di una moda. Si parla
in tal caso di fenomeno bi-modale (tri-modale... pluri-modale..ES.pag.48).
MEDIANA
concentriamoci ora sui fenomeni almeno ordinali, cioè qualitativi ordinali oppure quantitativi.
Quando X è almeno ordinale, è possibile istituire relazioni d'ordine (inferiore,superiore...). Per
fenomeni almeno ordinali, oltre alla moda, un'ulteriore sintesi consiste nel selezionare fra le k
manifestazioni ordinate x1<...<xi<...<xk quella che occupa una posizione speciale
nell'ordinamento. Particolarmente informativa è la posizione centrale. (esempio pag.49)
Un discorso a parte va fatto per i fenomeni quantitativi continui. Con X quantitativo continuo le
modalità xi sono intervalli. In questo caso, laddove si raggiunge ed eventualmente si supera 0,5, si
individua un intervallo che chiamiamo intervallo mediano. (esempio pag. 52)
Come individuare la mediana x0,5 all'interno dell'intervallo mediano? Il problema è che la
distribuzione delle frequenze all'interno degli intervalli è ignota. Succede anche per l'intervallo
mediano: nell'esempio della carica dei telefonini, non sappiamo quale sia esattamente la carica dei
12 telefonini che cadono nell'intervallo mediano. Sappiamo solo che è compresa in 24 |- 48 ore.
Bisogna dunque avanzare un'ipotesi, quella del valore centrale o quella della distribuzione
uniforme. Adottando l'ipotesi del valore centrale si identifica la mediana con il valore central e x*i
dell'intervallo mediano: x0.5=36 che ci informa che il 50% dei modelli dei telefonini osservati ha
una carica non inferiore alle 36 ore;l'altro 50% non superiore alle 36 ore. Mediante la
distribuzione uniforme la mediana si identifica attraverso la seguente formula:
x0,5= xl + (N/ 2 - Fi-1) xL-xl / fi =xl+ (0,5-PHIi-1) xL-xl/ pi
(formula pag. 53)
dove:
xl → è l'estremo inferiore dell'intervallo mediano
Fi-1 oppure PHIi-1 → è la frequenza cumulata (assoluta o relativa) dell'intervallo precedente
xL-xl → è l'ampiezza dell'intervallo mediano
fi oppure pi → è la frequenza (assoluta o relativa) dell'intervallo mediano
Alcuni chiamano questa formula media ponderata perché vi appaiono le modalità xi ponderate con
(moltiplicare per) le frequenze ed è divisa per la somma dei pesi della ponderazione (N se si
pondera con le fi oppure 1 se si pondera con le pi). A volte il risultato ottenuto da queste formule
non è neanche uno dei possibili valori di X previsti dalla scala di rilevazione. Per esempio,
calcolando la media dei voti sul libretto è possibile ottenere un numero con la virgola, in genere
questo non intacca la portata informativa della media aritmetica.
(esempio pag. 62)
Se X è quantitativo continuo e le sue modalità sono intervalli, la media aritmetica è in genere
calcolata con l'ipotesi del valore centrale.
(esempio pag. 63)
3. Invariante → tra le informazioni che vanno perdute nel passaggio della v.s. al valore medio
può sussistere un particolare aspetto di X che è importante mantenere inalterato nella sintesi,
si esprime allora tale aspetto con una funzione dei dati e si sceglie il valore medio che
sintetizza la v.s. lasciando invariata tale funzione. Il valore medio costruito secondo questo
criterio è detto media alla Chisini.
Proprietà di internalità → il valore della media aritmetica è sempre compreso fra la più piccola e la
più grande delle modalità osservate di X; in formula :
xmin < o = x con trattino (media aritmetica) <o= xmax
l'internalità è il minimo che si possa richiedere a un valore medio calcolato con lo scopo di
sintetizzare una v.s.
Proprietà di omogeneità → Se X e Y sono due fenomeni diversi ma collegati fra loro dalla formula
Y=aX, dove a è un qualche numero (costante) diverso da 0 , si dice che Y è una trasformazione di
scala di X; la media aritmetica di Y si ottiene dalla media aritmetica di X con la stessa identica
trasformazione, cioè y son sopra il trattino =ax con sopra il trattino
(esempio pag. 68)
Quando U è molto numerosa è una pratica sensata utilizzare dati aggregati anziché dati individuali.
Formalmente, si tratta di considerare U di numerosità N, suddivisa in un certo numero chiamato h,
di sottopopolazioni Uj ciascuna di numerosità Nj con j=1,...,h e sommatoria che va da j= 1 a k di
Nj=N. Quello che ci interessa è sempre la media aritmetica (generale)di X sull'intera U. disponiamo
tuttavia solo dei dati aggregati ovvero le medie aritmetichej nelle sottopopolazioni. (pag.69)
proprietà associativa → la media (generale) di X (su U) è sempre raggiungibile dai dati aggregati
(sulle sottopopolazioni Uj), basta calcolare la media delle medie delle sottopopolazioni. Si tratta di
usare le medie parziali xj con sopra il trattino al posto della modalità xj e le numerosità parziali Nj
al posto delle frequenze fi. In formule:
x con trattino alto= 1/ N sommatoria che va da j=1 a h xj con sopra il trattino Nj
(esempio pag. 70)
la proprietà associativa è molto utile soprattutto per le grandi masse di dati e di tutela della privacy
Fra le medie potenziate, la media aritmetica è la più nota e la più utilizzata perché gode anche di
alcune proprietà esclusivamente sue.
Vediamo le principali:
La media aritmetica svolge il suo lavoro di sintesi della v.s. garantendo la compensazione delle
differenze fra i valori xi effettivamente osservati e il valore medio di sintesi x con sopra il trattino.
Definizione → le differenze (xi-x con sopra il trattino) sono dette scarti o deviazioni dalla media
aritmetica. Se poi si tiene conto del fatto che il valore xi è presente su U con frequenze fi, si ha lo
scarto ponderato (xi-x con sopra il trattino)fi.
Poiché la media aritmetica gode anche della proprietà dell'internalità, cioè è sempre compresa fra il
più piccolo e il più grande dei k valori osservati, allora fra i k scarti costruibili ve ne saranno di
negativi e di positivi. Quando lo scarto (xi-x con sopra il trattino) è positivo (>0) si dice che xi è un
valore sopra media; quando invece lo scarto è negativo(<0 ) si dice che xi è un valore sotto media.
Proprietà di annullamento degli scarti → i valori sopra e sotto media si compensano, cioè se si
sommano tutti i k scarti ponderati si ottiene 0. questa proprietà è detta di annullamento degli scarti
e vale solo per la media aritmetica.
In formula:
sommatoria che va da i=1 a k di (xi- x con sopra il trattino)fi=0
il fatto che solo la media aritmetica annulli la somma degli scarti ponderati, cioè compensi i valori
sopra e sotto media,conferisci alla media aritmetica il ruolo di baricentro della v.s. e ne rappresenta
una sintesi della tendenza centrale.
(esempio pag. 73 e 74)
In formule:
sommatoria che va da i=1 a k xifi = Nx con sopra il trattino = sommatoria che va dai i=1 a k x con
trattino fi → questa formula definisce un'altra proprietà esclusiva della media aritmetica che
ammette una duplice chiave di lettura.
1. Se ai valori xi osservati sostituiamo la media aritmetica x con trattino che li sintetizza tutti, il
totale di X non cambia. Allora la media aritmetica mantiene inalterato il totale.
2. Se il totale di X fosse diviso in parti uguali fra le N unità di U, a ciascuna unità toccherebbe
una quota di totale pari a x con trattino. Allora la media aritmetica equidistribuisce il totale
di X sulle N unità di U.
VARIABILITA' capitolo 7
qui considereremo i soli fenomeni quantitativi (sia discreti sia continui), ovvero quelli che generano
variabili statistiche completamente numeriche e che sono sintetizzabili con la media aritmetica.
• assume valore 0 in assenza di variabilità, cioè nella situazione in cui X si manifesta con
un'unica modalità, generando una v.s. costante (si dice anche degenere);
• assume valori positivi (>0) quando X si manifesta con modalità molteplici e differenti, cioè
in caso di variabilità.
• Assume valori positivi e via via più grnadi all'aumentare della variabilità.
La più semplice misura di variabilità che chiamiamo range, si ottiene confrontando la più piccola e
la più grande fra le modalità osservate.
Essa è tuttavia una misura grossolana. È molto sensibile alla presenza di valori anomali, cioè
quando xmin è estremamente piccola oppure xmax è estremamente grande. Inoltre il range è basato
solo su 2 fra le k modalità osservate, quelle estreme, mentre il resto della v.s. è ignorato.
Per migliorare le cose possiamo prendere la differenza fra i due quartili, superiore e inferiore, di X.
In questo modo otteniamo un'altra misura di variabilità chiamata differenza interquartile che
indicheremo con IQR (inter-quartile range).
IQR è dunque il range della metà centrale delle osservazioni. Risulta meno sensibile all'effetto dei
valori anomali perché elimina le code della v.s., cioè tutte le osservazioni più piccole del I quartile
(xi < x0,25) e tutte quelle più grandi del III quartile (xi > x0,75). Tuttavia, anche la IQR è basata
solo su 2 fra le k modalità osservate e ignora la v.s. nel suo complesso.
Una misura di variabilità più raffinata, meno sensibile agli eventuali valori anomali e che utilizza
tutta la v.s. è la deviazione standard di X.
È la misura di variabilità più nota e utilizzata, per questo ha una notazione standard: la lettera greca
sigma minuscola σ.
σ misura la variabilità di X seguendo un'altra logica, anziché confrontare fra loro le modalità di X,
si confronta ciascuna delle k modalità osservate xi con un unico valore positivo scelto come polo di
confronto.
Sigma= sotto radice quadrata 1/N sommatoria che va da i = 1 a k (xi-x con trattino)^2 fi
la forma deriva da :
• ogni modalità xi è confrontata con la media aritmetica che essendo un valore sintesi della
v.s. funziona bene come polo di confronto.
• La differenza (xi – x con trattino) può risultare positiva o negativa a seconda che xi sia una
modalità sopra o sotto media. Ai nostri fini il segno dello scarto è ininfluente: quello che ci
interessa è se xi è vicina o lontana dal polo di confronto (ovvero la media aritmetica);
dunque ci interessa la distanza di xi dalla media aritmetica. Per eliminare l'influenza del
segno, si considerano gli scarti quadratici, cioè elevati al quadrato. (xi – x con trattino)^2.
Per ragioni di semplicità il quadrato è preferibile al valore assoluto in quanto è più semplice
da trattare matematicamente e ha l'effetto di enfatizzare le distanze.
• Gli scarti quadratici vengono poi ponderati con le frequenze. Si tiene cioè conto del fatto
che la modalità xi si presenta in U fi volte (xi – x con trattino)^2 fi. Se si sommano tutti gli
scarti ponderati non al quadrato ma con il loro segno si ottiene sempre 0.
• poiché di scarti quadratici ne abbiamo k (tanti quante sono le modalità osservate), li
sintetizziamo tutti in una media sommando e dividendo poi per N
• infine si ristabilisce l'ordine di grandezza e l'unità di misura (alterati dall'elevamento al
quadrato) prendendo la radice quadrata.
a partire da σ con semplici trasformazioni algebriche si definiscono altre due misure di variabilità
di X su U chiamate varianza e devianza.
La deviazione standard elevata al quadrato (cioè eliminando la radice quadrata) è la varianza di X:
Anche σ^2 è una misura di variabilità: vale 0 in caso di assenza di variabilità e assume valori
positivi (>0) e crescenti all'aumentare della variabilità di X in U.
σ^2 non è però una buona misura di variabilità: l'ordine di grandezza e l'unità di misura sono alterati
dal quadrato. L'eliminazione della radice quadrata (il passaggio dunque da σ a σ^2) ha però notevoli
vantaggi analitici in quanto la radice è difficile da trattare dal punto di vista matematico. Inoltre la
varianza σ^2 gode di proprietà statistiche di cui non gode invece σ e ha potenzialità descrittive
maggiori.
Anche la devianza N σ^2 è una misura di variabilità: vale 0 in assenza di variabilità e assume i
valori positivi crescenti al crescere di variabilità.
Anch'essa non è una buona misura di variabilità → è un totale di quadrati anziché una media perché
non essendo divisa per N non è mediata su tutte le U. Tuttavia rappresenta un'ulteriore
semplificazione analitica della deviazione standard e della varianza perché oltre alla radice è
trascurato anche il denominatore N.
La deviazione standard σ e la varianza σ^2 sono misure ASSOLUTE di variabilità, cioè sono
influenzate dall'ordine di grandezza e dall'unità di misura con cui X si manifesta su U.di
conseguenza non sono valutabili ne confrontabili.
Quando un indice assoluto di variabilità risulta diverso da 0 ci dice che X presenta variabilità, ma
essa non è valutabile ne confrontabile.
Per confrontare e valutare la variabilità di X occorre costruire una misura di variabilità RELATIVA.
Le misure relative si costruiscono mettendo a rapporto la misura assoluta e la quantità che disturba e
impedisce il confronto. Nei confronti di variabilità gli elementi di disturbo sono l'unità di misura e
l'ordine di grandezza. Per costruir una misura di variabilità relativa si mette a rapporto la misura
assoluta con un valore medio che sintetizzi l'ordine di grandezza di X e che sia espresso nella
medesima unità di misura.
Il cv è un indice puro (senza unità di misura). È confrontabile fra fenomeni con diverso ordine di
grandezza e diversa unità di misura e fra fenomeni rilevati su popolazioni diverse. È inoltre
valutabile come percentuale della media.
Valutare la variabilità di un fenomeno serve anche a valutare la capacità di sintesi della media
aritmetica: più è alta la variabilità del fenomeno, meno informativa risulta la media aritmetica.
N.B.: il cv è una misura relativa alla media e la sola valutazione sensata è come percentuale della
media. Il cv è un valore sempre positivo (>0) che può occasionalmente risultare inferiore a 1, ma
non necessariamente.
ora ci concentriamo sulla rilevazione congiunta di una coppia di fenomeni statistici sulla stessa U;
li indicheremo con X e Y. I due fenomeni X e Y sono osservati congiuntamente su ciascuna delle N
unità che compongono la popolazione di interesse U. Quindi il risultato della rilevazione è un
insieme di N coppie del tipo (x,y) che prende il nome di matrice dei dati (grezzi).
Per partire con l'analisi bivariata, il risultato della rilevazione congiunta viene organizzato in una
tabella a doppia entrata composta da righe e colonne. Dato che ora abbiamo a che fare con due
fenomeni, avremo bisogno di due indici: i con riferimento al fenomeno X e j con riferimento al
fenomeno Y. Indicheremo con k le differenti modalità con cui si manifesta X e con h il numero di
modalità con cui si manifesta il fenomeno Y. Indicheremo allora con xi le modalità con cui si
manifesta X e con yj le modalità con cui si manifesta Y.
Poniamo ora sulle righe le k modalità xi di X e sulle colonne le h modalità yj di Y.
L'interno della tabella si compila contando il numero di unità statistiche o casi che fra le N
osservate manifestano la medesima coppia di modalità (xi, yj).
Ai margini della tabella si pongono le somme dei casi per riga e per colonna.
Infine, nell'incrocio in basso a destra si pone la somma dei conteggi dell'intera tabella.
(esempio pag.109)
La tabella a doppia entrata struttura dunque i dati grezzi bivariati, organizza i casi osservati e da
indicazioni circa l'eventuale relazione fra i due fenomeni.
Sulla tabella a doppia entrata si leggono informazioni sia di tipo bivariato, che riguardano quindi X
e Y congiuntamente, sia di tipo monovariato, che riguardano cioè X e Y considerati singolarmente.
I numeri sono delle frequenze assolute,ovvero interi o nulli.
• All'interno della tabella vi è la frequenza con cui si manifesta ogni coppia di modalità
(xi,yj). Queste frequenze riguardano entrambi i fenomeni e sono dette frequenze congiunte,
che indicheremo con fij. L'interno della tabella costituisce la variabile statistica doppia. La
somma generale di tutte le frequenze congiunte riproduce la numerosità N di U. E' una
somma doppia perché riguarda entrambi gli indici, cioè sia per riga che per colonna.
• Ai margini della tabella si trovano le frequenze che riguardano i fenomeni X e Y considerati
singolarmente e separatamente. Chiameremo queste frequenze marginali.
Per indicarle avremo bisogno di un solo indice (quello del fenomeno a cui ci riferiamo).
Anche se è sufficiente un solo indice aggiungeremo un punto in sostituzione all'indice
dell'altro fenomeno, quello che marginalmente non è considerato. Avremo quindi:
- fi. → frequenze marginali di X
- f.j → frequenze marginali di Y
Le frequenze marginali si ottengono sommando le frequenze congiunte che stanno sulla
stessa riga (fi.) o sulla stessa colonna (f.j).
RIEPILOGANDO:
• la somma delle frequenze congiunte sulla i-esima riga dà le frequenze marginali di X :
sommatoria che va da j=1 a h fij= fi.
Le k coppie (xi,fi.) e le h coppie (yj,f.j) sono due v.s. monovariate. Le chiamano v.s. marginali.
Fissando l'attenzione sulle singole righe o sulle singole colonne separatamente, si costruiscono le
v.s. condizionate Y|xi che si legge “Y dato (condizionato da) xi” e X|yj che si legge “X dato
(condizionato da) yj”
La v.s. condizionata Y|xi descrive il comportamento di Y sulle sole fi. Unità statistiche che sono
omogenee rispetto a X perché manifestano tutte la medesima modalità xi.
La v.s. condizionata X|yj descrive il comportamento di X sulle sole f.j unità statistiche omogenee
rispetto a Y perchè manifestano tutte la medesima modalità condizionante yj.
Avremo tante v.s. condizionate quante sono le possibili modalità condizionanti.
Si hanno allora k variabili condizionante di tipo Y|xi (tante quante sono le righe della tabella) e h
variabili condizionate di tipo X|yj (tante quante sono le colonne della tabella).
(vedi tabella pag. 111)
RIEPILOGO:
• il comportamento congiunto (bivariato) di X e Y si legge all'interno della tabella mediante le
frequenze congiunte fij;
OSSERVAZIONI:
Passando dall'analisi statistica monovariata all'analisi bivariata l'obiettivo diventa studiare, oltre al
comportamento monovariato dei singoli fenomeni considerati separatamente, anche il loro
comportamento congiunto, rilevando l'eventuale relazione esistente fra i due fenomeni e, quando
esiste, misurarla e spiegarla statisticamente.
Indipendenza statistica
Se fra X e Y non esiste alcuna relazione statistica, allora X e Y sono statisticamente indipendenti.
Il modo per stabilire se X e Y sono indipendenti consiste nel confrontare le frequenze condizionate
con le frequenze marginali .
L'unico accorgimento consiste nel tener conto che le frequenze marginali si riferiscono all'intera U
di numerosità N mentre le frequenze condizionate si riferiscono a sotto-popolazioni di numerosità
fi. O a sotto-popolazioni di numerosità f.j.
Il confronto è possibile solo fra frequenze relative; le frequenze condizionate sono gia relative per
costruzione.
Le frequenze marginali relative si ottengono dalle frequenze marginali assolute dividendo per N:
fi./N per X e f.j/N per Y.
Condizione di indipendenza statistica → fij/fi. = f.j/N per tutti gli indici i=1,...,k e j=1,...,h
Per concludere che X e Y sono statisticamente indipendenti, la condizione deve valere per tutti gli
indici i=1,...,k e j=1,...,h cioè per tutte le celle della tabella dei dati.
Indicheremo l'indipendenza statistica con i.s.
(esempio pag. 116)
A ogni tabella di dati rilevati in realtà, che chiameremo tabella osservata, si può accostare la
corrispondente tabella teorica di indipendenza statistica.
La tabella teorica di indipendenza si compila mantenendo fisse le marginali e sostituendo le
frequenze congiunte osservate con le frequenze teroiche di indipendenza statistica. Quando la
condizione di indipendenza statistica è verificata, le due tabelle coincidono. Allora un metodo
alternativo per stabilire l'esistenza di indipendenza statistica consiste nel confrontare la tabella
osservata con la tabella teorica di indipendenza (esempio pag. 117).
Per stabilire se X e Y sono statisticamente indipendenti si utilizzano solo frequenze. Ecco perché
questa analisi è possibile per fenomeni di qualunque natura.
Se si conclude che X e Y sono statisticamente indipendenti, l'analisi statistica bivariata è terminata.
Connessione
Se si conclude che X e Y non sono statisticamente indipendenti allora fra X e Y esiste una qualche
relazione statistica. Diremo che X e Y sono connessi e indicheremo con il termine connessione una
generica relazione statisticamente rilevabile in una coppia di fenomeni osservati sulla U di
interesse.
Bisogna poi stabilire se la relazione fra X e Y è forte o debole, cioè misurare il grado di
connessione. L'intensità della connessione è tanto più elevata quanto più la tabella osservata è
lontana dalla tabella teorica di indipendenza.
Il metodo più utilizzato per misurare la connessione consiste nel considerare la differenza fra le
frequenze congiunte e le frequenze teoriche di indipendenza statistica.
Partiamo dalla differenza :
fij – f*ij
Se fra X e Y esiste indipendenza statistica, cioè quando tabella osservata e tabella teorica di
indipendenza coincidono, tutte queste differenze sono nulle. Quando non sono nulle, possono essere
vicine o lontane da 0. se queste differenze sono vicine a 0 si conclude che la connessione è bassa,
cioè esiste una relazione debole fra X e Y, quindi i fenomeni sono si connessi ma si influenzano
poco l'un l'altro. All'aumentare del valore di tali differenze si ha connessione sempre più alta, cioè
una relazione forte fra X e Y, indicativa che i due fenomeni si influenzano sensibilmente.
In una tabella a doppia entrata con k righe e h colonne sono calcolabili kxh differenze di questo tipo
e tali differenze possono essere positive o negative. Per misurare la connessione serve sapere quanto
sono grandi le differenze. Servono due accorgimenti formali:
1. eliminare il segno;
2. sintetizzare in un unico indice tutte le kxh differenze.
Si può risolvere il problema 1 in due modi: con l'operazione di valore assoluto |fij – f*ij| (ovvero
trascurare il segno), oppure elevando al quadrato (fij- f*ij)^2 (perché elevando a potenza pari si
ottengono sempre valori positivi). In statistica si predilige l'elevamento al quadrato perché è più
semplice da trattare dal punto di vista matematico.
Indice di connessione →
χ = sommatoria che va da i=1 a k sommatoria che va da j=1 a h (fij -f*ij)^2/f*ij
Il valore massimo del χ^2 è il valore che l'indice assumerebbe in caso di massima connessione fra i
due fenomeni, cioè in caso di una relazione statistica perfetta in cui è sufficiente conoscere il
comportamento di un fenomeno per sapere già tutto del comportamento dell'altro.
Valore massimo del χ ^2 . → è il valore pari a N moltiplicato per il più piccolo fra il numero delle
righe (k) e il numero delle colonne (h), meno 1.
N x min {k-1,h-1}
(dimostrazione pag.122)
Una volta determinato il valore massimo del χ ^2, possiamo normalizzarlo e interpretarlo.
Con la connessione abbiamo considerato una generica relazione fra i due fenomeni utilizzando la
tabella nel suo complesso. Invece, registrando la nostra attenzione su singole coppie di modalità,
possiamo analizzare statisticamente una relazione di tipo locale fra singole coppie di modalità xi e
yj che chiameremo associazione (locale). Possiamo allora pensare alla connessione come
un'associazione globale fra tutte le k modalità di X e le h modalità di Y.
Media condizionata di Y dato xi. → è la media della v.s. condizionata Y|xi che si legge sulla i-
esima riga della tabella
y con trattino|xi= sommatoria che va da =1 a h yj fij/fi. =1/fi. Sommatoria che va da j=1 a h yjfij
(l'indice i è fisso)
Varianza condizionata di Y dato xi. → è la varianza della v.s. condizionata Y|xi che si legge sula i-
esima riga della tabella
σ^2 = sommatoria che va da j=1 a h (yj-y con trattino xi )^2 fij/fi.
=1/fi. Sommatoria che va da j=1 a h (yj – y con trattino xi)^2 fij
(l'indice è fisso)
esempio pag 134-136
Due proprietà che riguardano le medie e le varianze marginali e condizionate sono importanti
nell'analisi della relazione statistica fra fenomeni quantitativi. Chiameremo queste proprietà
associatività delle medie condizionate e scomposizione della varianza marginale.
L'associatività non vale per la varianza. Per la varianza vale invece un'altra proprietà che chiamiamo
scomposizione: la varianza marginale di Y si scompone nella somma di due componenti che
chiamiamo varianza NEI e varianza FRA.
Entrambi queste componenti sono interpretabili come varianze e ci dicono qualcosa circa la
relazione fra X e Y.
σ^2 FRA sintetizza la variabilità all'esterno delle sotto-popolazioni, ovvero fra una sotto-
popolazione e l'altra, cioè al valore di X.
Ne deduciamo che σ^2 FRA misura la variabilità di Y che dipende da X.
σ^2 NEI è la parte di variabilità di Y che non dipende da X mentre σ^2 FRA è la parte di variabilità
di Y che dipende da X. Insieme (sommate) riproducono nl'intera variabilità di Y.
N.B. → la proprietà di scomposizione vale per la varianza σ^2 ma non vale per la deviazione
standard σ.
matematicamente si può dimostrare che l'i.s. Implica l'i.m. di ciascun fenomeno dall'altro, in
formule i.s.→ i.m. In altre parole l'i.s. è una condizione più forte mentre l'i.m è condizione più
debole. Anche a livello interpretativo questa implicazione è sensata: due fenomeni statisticamente
indipendenti sono fenomeni che non presentano alcuna relazione statistica, il comportamento
dell'uno non ha nulla a che fare con il comportamento dell'altro sulla U osservata. Di conseguenza
(→) non può esistere alcuna relazione di dipendenza di un fenomeno dall'altro.
Dimostrazione pag.141/142
Quando non è verificata la condizione di i.m, le medie condizionate y con trattino|xi sono diverse
fra loro e diverse dalla media marginale y con trattino e questo ci dice che il variare di X influisce
sul comportamento medio di Y.
Una volta che abbiamo rilevato l'esistenza della dipendenza di Y da X, quello che ci interessa è
misurarne l'intensità,cioè stabilire, calcolando un indice interpretabile come percentuale, se tale
dipendenza è forte o debole.
Adesso che conosciamo la condizione di i.m possiamo osservare che, quando Y è i.m da X, allora le
k differenze (ycon trattino|xi-y con trattino) sono tutte uguali a zero. Dunque quando Y è i.m da X la
varianza FRA vale zero:
σ^2 FRA = 1/N sommatoria da i=1 a k (y con trattino|xi – ycon trattino)^2 fi.=0
Ricordiamoci come è fatto un è fatto un indice normalizzato quando il suo valore minimo è zero: va
diviso per il suo valore massimo.
Osserviamo poi che un rapporto vale 0 quando il numeratore è zero; allora η^2y=0 se (e solo se)
σ^2FRA=0 , cioè quando Y è indipendente in media da X. Viceversa, un rapporto è uguale a 1
quando numeratore e denominatore coincidono; allora η^2y=1 se (e solo se) σ^2FRA=σ^2y
oppure, equivalentemente, se σ^2NEI=0 ; in questo caso tutta la variabilità di Y dipende da X.
Allora tutti i valori di η^2y intermedi tra u due estremi 0 e 1 sono interpretabili come percentuali di
dipendenza si Y da X.
Quando η^2y=1 si dice che Y dipende perfettamente da X o anche che statisticamente X spiega
totalmente il variare di Y. Se a ogni modalità xi di X corrisponde un'unica modalità yi di Y, cioè su
ogni riga c'è un'unica frequenza congiunta non nulla, è sufficiente conoscere il comportamento del
fenomeno esplicativo X per sapere tutto, sulla U osservata , del comportamento del fenomeno
risposta Y. Tutto quello che abbiamo detto a proposito della dipendenza di Y da X vale anche se si
inverte il verso della dipendenza.
A differenza della connessione che è un legame biunivoco fra i fenomeni, la dipendenza è una
relazione statistica univoca. Se per esempio, Y è i.m da X, non è necessariamente vero che anche X
è i.m da Y.
(esempio pag. 145/146)
Covarianza → σxy=1/N sommatoria da i=1 a k sommatoria da j=1 a h (xi- x con trattino) (yj-y con
trattino) fij
Il valore del momento misto non è direttamente interpretabile, ma è utile per il calcolo della
covarianza.
Covarianza formula alternativa → σxy= μxy -x con trattino x(per) y con trattino
La covarianza può risultare positiva, negativa o nulla. Anche il suo valore non è direttamente
interpretabile, ma è utile per l'analisi di un'altra relazione statistica fra due fenomeni quantitativi.
Il diagramma a dispersione è uno strumento grafico utile per visualizzare il tipo di relazione
esistente fre due fenomeni X e Y quantitativi. È un diagramma cartesiano con gli assi intestati alle
modalità dei due fenomeni, per esempio X sulle ascisse e Y sulle ordinate. Le coppie di valori
osservati (xi,yj) sono viste come coordinate di punti sul diagramma. La tabella osservata è
rappresentata sul diagramma come una nuvola di kxh punti.
(esempio pag.149)
(esempio pag.151)
La relazione più semplice è quella lineare. Il valore e il segno della covarianza danno indicazioni
sulla relazione lineare fra X e Y.
σxy=1/N sommatoria i=1 a k sommatoria da j=1 a h (xi- x con trattino) (yj- y con trattino) fij
1. Cominciamo a rappresentare sul diagramma anche le medie marginali x con trattino e y con
trattino che appaiono nella formula σxy
2. La covarianza è basata sugli scarti (xi -x con trattino) e (yj – y con trattino) presi con il loro
segno (non elevati al quadrato, né presi in valore assoluto).
A seconda che le modalità xi e yj siano sopra o sotto-media, questi scarti sono positivi o
negativi, cioè corrispondono alle zone del diagramma a dispersione
3. σxy è basata sui prodotti (xi-x con trattino)(yj-y con trattino).
Ora possiamo stabilire i vari tipi di covarianza in funzione del tipo di grafico.
• Positiva σxy > 0, cioè i punti sono concentrati in questa zona del diagramma, poiché gli
scarti positivi prevalgono su quelli negativi.
• Negativa σxy < 0, cioè i punti sono concentrati in questa zona del diagramma, poichè gli
scarti negativi prevalgono su quelli positivi.
• Nulla σxy = 0, cioè i punti sono disposti in modo che gli scarti positivi e negativi si
compensino. Ciò accade quando i punti sono sparpagliati sul diagramma a dispersione
senza struttura alcuna, cioè in caso di indipendenza statistica. Succede anche quando i
punti sono strutturati secondo una relazione diversa e lontana da quella lineare, come quella
quadratica.
Quando la covarianza è positiva (σxy > 0), allora X e Y sono positivamente correlati, cioè al
crescere dell'uno cresce (linearmente) anche l'altro.
Quando la covarianza è negativa (σxy < 0), allora X e Y sono negativamente correlati, cioè al
crescere dell'uno decresce l'altro (linearmente).
Quando σxy = 0 allora X e Y sono incorrelati, cioè non esiste relazione di tipo lineare. Quando
succede questo, allora fra X e Y può esistere una relazione di tipo diverso e lontano da quella
lineare oppure non esiste nessuna relazione perché sono statisticamente indipendenti.
Una volta scoperto che X e Y sono correlati ci interessa misurarne il grado, cioè stabilirne se la
correlazione è forte o debole. La misura della correlazione è basata sulla covarianza. La più nota
misura della correlazione fra X e Y è detta coefficiente di correlazione lineare e la indicheremo
con la lettera greca rho ρ. Il coefficiente di correlazione lineare si costruisce dividendo la covarianza
per il suo valore massimo. Si dimostra che:
cioè il valore massimo della covarianza è sotto radice σ^2xσ^2y e il suo valore minimo -sotto
radice σ^2xσ^2y
ρxy assume valori fra -1 e +1 e ci dà indicazioni sia sul verso sia sull'intensità della correlazione fra
X e Y:
I valori di ρxy intermedi sono interpretabili come percentuale di correlazione. In particolare i valori
compresi fra -1 e 0 (-1 < ρxy < 0) indicano percentuale di correlazione negativa, mentre i valori
compresi fra 0 e +1 (0< ρxy< +1) indicano percentuale di correlazione positiva.
Spesso si dispone solo di dati parziali, cioè relativi a un sottoinsieme di U, che impareremo a
chiamare campione di numerosità n con n < N. L'obiettivo diventa estendere l'analisi del
comportamento di X all'intera U. tecnicamente si tratta di inferire dal campione all'intera
popolazione. I metodi statistici adeguati a questo scopo costituiscono la statistica inferenziale.
L'osservazione esaustiva della popolazione U, cioè la rilevazione del fenomeno X su tutte le N unità
di U, è chiamata censimento. Quando invece l'osservazione di X avviene solo su una parte di U si
effettua una rilevazione campionaria.
• In certi casi la rilevazione parziale si impone rispetto alla rilevazione esaustiva perché
quest'ultima è impossibile o sconveniente. Il caso limite sono le rilevazioni distruttive, cioè
quando osservare la manifestazione di X comporta il deterioramento o la distruzione
dell'unità statistica. es. rilevare la durata di una lampadina, per stabilire se la produzione
della giornata è conforme allo standard europeo, significa accenderla e spegnerla fino a che
non si fulmina. Un caso in cui la rilevazione esaustiva è impossibile si ha quando la
popolazione statistica è talmente numerosa da essere virtualmente infinita.
Il termine inferenza indica il generico processo logico di passaggio dalla premessa alla
conclusione. Un caso speciale è l'inferenza induttiva che procede dal particolare al generale.
L'inferenza statistica è un'inferenza induttiva che procede dal campione (una parte) alla
popolazione (il tutto). Per fare una buona inferenza statistica è strategico che il campione abbia la
caratteristica della rappresentatività, cioè sia un'immagine in scala ridotta ma possibilmente fedele
dall'intera U. L'inferenza statistica classica si basa su campioni casuali. Un campione è casuale se
è una parte di U scelta a caso da U stessa, cioè selezionata senza criteri o sistematicità. L'idea è che
il caso giochi a favore della produzione di un campione. La casualità del campione è garanzia della
sua rappresentatività.
Il campione rappresenta tutte e sole le informazioni note circa il fenomeno X su U, cioè i dati. È
parziale e casuale. Allora l'inferenza statistica, cioè l'estensione dell'analisi dei dati campionari
all'intera U, avviene in condizioni di incertezza e sotto l'effetto del caso.
Lo strumento scientifico per trattare il caso e i suoi effetti è la teoria della probabilità. L'inferenza
statistica avviene su base probabilistica.
Lo strumento formale per fare qualunque inferenza statistica è la variabile casuale. In particolare
parleremo di elementi di probabilità che ci servono per appropriarci di questo strumento. La teoria
della probabilità si presta a essere presentata con il linguaggio e i disegni dell'insiemistica.
Determinismo e casualità
Definizioni di base
La parte di circostanze ignote che impediscono di prevedere a priori con certezza il risultato E
definisce il caso.
Esperimento casuale → è un esperimento condotto sotto l'effetto del caso, cioè quando è nota solo
una parte delle circostanze che consentirebbero di prevederne il risultato con certezza a priori, cioè
prima di effettuare fisicamente l'esperimento. Di un esperimento casuale è possibile solo elencare a
priori l'insieme dei possibili esiti. I giochi d'azzardo, eseguiti regolarmente e senza barare, sono
esempi perfetti di esperimenti casuali.
Evento casuale → è un sottoinsieme dello spazio campionario Ώ. Notate che il concetto di evento
casuale è più generale del concetto di evento elementare. Un evento elementare è un singolo
elemento di Ώ . un evento casuale è un sottoinsieme di Ώ , cioè un insieme di eventi che può
contenerne molti,alcuni,tutti,uno solo o anche nessuno. Anche per l'evento casuale ci serve una
notazione breve;di solito si usano le lettere latine maiuscole,tipicamente E.
E C con sotto _ Ώ
che si legge “E sottoinsieme di Ώ” o,anche , “E è contenuto in Ώ ”. gli elementi di E sono eventi
elementari; un evento elementare (che è contenuto in Ώ per definizione) può appartenere o non
appartenere a E. (guardare simboli sul libro)
Infine ci serve il concetto di realizzazione di un evento casuale che è un concetto a posteriori, cioè
dopo aver eseguito l'esperimento casuale.
Un evento casuale E è realizzato o verificato se a posteriori è risultato uno degli eventi elementari
che lo compongono. Uno degli eventi elementari (appartenente a Ώ )necessariamente si verifica.
Allora visti come eventi casuali,Ώ è l 'evento certo e Ø è l'evento impossibile.
(esempio pag.198)
Probabilità
Definizioni di probabilità:
1. la definizione classica, che è la più antica e semplice ed è applicabile a spazi campionari
finiti;
2. la definizione frequentista, detta anche statistica, che è più recente e più ampia perchè
applicabile a qualunque spazio campionario e a situazioni non simmetriche.
Definizione classica → P(E) è il rapporto (cioè una frazione)fra il numero di casi favorevoli a E e il
numero di tutti i casi possibili, posto che possono ritenersi tutti ugualmente possibili.
La definizione classica di probabilità è nata nella seconda metà del '600 a uso prevalentemente dei
nobili giocatori d'azzardo. Presenta però delle ambiguità logico-matematiche che sono ineliminabili
e che ne limitano l'applicazione pratica.
• Parte integrante della definizione classica di probabilità è la richiesta che i casi probabili
sono tutti ugualmente possibili. Questo sottende già un'idea di equiprobabilità e dunque una
circolarità della definizione.
• È necessario contare sia il numero dicasi favorevoli sia il numero di casi possibili.
Nell'esempio del dado è facile, ma se si cerca di calcolare la probabilità di eventi diversi e
più complessi, la definizione classica spesso non funziona.
Già nei primi dell' 800 con il costituirsi dei banchi di mutuo soccorso,delle assicurazioni e con il
progredire della ricerca mio-medica, la definizione classica si rivela insufficiente: è impratico o
impossibile contare i casi possibili e i casi favorevoli al verificarsi di eventi quali la “la morte entro
una certa età” ecc. si viene così a formare una nuova definizione di probabilità basata
sull'osservazione.
Definizione frequentista o statistica → questa definizione si basa sulla legge empirica del caso,
cioè una regola che non si può dimostrare matematicamente ma che si osserva sistematicamente
nella pratica. L'evento E di cui si vuole calcolare la probabilità P(E) è pensato come il risultato di un
esperimento casuale ripetibile un gran numero N di volte sempre nelle stesse condizioni.
Al termine di tali N prove, E si sarà verificato f volte (e non si sarà verificato le rimanenti N -f
volte). La legge empirica del caso dice che la frequenza relativa f/N del verificarsi di E tende a
stabilizzarsi intorno a un certo valore man mano che aumenta il numero N di ripetizioni
dell'esperimento (sempre nelle stesse condizioni). La definizione frequentista o statistica di
probabilità si basa su questa legge empirica e stabilisce che la probabilità di E è proprio quel valore,
intorno al quale tende a stabilizzarsi la frequenza relativa dopo un numero sufficientemente grande
di prove.
(esempio pag.199)
Esempio → lanciamo la moneta e togliamo la richiesta che la moneta sia regolare e bilanciata.
Permettiamo di usare una moneta truccata che pesa di più dalla parte della testa:la definizione
classica non è più applicabile perché i casi possibili non sono più ugualmente possibili.
Invece osservando un gran numero di lanci di questa moneta, la legge empirica del caso metterà in
evidenza che P(testa) > P(croce) e la definizione frequentista si può applicare.
Per risolvere casi anche più estremi di questo sono state sviluppate altre definizioni.
Ai nostri fini conviene fermarci qui: la probabilità di un qualunque evento casuale E è un numero
compreso fra 0 e 1 (0 ≤ P(E) ≤ 1) calcolato secondo la definizione classica o secondo la definizione
frequentista che, nel caso siano entrambi applicabili, conducono in genere allo stesso risultato.
Variabile casuale
Possiamo pensare la variabile casuale come lo strumento matematico che permette di concentrarsi
sulle sole caratteristiche dell'esperimento che interessano e che trasforma gli eventi casuali in
numeri reali, conservandone comunque la probabilità (che è già un numero).
In questo modo le caratteristiche dell'esperimento che interessano, gli eventi e le loro probabilità,
divengono trattabili matematicamente.
Variabile casuale → è una funzione con dominio nello spazio campionario Ώ e codominio
nell'insieme dei numeri reali, a cui rimangono associate le probabilità degli eventi di Ώ.
Abbiamo imparato che una funzione è una regola che prende ciascun elemento da un insieme (che
si chiama dominio) e lo trasforma in elemento di un altro insieme (che si chiama codominio).
Gli elementi dell' insieme d'arrivo sono i valori della funzione.
La v.c. Prende gli elementi di Ώ e suoi sottoinsiemi (cioè gli eventi) e li trasforma in numeri reali,
cioè in valori della v.c.
In questa trasformazione non si perdono però di vista le probabilità, che dagli eventi passano ai
corrispondenti valori della v.c.
Vista in questo modo la v.c., con cui si fa l'inferenza statistica, formalizza le situazioni casuali, cioè
gli eventi E e le loro probabilità P(E), in analogia alla variabile statistica (v.s.) con cui abbiamo
imparato a fare la statistica descrittiva.
(esempio pag. 201/202 “lancio di due monete”) → la v.c. Dell'esempio è discreta, cioè assume un
numero finito di valori e tali valori sono numeri interi. La somma delle probabilità di tutti i valori
x della v.c. X è pari a 1 in perfetta analogia con la somma delle frequenze relative per una v.s.
V.c.discreta di X → v.c. che assume un numero finito (o infinito numerabile) di valori x che di
solito sono numeri interi.
in formule :
P(X=x) con ∑(con sotto x) P(X=x)=1
Sfruttando l'analogia fra v.s. e v.c. è poi possibile trasferire sulla v.c parecchi concetti della statistica
descrittiva; in particolare:
• Media che quando è riferita a una v.c. viene anche detta valore atteso o in inglese
expectation.
Definiamoli formalmente:
media o valore atteso → è definita e calcolata come per la v.s. ma usando le probabilità al posto
delle frequenze. Il simbolo per indicare la media di una v.c. X è standard e fa riferimento all'inglese
expectation:
E(X) = ∑ (con sotto x)x per P(X=x)
E(X) si legge “E di X” e significa “media della v.c. X”(in particolare la formula vale per le v.c.
discrete)
varianza → è definita e calcolata come per la v.s. ma usando le probabilità al posto delle frequenze.
È una misura della variabilità di X, cioè della dispersione dei suoi valori intorno al suo valore
atteso, ponderata con le probabilità.
In formule:
V(X)= ∑(con sotto x)[x-E(X)]^2 per P(X=x)
V(X)si legge “V di X”e significa “varianza della v.c. X” ( in particolare la formula vale per le v.c.
discrete;in generale, vale V(X) = E(X^2)-E (x)^2 : vedi formula alternativa cap.7)
(esempio pag.203/204)
è una particolare v.c discreta. Serve per modellare situazioni casuali che hanno 3 caratteristiche.
2. Ciascuna prova può avere come esito uno (e soltanto uno) di due eventi fra loro contrari ed
esaustivi. Per intenderci chiamiamo questi eventi successo e insuccesso. In questo modo si
possono modellare i fenomeni dicotomici, cioè i fenomeni statistici che si manifestano con
2 sole modalità contrarie ed esaustive; per esempio si/no, vero/falso..
3. in ciascuna prova, la probabilità del successo, che denoteremo con p, è nota e costante.
Poiché p è una probabilità, è un numero compreso fra 0 e 1 e conseguentemente è nota
anche la probabilità dell'insuccesso.
In formule:
P(successo) = p, 0 < p < 1 → P(insuccesso) = 1 – p
Per indicare brevemente la v.c binomiale useremo la notazione:X ~ Bin(n,p) che si legge “X è una
v.c binomiale con parametri n e p”. il numero di prove indipendenti n e la probabilità del successo p
sono infatti chiamati parametri della v.c.
La situazione è più complicati di semplici giochi di sorte come il lancio della moneta; non possiamo
rappresentare Ω elencandone tutti gli elementi. Ora possiamo solo immaginare la generica struttura
dei nostri eventi elementari. Ciascuna prova può avere come esito o un successo o un insuccesso e
di prove ne facciamo n. allora il generico risultato della serie di n prove, cioè il generico evento
elementare, è una n-upla (ennupla) di successi e insuccessi assortiti:
SIS…SII…S=n
Ogni n-upla può contenere 0 successi, oppure 1 successo e n-1 insuccessi, oppure 2 successi e n-2
insuccessi e così via fino a n successi, il tutto in qualunque ordine.
La v.c binomiale X concentra l'attenzione sul numero di successi nelle n prove indipendenti. I suoi
possibili valori x sono allora i numeri interi da 0 (se la n-upla è composta da tutti insuccessi) a n (se
la n-upla è composta da tutti successi).
In formule :
X ~ Bin(n,p) con n > 0 intero, 0 < p < 1 e x =0,1,2,...,n
Però una n-upla che contiene x successi e (n-x) insuccessi può presentarsi in molti ordini diversi.
Per contare il numero di possibili combinazioni di x successi e (n-x) insuccessi in ordine diverso, si
usa il coefficiente binomiale n su x
n su x= n!/x! (n-x)!
Dove n! (n fattoriale) è un modo più compatto di scrivere il prodotto dei primi n numeri interi:
n!= n(n-1) per (n-2) … per 3 per 2 per 1
Il coefficiente binomiale è proprio quello che ci serve per tener conto di tutti i possibili diversi
ordinamenti in cui può presentarsi una n-upla contenente x successi e (n-x) insuccessi. Non ci resta
che mettere insieme tutti i pezzi e finalmente abbiamo la funzione di probabilità di X ~ Bin(n,p):
P(X=x)= (n su x)p^x (1-p)^n-x con x= 0,1,2, … , n
Questa formula è il metodo per calcolare la probabilità di x successi su n prove indipendenti (con
probabilità di successo p in ciascuna prova).
Dunque si chiama v.c binomiale perché per calcolare le sue probabilità serve il coefficiente
binomiale.
Per fare inferenza statistica sui fenomeni statistici continui, cioè quelli che non si possono contare
ma solo misurare, servono le v.c continue.
• Le v.c continue assumono infiniti valori. Tali valori sono talmente tanti e densi da non poter
essere identificati singolarmente né si è in grado di vederne la probabilità. Nel continuo
occorre fare riferimento a insiemi di valori, cioè intervalli. I singoli punti perdono di
significato e la probabilità è calcolabile solo per gli intervalli.
• Siccome nel continuo i singoli valori non sono visibili, le v.c continue non hanno la funzione
di probabilità P(X=x). Hanno invece la funzione di densità, che indicheremo con la lettera
greca fi φ. La funzione di densità serve per calcolare la probabilità di intervalli di valori di
una v.c X continua.
• Nel continuo le probabilità sono aree. L'area sottesa al grafico della funzione di densità φ(x)
(si legge “φ di x”) in un intervallo è la probabilità che X assuma valori in quel intervallo.
(esempio pag.208)
Poiché nel continuo i singoli punti hanno probabilità 0, aggiungere o togliere uno o più singolipunti
a un intervallo non fa cambiare la sua probabilità; e in generale, con le v.c continue non fa
differenza ≤ o < (mentre può fare differenza con le v.c discrete).
è la più nota fra le v.c continue. Molti la chiamano v.c di Gauss o gaussiana perché fu il primo ad
usarla ma l'assegnazione dei meriti non è chiara perciò noi la chiameremo v.c normale.
Normalmente si presta ad interpretare un grande insieme di fenomeni statistici continui.
Per esempio la v.c binomiale diventa sempre più simile ad una v.c normale quando il parametro n,
cioè il numero delle prove indipendenti, è molto grande, fino a confondersi con una normale quando
n → ∞.
Useremo la notazione X~N (μ,σ^2) che si legge “X è una v.c normale di parametro mu e sigma
quadro”. Il parametro μ può essere un numero reale qualunque, mentre il parametro σ^2 è un
numero reale positivo. La Normale e la sua funzione di densità hanno caratteristiche e proprietà
importanti:
1. è v.c continua e assume tutti i possibili valori reali: -∞ < x < +∞ .
3. l'area totale sottesa all'intera curva φ(x) corrisponde alla probabilità dell'intero intervallo
(-∞,+∞) ed è pari a 1.
6. la curva a campana è simmetrica rispetto a μ, cioè l'area sottesa alla curva a destra e a
sinistra di μ è uguale e dunque pari a 0,5 (perché l'area totale è 1). in termini di probabilità
questo significa: P(X ≤ μ ) = P(X ≥ μ) = 0,5
e in termini statistici questo vuol dire che X assume valori sotto-media e sopra-media con la
stessa probabilità.
8. La curva a campana ha una parte con concavità verso il basso (la pancia centrale) e due tratti
con concavità verso l'alto (le due code). I punti in cui la campana cambia concavità (flessi)
corrispondono ai punti μ – σ e μ + σ, cioè una deviazione standard dal valore medio.
9. I parametri μ e σ^2 della Normale, oltre che a rappresentare media, moda, mediana e
varianza di X, determinano anche la posizione e la forma della campana.
10. La probabilità di un qualunque intervallo (a,b) di valori di X è l'area sottesa alla campana
in quell'intervallo.
Variando μ in più o in meno (a parità di σ^2 ) si determinano traslazioni (shift) della campana a
destra o a sinistra. La campana resta sempre centrata su μ, dunque aumentando o diminuendo il
valore il grafico cambia posizione viaggiando lungo l'asse delle ascisse.
• i valori più probabili sono vicini a tale valore prevalente ( area intorno a μ);
• i valori lontani da μ sono rari e poco probabili (area sotto le code della curva);
Standardizzando una v.c normale (Normale) X~N (μ,σ^2), con la sua media μ e la sua deviazione
standard √ σ = σ , si ottiene la v.c normale standardizzata o semplicemente standard indicata
2
con Z. useremo la notazione Z~N (0,1). la normale standard si ottiene standardizzando una
qualunque v.c normale X~N (μ,σ^2):
Z = X- μ / √ σ2 = X- μ / σ
Calcolare la probabilità di intervalli della Z~N (0,1) è molto complesso. Qualcuno, a questo scopo,
ha prodotto delle tavole. Passando attraverso la Z~N (0,1) e la sua tavola è possibile calcolare la
probabilità di qualunque intervallo di valori (a,b) di qualunque v.c X~N (μ,σ^2).
La prima colonna a sinistra della tavola riporta i valori z della Z~N (0,1) con la prima cifra
decimale; la prima riga riporta la seconda cifra decimale del valori z; all'interno della tavola,
all'incrocio della riga e della colonna che identificano un particolare valore z con due cifre decimali,
si legge la probabilità (area)che Z assuma valori inferiori o uguali a quel valore z.
le tavole della Z riportano le probabilità P(Z ≤ z) solo per valori z positivi e inferiori a (in genere)
3,5.
le caratteristiche della Z, in particolar la simmetria della curva rispetto allo 0 e il fatto che l'area
totale sotto la curva vale 1, fanno sì che questi valori siano sufficienti per calcolare la probabilità di
qualunque intervallo, anche con gli estremi negativi o superiori a 3,5.
(esempio pag.215)
Tavola della v.c normale standardizzata → guardare pag. 220 oppure sul quaderno
Anche quando l'obiettivo è inferire e non solo descrivere,il primo passo consiste nel procurarci i
dati. In ambito inferenziale questo significa procurarci il campione che è un sottoinsieme dell'intera
popolazione U su cui ci interessa studiare il fenomeno X.
L'inferenza statistica si basa su campioni casuali. L'operazione di scelta casuale del campione di n
unità statistiche fra le N che compongono l'intera U è chiamata campionamento.
Il numero n è detto numerosità o ampiezza campionaria; di solito è prefissato, cioè scelto a priori
prima di effettuare fisicamente il campionamento, ed è più piccolo di N(n < N), in genere molto più
piccolo. Il campionamento è allora un esperimento casuale trattabile con la teoria della probabilità.
Si conoscono molti metodi per effettuare il campionamento; insieme formano una branca della
statistica separata e in espansione: la teoria dei campioni.
Gli elementi di inferenza (classica) che vedremo, sono basati sul tipo più semplice di campione
casuale, che chiamiamo bernoulliano.
Ci sono però teoremi di teoria della probabilità che garantiscono quanto segue:
Possiamo infatti intuire che quando estraiamo una unità da una popolazione molto grande, se la
reinseriamo in U prima di effettuare un'altra estrazione, la probabilità di riestrarla è molto piccola,
diciamo pure 0. Allo stesso tempo, se non la reinseriamo, la probabilità di estrarre un qualunque
delle rimanenti unità rimane praticamente invariata.
Perciò quando la popolazione è “molto grande” e la frazione di campionamento n/N è
“sufficientemente piccola”, tutti gli strumenti di inferenza statistica che richiedono un campione
bernoulliano, si possono applicare anche a campioni senza reinserimento perché tendono a produrre
risultati equivalenti.
Però non c'è una regola teorica che ci dica quando n è sufficientemente grande e quando n/N è
sufficientemente piccolo. La teoria ci dice che n deve tendere all'infinito e che n/N deve mantenersi
limitato.
Perché il campione è una parte della popolazione scelta casualmente, dalla stessa U sono estraibili
molti diversi campioni, spesso così tanti da poterli pensare infiniti.
Sappiamo che la casualità del campione è una garanzia della sua rappresentatività, ma, per contro,
produce incertezza.
Ciascuno dei differenti campioni estraibili da U può darci un immagine più o meno fedele di U
perché fornisce un' informazione parziale e potenzialmente differente circa il comportamento su U
del fenomeno che ci interessa. Questo è il concetto di variabilità campionaria.
Il processo di inferenza statistica avviene sotto l'effetto della variabilità campionaria, perché i soli
dati noti sono quelli del campione effettivamente estratto, che è uno fra i tanti possibili.
La conseguenza, cioè la “la faccia scura” della variabilità campionaria, è che l'inferenza statistica
comporta necessariamente incertezza e rischio di errore. Chiameremo questo concetto: errore
campionario.
Fare buona inferenza significa controllare e misurare l'errore campionario.
Il metodo statistico per tenere sotto controllo l'errore campionario si basa sul considerare tutti i
possibili campioni che ci possono capitare e sull'usare delle speciali v.c campionarie per interpretare
la variabilità campionaria.
Poiché nel campione bernoulliano le estrazioni sono indipendenti, allora le v.c estrazioni
campionarie Xi sono tra loro indipendenti. Infine, poiché xi può coincidere con uno qualunque dei
possibili valori del fenomeno, a sua volta interpretato dalla v.c X, si ha anche che ciascuna v.c
estrazione campionaria Xi è identica a X e, in quanto identica, ha la stessa media e la stessa
varianza. Riassumiamo i simboli e capiamo la differenza concettuale fra X, xi e XI.
• Osservazione campionaria: xi, uno qualunque dei valori del fenomeno in U e dunque di
X.
• v.c estrazione campionaria: Xi, di cui xi rappresenta uno dei possibili valori.
• Xi è identica a X. Allora
E(Xi) = E(X)= μ e V(Xi)=V(X) = σ^2
per tutte le estrazioni campionarie, cioè per i=1, … , n
La statistica inferenziale offre metodologie per risolvere due grandi classi di problemi di inferenza:
1. la stima dei parametri, con l'obiettivo di usare i dati campionari per inferire il valore dei
parametri ignoti;
2. la verifica di ipotesi statistiche, con l'obiettivo di usare i dati campionari per inferire se è
accettabile o meno un valore che si ipotizza per i parametri ignoti.
Ora impariamo a stimare i parametri ignoti. Esistono due grandi classi di metodi per stimare un
parametro ignoto: con un unico valore, e in questo caso si parla di stima puntuale,oppure con un
intervallo di valori, e si parla allora di stima intervallare. In questo capitolo parleremo di stima
puntuale. Qui, l'errore campionario assume l'aspetto di errore di stima:quanto più piccolo è l'errore
di stima tanto più precisa, accurata,affidabile è la stima.
Stima puntuale
è la metodologia statistica che utilizza le informazioni campionarie per:
il metodo più semplice per stimare puntualmente un parametro ignoto consiste nel procedere per
analogia: per stimare l'ignota media della popolazione useremo la media dei dati campionari, per
stimare l'ignota varianza della popolazione useremo la varianza del campione e per stimare una
percentuale useremo la percentuale campionaria.
(esempio pag. 228)
Stabilire se una stima è affidabile e sufficientemente precisa significa controllare e misurare l'errore
campionario in termini di probabilità.
Stima puntuale → la stima puntuale di un ignoto parametro è una qualche funzione dei (formula da
applicare ai )dati campionari x1 … xi … xn.
La stima di un parametro è quindi il risultato di un calcolo eseguito sugli n dati x1 … xi ...xn, per
ottenere un unico numero da sostituire al parametro in U(che è e rimane ignoto).
Per controllare l'errore di stima dobbiamo tener conto di tutti i possibili risultati ottenibili da tutti i
possibili campioni. Per fare questo affianchiamo al concetto di stima il concetto di stimatore o
statistica campionaria.
Stimatore o stat. campionaria → è la stessa funzione (formula) che definisce la stima, ma applicata
alle v.c estrazioni campionarie X1 … Xi … Xn.
Lo stimatore serve per interpretare la variabilità campionaria e per controllare l'errore campionario.
Useremo la lettera maiuscola per indicare lo stimatore e la corrispondente lettera maiuscola per
indicare la stima.
per stimare puntualmente l'ignota media μ di U usiamo la media aritmetica degli n dati campionari.
Chiameremo questa stima media campionaria e le indicheremo con x con trattino che si legge “x
sopra-segnato” o anche “x medio”.
La più nota e semplice proprietà richiesta ad uno stimatore è detta non distorsione (unbiasedness).
Lo stimatore è una v.c e come tale ha un suo valore atteso.
Lo proprietà di non distorsione riguarda il valore atteso dello stimatore.
Non distorsione → uno stimatore è non distorto (unbiased) se il suo valore atteso coincide con il
parametro oggetto di stima . Se questo non succede, lo stimatore è distorto (biased).
La non distorsione è una proprietà auspicabile per uno stimatore perché si presta alla seguente
interpretazione.
Interpretazione della non distorsione → fra tutti i possibili campioni ve ne sono alcuni che
forniscono sotto-stime del parametro, altri che forniscono sovra-stime del parametro e altri ancora
che forniscono valori vicini o magari identici al parametro oggetto di stima. Richiedere che uno
stimatore sia non distorto significa garantire che sovra-stime e sotto-stime si compensino sul totale
dei campioni estraibili e che in media lo stimatore coincida con ciò che si vuole stimare.
Uno stimatore distorto è viceversa uno stimatore che tende alla sotto-stima o alla sovra-stima e così,
in media, non coincide con ciò che si vuole stimare.
Poiché lo stimatore è un oggetto teorico, il parametro che si vuole stimare è ignoto e il campione
effettivamente estratto (cioè gli unici dati a disposizione) è solo uno fra i molti possibili, allora la
non distorsione si può accettare solo teoricamente.
Quando è verificata,questa proprietà passa alla stima effettivamente calcolata sull'unico campione
estratto. Poiché tale stima è uno dei possibili valori di uno stimatore non distorto, si parlerà di stima
non distorta a garanzia dell'affidabilità dell'inferenza.
La media campionaria è stima per l'ignota media μ in U. Il corrispondente stimatore è non distorto
per μ perché il suo valore atteso è proprio uguale a μ.
Se lo stimatore è distorto allora il suo valore atteso non coincide con il parametro da stimare, ma
risulta più grande (sovra-stima) o più piccolo (sotto-stima). Questo succede quando, su tutti i
possibili campioni che possono capitare,sovra-stime e sotto-stime non si compensano e lo stimare
mostra tendenza a sovrastimare oppure a sottostimare il valore del parametro ignoto.
La non distorsione è una buona proprietà ma non basta a garantire una corretta inferenza.
Una stima non distorta è affidabile perché è uno dei possibili valori di uno stimatore che in media
coincide con ciò che si vuole stimare. Questo però non ci dice nulla riguardo a quanto la stima è
precisa e accurata, cioè quanto è vicina ala parametro che si vuole stimare. Idealmente, uno
stimatore può essere non distorto ma, allo stesso tempo, non essere mai vicino a ciò che si vuole
stimare e dunque non essere un buon stimatore.
(esempio pag. 232)
Per farlo abbiamo bisogno di una nuova sintesi statistica di uno stimatore: l'errore quadratico
medio.
Esso è un modo per esprimere in formule l'errore campionario associato all'inferenza nel processo
di stima, cioè l'errore di stima. Misura quanto lo stimatore è preciso, quanto è vicino all'ignoto
parametro che si vuole stimare.
Ora vogliamo esprimere in formule l'errore campionario intrinseco nella sostituzione dell'ignota μ
con la stima x con trattino. Un buon punto di partenza è allora la differenza (x con trattino – μ).
Sappiamo che i possibili campioni sono molti e che ciascuno può fornire un diverso valore della
stima per effetto della variabilità campionaria. Teniamo allora conto di tutti i possibili campioni
facendo riferimento allo stimatore X con trattino e definiamo un errore totale: (X con trattino – μ).
Tale errore può risultare positivo su alcuni campioni (sovra-stime) e negativo su altri (sotto-stime),
ma è sempre un errore. Eliminiamo allora l'influenza del segno elevando al quadrato: (X con
trattino – μ) ^2. infine consideriamo l'errore medio di stima, mediando su tutti i possibili campioni
estraibili: E(X con trattino – μ)^2.
Questa quantità è chiamata errore quadratico medio (mean squared error) e lo indicheremo con
MSE. È quadratico perché basato sul quadrato delle differenze fra lo stimatore e ciò che si vuole
stimare; è medio perché considera il valore atteso di tutte le possibili differenze su tutti i possibili
campioni.
MSE di uno stimatore → è il valore atteso della differenza al quadrato fra lo stimatore e il
parametro che si vuole stimare. È una quantità teorica che misura la dispersione dei valori dello
stimatore (cioè tutte le possibili stime) intorno all'oggetto della stima (cioè il parametro ignoto).
Quanto più piccola è tale dispersione, tanto più preciso e accurato è lo stimatore:le stime saranno
tutte vicine al parametro da stimare e,dunque, anche la stima che si ottiene dal (unico) campione a
disposizione.
L'MSE di qualunque stimatore è formato sia dalla sua varianza sia dalla sua eventuale distorsione
elevata al quadrato:
MSE =V + Dist.^2
innanzitutto osserviamo che se uno stimatore è non distorto, cioè Dist=0, allora il suo MSE coincide
con la sua varianza. È allora una buona cosa usare stimatori non distorti, perché in questo modo
conteniamo l'errore azzerandone un “pezzo”.
Accanto a questo, osserviamo che per ridurre l'errore di stima va controllata la varianza V dello
stimatore.
vogliamo vedere com'è fatto l'MSE della media campionaria. Conoscere la formula dell'errore di
stima è il passo necessario per capire come controllarlo e ridurlo.
Innanzitutto ci ricordiamo che X con trattino è stimatore non distorto per μ, dunque il suo MSE
coincide con la varianza.
MSE della media campionaria → MSE (X con trattino)= E(X con trattino – μ)^2=V(X con
trattino)
La varianza della media campionaria è dunque anche il suo MSE perché è stimatore non distorto.
Allora: V(X con trattino)=MSE (X con trattino)= σ^2/n
misura l'errore di stima che si commette sostituendo x con trattino all'ignoto μ.
Qualunque sia il fenomeno di interesse in U, qualunque siano la sua ignota distribuzione, la sua
media μ e la sua varianza σ^2, lo stimatore media campionaria ha sempre valore atteso che
coincide con μ e varianza che coincide con σ^2/n. Ecco perché la media campionaria è una buona
stima dell'ignota media della popolazione.
Noi ci limitiamo ad intuirla: a un buon stimatore si richiede che sia sempre più preciso, riducendo
l'errore di stima, all'aumentare dell'ampiezza campionaria n, quando cioè aumentano i dati introdotti
nel processo di stima.
Quando ciò non succede, lo stimatore non merita neanche di essere chiamato tale.
Se lo stimatore è già non distorto come la media campionaria, per essere consistente basta che la sua
varianza diventi sempre più piccola (fino a diventare 0) al crescere dell'ampiezza campionaria n.
Notate che uno stimatore non distorto con varianza nulla è uno stimatore perfetto, che non comporta
errore di stima.
Per uno stimatore non distorto e consistente, questo succede con un campione di ampiezza
teoricamente infinita. Usando uno stimatore non distorto e consistente e un campione
sufficientemente ampio, si approssima questa ideale situazione teorica.
Sappiamo che MSE(X con trattino)=V(X con trattino) perché la media campionaria è non distorta.
Abbiamo anche dimostrato che: V(X con trattino)= σ^2/n.
Aumentando il denominatore di una frazione si ottiene un numero più piccolo.
Allora la V(X con trattino)diventa sempre più piccola all'aumentare di n.
quindi la media campionaria, oltre che non distorta, è anche consistente per μ. È tanto più precisa
quanto più è grande il campione, qualunque sia il campione estratto e qualunque sia il reale ma
ignoto valore di μ.
Consistenza della media campionaria → La media campionaria è consistente per μ perché per il
corrispondente stimatore X con trattino valgono le due condizioni (sufficienti) seguenti:
È un criterio di scelta quando si dispone di due o più diversi stimatori per lo stesso ignoto
parametro.
Ovviamente è preferibile lo stimatore più preciso, cioè quello che garantisce l'errore di stima
inferiore.
Abbiamo imparato che l'errore di stima si può misurare con l'MSE:lo stimatore con MSE inferiore è
detto il più efficiente fra i due o più a disposizione ed è pertanto quello preferibile.
Se si tratta di stimatori non distorti,l'MSE coincide con la varianza e dunque il confronto avviene fra
le varianze:lo stimatore non distorto con varianza inferiore è il più efficiente fra i due o più a
disposizione.
Un importante teorema garantisce che lo stimatore X con trattino è il più efficiente fra tutti i
possibili stimatori non distorti per μ.
usare la media del campione è un modo molto naturale per stimare l'ignota media della popolazione,
ma è anche un buon metodo dal punto di vista teorico:
la media campionaria x con trattino è non distorta, consistente ed efficiente per μ (sempre che il
campione sia casuale e bernoulliano).
Il parametro ignoto oggetto dell'inferenza è ora la varianza del fenomeno nella popolazione
V(X)=σ^2. Sulla base dei soli dati disponibili, cioè il campione bernoulliano: x1 … xi … xn, la
stima naturale per la varianza di U è la varianza del campione
Questa volta, però,le cose non funzionano: si può dimostrare che il corrispondente stimatore è
distorto per σ^2, cioè ha valore atteso che non coincide con ciò che si vuole stimare e ha tendenza a
sotto-stimare. Fortunatamente, ottenere uno stimatore non distorto è semplice: basta dividere per
(n-1) anziché per n nel calcolo della varianza del campione.
Chiameremo questa stima varianza campionaria corretta e la indicheremo con s^2 (si legge “s
quadro”).
La quantità (n-1) che va posta al denominatore della stima s^2per garantirne la non distorsione, è
chiamata gradi di libertà.
Rispetto alla media campionaria, la varianza campionaria corretta è una funzione dei dati
campionari un po' più complessa, perciò non è semplice calcolare valore atteso e varianza del
corrispondente stimatore per valutarne le proprietà.
Si può dimostrare che la varianza campionaria corretta è non distorta per σ^2.
È anche consistente, cioè l'errore di stima che si commette stimando σ^2 con s^2 diminuisce al
crescere dell'ampiezza campionaria.
Questa diminuzione è,però, più lenta rispetto a quella della media campionaria e, conseguentemente,
per ottenere stime sufficientemente precise occorrono campioni più grandi.
Se poi l'obiettivo è stimare, anziché la varianza, la deviazione standard del fenomeno in U, cioè
stimare σ= √σ^2, bisogna ricordare che √s^2 in generale è distorta per σ (e l'unico modo per
correggerla è aumentare l'ampiezza del campione n).
Abbiamo imparato che l'errore quadratico medio di uno stimatore è una misura dell'errore di stima
e dunque della sua precisione (accuracy). L'MSE considera tutti i possibili campioni (cioè l'intero
spazio campionario) e, quindi, è un oggetto teorico.
Nella pratica si usa il (unico) campione a disposizione per stimare l'errore di stima.
Saper stimare la varianza della popolazione σ^2 è importante sia quando proprio σ^2 è l'oggetto
dell'inferenza, sia quando si vuole stimare l'errore di stima associato all'inferenza su qualunque altro
parametro di U.
Infatti, quanto più il fenomeno X è variabile in U, tanto più difficile e rischiosa è l'inferenza basata
su dati parziali e tanto maggiore è il rischio di errore campionario.
Qualunque sia il parametro che vogliamo stimare, in genere la precisione dello stimatore dipende da
n e da σ^2. Mentre l'ampiezza campionaria n è nota ed è controllabile sulla base delle risorse
disponibili (tempo e budget), σ^2 non è controllabile (il fenomeno è quello che è in U) e di solito è
ignota.
Vediamo allora come usare la varianza campionaria corretta s^2 (che stima σ^2 )per stimare l'errore
campionario associato a un qualunque stimatore. Come al solito useremo la media campionaria
come caso-guida.
Cominciamo ad osservare che l'MSE è quadratico, cioè misura l'errore di stima prendendo le
differenze fra stimatore e parametro elevate al quadrato.
per rimediare a questi effetti collaterali prendiamo la radice quadrata √MSE che è una misura
teorica dell'errore medio di stima con la stessa unità di misura e con lo stesso ordine di grandezza
del fenomeno in U. La stima dell'errore medio di stima, calcolata sugli stessi dati campionari, è
detta standard error dello stimatore e la indicheremo con SE.
Standard error della media campionaria → poiché X con trattino è stimatore non distorto, si tratta
di stimare √V(X con trattino)= √σ^2/n stimando σ^2 con la varianza campionaria corretta:
SE(X con tarttino)=√s^2/n
SE è un numero calcolato sul campione che stima l'errore medio che si commette sostituendo
all'ignoto parametro la stima calcolata sul medesimo campione. Nella pratica è buona regola
associare a ogni stima il suo SE che, utilizzando gli stessi dati campionari, ne quantifica
probabilisticamente la precisione.
(esempio pag.240)
Nella ricerca sociale interessano particolarmente i fenomeni categoriali e in special modo quelli
dicotomici, cioè quelli che si manifestano con due sole modalità contrarie ed esaustive:si/no,
vero/falso...
L'oggetto della stima è qui la percentuale di unità statistiche o casi che, fra tutte quelle che
compongono la U di riferimento, è classificabile in una data categoria.
(esempio pag. 241)
La stima più naturale per l'ignota frequenza relativa p di soggetti classificabili nella categoria di
interesse, è la corrispondente frequenza relativa nel campione, cioè la frequenza relativa
campionaria che indicheremo con p con sopra ^ (si legge “pi cappuccio” o “pi cappello”).
(esempio pag.242)
L'affidabilità di questa stima risiede nelle proprietà statistiche del corrispondente stimatore p con ^.
cominciamo a capire come è fatta la v.c X che interpreta il fenomeno categoriale in U. X può
assumere due soli valori, che convenzionalmente identifichiamo con 0 e 1 :
• assume valore 1 in corrispondenza di soggetti classificabili nella categoria di interesse;
• assume valore 0 in corrispondenza di soggetti non classificabili nella categoria di interesse.
la somma dei dati campionari sommatoria da i=1a n xi ci dà il numero di soggetti campionati che,
fra gli n estratti, sono classificabili nella categoria che ci interessa. Dividendo tale somma per
l'ampiezza del campione si ottiene la stima cercata. In formule la stima p con ^ ha allora la stessa
forma della media campionaria.
Siccome la frequenza relativa campionaria p con ^ si ottiene dividendo tale somma per n, allora il
corrispondente stimatore è:
p con ^ = Bin(n,p)/n
Quando abbiamo parlato della v.c binomiale abbiamo detto che ha valore atteso pari a n per p e
varianza pari a n per p per (1-p).
Allora si determinano velocemente il valore atteso, la varianza e lo standard error dello stimatore P
con ^ per valutarne proprietà e precisione.
Non distorsione della frequenza relativa (percentuale) campionaria → la stima p con ^ è non
distorta per p, perché il corrispondente stimatore ha valore atteso uguale a p:
E(P con^)=E (Bin(n,p)/n)=1/nE[Bin(n,p)]=n per p/n=p
cioè P con ^ è stimatore non distorto per p.
Poiché lo stimatore frequenza relativa campionaria P con ^ è non distorto e la sua varianza ha n al
denominatore, allora è anche consistente per p. Inoltre, siccome p con^ ha la stessa forma della
media campionaria, è anche il più efficiente fra tutti gli stimatori non distorti per p.
Infine il suo standard error si ottiene stimando √V(P con^)= √p(1-p)/n cioè usando la stessa stima
p^.
standard error della frequenza relativa (percentuale) campionaria → SE(p^)= √p^ (1-p^)/n
Anche per stimare una percentuale abbiamo quindi un metodo molto naturale perché si usa la
corrispondente percentuale campionaria (100 per p^).
è anche un buon metodo sotto il profilo teorico poiché p^ è una stima non distorta, consistente ed
efficiente per p. Attenzione però: tutto questo è vero se il campione è bernoulliano.
Man mano che ci si allontana da questa situazione teorica ideale vengono meno le proprietà della
stima, l'effettivo errore di stima si allontana dall'errore puramente campionario stimato con lo
standard error e non si è più in grado di valutarlo e controllarlo probabilisticamente.
Introduciamo un altro metodo di stima:la stima intervallare. A differenza della stima puntuale che
produce un unico valore, la stima intervallare utilizza i dati campionari per produrre un intero
insieme di valori che ragionevolmente contiene l'ignoto valore del parametro.
• È un metodo sempre applicabile, cioè la stima puntuale è sempre calcolabile a partire dai
soli dati campionari. Non richiede informazioni o ipotesi ausiliarie sul fenomeno in U e/o
sulla v.c X che lo interpreta.
• È semplice. Abbiamo visto infatti che basta procedere in analogia: la media μ si stima con la
media del campione x con trattino, la varianza σ^2 si stima con la varianza del campione s^2
(con il semplice accorgimento di dividere per i gradi di libertà (n-1) al fine di lavorare con
uno stimatore non distorto) e la frequenza relativa p (o la percentuale 100 per p) si stima con
la corrispondente frequenza relativa campionaria p con^ (o la percentuale campionaria 100
per p^).
• È difficile avvicinarsi ad azzeccare l'ignoto valore del parametro con un unico valore
puntuale.
• L'affidabilità della stima puntuale risiede tutta nella garanzia probabilistica offerta dalle
proprietà teorico-formali del corrispondente stimatore. A livello pratico, l'errore medio di
stima lo si può solo stimare con lo standard error e utilizzando gli stessi dati campionari.
Più interessante è il metodo di stima che produce un insieme di possibili valori ragionevolmente
sostituibili all'ignoto parametro, cioè una stima intervallare.
A garanzia della sua affidabilità, alla stima intervallare è poi associabile un numero (sempre
trasformabile in percentuale) che misura la probabilità con cui il corrispondente stimatore
(intervallare) contiene effettivamente l'ignoto parametro.
Infatti c'è il rischio di costruire un insieme di valori che non contiene l'ignoto valore del parametro
che stiamo stimando. Questo errore è qui quantificato in termini di probabilità e soprattutto
possiamo pre.fissarlo piccolo quanto ci pare.
(esempio pag. 256)
La stima intervallare che vedremo è la più nota e più utilizzata. È detta intervallo di confidenza e
la indicheremo con IC.
Intervallo di confidenza → per un ignoto parametro. È un intervallo di valori calcolato sui dati
campionari, per il quale si può confidare, a un prescelto livello probabilistico, che contenga l'ignoto
valore del parametro.
• Sono meno rischiosi perché è più facile avvicinarsi all'ignoto valore del parametro con un
intervallo, cioè un insieme di valori, piuttosto che con un unico valore puntuale.
• Sono più informativi, anche se meno precisi,poiché un intervallo offre un' informazione più
ampia di un unico valore.
• L'affidabilità della stima intervallare è quantificata con una probabilità, scelta a priori, cioè
fissata prima di costruire la stima, al livello che più ci piace, ci interessa o ci conviene.
Per contro, con gli IC si ha un aumento della complessità della procedura di stima e servono più
informazioni oltre ai dati campionari. Sono infatti necessarie informazioni ausiliarie a priori sulla
funzione di probabilità o di densità della v.c X che interpreta il fenomeno di interesse in U.
A volte queste informazioni sono note o facili da reperire; in altri casi sono solo ipotizzabili, con il
concreto rischio di basarci su un'ipotesi azzardata e lontana dalla realtà (che è e rimane ignota).
Un IC, infatti, non è sempre producibile sulla base dei soli dati campionari, ma è calcolabile
soltanto qualora ci si trovi nell'una o nell'altra delle due seguenti situazioni.
Cominciamo con il caso più semplice, anche se poco realistico: sappiamo ipotizzare con un buon
grado di sicurezza, che il fenomeno di interesse in U è ben interpretato da una v.c. normale
(Normale) con media μ ignota ma varianza σ^2 che invece conosciamo.
In formule: X~N (μ,σ^2 nota ).
Siamo allora nel caso di popolazione normale con in più l'informazione circa il valore di σ^2 (è qui
la scarsa realisticità del caso che stiamo proponendo). Sotto queste condizioni, vogliamo costruire
una stima intervallare per l'ignoto parametro μ .
Un teorema di teoria della probabilità garantisce che: se X è normale anche lo stimatore media
campionaria X con trattino è a sua volta normale, con media μ (non distorta) e varianza σ^2/n.
Quest'ultima, nota σ^2 , è a sua volta nota. In formule: X con trattino~N (μ,σ^2 nota ).
Notate che questa è un'informazione ausiliaria (in più) e a priori (prima di estrarre il campione),
cioè che deve giungere dall'esterno e non dai dati campionari.
Standardizzando si ottiene allora la v.c Z normale standard, dalla quale sappiamo calcolare la
probabilità di qualunque intervallo utilizzando le sue tavole. :
La metodologia di costruzione di un IC, che qui vediamo per la media μ con popolazione normale e
con σ^2 nota, prevede 5 passi.
e noi sappiamo come calcolare la probabilità di qualunque intervallo di un Normale standard, allora
usiamolo al contrario e, con α scelto al punto precedente, poniamo:
P(a ≤ X con trattino -μ / √σ^2/n ≤ b) = P(a ≤ Z ≤ b ) = 1- α
Sappiamo che per la Normale (e per tutte le v.c continue) le probabilità sono aree. All'interno
dell'intervallo (a,b) c'è una probabilità (area) pari a (1-α) mentre all'esterno c'è una probabilità α che
dividiamo equamente in α/2 a sinistra e α/2 a destra. Gli estremi di tale intervallo (che si leggono
sull'asse orizzontale delle ascisse) sono due valori della Z~N(0,1) simmetrici rispetto allo 0. li
indichiamo allora più chiaramente con -zα/2 e zα/2.
Questa notazione è standard e molti li chiamano con l'inglese Z-score.
Troviamo lo Z-score zα/2 sulle tavole della Z~N(0,1) e quello negativo -zα/2 si ottiene cambiando
semplicemente il segno.
Infine si inverte questa relazione probabilistica in modo da ottenere un intervallo centrato sul
parametro μ che si vuole stimare. Otteniamo di poterla riscrivere così:
Nel caso di popolazione normale questa probabilità è vera. Sostituendo i dati campionari si ottiene
un intervallo che è l'IC che cerchiamo.
A tale intervallo rimane associato il numero (1-α) a garanzia probabilistica dell'affidabilità dell'IC
costruito. Per questo (1-α) è chiamato livello di confidenza e lo indicheremo brevemente con l.c.
Livello di confidenza (1-α) → è una misura di quanto possiamo fidarci (confidare) che l'IC
contenga l'ignoto valore del parametro.
Passo 5. l'ultimo passo consiste nel calcolare l'IC. Si sostituisce allo stimatore X con trattino
all'interno della parentesi della probabilità scritta prima, il valore della stima x con trattino calcolata
sull'unico campione estratto.
Questa situazione difficilmente si incontra in pratica. Un caso più realistico è quello in cui entrambi
μ e σ^2 sono ignoti.
Consideriamo allora ancora il caso di popolazione normale, ma con anche σ^2 ignota. Questa volta
l'informazione ausiliaria a priori è che sia noto, oppure sia realisticamente ipotizzabile, che il
fenomeno di interesse è interpretabile dalla v.c X~N (μ,σ^2) con entrambi i parametri ignoti.
Per trattare questo caso più realistico abbiamo bisogno di un nuovo trucco di calcolo (la
studentizzazione al posto della standardizzazione) e di una nuova v.c (la T di Student al posto della
Z).
Siamo ancora sotto la condizione iniziale: X~N (μ,σ^2). Allora vale ancora il teorema X con
trattino~N (μ,σ^2/n). Ora però non consideriamo il valore σ^2 e così non possiamo più
standardizzare e usare le tavole della Z. Di fronte ad un parametro ignoto lo stimiamo. La stima per
σ^2 è la varianza campionaria corretta con i gradi di libertà.
Se nella standardizzazione sostituiamo la stima s^2 all'ignota σ^2 si effettua una diversa
trasformazione che chiamiamo studentizzazione.
Un altro teorema di teoria della probabilità ci assicura che lo stimatore media campionaria
studentizzata (anziché standardizzata) non è più una Z~N (0,1), ma è un'altra v.c chiamata T di
Student.
La T di Student è una v.c diversa da Z~N (0,1), ma la sua funzione di densità è molto simile: ha
sempre forma campanulare ed è centrata sullo 0, ma ha varianza più grande di 1.
Rispetto alla Z ha le code più pesanti, cioè le code della campana sono un po' più lontane dall'asse
delle ascisse. (figura pag. 261)
La v.c T di Student ha un solo parametro, detto gradi di libertà. Per una popolazione normale con
entrambi i parametri ignoti, studentizzando lo stimatore media campionaria si ottiene una T di
Student con (n-1) gradi di libertà, pari cioè, a quelli che mettiamo al denominatore per correggere la
varianza campionaria s^2:
La metodologia di costruzione e analoga a quella con σ^2 nota. La differenza consiste nell'utilizzare
la T di Student con (n-1) gradi di libertà anziché la Z~N (0,1).
• la media campionaria
x con trattino =1/n sommatoria da i=1 a n per μ
Passo 4. Si studentizza lo stimatore media campionaria X con trattino e si ottiene la v.c T di Student
con (n-1) gradi di libertà
X con trattino- μ/ √S^2 /n =Tn-1
Sulla T (anziché sulla Z ) si applica una teoria in tutto simile a quella che abbiamo visto al passo 4
del paragrafo precedente. Quello che cambia è che salteranno fuori dei T- score (anzixhé degli Z-
score).
Il T-score positivo tα/2 si trova nelle tavole della T di Student. Il suo simmetrico -tα/2 si ottiene
cambiando il segno. Ora invertiamo la doppia disuguaglianza all'interno delle parentesi e
riscriviamo la probabilità in modo che l'intervallo sia centrato sul parametro μ che vogliamo
stimare:
Intervalli di confidenza (approssimati) per grandi campioni per la media e per la percentuale
Ora ci mettiamo nel caso in cui non si sa nulla circa il fenomeno in U: non si hanno informazioni
ausiliarie a priori, oppure non si ritiene realistica l'ipotesi che la popolazione sia normale oppure
ancora si sa che la popolazione non è normale. Consideriamo cioè tutte le situazioni non previste
nei paragrafi precedenti.
Nonostante la v.c normale (Normale) funzioni bene per molti fenomeni, nelle applicazioni molti
altri casi rimangono fuori.
Costruire un IC richiede, rispetto alla stima puntuale, delle informazioni in più. Se non abbiamo
informazioni ausiliarie a priori su X, cioè se non siamo nel caso di popolazione normale, dobbiamo
allora avere molti dati, cioè essere nel caso di grandi campioni. Solo se il campione è
sufficientemente grande possiamo infatti appellarci a un teorema di teoria delle probabilità
fondamentali nell'inferenza statistica. Questo teorema si chiama teorema centrale del limite e lo
indicheremo con TCL.
Allora, il risultato teorico si può usare così: quando n è sufficientemente grande, gli stimatori X con
trattino e P^ standardizzati sono approssimativamente normali (tecnicamente si
dice:asintoticamente normali). In formule indicheremo la distribuzione asintotica con ≈ .
Siccome con n sufficientemente grande, grazie al TCL ritroviamo la Normale,allora per grandi
campioni possiamo usare la metodologia degli IC basata sulla Z ~N (0,1).
ATTENZIONE: qui la normalità è approssimata e conseguentemente si tratterà di IC approssimati
per grandi campioni con un effettivo l.c approssimativamente pari all' (1- α) scelto. Gli IC
approssimati per grandi campioni si usano per la media μ quando non si può assumere la normalità
della popolazione.
Gli IC approssimati per grandi campioni si usano anche per la frequenza relativa p (o per la
percentuale 100 per p) di un fenomeno qualitativo (dicotomico, categoriale ed ordinale).
Ogni IC ha associato un l.c nominale, che coincide con l'(1-α) scelto, ma anche un l.c effettivo
chiamato copertura. La copertura effettiva dipende dalla reale distribuzione di X. Solo se X è
certamente normale allora la copertura coincide con il l.c nominale e l'IC è esatto.
In tutti gli altri casi, cioè quando la popolazione normale è solo un'assunzione che si ritiene vicina
alla realtà oppure quando si suppone che il campione sia sufficientemente grande per applicare il
TCL, allora l'IC è approssimativo, cioè la sua copertura è un'approssimazione dell'(1-α) nominale.
La copertura di un IC approssimato sarà tanto più vicina all' (1-α) nominale quanto più normale è la
popolazione oppure quanto più è grande il campione (ricordiamoci sempre che il TCL vale con
n → ∞).
non esiste una regola teorica per stabilire quando n è sufficientemente grande da giustificare il
ricorso al TCL (che vale con n → ∞). Non esiste una regola teorica che garantisca che la copertura
effettiva sia sufficientemente vicina al l.c (1-α) scelto. Nelle applicazioni può essere già sufficiente
un campione di ampiezza n ≥ 100 per costruire un IC per μ e un campione di ampiezza n ≥ 30 per
costruire un IC di p. Ampiezze campionarie di 1000 o 1500 sono standard nei sondaggi di opinione
e nelle ricerche di mercato e, purché si tratti di campioni casuali, garantiscono in genere il rispetto
delle condizioni teoriche.
1. L'interpretazione analitica del l.c → corrisponde alla probabilità con cui l'intervallo
costruito con lo stimatore contenga effettivamente l'ignoto parametro. Sostituendo i dati
campionari,cioè calcolando l'IC con la stima ottenuta dal campione effettivamente estratto,
tale probabilità passa all'IC, ma sotto forma di livello di confidenza. A essere rigorosi,il l.c
non è più una probabilità. È però una misura della fiducia che si può riporre nel fatto che
l'IC contenga davvero l'ignoto parametro.
2. Interpretazione statistico-frequentsita del l.c , anche detta del long run → immaginiamo di
poter estrarre da U un grande numero di campione bernoulliano di ampiezza n. Su ciascun
campione costruiamo l'IC per l'ignoto parametro. Alcuni di tali IC conterranno realmente il
parametro, altri no. Su un gran numero di campioni bernoulliani, ci si può attendere che l'
(1-α)% contenga davvero l'ignoto parametro e che il rimanente α% non lo contenga.
Abbiamo capito che il l.c è una garanzia probabilistica dell'affidabilità dell'IC, ma non è l'unico
aspetto importante da considerare.
Un IC è tanto più preciso quanto più è stretto, cioè quanto meno è ampio. L'ampiezza di un IC ne
definisce quindi la precisione (accuracy). L'ampiezza di un intervallo è la differenza fra l'estremo
superiore e l'estremo inferiore. Meno l'IC è ampio, più è utile per fare l'inferenza sul parametro
ignoto.
Ne deduciamo che la precisione della stima intervallare dipende dalla precisione della stima
puntuale, a sua volta stimata mediante lo standard error SE: più piccolo è SE, meno ampio e dunque
più preciso è l'IC.
A questo punto siamo in grado di utilizzare la teoria sottostante alla costruzione degli IC per dare
una metodologia di pianificazione dell'ampiezza campionaria. Impariamo a decidere il valore di n
mantenendo sotto controllo l'errore di stima.
Per esempio se stiamo stimando la media ʹμ e usiamo la media campionaria x con trattino allora
l'errore assoluto di stima è : |x con trattino – μ|.
Ora, teniamo conto di tutti i possibili campioni (bernoulliano e di ampiezza n), cioè passiamo allo
stimatore per interpretare la variabilità campionaria.
Con una teoria simile a quella che ci è servita per costruire gli IC, è possibile scegliere a priori, cioè
prima d estrarre il campione, sia l' errore massimo che siamo disposti a tollerare (che indicheremo
con Err) sia il livello di probabilità con cui vogliamo che questo accada.
Poiché questa probabilità è del tipo fare bene, la indicheremo come siamo abituati con (1-α).
Cominciamo con il caso della media. Sappiamo che la media del campione x con trattino è una
buona stima per l'ignoto media μ dell'intera popolazione. Ora vogliamo decidere quanto deve essere
grande il campione affinché, usando la media x con trattino del campione per stimare la media μ
dell'intera popolazione, commettiamo un errore assoluto |X con trattino – μ| non superiore a un certo
margine massimo tollerato. Siamo in condizioni di incertezza a causa della parzialità e casualità dei
dati campionari.
Cerchiamo allora di fare una buona stima con buona probabilità. Scegliamo:
1. la probabilità (1-α) di fare bene, per esempio, ai livelli standard 90% oppure 95% oppure
99%;
2. il nostro margine di errore massimo tollerato. Attenzione: lavorando con dati campionari, il
rischio di errore esiste sempre, perciò lo zero non è una scelta “furba”. Possiamo però
sceglierlo piccolo quanto ci pare e lo chiameremo Err.
Ora posiamo la probabilità di fare bene, cioè di commettere un errore assoluto di stima non più
grande del livello Err che siamo disposti a tollerare, pari al livello (1-α) prescelto. In formule:
Poiché stiamo cercando n sufficientemente grande, possiamo standardizzare e usare la Z~N (0,1):
Abbiamo così ritrovato il solito intervallo di valori della Z~N (0,1) di probabilità (1-α) con:
-Err/√σ^2/n e +Err/√σ^2/n
che corrispondono ai soliti Z-score. (graficamente figura pag. 275)
che è l'ampiezza campionaria che con probabilità (1-α) garantisce un errore assoluto di stima non
superiore al nostro margine di errore Err.
In questa formula, i valori Err e α sono numeri che abbiamo scelto noi, lo Z-score zα/2 si ricava
dalle tavole, ma σ^2 è ignoto.
In pratica la formula si può utilizzare solo se si dispone di informazioni ausiliarie a priori sulla
variabilità del fenomeno X nella popolazione U di interesse. Sappiamo infatti che l'errore di stima
dipende da quanto è variabile X. Più grande è la varianza di X più difficile sarà stimare qualunque
parametro.
Se vogliamo tenere sotto controllo l'errore campionario, dobbiamo disporre di una stima preventiva
di σ^2, che di solito deriva da informazioni passate, da fonti ufficiali oppure da un campione pilota.
(esempio pag. 275/276)
Ora vogliamo decidere quanto deve essere grande il campione affinché usando p^ per stimare p
commettiamo un errore assoluto non superiore a un certo livello massimo tollerabile Err.
Questo è un caso più semplice perché possiamo ricavare una formula per la pianificazione di n
anche senza avere informazioni ausiliarie a priori sulla variabilità di X in U, semplicemente
mettendoci nella situazione peggiore, quella in cuoi è più difficile stimare p. In questo modo
riusciamo a determinare l'ampiezza campionaria n che ci tutela al massimo.
σ^2 =z^2α/2 per σ^2 / Err^2 = z^2α/2 per 0,25 / Err^2 = z^2α/2/ 4 per Err^2
Questa è l'ampiezza campionaria che garantisce la massima tutela sull'errore di stima, perché
assume la situazione peggiore. Nel caso fortunato in cui si disponga di informazioni a priori su σ^2,
per esempio sia noto che è inferiore al caso peggiore σ^2 = 0,25 o si sappia che p è parecchio
diverso da (1-p), allora naturalmente conviene usare tali informazioni e la formula fornirà un valore
di n più piccolo.
(esempi pag. 276/277)
Introduciamo la seconda grande classe di metodi di inferenza: la verifica di ipotesi mediante i test
statistici.
Qui l'obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori
ragionevolmente sostituibili all'ignoto parametro. Immaginiamo invece di lavorare in un contesto
applicativo che ci permette di formulare un'ipotesi circa il valore dell'ignoto parametro in U o, più
in generale, circa un qualche aspetto statistico del fenomeno nella popolazione.
I dati campionari sono allora impiegati per stabilire se tale ipotesi è ragionevolmente accettabile o
rifiutabile. In questo capitolo ci occupiamo del tipo più classico di test statistico: i test di
significatività.
Cominciamo con il capire che cosa si intende per ipotesi statistica.
L'ipotesi in cui ci troviamo è sempre di tipo inferenziale. Siamo quindi interessati alle caratteristiche
statistiche di un qualche fenomeno per il quale non si dispone di un'osservazione completa su una U
di riferimento, ma solo di dati parziali derivanti da un campionamento casuale.
Ipotesi statistica → è una congettura riguardante una qualche caratteristica statistica del fenomeno
in U. Tale congettura è formulata a priori, cioè prima di estrarre il campione. Proviene, per così dire,
dall'esterno, dipende dal contesto applicativo e dagli obiettivi di ricerca, non dai dati campionari.
L'ipotesi statistica può riguardare il valore di un parametro di U. Per esempio la media µ, oppure
una frequenza relativa p (o una percentuale 100 per p), ma anche la mediana, la varianza σ^2 ecc.
Tecnicamente si parla di ipotesi parametrica. Altrimenti si parla di ipotesi non parametrica,per
esempio l'ipotesi di esistenza o meno di relazione statistica in una coppia di fenomeni
congiuntamente osservati sulla stessa U, oppure riguardo il tipo di v.c adatta a interpretare il
fenomeno in U o, più in generale, ipotesi sulle frequenze cumulate.
L'ipotesi statistica emessa e la sua formalizzazione nell'ipotesi nulla H0 hanno a che fare con il più
generale concetto di ipotesi di ricerca, ma solo raramente coincidono. Difficilmente infatti
l'interrogativo di ricerca potrà essere perfettamente e completamente espressa nei termini di
un'ipotesi statistica.
I test statistici per la verifica di ipotesi forniscono un sostegno, basato su dati osservati nella realtà,
a un più generale interrogativo di ricerca.
La verifica di ipotesi è la metodologia inferenziale che, a partire dai dati campionari, porta a
decidere se accettare o rifiutare l'ipotesi nulla H0, controllando probabilisticamente l'errore
campionario. Il test statistico è la regola pratica che porta a questa decisione. Con la nostra
strumentalizzazione matematica ci concentreremo sul tipo più classico di test statistico, detto test di
significatività.
In particolare introdurremo i test di significatività per la verifica di ipotesi sulla media μ e sulla
frequenza relativa p (o sulla percentuale 100 per p).
in ambito bivariato impareremo i più classici fra i test di significatività per la verifica dell'esistenza
o meno di indipendenza statistica in una coppia di fenomeni qualitativi e di correlazione in una
coppia di fenomeni quantitativi.
Anche la verifica di ipotesi, così come la stima, è una procedura di inferenza statistica e i concetti di
variabilità campionaria e di errore campionario sono sempre validi.
Un test statistico, cioè la regola che porta ad accettare o rifiutare H0, è basato sui dati campionari,
cioè su un osservazione parziale dell'intera U di riferimento. È dunque condotto in condizioni
d'incertezza: quando il test porta al rifiuto di H0 questo non significa necessariamente “H0 falsa”,
ma solo che “i dati campionari non suffragano sufficientemente H0”. Quando invece il test porta
all'accettazione di H0 questo non significa necessariamente “H0 vera”, ma soltanto che “i dati
campionari sono consistenti e supportano H0”. Accettare o rifiutare H0 sulla base dei dati
campionari comporta inevitabilmente il rischio di commettere un errore.
In realtà esiste anche un altro tipo di errore chiamato errore di II specie, che è invece l'errata
accettazione, cioè l'errore che si commette accettando H0 falsa.
Per tener conto di entrambi gli errori è necessaria una teoria dei test più avanzata che noi non
tratteremo.
La probabilità di errore di I specie α è, in genere, fissata auno dei livelli standard 0,05 oppure 0,1
oppure 0,01; conseguentemente il test avrà l.s. 95% oppure 90% oppure 99%.
Oltre alle informazioni esterne che servono per emettere l'ipotesi statistica e formalizzarla
nell'ipotesi nulla H0, per costruire ed eseguire un test statistico servono anche informazioni
ausiliarie a priori sulla v.c X che interpreta il fenomeno d'interesse in U.
Un test statistico si può infatti costruire ed eseguire soltanto se ci si trova nel caso di popolazione
normale oppure nel caso di grandi campioni.
Per imparare la metodologia di costruzione ed esecuzione di un test statistico (come per gli IC)
partiremo dal caso più semplice, anche se poco realistico, per capire il come e il perché e poi ci
ravvicineremo alla realtà facendo cadere gli assunti meno convincenti dal punto di vista pratico.
Z-test per la verifica di ipotesi su μ per popolazione normale con σ^2 nota
Adesso immaginiamo che le condizioni in cui stiamo lavorando ci consentano di emettere l'ipotesi
statistica che il valore dell'ignoto parametro μ sia un certo numero. Il simbolo standard per indicare
questo certo numero è μ0, che si legge “mu con zero”.
In formule:
H0: μ = μ0
Passo 3. Si sceglie la probabilità di sbagliare α, cioè di commettere l'errore di I specie, cioè di errato
rifiuto di H0. Allora la probabilità di fare bene, cioè di accettare H0 quando è vera, ovvero il l.s. del
test, è (1- α).
Passo 4. Siccome abbiamo l'informazione ausiliaria a priori X con trattino ~N (μ, σ^2/n nota);
standardizzando possiamo usare la Z~N(0,1). Si standardizza assumendo che H0 sia vera, cioè
usiamo, al posto dell'ignota μ, il valore μ0 ipotizzato in H0. Otteniamo in questo modo la statistica
test.
Poiché la media campionaria è una buona stima per μ, ora osserviamo che:
• se H0: μ= μ0 è vera, allora la differenza x con trattino - μ0 tende a risultare piccola (vicino
a 0);
Allora i valori della statistica test Z: intorno allo 0 depongono a favore dell'accettazione di H0,
mentre lontani da 0 sono inusuali e non consistenti con H0 e perciò depongono per il suo rifiuto.
Con le probabilità scelte α e (1-α), si divide la probabilità sotto la curva a campana della statistica
test Z in due zone. (figura pag. 285)
• Una zona di valori a favore dell'accettazione di H0. Sono i valori intorno allo 0, con
probabilità pari a (1-α). chiameremo questa zona: zona di accettazione.
• Una zona di valori che,viceversa, depongono per il rifiuto di H0. Sono i valori lontani da 0
in più e in meno, cioè quelli corrispondenti alle due code della campana. Sotto ciascuna
coda la probabilità residua α si divide equamente in α/2 e α/2.
Chiameremo l'insieme delle due code: zona di rifiuto o regione critica.
Sull'asse delle ascisse (orizzontale) si leggono il valore zα/2 e il suo simmetrico -zα/2 che dividono
la zona di accettazione dalla regione critica. Si tratta ancora di determinare un valore di Z-score che
chiameremo valore critico o soglia del test.
Valore critico del test → è il punto sull'asse delle ascisse che identifica la soglia fra la zona di
accettazione e la regione critica. È lo Z-score zα/2 che ci garantisce la probabilità di sbagliare α che
abbiamo scelto.
In formule:
P (rifiutare H0|H0) = P (X con trattino – μ0/ √σ^2/n ≤ -zα/2 oppureX con trattino – μ0/ √σ^2/n ≥
+zα/2 ) = α/2 + α/2 = α
Così è automaticamente garantito anche il l.s. (1-α) che abbiamo scelto, in formule:
Il valore critico zα/2 si trova sulle tavole della Z; il suo simmetrico si ottiene cambiando il segno.
Passo 5. Sostituendo nella statistica test Z i valori noti a priori, cioè μ0, σ^2 e n, e la stima x con
trattino calcolata sui dati campionari, si ottiene un numero che chiamiamo valore sperimentale o
valore empirico del test.
Passo 6. Finalmente siamo pronti per il test, cioè la regola per decidere se accettare o rifiutare
H0 : μ = μ0 al prescelto l.s. (1-α).
test → Si rifiuta H0:μ = μ0 a livello (1-α) se il valore sperimentale cade nella regione critica, cioè
se :
x con trattino- μ0/√σ^2 /n ≤ -zα/2
La probabilità di sbagliare, cioè di rifiutare H0 quando invece è vera, è pari all'α che abbiamo
scelto.
(esempio pag. 286/287)
Un caso più interessante,perché più frequente nelle applicazioni pratiche di popolazione normale, è
che anche σ^2 sia ignota.
La condizione iniziale di popolazione normale non è difficile da riscontrare nella pratica, invece
l'assunto che la varianza sia nota è piuttosto irrealistico: se non abbiamo informazioni su µ, che è
infatti il nostro parametro ignoto, è verosimile che manchino anche, e forse a maggior ragione ,
informazioni sul valore di σ^2 e piuttosto che rischiare assunzioni poco realistiche è preferibile
affidarci ai dati e stimarlo dal campione insieme a μ.
Passo 2. Si calcola la stima puntuale per tutto ciò che è ignoto, dunque per entrambi i parametri.
La media del campione:
x con tarttino =1/n sommatoria da i=1 a n xi per μ
e la varianza del campione (corretta con i gradi di libertà per garantirci la non distorsione)
s^2=1/n-1 sommatoria da i= 1 a n (xi-xcon trattino) per σ^2
Passo 3. Si sceglie il l.s (1-α) da cui si ricava la probabilità di sbagliare α e la probabilità delle code
α/2.
Passo 4. Siamo nel caso di popolazione normale,perciò abbiamo anche la normalità della media
campionaria X con trattino ~N (μ, σ^2/n). Ora però, manca il valore vero di σ^2 per
standardizzare,ma possiamo usare la sua stima (non distorta) s^2 e studentizzare. Effettuiamo la
studentizzazione sempre sotto H0, cioè utilizzando il valore ipotizzato μ0 al posto dell'ignoto valore
vero μ. La statistica test che otteniamo non è più una Z ma una T di Student con (n-1) gradi di
libertà, cioè quelli con cui abbiamo corretto s^2.
Passo 5. Si calcola il valore sperimentale sostituendo nella statistica test i valori noti, cioè μ0 e n,
e le due stime x con trattino e s^2. Si ottiene un numero.
Si rifiuta H0:μ = μ0 a livello (1-α) se il valore sperimentale cade nella regione critica, cioè se :
x con trattino- μ0/√s^2 /n ≤ -tα/2
Siccome abbiamo scelto il l.s (1-α) il test rifiuta H0 con probabilità di sbagliare pari ad α.
(esempio pag.290/291)
Sappiamo che all'aumentare della spesa campionaria n e, dunque, all'aumentare dei gradi di libertà
(n-1), diviene indifferente lavorare con la Z o con la T perché le due curve a campana tendono a
coincidere. Allora quando i gradi di libertà sono tanti si può usare la Z- test anche se σ^2è ignoto .
Fino a qui abbiamo imparato a verificare ipotesi nulle del tipo H0: μ= μ0.
Se il test porta all'accettazione di H0 si conclude che μ è uguale al valore ipotizzato μ0 a livello di
significatività (1-α). se viceversa il test porta al rifiuto di H0 si conclude che μ è diversa da μ0 con
probabilità di sbagliare pari a α.
Chiameremo allora questo tipo di ipotesi bilaterali. Un test statistico per la verifica di ipotesi
bilaterale ha la regione critica formata dalle due zone sotto le due code della statistica test, ciascuna
di probabilità α/2. Chiameremo questo tipo di test a due code. Nella pratica sono utili anche ipotesi
unilaterali, cioè l'ipotesi nulla del tipo H0 :μ ≤ μ0 oppure H0: μ ≥ μ0
Per verificare le ipotesi nelle unilaterali si pone la regione critica sotto un'unica coda della statistica
test, quella più lontana dall'ipotesi nulla e si esegue un test a una coda. Per esempio, se vogliamo
verificare l'ipotesi unilaterale H0 :μ ≤ μ0 nel caso di popolazione normale, useremo ancora un T-
test con la statistica test (studentizzata sotto H0):
X con trattino – μ/ √S^2/n
• oltre alle differenze x con trattino – μ0 vicine allo zero, anche tutte le differenze negative
(corrispondenti a x con trattino < μ0) depongono a favore dell'accettazione di H0 :μ ≤ μ0 ;
• le differenze x con trattino -μ0 positive (corrispondenti a x con trattino > μ0)e troppo grandi
depongono, invece, per il rifiuto di H0 :μ ≤ μ0.
Allora per verificare l'ipotesi unilaterale H0 :μ ≤ μ0 si usa una T-test a una coda ponendo la regione
critica tutta sotto la coda di destra mentre la coda di sinistra farà parte della zona di accettazione.
Inoltre non sarà più necessario, come facevamo per un test a due code, dividere la probabilità di
sbagliare in α/2 sotto una coda e α/2 sotto l'altra; in un test a una coda , la regione critica è composta
da una sola coda di probabilità α.
• oltre alle differenze x con trattino – μ0 vicine allo zero, anche tutte le differenze positive
(corrispondenti a x con trattino >μ0) depongono a favore dell'accettazione di H0 :μ ≥ μ0 ;
• le differenze x con trattino – μ0 negative (corrispondenti a x con trattino < μ0) e troppo
grandi depongono, invece, per il rifiuto di H0 :μ ≥ μ0.
Ne segue che, per verificare l'ipotesi unilaterale H0 :μ ≥ μ0, si pone la regione critica tutta sotto la
coda di sinistra, mentre la coda di destra farà parte della zona di accettazione, cioè ancora un test a
una coda. (esempio pag. 292/293)
• Test a due code. La regione critica è composta da due zone sotto le due code; la probabilità
di sbagliare α è equamente ripartita in α/2 e α/2 con due valori critici simmetrici, uno
positivo e l'altro negativo.
• Ipotesi unilaterale. È del tipo “≤ oppure ≥”, per esempio H0 :μ ≤ μ0 oppure H0 :μ ≥ μ0.
• Test a una coda. La regione critica è composta da una zona sotto la sola coda
corrispondente ai valori lontani dall'ipotesi nulla. La probabilità di sbagliare α è posta tutta
sotto la coda lontana da H0 con un unico valore critico. Il valore critico è positivo se H0
prevede ≤ , è negativo se H0 prevede ≥.
(figure pag.294)
Pensiamo ora alle situazioni in cui non si dispone di informazioni ausiliarie a priori, non si sa nulla
circa il fenomeno in U oppure non si ritiene realistica l'ipotesi che la popolazione sia normale
oppure si sa che la popolazione non è normale.
Abbiamo già osservato che, in mancanza di informazioni ausiliarie a priori sulla normalità della
popolazione, è necessario compensare con una quantità di dati campionari sufficientemente grande.
Tecnicamente si parla di grandi campioni.
Quando usiamo il TCL per grandi campioni stiamo usando risultati approssimati e per questo
abbiamo usato il simbolo ≈ che si legge “è approssimativamente”. Siccome ci basiamo su risultati
approssimati possiamo costruire test in tutti i casi in cui non si ha la normalità della popolazione,
ma si tratterà di test approssimati per grandi campioni. La conseguenza è che l'effettivo livello di
significatività è solo approssimativamente il valore (1-α) scelto, ma sempre più vicino a questo
all'aumentare dell'ampiezza campionaria n.
Per la verifica di ipotesi (uni- o bilaterali) sulla media μ e sulla frequenza relativa p, il test
approssimato per grandi campioni è sempre Z-test, anche quando σ^2 è ignoto.
Z-test per grandi campioni per la verifica di ipotesi sulla frequenza relativa p (o sulla
percentuale 100 per p)
Se né sufficientemente grande, per verificare questo tipo di ipotesi si utilizza Z-test (approssimato
per grandi campioni) a due o a una coda. Dal punto di vista pratico, ragionamenti e tecnica sono
quelli dello Z-test.
Dal punto di vista metodologico dobbiamo sempre tenere presente che si tratta di uno Z-test
approssimato per grandi campioni che avrà livello di significatività approssimativamente pari al
prescelto (1-α). Ripercorriamo la procedura generale:
Passo 1. Il punto di partenza sono i soliti dati campionari da un campione bernoulliano di ampiezza
n.
Passo 2. Si calcola la stima (puntuale) per p. Siccome p è (l'ignota) frequenza relativa di unità
statistiche che nella popolazione sono classificate nella categoria successo, allora la sua stima è la
corrispondente frequenza p^ nel campione.
Passo 3.Si sceglie il l.s del test (1-α) da cui si ricava la probabilità di errato rifiuto α (ed
eventualmente per il test a due code, la probabilità delle code α/2).
Siamo nel caso di grandi campioni, perciò la statistica test è approssimativamente una Z ~N(0,1). Il
valore critico sarà allora uno Z-score da cercare sulle tavole della Z.
Passo 5. Il valore sperimentale si calcola sostituendo nella statistica test i valori noti e le stime
campionarie.
Passo 6. Infine per costruire il test come regola di rifiuto,ci ricordiamo se stiamo lavorando con un
test approssimato per grandi campioni quindi con probabilità di sbagliare (cioè di rifiutare un'ipotesi
che invece è vera) approssimativamente pari al prescelto α, se il valore sperimentale cade nella
regione critica (e la regione critica sarà sotto una (test a una coda)o sotto tutte due le code (test a
due code), a seconda che la nostra ipotesi nulla sia uni- o bilaterale).
Concetto di p-value
Di solito le analisi statistiche si fanno a computer. Esso esegue il test producendo un unico numero
con il quale possiamo decidere se accettare o rifiutare H0 qualunque sia il livello di significatività
che vogliamo fissare. Tale valore si chiama p-value o significatività empirica del test.
Se il p.value risulta più piccolo del livello prescelto α (per un test a una coda) o di α/2 (per un test a
due code) allora si rifiuta H0.
(esempio pag.298)
Il computer fornisce il p-value in sostituzione del valore critico. Il valore critico dipende sempre
dall'α scelto ed è diverso per diversi livelli di significatività .
Quando si esegue il test “a mano”, si decide se accettare o rifiutare H0 confrontando due valori: il
valore sperimentale e il valore critico. Nel grafico questi valori stanno nell'asse delle ascisse, e il
valore critico si recupera sulle tavole una volta scelto il livello di significatività.
Infatti, quando succede p-value ≤ α (oppure ≤ α/2 se il test è a due code) significa che il valore
sperimentale cade nella regione critica. Succede questo perché, tecnicamente, per produrre il p-
value il computer calcola la probabilità a destra del valore sperimentale (o del suo simmetrico
positivo se il valore sperimentale risulta negativo).
Quando si usano il computer e il p- value eseguire un test statistico diventa automatico e molto
facile. Questo induce, però, in tentazione di abusi ed errori d'interpretazione. Per evitarli, fare molta
attenzione ai tre punti seguenti.
• Il p-value non è la probabilità che H0 sia vera e dunque (1-p-value) non è la probabilità che
H0 sia falsa. Non è possibile assegnare probabilità alle ipotesi, ma solo alle variabili casuali
(dunque solo alla statistica test).
• Quando il p- value è molto piccolo e la prima cifra non nulla è oltre il quarto decimale, per
esempio 0,00001, si rifiuta H0 praticamente a qualunque livello di significatività. In questi
casi il computer restituisce 0 oppure 0,0000 e nel linguaggio comune si parla di test non
significativo. Attenzione: questo non significa “p-value =0” (che corrisponderebbe a un
valor sperimentale uguale a + ∞), ma solo p-value molto, molto piccolo.
• Quando si rifiuta H0 perché p-value è minore di α oppure di α/2, o quando il test è non
significativo, bisogna fare molta attenzione a che cos'è H0.
Un altro caso di test non significativo in cui ci si può confondere facilmente è quello del prossimo
test per la verifica dell'indipendenza statistica in una coppia di fenomeni: quando si rifiuta H0 e il
test è non significativo si conclude che fra i due fenomeni esiste relazione statistica.
Ora ci poniamo nella situazione di dati campionari (parziali) e ci poniamo obiettivi inferenziali.
È frequente l'osservazione di coppie di fenomeni qualitativi (categoriali,dicotomici e ordinali).
I valori interni alla tabella di contingenza si ottengono contando le unità statistiche che fra le n
campionate si classificano nelle kxh coppie di categorie (xi,yj). Si tratta quindi di frequenze
congiunte campionarie f^ij (stime delle corrispondenti frequenze congiunte nella popolazione fij).
Sulla riga e sulla colonna marginali della tabella di contingenza si leggono le frequenze marginali
campionarie f^i. di X e f^.j di Y (stime delle corrispondenti frequenze marginali fi e fj in U).
Stima delle frequenze teoriche di indipendenza statistica → sono le frequenze congiunte che si
sarebbero dovute osservare se X e Y fossero statisticamente indipendenti:
f^ij = f^i.f^.j/n
Stima della connessione → χχ̂ ^2= sommatoria dai=1 a k sommatoria da j=1 a h (f^ij-f*ij^2/f*ij)
formula alternativa : χχ̂ ^2= n per (sommatoria da i=1 a k sommatoria da j=1 a h f^^2ij/f^i.f^.j -1)
Ora però i dati sono campionari (cioè parziali e casuali). L'indice χχ̂ ^2 calcolato sulla tabella di
contingenza è allora una stima della reale ma ignota connessione esistente fra X e Y nell'intera U di
riferimento. Se è una stima è soggetta all'errore campionario, cioè può risultare diversa da 0 per
effetto della parzialità e della casualità dei dati, anche se nella realtà i due fenomeni sono
statisticamente indipendenti. In presenza di dati campionari ha dunque senso verificare l'ipotesi di
indipendenza statistica.
Notiamo anche che χχ̂ ^2 è calcolato usando le frequenze teoriche di i.s. f*ij, per tanto “dato H0”.
Allora il χχ̂ ^2 calcolato sulla tabella di contingenza può essere usato come statistica test per
verificare l'ipotesi di indipendenza statistica fra X e Y. Un teorema di teoria della probabilità
garantisce che, per n sufficientemente grande, la statistica test χχ̂ ^2 è approssimativamente una v.c
chiamata Chi quadrato con gradi di libertà (k-1) per (h-1).
è una variabile casuale continua che assume valori positivi (> 0) e che ha funzione di densità
asimmetrica con una pancia in corrispondenza dei valori più piccoli (che dunque sono più
probabili) e una sola coda per i valori più grandi . (figura pag. 302)
La v.c Chi quadrato ha un solo parametro chiamato gradi di libertà e anche per la v.c Chi quadrato
esistono le tavole.
In presenza di dati campionari qualitativi bivariati è importante verificare se fra X e Y esiste una
qualche relazione oppure se X e Y sono statisticamente indipendenti. L'ipotesi nulla che formalizza
(cioè esprime in formule) l'ipotesi statistica “X e Y sono indipendenti ” è allora:
H0 : χ ^2 = 0
Impariamo il test di indipendenza per la verifica di questo tipo di ipotesi nulla con la procedura in
sei passi.
Passo 1. Il punto di partenza è come sempre un campione bernoulliano di ampiezza n che ora
fornisce dei bivariati organizzati in una tabella di contingenza composta da k righe e h colonne.
Passo 2. Si stima la connessione con il χ ^2 del campione χχ̂ ^2 usando la definizione o la formula
alternativa e si ottiene così una stima puntuale della reale, ma ignota, connessione esistente fra X e
Y nell'intera U di riferimento.
Passo 3. Si sceglie il l.s (1-α), da cui la probabilità di sbagliare (cioè di accettare l'ipotesi di
indipendenza quando invece nell'intera popolazione X e Y sono connessi) pari a α.
statistica test → v.c Chi quadrato con (k-1) per (h-1) gradi di libertà.
• valori positivi della statistica test e troppo grandi depongono per il rifiuto di H0, cioè della
conclusione: X e Y sono connessi, cioè mostrano una qualche relazione statistica.
Si tratterà quindi di un test a una coda con la regione critica tutta sotto la coda di destra. Si tratta
anche di un test approssimato per grandi campionamenti, applicabile, cioè, se n è
sufficientemente grande e con livello di significatività approssimativamente pari al valore (1-α)
scelto.
Il valore critico o soglia del test si va quindi a cercare sulle tavole della Chi quadrato con (k-1) per
(h-1) gradi di libertà. È il valore che lascia a destra la prescelta probabilità α.
Passo 5. Il valore sperimentale coincide con la stima puntuale χχ̂ ^2 già calcolata al passo 2.
Passo 6. Infine per costruire il test come regola di rifiuto, ci ricordiamo che stiamo lavorando con
un test approssimato per grandi campioni, quindi con probabilità di sbagliare approssimativamente
pari al prescelto α.
Test → Si rifiuta H0: χ^2 = 0 se il valore sperimentale cade nella regione di rifiuto, cioè se :
χχ̂ ^2≥ valore critico.
Con il computer: il test di indipendenza, che è a una coda con la regione critica sotto la coda di
destra , si esegue a qualunque livello di significatività confrontando il p-value con α: si rifiuta
H0: χ ^2 = 0 con prob. Di sbagliare approssimativamente pari a α se p-value ≤ α .
• Anche per il test Chi quadrato (che è asintotico, cioè funziona per n → ∞) vale la solita
avvertenza circa i test approssimati per grandi campioni. Il test ha approssimativamente il
l.s. (1-α) scelto. L'effettivo l.s del test è sempre più prossimo a (1-α) al crescere di n ,cioè
all'aumentare della quantità di dati campionari inseriti nel processo inferenziale.
• Non c'è una regola teorica per stabilire quando n è sufficientemente grande. Ci sono invece
ragioni teoriche e pratiche che sconsigliano di eseguire il test Chi quadrato se la tabella di
contingenza contiene una o più frequenze campionarie congiunte inferiori a 5. Per rimediare
a questo inconveniente, la pratica suggerisce di accoppiare (prima di eseguire il test) una o
più categorie dei fenomeni X e Y, in modo da ottenere una tabella di contingenza con un
numero inferiore di righe e di colonne, ma con frequenze congiunte tutte maggiore di 5.
• L'ipotesi nulla H0 : χ^2 = 0 del test di indipendenza ci dà l'occasione per capire da dove
viene l'idea di chiamare “nulla” l'ipotesi che si vuole sottoporre a verifica con un test
statistico: di solito si testa uno zero.