Analisis Cualitativo PDF
Analisis Cualitativo PDF
Analisis Cualitativo PDF
SantiagodelaFuenteFernndez
Anlisisdevariablescategricas
SantiagodelaFuenteFernndez
Anlisisdevariablescategricas
VARIABLESCUALITATIVAS
Lasvariablescualitativassonaquellascuyosvaloressonunconjuntodecualidadesnonumricasa
lasqueselesuelellamarcategoras,modalidadesonivelesejemplos:sexo(mujer,hombre),
filosofapoltica(liberal,moderada,conservadora),estadocivil(soltero,casado,divorciado,viudo),
niveldeestudios(ninguno,primario,medio,universitario),etc.
Unapropiedaddeseabledelascategorasesqueseanexhaustivas(proporcionensuficientesvalores
paraclasificaratodalapoblacin)ymutuamenteexcluyentes(cadaindividuoseclasificaenunay
solounacategora).
Aprimeravista,laexhaustividadpuedeparecermuyrestrictiva:puedequesedeseesaberque
opinanlosliberalesyconservadoresfrentealalegalizacindelaborto.Enestecaso,lacuestinse
resuelveredefiniendolapoblacinmedianteeliminacindelosmoderados.
CLASIFICACINDEVARIABLESCUALITATIVAS
Hayvariasformasdeclasificarlasvariablescualitativas:
1. Variablesdicotmicasypolitmicas(segnelnmerodecategoras)
Dicotmicas:Solohaydosmodalidades.Ejemplo,padecerunaenfermedad(S,No),Sexo
(Hombre,Mujer),Resultadodeunaoposicin(Aprobar,Suspender),engenerallosfenmenos
derespuestabinaria.
Politmicas:Cuandohaymasdedoscategoras.Ejemplo,fenmenosderespuestamltiple,
lugardenacimiento,clasesocial,etc.
2. Escalasnominal,ordinalyporintervalos(segnlaescalademedidadelascategoras)
Nominal:Nosepuededefinirunordennaturalentresuscategoras,porejemplo,laraza
(blanca,negra,otra),lareligin(catlica,juda,protestante,otra),etc.
Ordinal:Esposibleestablecerrelacionesdeordenentrelascategorasloconduceaestablecer
relacionesdetipomayor,menor,igualopreferenciaentrelosindividuos.Porejemplo,elrango
militar(soldado,sargento,teniente,otro),laclasesocial(alta,media,baja),etc.
Sinembargo,nosepuedenevaluardistanciasabsolutasentrecategoras.As,sepuededecir
queunapersonadeclasealtatienemayorpoderadquisitivoqueunapersonadeclasemedia,
peronosepuededecirexactamenteculesladiferenciaenpoderadquisitivoentreambas.
PorIntervalo:Procedendevariablescuantitativasagrupadasenintervalos.Estasvariables
puedensertratadascomoordinalesperoparaellassepuedencalcular,adems,distancias
numricasentredosnivelesdelaescalaordinal,ejemplosdeestetiposonelsueldo,laedad,los
dasdelmesoelniveldepresinsangunea.
Existenvariablesquepuedensermedidasenescalanominal,ordinalocuantitativa.Porejemplo,el
tipodeeducacin(privado,pblico)esnominal,elniveldeeducacin(primaria,secundaria,
universitaria,postgraduado)esordinal,yelnmerodeaosdeeducacin(0,1,2,...)es
cuantitativa.
Losmtodosestadsticospropiosparaanalizarvariablesnominalespuedenserusadosparavariables
ordinalesperonoalrevs.Lomejoresusarmtodosapropiadosparacadatipodeescala.
SantiagodelaFuenteFernndez1
Anlisisdevariablescategricas
TABLASDECONTINGENCIA:VARIABLESNOMINALES
Variablenominalesaquellaqueconllevainformacinsobreunconjuntodevaloresnoordenado.
Y yj
y1 y2 ....... ....... ym
X
n11 n12 n1 j n1m
x1 ....... N1
(e 11 ) (e 12 ) ....... (e 1 j ) (e 1m )
M M M M M N = Ni = N j
....... ....... i j
M M M M M
nk1 nk2 nkj nkm
xk ....... ....... Nk
(e k1 ) (e k2 ) (e kj ) (e km )
N1 N 2 N j Nm N
Seanalizandosvariables(queadmitendistintasmodalidades)medianteunatablade
contingencia,endondeunaocupalasfilasyotralascolumnas.
Lainterseccinentreunafilayunacolumnadalugaraunaceldaocasilla,cuyafrecuencia
observadaes nij
Secontrastalahiptesisnulaquepresuponelaindependenciaentreambasvariables,mediante
elestadstico 2 dePearson.
Sedefineelestadsticoobservado:
k m (nij eij )2
= 2(k 1). (m1)
i =1 j =1 eij
(2k 1).(m1) < 2;(k 1).(m1) Se acepta H0 (no existe diferencia significativa al nivel )
2 2
(k 1).(m1) ;(k 1).(m1) Se rechaza H0 (existe diferencia significativa al nivel )
SantiagodelaFuenteFernndez2
Anlisisdevariablescategricas
Muyfrecuentemente,seutilizaparaversiexisteonorelacinentreloscaracteres(X,Y),esdecir,si
sononoindependientes.Entoncesrecibeelnombredecontrastedeindependenciadecaracteres:
k m (ni j ei j ) 2 k m n2ij
Esmuytillaigualdad: = N
i=1 j=1 e ij i=1 j=1 e ij
Entablas2x2lasdecisionesconcernientesalusodelaprueba 2 debeguiarseporlas
recomendacionesdeCochran:
Y
y1 y2
X
x1 n11 n12 n11 + n12
x2 n21 n22 n21 + n22
n11 + n21 n12 + n22 N
PRUEBAEXACTADEFISHER.Esunatcnicavlidatantoparadatosnominalesuordinales,
siemprequelamuestraseapequea.
Lapruebadeterminasilosgruposdifierenenlaproporcincorrespondientealasclasificaciones.
Secaracterizaporquenoutilizaunaaproximacindeprobabilidadsinoladistribucinde
probabilidadexactadelaconfiguracindelasfrecuenciasobservadas.
Comoparatotalesmarginalesfijos,ladistribucindeprobabilidaddelasfrecuenciasobservadas
sigueunaleyhipergeomtrica,enelcasodequelasdosvariablesobservadassean
independienteslaprobabilidadpdeobtenercualquierdisposicindelas nij vienedadapor:
SantiagodelaFuenteFernndez3
Anlisisdevariablescategricas
Test Test+ Marginal
Hombres 10 0 10 (10 + 0)! (4 + 5)! (10 + 4)! (0 + 5)!
p = = 0,0108
Mujeres 4 5 9 10! 0! 4! 5! 19!
Marginal 14 5 19
Laprobabilidaddeladistribucindefrecuenciases p = 0,0108 .
Ahorabien,enesteejerciciohasidofcildecalcularporqueenunadelasceldillasexisteuna
frecuenciacero.
Enotroejemplo,dondenoexisteunceroenningunaceldilla:
Sinalterarlostotalesmarginales,unaposibilidadmsextremaseralaqueapareceenlatabla:
Laposibilidaddeocurrenciadelatablaes:
p = pb + pc = 0,04399 + 0,00126 = 0,04525 < 0,05 =
p = 0,04525 eselvalorqueseutilizaparasabersilosdatosdelatablapermitenrechazarla
hiptesisnula H0 ,como p = 0,04525 < 0,05 = ,serechazalahiptesisnulaconcluyendoquelos
testafectanenmayormedidaaloshombres.
Seobservaquesielvalormspequeodelatabladecontingenciaesmuygrande,lapruebade
Fisherpuedesercomplicadadecalcular(selvalormspequeofuera2habraquedeterminar
tresprobabilidadesexactasysumarlas,sfuera3habraquedeterminarcuatroprobabilidades
exactasysumarlas,yassucesivamente).
MODIFICACIONESDETOCHER:ConunapequeamodificacindelapruebadeFisher,Tocherprob
(1950)queseconsigueunapruebamspoderosaparadatosdeunatabla2x2.
Parailustrarlamodificacin,separtedelatabla:
Laprobabilidadasociadaconlaocurrenciadevalorestanextremoscomolaspuntuaciones
observadas(a)conformealahiptesisnulaser:
p = pa + pb + pc = 0,26515 + 0,04399 + 0,00126 = 0,31040 > 0,05 =
SantiagodelaFuenteFernndez4
Anlisisdevariablescategricas
p = 0,31040 eslaprobabilidadencontradaconlapruebaFisher,quesiendomayorqueelnivelde
significacin = 0,05 ,conducearechazarlahiptesisnula.
LaprobabilidaddeTocherdeterminaantestodosloscasosextremos(b)y(c)sinincluiranel
observado(a),conlocual: pb + pc = 0,04399 + 0,00126 = 0,04525
MEDIDASDEASOCIACIN
Encasoderechazarlaindependenciaentrelosdosfactoresdeunatabladecontingencia,seplantea
lanecesidaddedefinirndicesquedescribannosololaintensidaddelaasociacin,sinotambinsu
direccin.Elestudiodeestosndices,queseconocenconelnombregenricodemedidasde
asociacin.
Paradetectarlasfuentesdeasociacinexistendiferentesmtodos,unosdirectos,yotrosde
conversinentablas2x2.Entrelosdirectos,elanlisisderesiduos,yentrelossegundos,laparticin
delatablaoriginalentablas2x2.
ANLISISDELOSRESIDUOS
Losresiduossonlasdiferenciasentrelafrecuenciaobservadaylafrecuenciaesperadaencada
casilla: rij = nij eij .Enelcasodequeelcontrastede 2 hayaresultadosignificativo,estosresiduos
indicarnqucasillascontribuyenenmayorgradoalvalordelestadstico.
Cuantomayorseaelvalordelosresiduosmayoreslaprobabilidaddequeunadeterminada
combinacindevaloresdelasvariables,estoes,unacasilla,seasignificativa.
Paraqueelanlisisdelosresiduosresulteadecuadoesnecesarioquepreviamentestoshayansido
ajustadosyestandarizados,paralocualsesueleaplicarlafrmulapropuestaporHaberman(1978),
queconsisteendividirelvalordelresiduoencadacasillaporsuerrortpico.
nij eij
Residuostipificados rij =
eij
rij (nij eij ) / eij
Residuostipificadoscorregidos dij = = N(0,1)
V(rij ) Ni N j
1 1
N N
SantiagodelaFuenteFernndez5
Anlisisdevariablescategricas
Ni . N j
Ejemplo.Sealatablaadjunta, e ij = ,()valorSPSS
N
OpininSistemaPblico Bueno Regular Malo
Nivelrenta Total
(1) (2) (3)
Bajo 75 35 40 150
(1) (e 11 = 51) (e 12 = 48) (e 13 = 51) (150)
Medio 60 70 50 180
(2) (e 21 = 61,2) (e 22 = 57,6) (e 23 = 61,2) (180)
Alto 20 30 40 90
(3) (e 31 = 30,6) (e 32 = 28,8) (e 33 = 30,6) (90)
MuyAlto 15 25 40 80
(4) (e 41 = 27,2) (e 42 = 25,6) (e 43 = 27,2) (80)
170 160 170
Total 500
(170) (160) (170)
nij eij Ni N j
rij = residuostipificados V(rij ) = 1 1
eij N N
3,3607 1,5403 1,8764 0,4620 0,4620 0,7176
0,1534 1,4316 1,6338 0,4224 0,4224 0,4352
1,9162 1,6930 0,2236 0,5412 0,5412 0,5576
2,3392 2,4542 0,1186 0,5544 0,5544 0,5712
rij
dij = residuostipificadoscorregidos Comparandolosvaloresabsolutosdelosresiduos
V(rij )
tipificadoscorregidosconelcorrespondientevalor
4,9444 2,2661 2,7198 tabulardelanormal,paraunniveldesignificacindel
0,2360 2,2028 2,4766 5%(>1,96),seobservaquemuchosresiduosson
2,6046 2,3098 0,2995 significativos.
3,1416 3,2960 0,1569
Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:<<Hayun
mayornmero,considerablementealtoysuperioraldeotrasclasessociales,deencuestadosque
pertenecenaunaclasebaja(valor4,9444)yposeenunaopininfavorablesobrelaopininpblica.
Porelcontrario,laopinindelasclasesaltasymuyaltastienenunapercepcinclaramente
negativa.Deestemodo,seevidenciaqueexisteunarelacinydeltipoqueessta>>.
Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon (k 1)(m 1) elementosindependientes,elcontrastepor
cadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadaunode
ellosseajustaaunadistribucinterica N(0,1) .
SantiagodelaFuenteFernndez6
Anlisisdevariablescategricas
Anlisisdelosresiduos
Haydiferenciassignificativas:
1.Prescindiendodelsigno,losvalores>1,96
2.Conlosvalores>1,96,seanalizaelsigno
) Signonegativo:frecuenciainferioralaterica,seinfiereunarelacinnegativa
entrelosnivelesdelasvariables.
)Signopositivo:relacinpositiva.
EnSPSS:EnEditordedatosseintroducelatabladevalores.EnVistadevariablesseobservacomo
enlavariable(Opinin_sistema_sanitario)sehanintroducidolosvalores(1=Bueno,2=Regular,
3=Malo).Anlogamente,enlavariable(Nivel_renta)sehanintroducidolosvalores(1=Bajo,
2=Medio,3=Alto,4=MuyAlto),ambasvariablesnominales;mientrasquelavariable
(Frecuencia)lamedidaesescala.
Enelmen[Analizar/Estadsticosdescriptivos/Tablasdecontingencia]seintroduceenFilas
(Nivel_renta)yenColumnas(Opinin_sistema_sanitario).
SantiagodelaFuenteFernndez7
Anlisisdevariablescategricas
Enelbotn[Casillas]se
seleccionanFrecuencias
yResiduos.
SantiagodelaFuenteFernndez8
Anlisisdevariablescategricas
Advirtasequeconlatabladelasfrecuenciasobservadas (nij ) yesperadas (eij ) secalculael
Ni . N j
estadstico 2 dePearson: e ij =
N
mtodo prctico
6 4748
4 3 (n e )2 4 3 n2
2(4 1) (31) = 26 = ij ij = i j N = 540,0492 500 = 40, 0492
i =1 j =1 eij i =1 j=1 e i j
Pulsandoelbotn[Estadsticos]
seseleccionalaopcinChicuadrado.
EnelVisorderesultadosdeSPSS:
Chicuadrado
Elestadsticodecontraste(observado)es40,049,elcual,enladistribucin 2 tiene6gradosde
libertad(gl=6),tieneasociadaunaprobabilidad(Significacinasinttica)de0.
Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,concluyendoqueexisteuna
relacindedependenciaentreelnivelderentaylaopininsobrelaaceptacindelsistemapblico.
SantiagodelaFuenteFernndez9
Anlisisdevariablescategricas
Sealarquelarazndeverosimilitudes(RV)es39,693,tieneasociadaunaprobabilidad(Sig.
asinttica)de0,quecomoesmenorque0,05,conducearechazarlahiptesisnula,concluyendo
queexistedependenciaentrelasvariablesanalizadas.
RazndeverosimilitudChicuadrado(Fisher,1924;NeymanyPearson,1928):Seobtiene
n
mediantelarelacin: RV = 2 nij log ij
e
i j ij
Setratadeunestadsticoasintticamenteequivalentea 2 (sedistribuyeyseinterpretaigual)yes
muyutilizadoparaestudiarlarelacinentrevariablescategricas,particularmenteenelcontextode
losmodelosloglineales.
SeaceptalahiptesisnulacuandolasignificacindeRV(Sig.asinttica)esmayorque0,05.
2c =
k m (ne ij 0,5 )2
i=1 j=1 e ij
Algunosautoressugieren,queconmuestraspequeas,estacorreccinpermitequeelestadstico 2
seajustemejoralasprobabilidadesdeladistribucin 2 ,peronoexisteunconsensogeneralizado
sobrelautilizacindeestacorreccin
SantiagodelaFuenteFernndez10
Anlisisdevariablescategricas
Correlaciones:PermiteobtenerloscoeficientesdecorrelacindePearsonydeSpearman.
ElcoeficientedecorrelacindePearsonesunamedidadeasociacinlinealespecialmenteapropiada
paraestudiarlarelacinentrevariablesdeintervaloorazn.
ElcoeficientedecorrelacindeSpearmantambinesunamedidadeasociacinlineal,peropara
variablesordinales.
Amboscoeficientesposeenescasautilidadparaestudiarlaspautasderelacinpresentesenuna
tabladecontingenciatpica,dadoquelohabitualesutilizarlastablasdecontingenciaparacruzar
variablesdetiponominal,oalosumo,detipoordinalconsolounospocosniveles.
COEFICIENTEDECORRELACINLINEALDEPEARSON
Suposicin:Lasvariablesordinales(losvaloresdiscretossepuedenordenar)ocontinuas(valores
continuossepuedenordenar)estndistribuidasdeformagaussiana.Esuntestparamtrico.
Mtodo:Mideladesviacindelasvariablesrespectoaunalnearecta.
r N2
t ,(N2) =
1 r2
SantiagodelaFuenteFernndez11
Anlisisdevariablescategricas
COEFICIENTEDECORRELACINDESPEARMAN(1904):
VersinnoparamtricadelcoeficientedecorrelacindePearson,quesebasaenlosrangosdelos
datos.Resultaapropiadoparadatosordinales,olosdeintervaloquenosatisfaganelsupuestode
normalidad.
Elsignodelcoeficienteindicaladireccindelarelacinyelvalorabsolutodelcoeficientede
correlacinindicalafuerzadelarelacinentrelasvariables.
6 d2i
rS = 1 i
1 rs 1
N(N2 1)
donde di esladiferenciaentreelordenobtenidoenelcasoisimoenambasseries.
MEDIDASDEASOCIACINDETIPONOMINAL
Despusdeanalizarsiexisterelacinonoentrelasvariablesobjetodeestudio,cabepreguntarse
culeslaintensidaddeesarelacin?.Entrelasmedidasutilizadasseencuentran:Coeficientede
contingencia,QdeYule,PhiyVdeCramer,LambdayelCoeficientedeincertidumbre.
Mtodo:Probarqueeserrnealasuposicinquelasvariablesnoestnasociadas.Siesas,el
Ni . N j
nmerodeincidenciasesperadoenelcasillero (i, j) ser e ij =
N
k m (n e )2
Sedefinelafuncin ij ij = 2(k 1). (m1)
i =1 j=1 eij
Lasignificanciadequeambasdistribucionesestnasociadasvienedadaporlafuncinde
probabilidad 2 con gradosdelibertad.
1
Q (2 / ) = e t t 1 dt donde = (k 1)(m 1)
() 2
COEFICIENTEDECONTINGENCIA.ElcoeficientedecontingenciaCesunamedidadelgradode
asociacinorelacinentredosconjuntosdeatributos.Esespecialmentetilcuandohayuna
informacinclasificatoria(escalanominal)acercadeunooambosconjuntosdeatributos.
2 C = 0 a Independen cia
C = 0 C 1
+N C = 1 a Asociacin perfecta
2
Sloseutilizacuandolastablasdecontingenciatienenlamismadimensin.
k 1
Enunatabladecontingencia(kxk)elvalormximoser: C = .
k
SantiagodelaFuenteFernndez12
Anlisisdevariablescategricas
QdeYULE:ElcoeficientedecontingenciaQesunamedidadelgradodeasociacinorelacin
entredosconjuntosdeatributos.
Y
y1 y2
X
n11 n22 n12 n21
Q = 0 Q 1 x1 n11 n12 n11 + n12
n11 n22 + n12 n21 x2 n21 n22 n21 + n22
n11 + n21 n12 + n22 N
2
PHI:Elcoeficientephiseobtiene: = .
N
Enlastablasdecontingencia(2x2),phiadoptavaloresentre0y1,ysuvaloresidnticoaldel
coeficientedecorrelacindePearson.
Enlastablasenlasqueunadelasvariablestienemsdedosniveles,phipuedetomarvalores
mayoresque1(pueselvalorde 2 puedesermayorqueeltamaomuestral).
# ElcoeficientedecontingenciayPhiyVdeCramer,sonmedidasbasadasenChicuadrado,yque
intentancorregirelvalordelestadstico 2 parahacerletomarunvalorentre0y1,yparaminimizar
elefectodeltamaodelamuestrasobrelacuantificacindelgradodeasociacin(Pearson,1913;
Cramer,1946).
VdeCRAMER:ElcoeficienteVincluyeunaligeramodificacindephi:
2 V = 0 a Independencia
VCramer = 0 VCramer 1
N.min(k 1, m 1) V = 1 a Asociacin perfecta
Cadamedidavieneacompaadadesucorrespondientenivelcrtico(Sig.aproximada),elcual
permitedecidirsobrelahiptesisdeindependencia,puestoqueelnivelcrticodetodaslasmedidas
listadasesmuypequeo(menorque0,05),sepuederechazarlahiptesisnuladeindependenciay
concluirqueelnivelderentaylaopininsobreelsistemasanitarioestnrelacionados.
SantiagodelaFuenteFernndez13
Anlisisdevariablescategricas
2 40,0492 2 40,0492
= = = 0,283 VCramer = = = 0,200
N 500 N.min(k 1, m 1) 500 . 2
2 40,0492
C= = = 0,2723
+N
2
40,0492 + 500
MEDIDASBASADASENLAREDUCCINPROPORCIONALDELERROR(RPE).Sonmedidasde
asociacinqueexpresanlaproporcinenlaqueseconsiguereducirlaprobabilidaddecometerun
errordeprediccincuando,alintentarclasificaruncasoogrupodecasoscomopertenecientesa
unauotracategoradeunavariable,enlugardeutilizarnicamentelasprobabilidadesasociadasa
cadacategoradeesavariable,seefectalaclasificacinteniendoencuentalasprobabilidadesde
lascategorasdeesavariableencadacategoradeunasegundavariable.
COEFICIENTELAMBDADEGOODMANYKRUSKALL:Esuncoeficientequenodependedela .
2
SuponiendoqueYeselfactorexplicadoyXelexplicativo,seevalalacapacidaddeXpara
predecirYmediante:
mx
j
nij mx N j
j
Y = i
N mx nij
j
Deformaanloga,cuandoXeselfactorexplicadoeYelexplicativo,seevalalacapacidaddeY
parapredecirXmediante:
mx
i
nij mx Ni
i
X = j
N mx nij
i
0 ( X , X ) 1 ysonmedidasasimtricas.
ElcoeficienteLambdapresentatresversiones:dosasimtricas(cuandounadelasdosvariablesse
consideraindependiente)yunasimtrica(cuandonoexisteargumentoparadistinguir), 0 1 ,el
valor0indicaquelavariableindependientenocontribuyeenabsolutoenreducirelerrorde
prediccin;elvalor1indicaquesehaconseguidoporcompletoreducirelerrordeprediccin,es
decir,quelavariableindependientepredicecontodaprecisinaqucategoradelavariable
dependientepertenecenloscasosclasificados.
Cuandodosvariablessonestadsticamenteindependientes = 0
= 0 independenciaestadstica,pueslambdanicamenteessensibleauntipo
No implica
particulardeasociacin:Aladerivadadelareduccinenelerrorqueseconsiguealpredecirlas
categorasdeunavariableutilizandolasdeotra.
Cuandonoesposibledeterminarobjetivamenteculdelosdosfactoreseselexplicadooel
explicativo,seoptaporlaversinsimtrica,cuyovalores:
mx
j
nij + mx nij mx Ni mx N j
i i j
= i j
2N mx Ni mx N j
i j
SantiagodelaFuenteFernndez14
Anlisisdevariablescategricas
Elvalorde estcomprendidoentre X y Y presentaelinconvenientedesermuysensibleala
presenciadetotalesmarginalesdesequilibrados.
1 (N j nij )nij
(N Ni )Ni
N i j N j
) TAUDEGOODMANYKRUSKALL: =
1
(N Ni )Ni
N i
OpininSistemaPblico
Nivelrenta
Bueno Regular Malo Totalmarginal
Bajo 75 35 40 N1 = 150 mx n1 j = 75
Medio 60 70 50 N2 = 180 mx n2 j = 70
Alto 20 30 40 N3 = 90 mx n3 j = 40
MuyAlto 15 25 40 N4 = 80 mx n4 j = 40
4
Totalmarginal N1 = 170 N 2 = 160 N 3 = 170 N = 500 mx nij = 225
i =1j
3
mx
i
nij = 195 mx ni1 = 75 mx ni 2 = 70 mx ni 3 = 50
j=1
mx nij + mx nij mx Ni mx N j
j i i j 225 + 195 180 170
= i j
= = 0,1076 coeficientelambda
2N mx Ni mx N j 2. 500 180 170
i j
1 (N j nij )nij
(N Ni )Ni
N i j N j 361,2 351,3051
= = = 0,02739 taudeGoodmanyKruskall
1 361 ,2
(N Ni )Ni
N i
1 4 1
(N Ni )N = [(500 150)150 + (500 180)180 + (500 90)90 + (500 80)80] = 361,2
N i=1 500
(N j nij )nij (170 75) 75 + (170 60) 60 + (170 20)20 + (170 15)15
= +
j N j 170
(160 35) 35 + (160 70) 70 + (160 30) 30 + (160 25)25
+ +
160
(170 40) 40 + (170 50) 50 + (170 40) 40 + (170 40) 40
+ = 351,3051
170
COEFICIENTEDEINCERTIDUMBRE(THEIL,1970):Esunamedidasemejantealambdaytauen
Cuantoasuconcepcindelaasociacindelasvariables,enrelacinalacapacidadpredictivayla
disminucindelerrordedichaprediccin.
Ladiferenciaestribaensuclculoyaqueenestecasolaexpresindeestoscoeficientesdependede
todaladistribucinynoslodelosvaloresmodales,porloqueslotomaelvalor0encasosdetotal
independencia.staessuventajarespectoalambda,peroesmsdifcildeinterpretar.
Oscilaentre0y1.
SantiagodelaFuenteFernndez15
Anlisisdevariablescategricas
Poseedosversionesasimtricas(dependiendodeculdelasdosvariablesseconsidera
independiente)yunasimtrica(cuandonosehacedistincinentrevariabledependientee
independiente).
Ni Ni N N n n
I(X) = Ln I(Y) = j Ln j I(XY) = ij Ln ij
i N N j N N i j N N
Paraobtener IX / Y bastaintercambiarlospapelesdeI(X),I(Y).
Enelejemplo:
Ni Ni N N
I(X) = Ln = 1,3309 I(Y) = j Ln j = 1,0982
i N N j N N
n n
I(XY) = ij Ln ij = 2,3894
i j N N
Cadamedida(Lambda,TaudeGoodmanKruskall,Coeficientedeincertidumbre)figuraacompaada
desunivelcrtico(Sig.aproximada),quecomoespequeo,menorque0,05,conducearechazarla
hiptesisnuladeindependencia,concluyendoquelasvariablesenestudio(Nivel_renta,
Opinin_sistema_sanitario)estnrelacionadas.
Juntoalvalorconcretoadoptadoporcadamedidadeasociacinaparecesuvalorestandarizado(T
aproximada),queseobtienedividiendoelvalordelamedidaentresuerrortpico(calculadoste
suponiendoindependenciaentrelasvariables.Latablatambinmuestraelerrortpicodecada
medidacalculadosinsuponerindependencia(Errortpicoasinttico).
SantiagodelaFuenteFernndez16
Anlisisdevariablescategricas
DATOSORDINALES.Recogeunaseriedemedidasdeasociacinquepermiteaprovecharla
informacinordinalquelasmedidasdiseadasparadatosnominalespasansinanalizar.
Condatosordinalestienesentidohablardedireccindelarelacin:unadireccinpositivaindicaque
losvaloresaltosdeunavariableseasocianconlosvaloresaltosdelaotravariable,ylosvalores
bajosconvaloresbajos;unadireccinnegativaindicaquelosvaloresaltosdeunavariableseasocian
conlosvaloresbajosdelaotra,ylosvaloresbajosconlosvaloresaltos.
Muchasdelasmedidasdeasociacindiseadasparaestudiarlarelacinentrevariablesordinalesse
basanenelconceptodeconcordancia(inversin)ydiscordancia(noinversin).
) Silosdosvaloresdeuncasoenambasvariablessonmayores(omenores)quelosdosvaloresde
otrocaso,sedaunaconcordanciaonoinversin(C).
) Sielvalordeuncasoenunadelasvariablesesmayorqueeldelotrocaso,yenlasegunda
variableelvalordelsegundocasoesmayorqueeldelprimero,sedaunadiscordanciao
inversin(D).
) Silosdoscasostienenvaloresidnticosenunaoenlasdosvariables,sedaunempate(E).Hay
trestiposdeempates:empateenlavariableXynoenlavariableY (EX ) ,empateenlavariableY
ynoenlavariableX (EY ) ,yempateenambasvariables (EXY ) .
Cuandopredominanlasconcordancias,larelacinespositiva,amedidaqueaumentan(o
disminuyen)losvaloresdeunadelasvariables,aumentan(odisminuyen)losdelaotra.
Cuandopredominanlasdiscordancias,larelacinesnegativa,amedidaqueaumentan(o
disminuyen)losvaloresdeunadelasvariables,disminuyen(oaumentan)losdelaotra.
Todaslasmedidasdeasociacinmencionadasenestepunto,utilizanenelnumeradorladiferencia
ladiferenciaentreelnmerodediscordanciasyconcordanciasresultantesdecompararcadacaso
concadacaso,diferencindoseeneltratamientodadoalosempates.
Enadelante,Cnmerodeconcordancias,Dnmerodediscordancias,EXnmeroempatesenla
variableX(tomandoaYcomoindependiente),EYnmeroempatesenlavariableY(tomandoaX
comoindependiente),EXYnmeroempatesenambasvariables.
Eltotaldeparesdevaloresqueesposibleencontrar(T),sinrepeticiones,siendoNeltotaldecasos,
vienedadoporlaexpresin:
N(N 1)
T = T = C + D + EX + EY + EXY
2
GAMMA:Unodeloscoeficientesmsconocidoseselcoeficientegamma( )deGoodmany
Kruskall,paralagammalosempatessonirrelevantes,sebasaenlarelacinquesiguenlos
rangosdelosdosatributos:
SantiagodelaFuenteFernndez17
Anlisisdevariablescategricas
dDESOMMER:Adiferenciadelosanteriores,esteestadsticoconsideraquelasvariables
puedensersimtricasodependientes.Enelcasodesersimtricas,elestadsticoddeSomers
coincideconlaTaubdeKendall.Encasodeserdependientes,sediferenciadelestadstico
Gammaenqueincluyelosempatesalaqueconsideradependiente,loquedalugaratresndices
(dosasimtricosyunosimtrico):
(C D)
) TomandoalavariableYcomoindependiente: dX = ( EX sonempatesenlavariableX)
C + D + EX
(C D)
) TomandoalavariableXcomoindependiente: dY = ( EY sonempatesenlavariableY)
C + D + EY
(C D)
) VersinsimtricaparaXeY: d =
E + E
C +D + X Y
2
COEFICIENTEDECONCORDANCIADEKENDALL:Enunprocesodeevaluacin,seempleaen
situaciones,enlaqueinteresaobtenerunamedidadelacoincidenciadeunconjuntode
evaluadores.
N
12 (Ri R )
i=1 R media de los rangos
W = donde
k2 N(N2 1) k nmero variables incluidas
TauadeKendall:Sedefinecomolaraznentreladiferenciadelnmeroparesconcordantesy
discordantesconlatotalidaddelnmerodeparesposibles(T).
(C D)
a =
T
Elcoeficiente a tomavaloresentre[1,1],elsignoindicaelsentidodelaasociacin,el0la
independenciaestadstica.Unalimitacinimportanteesqueenciertoscasosnoalcanzael1(1)
anexistiendoasociacinperfecta,puesparaestorequierequetodaslasceldascentralestengan
frecuencia0.
TaubdeKendall:UtilizaelmismocriterioqueladdeSommersimtrica,sibienutilizalamedia
geomtricaenlugardelamediaaritmtica:
(C D)
b =
(C + D + EX )(C + D + EY )
Elcoeficiente b tomavaloresentre[1,1],soloenlastablasdecontingenciacuadradasysi
ningunafrecuenciamarginalvalecero.
SantiagodelaFuenteFernndez18
Anlisisdevariablescategricas
TaucdeKendall:Utilizaelmnimodefilasydecolumnas:
2m(C D)
c = m = mn{n filas , n columnas}, 1 c 1
N2 (m 1)
Cadacoeficienteaparececonsucorrespondientenivelcrtico(Sig.aproximada),puestoqueestos
nivelescrticossonmenoresque0,05,serechazalahiptesisnuladeindependencia,afirmandoque
lasvariables(Nivel_renta,Opinin_sistema_sanitario)estnrelacionadas.
Ycomoelvalordelasmediasespositivo(relacinpositiva),sepuedeinterpretarqueaunmayor
nivelderentacorrespondeunamejoropinindelsistemasanitario.
NOMINALPORINTERVALO(ETA):Elcoeficientedecorrelacineta( )sirveparacuantificar
Gradodeasociacinexistenteenteunavariablecuantitativa(medidaenescaladeintervaloorazn)
yunavariablecategrica(medidaenescalanominaluordinal).
Setratadeuncoeficientedecorrelacinquenosuponelinealidadycuyocuadradopuede
interpretarse,sieldiseolopermite,comolaproporcindevarianzadelavariablecuantitativa
questaexplicadapor(quedependede)lavariablecategrica.
Sumayorutilidadnoestasociadaalastablasdecontingencia,puesstasseconstruyen
utilizandovariablescategricas.Apesardeello,comoesunaopcindeSPSS,sepuedemarcarla
opcinetayobtenerelvalordelarelacinentredosvariablescuandounadeellases
cuantitativaylaotracategrica.
2
2
xi nij
2 i
xi nij
j i nij
) Cuandolasfilassonelatributodependiente: = 1 i
2
xi nij
x2i nij
i j
i j N
SantiagodelaFuenteFernndez19
Anlisisdevariablescategricas
2
y2j nij
y2j nij
j
i j nij
) Cuandolascolumnassonelatributodependiente: = 1 j
2
y j nij
y2j nij
i j
j i N
NDICEDEACUERDO(kappa):Proporcionaunamedidadelgradodeacuerdoexistenteentredos
observadoresojuecesalevaluarunaseriedesujetosuobjetos(Cohen,1960):
N nii Ni Ni
= i i
N Ni N i
2
i
Elvalorkappa , 0 1 ,tomaelvalor0(acuerdonulo)y1(acuerdomximo).
Sielacuerdoalcanzadoesmenorqueelesperadoporazar,kappatomaunvalornegativo.
Fleiss,CohenyEveritt(1969)demostraronqueelerrortpicodelcoeficientedeKappapuede
estimarsemediantelaexpresin:
1
2
2 =
2
N2
Ni N i +
Ni N i
N Ni N i (Ni + N i )
N N2 Ni Ni
i i i i
Lahiptesisdequelosdosobservadores(jueces)sonindependientes ( = 0) sepuedecontrastar
tipificandoelvalordekappa: z = N(0, 1)
AlmargendelasignificacinestadsticadelcoeficientedeKappa,LandisyRoch(1977)
argumentaronque:
NDICESDERIESGO:Sontilesparadiseoslongitudinalesenlosquesemidendosvariables
dicotmicas.Elseguimientoenestudioslongitudinalespuederealizarse:haciadelanteohaciaatrs.
) Enlosestudioslongitudinaleshaciadelante,denominadosdiseosprospectivosodecohortes,los
sujetossonclasificadosendosgruposdependiendodelapresenciaoausenciadealgnfactor
desencadenantey,seleshaceunseguimientoduranteunperododetiempo,hastadeterminarla
proporcindesujetosdecadagrupoenlosquesedaundeterminadodesenlaceobjetodeestudio.
n11 N1
Lamedidadeinterseselriesgorelativo( Rr ): Rr =
n21 N2
SantiagodelaFuenteFernndez20
Anlisisdevariablescategricas
Lainterpretacin:<<Laproporcindedesenlacesentrelossujetosexpuestosalfactor
desencadenantees Rr msaltaqueentrelossujetosnoexpuestos>>.
Unriesgorelativode1indicaquelaprobabilidaddeencontrareldesenlaceeslamismatantoenel
grupodesujetosexpuestoscomoenelgrupodesujetosnoexpuestos.
Paravalorarsielriesgoobtenidoessignificativamentedistintode1,sepuedecalcularelintervalode
confianza:
z n12 n
+ 22 z1 / 2
n12
+ 22
n
/2
n11 N1 n21 N2 n11 N1 n21 N2
Rr e ; Rr e
Sielintervalodeconfianzanocubreelvalor1,elriesgodeexperimentareldesenlacenoeslo
mismoenlosgruposquesecomparan.
) Enlosdiseoslongitudinaleshaciaatrs,tambinllamadosretrospectivosocasocontrol,se
formangruposdesujetosapartirdelapresenciaoausenciadeunadeterminadacondicinobjeto
deestudio,ysehaceelseguimientohaciaatrs,intentandoencontrarinformacinsobrela
proporcinenlaqueseencuentrapresenteencadamuestraundeterminadofactor
desencadenante.
Comoeltamaodelosgrupossefijaapartirdelapresenciaoausenciadeundeterminado
desenlace,secalculaoddsratio(razndelasventajasorazndeproductoscruzados):
Unndicede1indicaquelaprobabilidaddeencontrarseconelfactordesencadenanteenlosgrupos
estudiadoseslamisma.Paradeterminarsiesteriesgoessignificativamentedistintode1,secalcula
elintervalodeconfianzamediante:
z / 2
1
+
1
+
1
+
1
z1 / 2
1
+
1
+
1
+
1
Or e n11 n12 n21 n22
; Or e
n11 n12 n21 n22
ESTADSTICOSDECOCHRANYDEMANTELHAENSZEL(CombinacindeTablas2x2):En
ocasiones,puedeinteresaranalizarlosdiseosdecohortesydecasocontrol(tratadosenlosndices
deriesgo)controlandoelefectodetercerasvariables.
Estasituacinespropia,porejemplo,cuandosedeseaevaluarelefectodeuntratamientosobreuna
determinadarespuestautilizandodistintosgruposdepacientes.
Setratadeestudiarsiexisteonoasociacinentreunavariablefactoryotravariablerespuesta,
ambasdicotmicas,cuandosedisponedeinformacinreferidaavariosestratos(distintosgruposde
edadosexo,pacientescondiferentesintomatologa,distintosgrupostnicos,distintasdosisde
frmaco,etc.).
SantiagodelaFuenteFernndez21
Anlisisdevariablescategricas
2
Enestoscasos,utilizarelestadstico sobreelconjuntodedatosagrupadospuedearrojar
resultadosinadecuados.Porotraparte,analizarseparadamentecadaestratonoproporcionauna
ideaglobaldelefectodelavariablefactor.
UtilizandolosestadsticosdeCochranyMantelHaenszel(segnunmodelo 12 )seobtieneuna
informacinmsajustadaparacontrastarlahiptesisdeindependenciacondicional,estoes,la
hiptesisdeindependenciaentrelasvariablesfactoryrespuestaunavezquesehacontroladoel
efectodelosestratos.
2
nk ek
ElestadsticodeCochran(1954)seexpresamediante: 2Cochran = k k
nk
2
k
k cada uno de los estratos
n frecuencia observada en casilla del estrato k (slo una y siempre la misma en todos los estratos)
k
e frecuencia esperada en cada correspondiente n
k k
nk (n1+k + n2+k + n+1k + n+2k ) / N donde (n1+k ,n2+k ,n+1k ,n+2k ) frecuencias m arg inales asociadas tabla 2x2
2 3
ElestadsticodeMantelHaenszel(1959)esidnticoaldeCohran,exceptoendosdetalles:
Utilizalacorreccinporcontinuidad(resta0,5alnumeradorantesdeelevarloalcuadrado)
Cambiaeldenominadordelavarianza,utilizando N2 (N 1) enlugarde N3
Losdosestadsticossedistribuyensegnelmodelodeprobabilidad 12 .
Cuandoelnivelcrticoasociadoaellosesmenorque0,05,serechazalahiptesisnulade
independenciacondicionalyseconcluyeque,unavezcontroladoelefectodelosestratos,las
variablesfactoryrespuestaestnasociadas.
(n11k n22k / n+ +k )
RVcomun =
(n12k n21k / n+ +k )
k RiesgohomogneoentodoslosestratosdeMantelHaenszel
k
SantiagodelaFuenteFernndez22
Anlisisdevariablescategricas
Ejemplo.Tabladecontingenciade
tabaquismoporproblemas
vascularesdehombresymujeres.
ElestadsticodeCochrantieneunvalorde13,933conunnivelcrticoasociado(Sig.asinttica
bilateral)de0,000(menorque0,05)conloqueserechazalahiptesisnuladeindependencia
SantiagodelaFuenteFernndez23
Anlisisdevariablescategricas
condicionalyseconcluye,controladoelefectodelavariablesexo,quelasvariablestabaquismoy
problemasvascularesestnrelacionadas.
AnlogaconclusinsellegaconelestadsticodeMantelHaenszel.
Rechazadalahiptesisdeindependenciacondicional,elinterssecentrahaciaelgradode
dependenciaexistenteentrelasvariablesfactoryrespuesta.Enestalnea,SPSSofreceuna
estimacindelriesgooddsratiocomnparatodoslosestratos.Estaestimacincomnsolotiene
sentidosiexisteinteraccintriple,estoes,silainteraccindetectadaeshomogneaentodoslos
estratos.
Lahiptesisdehomogeneidaddelasoddsratiopuedecontrastarseutilizandolosestadsticos
BreslowDay(1980,1987)ydeTarone(1983).Enlatabladelaspruebasdehomogeneidaddela
razndelasventajas,seobservaqueelnivelcrticoasociadoaambosestadsticosesde0,167
(mayorque0,05)porloquesepuedemantenerlahiptesisnuladehomogeneidad.
Partiendodequeelriesgoes
homogneoentodoslosestratos,tiene
sentidocalcularunaestimacincomn
delriesgo.
ElVisorderesultadosdeSPSSofreceel
datobasadoenelestadsticode
MantelHaenszel(1959).
EnlapruebadeNcNemar,sepresentaelnivelcrtico
asociadoalnmerodecambiosobservados(Sig.
exactabilateral)yelnmerodecasosvlidos.
LatablanomuestraelvalordelestadsticodeNcNemar,loquesignificaqueelnivelcrticoseha
calculadoutilizandoladistribucinbinomial(comosedetalla),permitiendodeestemodoobtenerla
probabilidadexactaynoaproximada(queseobtendraconelestadsticochicuadrado).
Cualquieraquefueralaformadeobtenerlo,elnivelcrticoindicaelgradodecompatibilidad
existenteentrelosdatosmuestralesylahiptesisnuladeigualdaddeproporcionesantesdespus.
Siendoelnivelcrtico0,000(<0,005),serechazalahiptesisnula,concluyendoquelaproporcinde
hombresymujeresconproblemasvascularescambiasignificativamenteentrefumadoresyno
fumadores.
SantiagodelaFuenteFernndez24
Anlisisdevariablescategricas
ElvalordelestadsticoKappa(0,082y0,169,respectivamente)ysunivelcrtico(Sig.aproximada)
permitendecidirsobrelahiptesisdeacuerdonulo.
Enelcasodeloshombres,alserelnivelcrticoenhombres(0,062>0,05)seaceptalahiptesisnula
deacuerdonulo.SegnLandisyRoch(1977),siendo = 0,082 < 0,20 habraunacuerdoinsuficiente.
Enelcasodelasmujeres,elnivelcrtico(0<0,05),sepuederechazarlahiptesisnuladeacuerdo
nulo,concluyendoqueexisteunacuerdosignificativamentemsaltoqueelesperadoporazar.
SegnLandisyRoch,siendo = 0,169 < 0,20 habraunacuerdoinsuficiente.
JuntoalvalordelndicedeKappaaparecesuvalorestandarizado(Taproximada),obtenidoaldividir
elvalordekappaentresuerrortpico(calculadobajoelsupuestodeacuerdonulo).Porotraparte,el
errortpicodeKappa(Errortpicoasinttico)secalculasinsuponeracuerdonulo.
Laprimerafilaindicaelriesgoestimadoentre
mujeresfumadorasynofumadoras,enundiseo
decasocontrol(razndelasventajas),elvalor
4,007seinterpretacomoque,entrelasmujerescon
problemasvasculares,laprobabilidadoriesgode
encontrarmujeresfumadorases4vecesmayorque
ladeencontrarmujeresnofumadoras.
Larazndeventajastambinpuedeinterpretarsecomounaestimacindelriesgorelativo(en
particular,slaproporcindedesenlacesespequea),esdecir,elproblemadepadecerproblemas
vasculareses4vecesmayorentremujeresfumadorasqueenmujeresnofumadoras.
Lasegundaytercerafilaseencargandendicesderiesgoparaundiseodecohortes.
Sisedeseaanalizarlapresenciadeproblemasvasculares(2fila),elriesgoolaprobabilidadde
encontrartalproblemaentrelasfumadorases3,342vecesmayorqueentrelasnofumadoras,en
otraspalabras:<<porcadamujerconproblemasvascularesentrelasnofumadoras,sepueden
encontrar3,34mujeresconproblemasvascularesentrelasfumadoras>>.
Paraanalizarlaausenciadeproblemasvasculares(3fila),laprobabilidadoriesgodeencontrartal
desenlaceesmenorentrelasmujeresfumadoras,estoes:<<porcadamujersinproblemas
vascularesentrelasnofumadorassepuedenencontrar0,834mujeressinproblemasvasculares
entrelasfumadoras>>.
Lascasillasoceldasdeunatabladecontingenciacontienen
informacinmuyvariada:frecuencias(observadas,
esperadas),porcentajesyresiduos.
SantiagodelaFuenteFernndez25
Anlisisdevariablescategricas
) Frecuencias:
Frecuenciasobservadas:valorrealdecadapardevalores.
Frecuenciasesperadas:valortericoquetuvieraquetenercadacasillaparaquefueran
independienteslasvariables.
) Porcentajes:
Porcentajeporfila:valordecadacasillaentreeltotalmarginaldesufila.
Porcentajeporcolumna:valordecadacasillaentreeltotalmarginaldesucolumna.
Porcentajetotal:valorquelafrecuenciaobservadadeunacasillarepresentarespectoal
nmerototaldecasos.
) Residuos:Diferenciasentrelasfrecuenciasobservadasyesperadasdecadacasilla.Sontiles
parainterpretarlaspautasdeasociacinenunatabla:
Notipificados:Diferenciaentelafrecuenciaobservadayesperada.
Tipificados:Eselresiduonotipificadodivididoporlarazcuadradadesucorrespondiente
frecuenciaesperada.Elvaloresperadoes0ysudesviacintpicaesmenorque1,loque
hacequenosepuedeninterpretarcomopuntuacionesnormalesz.Noobstante,sirven
comoindicadoresdelgradoenquecadacasillacontribuyealvalordelestadstico 2 ,
sumandoelcuadradodetodoslosresiduostipificadosseobtieneelvalordechicuadrado.
TipificadoscorregidosdeHaberman(1973):Residuosquesedistribuyenconpuntuaciones
normales N(0,1) ,seobtienendividiendoelresiduodecadacasillaporsuerrortpico.Al
distribuirsenormalmente,soninterpretablesconmuchafacilidad,deestemodo,utilizando
unniveldeconfianzade0,95,sepuedeafirmarquelosresiduosmayoresde1,96avisande
casillasconmscasosdelosquedeberahaberenesacasillasilasvariablesanalizadas
fueranindependientes,mientrasquelosresiduosmenoresde1,96delatancasillascon
menoscasosdelosquedeberahaberenesacasillabajolahiptesisdeindependencia.
Entablasdecontingenciaconvaloresnominales,unavezestablecidoqueentredosvariables
existeunaasociacinsignificativa(conelestadsticochicuadrado),yhabiendocuantificado
estaasociacin(coeficientedecontingencia),losresiduostipificadoscorregidossonuna
herramientamuytilparainterpretarelsignificadodelaasociacin.
Tabladecontingenciaporcategoravascular:AnlisisdelosResiduos.
Losresiduostipificadosfuera
delintervalo [ 1,96 ; 1,96] ,
porejemplo,enhombresy
mujeresquefumancon
problemasvasculares,existe
unaproporcinsignificativa
msaltaenlasmujeres(2,5
frente1,3);mientrasque
entrelosnofumadores
existenunaproporcinms
altaenhombres(1,1frente
a2,1).
SantiagodelaFuenteFernndez26
Anlisisdevariablescategricas
Ejercicio1.Tresmtodosdeempaquetadodetomatesfueronprobadosduranteunperodode
cuatromeses;sehizounrecuentodelnmerodekilospor1000quellegaronestropeados,
obtenindoselatablaadjunta.Conunniveldesignificacinde0,05,tienenlostresmtodosla
mismaeficacia?.
Meses A B C Total
1 6 10 10 26
2 8 12 12 32
3 8 8 14 30
4 9 14 16 39
Total 31 44 52 127
SantiagodelaFuenteFernndez
28
Anlisisdevariablescategricas
Paratomarunadecisinsobresihaydiferenciaentrelosdiferentesmtodosdeempaquetado,se
contrastalahiptesisnula,H0:Nohaydiferenciaentrelosdiferentesmtododeempaquetado,
medianteuna 2 dePearson.
Seintroducenlosdatosporfilasycolumnas.
Mostrarlosgrficosdebarrasagrupadas:
Activandolaopcin,elVisorderesultados
muestraungrficodebarrasconlascategorasde
lavariablefila(ejedeabscisas)ylascategorasde
lavariablecolumnaanidadasdentrodelas
categorasdelavariablefila.
Enconsecuencia,cadabarrarepresentauna
casilla,ysualturavienedadaporlafrecuenciade
lacasilla.
SantiagodelaFuenteFernndez
29
Anlisisdevariablescategricas
Suprimirtablas:Estaopcinpuedeactivarsesinose
deseaningunatabladecontingencia,estadecisintendra
sentidosisoloseestuvierainteresadoenobtenerun
grficodebarrasoalgunodelosestadsticosomedidasde
asociacindisponiblesenelprocedimientoTablasde
contingencia.
Empaquetado N i
Meses
A B C
6 10 10 26
1 (e 11 = 6, 35) (e 12 = 9, 01) (e 13 = 10, 62) (26)
8 12 12 32
2 (e 21 = 7, 81) (e 22 = 11, 09) (e 23 = 13, 10) (32)
8 8 14 30
3 (e 31 = 7, 32) (e 32 = 10, 39) (e 33 = 12, 28) (30)
9 14 16 39
4 (e 41 = 9, 52) (e 42 = 13, 51) (e 43 = 15, 97) (39)
Nj 31 44 52 N = 127
4 3 n 2i j
Estadsticodecontraste: 2(4 1) (31) = 26 = n = 128,24 127 = 1, 24 (estadsticoobservado)
i =1 j =1 e ij
SantiagodelaFuenteFernndez
30
Anlisisdevariablescategricas
Estadsticodecontraste(observado)es1,24,elcual,enladistribucin 2 dePearsontiene6
gradosdelibertad (gl = 6) ,tieneasociadaunaprobabilidadSig.asinttica(Significacinasinttica)de
0,975.
Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservado)esgrande
(0,975>0,05),sedecideaceptarlahiptesisnula,yseconcluyequelostresmtodosde
empaquetadotienenlamismaeficiencia.
4 3 nij
RazndeverosimilitudChicuadrado:Siendo, RV = 2 nij log = 1,274 < 12, 592 = 20 ,05 ; 6 ,
eij
i=1 j=1
seaceptalahiptesisnula,yseconcluyequelostresmtodosdeempaquetadotienenlamisma
eficiencia.
Enlatabla,seobservacomoRVtieneasociadaunaprobabilidad(Sig.asinttica)de0,973,quecomo
esmayorque0,05,conduceaaceptarlahiptesisnula,llegandoalamismaconclusin.
Sealar,queencasocontrario,seeligeelestadsticoconmenorSig.asinttica.
LacorreccinporcontinuidaddeYates: 2c =
k m (ne ij 0,5 )2
= 0,59
i=1 j=1 e ij
Algunosautoressugieren,queconmuestraspequeas,estacorreccinpermitequeelestadstico
2 seajustemejoralasprobabilidadesdeladistribucin 2 ,peronoexisteunconsenso
generalizadosobrelautilizacindeestacorreccin.
SantiagodelaFuenteFernndez
31
Anlisisdevariablescategricas
EnelanlisisdeMEDIDASSIMTRICASseencuentranlasmedidasnominales,medidasordinales,
coeficientedecorrelacindeSpearmanyelcoeficientedecorrelacindePearson.
Lasmedidasnominalespermitencontrastarlaindependenciasindecirnadasobrelafuerzade
asociacinentrelasvariables,informannicamentedelgradodeasociacinexistente,nodela
direccinodelanaturalezadetalasociacin.Sonmedidasbasadasenelestadsticochicuadrado:
Phi,VdeCrameryelCoeficientedeContingencia.
Lasmedidasordinalesquerecogenladireccindelaasociacindelasvariables:unarelacinpositiva
indicaquelosvaloresaltosdeunavariableseasocianconlosvaloresaltosdelaotravariable,ylos
valoresbajosconlosvaloresbajos;unarelacinnegativaindicaquelosvaloresaltosdeunavariable
seasocianconlosvaloresbajosdelaotravariable,ylosvaloresbajosconlosvalorealtos.
Estasmedidassebasanenelconceptodeconcordancias(oinversin)ydiscordancias(ono
inversin).Lasmedidasdeasociacin(Gamma,Taub,Tauc)utilizanenelnumeradorladiferencia
entreelnmerodeconcordanciasoinversionesydiscordanciasonoinversionesresultantesde
compararcadacasoconotro,diferencindoseeneltratamientodadoalosempates.
Cadamedidadeasociacinapareceacompaadadesucorrespondientenivelcrtico(Sig.
aproximada),permitiendodecidirsobrelahiptesisdeigualdaddeeficiencia,puestoqueelnivel
crticodetodaslasmedidaslistadasesgrande(mayorque0,05entodosloscasos)seaceptala
hiptesisnuladeigualdaddeeficiencia.
Alladodelvalordecadacoeficienteseencuentrasuvalorestandarizado(Taproximada:valordel
coeficientedivididoporsuerrortpico),ascomoelerrortpicodelvalordecadacoeficienteobtenido
sinsuponerindependencia(Errortpicoasinttico).
2 1,240
Phi: = = = 0,099
N 127
2 1,240 1,240
VdeCRAMER: VCramer = = = = 0,07
N.min(k 1, m 1) 127.min(4 1, 3 1) 127.2
SantiagodelaFuenteFernndez
32
Anlisisdevariablescategricas
CoeficientedeContingencia(gradoderelacinodependencia):
asociacin
independen cia perfecta
2
1,240 } }
C = = = 0,098 0 C 1
2 + N 1,240 + 127
Paracalcularloscoeficientesordinales(Taub,TaucyGamma)serequieresaberelnmerode
paresconcordantes(C),discordantes(D)yempates(E).Partiendodelainformacinobtenida:
Meses A B C
1 6 10 10
2 8 12 12
3 8 8 14
4 9 14 16
Nmerodeparesconcordantes:surgendelproductodelasceldasexternasporelsumandodelas
frecuenciasdelasceldasinternas.
6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
6 (12 + 12 + 8 + 14 + 14 + 16) = 456 10 (12 + 14 + 16) = 420 8 (8 + 14 + 14 + 16) = 416
6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
12(14 + 16) = 360 8 (14 + 16) = 240 8 (16) = 128
Nmerodeparesdiscordantes:razonamientoanlogo,partiendodelaceldaopuesta.
6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
10 (8 + 12 + 8 + 8 + 9 + 14) = 590 10 (8 + 8 + 9) = 250 12(8 + 8 + 9 + 14) = 468
6 10 10 6 10 10 6 10 10
8 12 12 8 12 12 8 12 12
8 8 14 8 8 14 8 8 14
9 14 16 9 14 16 9 14 16
12(8 + 9) = 204 14 (9 + 14) = 322 8 (9) = 72
Clculodeparesempatados (E X ) enlavariableX:
6
8 8
8 8 8
9 9 9
6 (8 + 8 + 9) = 150 8 (8 + 9) = 136 8 (9) = 72
10
12 12
8 8 8
14 14 14
10 (12 + 8 + 14) = 340 12(8 + 14) = 264 8 (14) = 112
10
12 12
14 14 14
16 16 16
10 (12 + 14 + 16) = 420 12(14 + 16) = 360 14 (16) = 224
ElnmerodeparesempatadosenlavariableXser:
Clculodeparesempatados (E Y ) enlavariableY:
6 10 10
8 12 12
8 8 14
10 10
12 12
8 14
9 14 16 14 16
9 (14 + 16) = 270 14 (16) = 224
SantiagodelaFuenteFernndez
34
Anlisisdevariablescategricas
ElnmerodeparesempatadosenlavariableYser:
nij (nij 1)
Elclculodeparesempatadosenambasvariablesvieneexpresado: EXY =
i, j 2
Meses A B C
6 10 10
1
(15) (45) (45)
8 12 12 4 3 nij (nij 1)
2
(28) (66) (66) EXY = = 659
i=1 j=1 2
8 8 14
3
(28) (28) (91)
9 14 16
4
(36) (91) (120)
Calculadoselnmerodeparesdevaloresconcordantes,discordantes,yempates,sepuede
determinarlosdistintoscoeficientesparadeterminarelgradodeasociacinentrelasvariables
ordinales.
Eltotaldeparesdevaloresqueesposibleencontrar(T),sinrepeticiones,siendoNeltotaldecasos,
vienedadoporlaexpresin:
N(N 1) 127.126
T = = = 8001
2 2
C D 2020 1906
Gamma(losempatessonirrelevantes): = = = 0,029
C + D 2020 + 1906
TauadeKendall:
(C D) (2020 1906)
a = = = 0,0142
T 8001
TaubdeKendall:
(C D) (2020 1906)
b = = = 0,0203
(C + D + EX )(C + D + EY ) (2020 + 1906 + 2078)(2020 + 1906 + 1338)
TaucdeKendall:
SantiagodelaFuenteFernndez
35
Anlisisdevariablescategricas
EnelanlisisdeMEDIDASDIRECCIONALESseencuentranlasmedidasnominales(lambda,
coeficientedeincertidumbre),medidasordinales(ddeSomers),yelnominalporintervalo(eta).
Elvalordeloscoeficientesapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),puestoqueelnivelcrticodetodaslasmedidaslistadasesgrande (> 0,05) seaceptala
hiptesisnuladeindependencia,concluyendoquelosmesesyelmtododeempaquetadonoestn
relacionados.
Meses A B C Totalmarginal
1 6 10 10 N1 = 26 mx n1 j = 10
2 8 12 12 N2 = 32 mx n2 j = 12
3 8 8 14 N3 = 30 mx n3 j = 14
4 9 14 16 N4 = 39 mx n4 j = 16
4
N1 = 31 N 2 = 44 N 3 = 52 mx nij = 52
Totalmarginal N = 127 i= 1 j
3
mx nij = 39 mx ni1 = 9 mx ni2 = 14 mx ni 3 = 16
j=1 i
CoeficienteLambda:
mx nij + mx nij mx Ni mx N j
i j j i i j 52 + 39 39 52
= = = 0 coeficientelambda
2N mx Ni mx N j 2.127 39 52
i j
Enconsecuencia,lasvariablesanalizadassonindependientesalser = 0
SantiagodelaFuenteFernndez
36
Anlisisdevariablescategricas
CoeficientedeGoodmanyKruskall(variableXdependiente):
1 (N j nij )nij
(N Ni )Ni
N i j N j 94 ,551 94 ,2578
= = = 0,003 taudeGoodmanyKruskall
1 94 ,2578
(N Ni )Ni
N i
1 4 1
(N Ni )N = [(127 26)26 + (127 32)32 + (127 30)30 + (127 39)39] = 94,551
N i=1 127
CoeficientedeGoodmanyKruskall(variableYdependiente):
1 3 1
(N N j)N = [(127 31) 31 + (127 44) 44 + (127 52) 52] = 82,898
N j=1 127
(Ni nij )nij (26 6) 6 + (26 10)10 + (26 10)10 (32 8) 8 + (32 12)12 + (32 12)12
= + +
i Ni 26 32
(30 8) 8 + (30 8) 8 + (30 14)14 (39 9) 9 + (39 14)14 + (39 16)16
+ + = 82,456
30 39
Ni Ni N N
I(X) = Ln = 1,3755 I(Y) = j Ln j = 1,0771
i N N j N N
SantiagodelaFuenteFernndez
37
Anlisisdevariablescategricas
(nij / N) Ln (nij / N) (nij / N) Ln (nij / N)
0,0472 0,079 0,079 3,0524 2,5416 2,5416 0,1442 0,2001 0,2001
0,0630 0,094 0,094 2,7647 2,3593 2,3593 0,1742 0,2229 0,2229
0,0630 0,063 0,110 2,7647 2,7647 2,2051 0,1742 0,1742 0,2431
0,0709 0,110 0,126 2,6470 2,2051 2,0716 0,1876 0,2431 0,2610
(nij / N) Ln(nij / N) = 2,4475
i j
nij nij
I(XY) = Ln = 2,4475
i j N N
Paraobtener IX / Y bastaintercambiarlospapelesdeI(X),I(Y).
ddeSommer(simtrica):
(C D) (2020 1906)
d = = = 0,020
EX + E Y 2078 + 1338
C +D + 2020 + 1906 +
2 2
(C D) (2020 1906)
VariableYcomoindependiente: dX = = = 0,019
C + D + EX 2020 + 1906 + 2078
(C D) (2020 1906)
VariableXcomoindependiente: dY = = = 0,022
C + D + EY 2020 + 1906 + 1338
Ejercicio2.Sequiereestudiarlarelacinentrelaedaddelasmujeresysuaceptacindeunaley
sobreinterrupcindelembarazo.Paraellosehallevadoacabounaencuestasobre400mujeres
cuyosresultadosseadjuntanenlatabla:
Aceptacin
Edad Baja Media Alta
018 21 34 25
1835 24 31 25
3550 30 30 20
5065 37 30 13
>65 40 30 10
ConelEditordedatosdeSPSS:
SantiagodelaFuenteFernndez
38
Anlisisdevariablescategricas
EnelVisorderesultadosdeSPSS:
Comparandolosvaloresabsolutosde
losresiduostipificadoscorregidos
conelcorrespondientevalortabular
delanormal,paraunnivelde
significacindel5%(>1,96),se
observaquemuchosresiduosnoson
significativos.
SantiagodelaFuenteFernndez
39
Anlisisdevariablescategricas
Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:<<Las
jvenes(menoresde18aos)declasebajaylasmayoresde65aosdeclasealtatienenunaopinin
favorablesobrelainterrupcindelembarazo.Porelcontrario,laopinindelasmayoresde65aos
declasebajatienenunapercepcinclaramentenegativa.Deestemodo,seevidenciaqueexisteuna
relacinydeltipoqueessta>>.
Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon[ (5 1)(3 1) = 8 ]elementosindependientes,elcontrastepor
cadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadaunode
ellosseajustaaunadistribucinterica N(0,1) .
Elvalordelestadsticodecontraste(observado)
es 19,283 ,elcual,enladistribucin 2 tiene8
gradosdelibertad(gl=8),tieneasociadauna
probabilidad(Significacinasinttica)de 0,013 .
Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciade
asociacinentreelgradodeaceptacindelabortoylaedaddelasmujeres.
Sealarqueelvalordelarazndeverosimilitudes(RV)es19,945,tieneasociadaunaprobabilidad
(Sig.asinttica)de 0,011 ,quecomoesmenorque0,05,indicandoquehayevidenciadeasociacin
entreelgradodeaceptacindelabortoylaedaddelasmujeres.
ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates)tieneun
valorde 18,255 conunnivelcrticode (0 < 0,05) ,porloqueserechazalahiptesisnulade
independencia,llegandoalamismaconclusinqueconlosestadsticosanteriores.
SantiagodelaFuenteFernndez
40
Anlisisdevariablescategricas
Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoque
estosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayrelacinentrelaaceptacin
delabortoylaedaddelasmujeres.
Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidas
nominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentrelaedaddelas
mujeresylaaceptacindelaborto.
Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacin
deSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanuna
asociacinbajanegativa,esdecir,queelgradodeaceptacindelabortodisminuyealaumentarla
edad.
LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,ydde
Somers(comomedidasnominalescuantificanelgradodeasociacin)indicanunaasociacinbaja
entrelaedaddelasmujeresylaaceptacindelaborto.
Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),queenloscasosqueesmenorque
0,05,conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(edaddelas
mujeres,aceptacindelaborto)estnasociadas.
Elvalor0,012delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariable
Aceptacindelabortocomoindependiente,tienelainterpretacin:
<<Conociendolaedaddelamujerconsultada(filas),sereduceenun1,2%laprobabilidadde
cometerunerroralpredecirsuaceptacinalaborto(columnas).Estosignificaquelaedaddela
mujernotienecapacidadpredictivasobrelaaceptacindelaborto>>.
Seconcluye,existeevidenciadeasociacinentreelgradodeaceptacindelabortoylaedaddelas
mujeres,disminuyendoelgradodeaceptacinalaumentarlaedad.
SantiagodelaFuenteFernndez
41
Anlisisdevariablescategricas
Ejercicio3.Paraanalizarsiladistribucindelosmotivosdeconsultaen4centrosdeatencin
ambulatoriapeditricaeransimilares,seclasificaronlasconsultasen6grupos:(1)Medicina
preventiva;(2)Infeccionesrespiratoriasaltas;(3)Otrasenfermedadesagudas;(4)Enfermedades
crnicas;(5)Traumatismoseintoxicaciones;y(6)Problemassociales.
Grupomotivodeconsulta
CentroMdico
1 2 3 4 5 6 Total
A 350 87 65 12 23 23 560
B 120 43 38 6 10 12 229
C 426 67 34 7 45 67 646
D 267 49 35 5 18 18 392
Total 1163 246 172 30 96 120 1827
ConelEditordeSPSS:
SantiagodelaFuenteFernndez
42
Anlisisdevariablescategricas
Seiniciaelanlisisceldaaceldaconelbotn[Casillas]
paracomprobarelusoadecuadodelachicuadrado,
ascomoparaobtenerunpatrnenladistribucin
observada.
Elporcentajedeceldas,conunafrecuenciaesperadamenorque5,estvinculadoalasexigencias
paralautilizacindelapruebaChicuadrado:(a)Menosdeun20%deceldasconfrecuencia
esperadamenorque5.(b)Ningunaceldaconfrecuenciaesperadamenorque1.
Comparandolosvaloresabsolutosdelosresiduostipificadoscorregidosconelcorrespondientevalor
tabulardelanormal,paraunniveldesignificacindel5%(>1,96),seobservaquealgunosresiduos
sonsignificativos.
Analizandoestosvalores,tantoensusmagnitudescomoensusrangos,resultaelpatrn:
<<Ladistribucinobservadaentreloscentrosmdicosnoesuniforme,enelcentroClosproblemas
sociales(4,9)fueronelmayormotivodeconsultamdica;mientrasque,enelcentroBotras
enfermedadesagudas(4)fueronelmayormotivodeconsulta>>.
Subrayarqueestemtodosuponeunanlisisceldaacelda.Estadiferenciaseencuentraque
mientraselcontrasteusualtrabajacon[ (4 1)(6 1) = 15 ]elementosindependientes,elcontraste
porcadaceldaimplicaquelatotalidaddelosresiduostipificados dij sonindependientesycadauno
deellosseajustaaunadistribucinterica N(0,1) .
SantiagodelaFuenteFernndez
43
Anlisisdevariablescategricas
Elvalordelestadsticodecontraste(observado)
es 76,944 ,elcual,enladistribucin 2 tiene 15
gradosdelibertad(gl=15),tieneasociadauna
probabilidad(Significacinasinttica)de 0,000 .
Puestoqueestaprobabilidad(denominadanivelcrticooniveldesignificacinobservada)es
pequea(menorque0,05),sedeciderechazarlahiptesisnula,indicandoquehayevidenciade
asociacinentreelcentromdicoyelmotivodelasconsultas.
Sealarqueelvalordelarazndeverosimilitudes(RV)es75,422,tieneasociadaunaprobabilidad
(Sig.asinttica)de 0,000 ,quecomoesmenorque0,05,indicaquehayevidenciadeasociacin
entreelgradodeaceptacinentreelcentromdicoyelmotivodelasconsultas.
ElvalordelestadsticoAsociacinlinealporlineal(correccinporcontinuidaddeYates,cuandose
aproximaunavariablediscretaaunavariablecontinua,seaplicaalapruebadelachicuadrado
cuandolafrecuenciaenalgunasobservacionesesmenorque10)tieneunvalorde 0,021 conun
nivelcrtico (0,886 > 0,05) ,porloqueseaceptalahiptesisnuladeindependencia.Noexisteun
consensogeneralizadosobrelautilizacindeestacorreccin.
Elvalordecadacoeficienteapareceacompaadodesucorrespondientenivelcrtico(Sig.
aproximada),quepermitetomarunadecisinsobrelahiptesisnuladeindependencia.Puestoque
estosnivelescrticossonmenoresque0,05,sepuedeafirmarquehayasociacinentreelcentro
mdicoyelmotivodelasconsultas
Porsuparte,losvaloresobtenidosdelCoeficientedecontingenciayVdeCramer(comomedidas
nominalescuantificanelgradodeasociacin)indicanunaasociacinbajaentreelcentromdicoyel
motivodelaconsulta.
SantiagodelaFuenteFernndez
44
Anlisisdevariablescategricas
Deotraparte,losvaloresobtenidosdelaTaubdeKendall,TaucdeKendall,GammayCorrelacin
deSpearman(comomedidasordinalesindicanademseltipodeasociacin)presentanuna
asociacinbajanegativa.
LosvaloresobtenidosdeLambda,TaudeGoodmanyKruskall,Coeficientedeincertidumbre,ydde
Somers(comomedidasnominalescuantificanelgradodeasociacin,lacapacidaddehacer
pronsticosdeunavariablerespectodelaotra)indicanunaasociacinbajaentreelcentromdicoy
elmotivodelaconsulta,esdecir,lacapacidaddehacerpronsticosdeunavariablerespectodela
otraesrealmenteescasa.
Cadamedidaacompaadadeunnivelcrtico(Sig.aproximada),enloscasosqueesmenorque0,05,
conducearechazarlahiptesisnuladeindependenciayconcluirquelasvariables(centromdico,
motivodelaconsulta)estnasociadas.
Elvalor0,016delcoeficienteTaudeGoodmanyKruskallcalculadoconsideralavariable
Centromdicocomoindependiente,tienelainterpretacin:
<<Conociendoelcentromdico(filas),sereduceenun1,6%laprobabilidaddecometerunerroral
predecirdondesehizolaconsulta(columnas).Estosignificaqueelcentromdiconotienecapacidad
predictivasobreelmotivodelaconsulta>>.
Endefinitiva,sepuedeconcluirqueelcentromdicoyelmotivodelasconsultasestnrelacionados,
peroenningncasosepodraconsiderarunclarofactordepronsticosobrelasconsultas.
SantiagodelaFuenteFernndez
45
Anlisisdevariablescategricas
(EstudiodeCasosyControles)
Ejercicio4.Paraanalizarsilalactanciaconstituyeunfactordeproteccinparaelcncerdemama,
unestudioincluya755mujeresmenoresde35aosdetodaslascomunidadesespaolas,alasque
sediagnsticocncerdemamaduranteelperodo20002005.Loscontrolestenanunadiferenciade
edadconloscasosinferioraseismeses.
Cadacasoycontrolfueroncontroladosporelmismoinvestigador.Losresultadosreflejanqueenel
grupodecasos,255mujeresrealizaronunalactanciaplenadealmenos3meses,mientrasqueentre
loscontrolesesteantecedenteestabapresenteen487mujeres(delos255controlesdeloscasos
quetuvieronunalactanciaplena,160lactarony95no,entantodelos500controlesdeloscasos
quenolactaron,327silohabanhechoy173no).
Losdatosquedanreflejadosenlasdostablassiguientes:
CasosyControlesemparejados
CasosyControles Controles
Casos Controles Total Casos Expuesto Noexpuesto Total
Expuesto 255 487 742 Expuesto 160 95 255
Noexpuesto 500 268 768 Noexpuesto 327 173 500
Total 755 755 1.510 Total 487 268 755
255.268 255. 768 160.173 160. 500
OR = = 0,281 RR = = 0,528 OR = = 0,891 RR = = 0,959
500. 487 500. 742 327. 95 327. 255
) Enlosdiseoslongitudinaleshaciadelante,conocidoscomodiseosprospectivosodecohortes,
lasmujeressonclasificadasendosgruposdependiendodelapresenciaoausenciadelactanciay
seleshaceunseguimientoduranteunperododetiempohastadeterminarlaproporcinde
mujeresdecadagrupoenlosquesedaundeterminadodesenlace(cncerdemama).
n11 .N2
Lamedidadeinterseselriesgorelativo(RR): RR =
n21 .N1
Lainterpretacines:<<LaproporcindecncerdemamaentrelasmujeresexpuestasesRRveces
msaltaqueentrelasmujeresnoexpuestas>>.Enestesentido,encasosycontroles,laproporcin
decncerdemamademujeresexpuestases0,528msaltaqueentrelasmujeresnoexpuestas.En
elemparejamientodecasosycontroles,laproporcinaumentahasta0,959.
Unriesgorelativode1indicaquelaprobabilidaddeencontrarcncerdemamaeslamismatantoen
elgrupodemujeresexpuestascomoenelgrupodemujeresnoexpuestas.Paravalorarsielriesgo
obtenidoessignificativamentedistintode1,secalculaelintervalodeconfianza:
z / 2 .
n12
+
n22
z / 2 .
n12
+
n22
ICRR = RR . e
n11 . N1 n21 . N2 n11 . N1 n21 . N2
, RR . e
SantiagodelaFuenteFernndez
46
Anlisisdevariablescategricas
1,96 . 95 + 173 1,96 . 95 + 173
[
= 0,856 , 1,075]emparejados
160 . 255 327 . 500 160 . 255 327 . 500
ICRR = 0,959 . e , 0,959 . e
Sielintervalodeconfianzanocontieneel1,seconcluyequeelriesgodetenercncerdemamano
eslomismoentrelasmujeresexpuestasynoexpuestasalalactancia.
) Enlosdiseoslongitudinaleshaciaatrs,llamadosdiseosretrospectivosodecasocontrol,se
formangruposdemujeres(lactaronynolactaron)apartirdelapresenciaoausenciadecncerde
mamaysehaceunseguimientohaciaatrsintentandoencontrarinformacinsobrelaproporcin
enlaqueseencuentrapresenteencadamuestraelcncerdemama.
Puestoqueeltamaodelosgrupos(lactaronynolactaron)sefijaapartirdelapresenciaoausencia
delcncerdemama,secalculaoddsratio(razndeventajasorazndeproductoscruzadosoenqu
medidaquelactaronesunriesgodetenercncerdemama):
n11 .n22
OR =
n12 .n21
Comoseobserva,eloddsratio(OR)estantomejorestimadordelriesgorelativocuantoms
pequeasseanlasproporcionesdedesenlaceencadagrupo.
Unndicede1indicaquelaprobabilidaddeencontrarseconelcncerdemamaenlosgrupos
estudiadoseslamisma.Paradeterminarsiesteriesgoessignificativamentedistintode1,secalcula
elintervalodeconfianza:
z / 2 . 1 + 1 + 1 + 1 z / 2 . 1 + 1 + 1 + 1
ICOR = OR . e n11 n12 n21 n22
, OR . e n11 n12 n21 n22
1,96 . 1 + 1 + 1 + 1 1 + 1 + 1 + 1
= [0,227 , 0,347]
1,96 .
ICOR = 0,281 . e 255 487 500 268 , 0,281 . e 255 487 500 268
caso y control
1,96 . 1 + 1 + 1 + 1 1 + 1 + 1 + 1
= [0,651 , 1,219]
1,96 .
ICOR = 0,891 . e 160 95 327 173 , 0,891 . e 160 95 327 173
emparejados
PreparandodatosdevariablesdicotmicasparaintroducirenSPSS:
Controles
Expuesto(1) 164 40
Expuesto(1)
Noexpuesto(2) 32 64
Expuesto(1) 41 10
Noexpuesto(2)
Noexpuesto(2) 48 96
NOTA:Enelcasoderegresinlogsticalacodificacinde(2)hubierasido(0)paranoexpuesto
SantiagodelaFuenteFernndez
47
Anlisisdevariablescategricas
Haciendodobleclicksobrelatabla,enel
menPivotar/PanelesdePivotado
Pulsando,alaizquierda,en
Casos,vanapareciendolasdos
tablasintroducidas.
Elhechodequelatablanomuestreelvalordel
estadsticodeMcNemarsignificaqueelnivel
crticosehacalculadoutilizandoladistribucin
binomial(obteniendolaprobabilidadexactaen
lugardeaproximada).
Cualquieraquesealaformadeobtenerlo,elnivelcrticoindicaelgradodecompatibilidadexistente
entrelosdatosmuestralesylahiptesisnuladeigualdaddeproporcionesantesdespus.
Enelcasodelosexpuestos,comop_value<0,05,serechazalahiptesisnulayseconcluyequese
puededescartarelazarcomoexplicacindelcncerdemamaconunapequeaprobabilidad
(inferioral1:10.000)decometerelerrortipoI(rechazoindebido).
Enelcasodelosnoexpuestos,p_value>0,05,seaceptalahiptesisnula,nohabiendoasociacin
algunaconelcncerdemama.
SantiagodelaFuenteFernndez
48
Anlisisdevariablescategricas
Observandolasegundafila,paralacohorteControles=Expuesto,'Laproporcindecncerdemama
entrelasmujeresexpuestasesRR=0,528vecesmsaltaqueentrelasmujeresnoexpuestas'Enel
emparejamientodecasosycontroles,laproporcinaumentahasta0,959.
Paravalorarsielriesgoobtenidoessignificativo,secalculaelintervalodeconfianza.EnCasosy
Controlessiloes,mientrasqueenelEmparejamientodeCasosControlesnoloes,suintervalode
confianzacubreel1,indicandoquelaprobabilidaddeencontrarcncerdemamaeslamismaenlos
casosexpuestosynoexpuestos.
Enlaprimerafilaapareceeloddsratio(OR),queestantomejorestimadordelriesgorelativocuanto
mspequeasseanlasproporcionesdedesenlaceencadagrupo.
SantiagodelaFuenteFernndez
49
Anlisisdevariablescategricas
ElOR(razndeventajasoqumedidaquelactaronesunriesgodetenercncerdemama)deCasos
yControleses0,281yessignificativoporquesuintervalodeconfianzanocubreel1;mientrasqueel
EmparejamientotieneunORde0,891ynoessignificativoporquesuintervalodeconfianzacubreel
uno,indicandoquelaprobabilidaddeencontrarseconelcncerdemamaenlosgruposestudiados
eslamisma.
SantiagodelaFuenteFernndez
50
Anlisisdevariablescategricas
Tablas2X2estratificadas(efectodeconfusin)
Ejercicio5.Latablaadjuntareflejalaasociacinpositivadeunestudiodecasosycontrolesentreel
consumodecafyelcncerdepncreas:
Considerandoeltabacocomountercerfactor,ydividirlosindividuosdelestudioendosestratos
(fumadoresynofumadores):
NoFumadores Fumadores
Caf Casos Controles Caf Casos Controles
32. 96 164 .10
S 32 64 OR = =1 S 164 40 OR = =1
48 . 64 41. 40
No 48 96 No 41 10
CasosControles
Fumadores(1) 164 40
S(1)
NoFumadores(0) 32 64
Fumadores(1) 41 10
No(0)
NoFumadores(0) 48 96
SantiagodelaFuenteFernndez
51
Anlisisdevariablescategricas
Seconocequelaspersonasquetomancafgeneralmentefuman,entonceseltabaquismopuedeser
unfactorconfusor.Paraestimarelefectoconfusor,elanlisisindividualdecadaestratodebeser
complementadoconunanlisisgeneralconsiderandotodoslosvaloresdelosestratos.Elmtodode
MantelHaenszelesunodelosmstilesparaestimarelefectodeconfusin.
Seobservaquehaydostablasdecontingencia(NoFumadores,Fumadores),ambastienenun
intervalodeconfianzaquecontienealaunidad,portantoambosORsonnosignificativos.
ElestadsticodeCochranesmuybajoytiene
unnivelcrticoasociadode1>0,05,conlo
queseaceptalahiptesisnulade
independenciacondicional.Alamisma
conclusinsellegaconelestadsticode
MantelHaenszel.
Lapruebadehomogeneidadpermiteexaminarlasdiferenciasentrelosoddsratiodelosestratos.
Elestadsticoesbajoyelnivelcrticoasociadoa
ambosestadsticosesmayorque5%(p>0,05),
loquehacepensarquenohaydiferencias
apreciablesentrelosORenlosestratosyque,
enconsecuencia,losresultadosajustadospuedenconsiderarseparaelconjunto,estoes,se
mantienelahiptesisdehomogeneidad.
Cmosepuedeasumirqueelriesgoeshomogneoentodoslosestratos,tienesentidouna
estimacincomndelriesgo.LasolucinvienedadaporelestadsticodeMantelHaenszel.
Elvalordelriesgocomn
(estimacin)es1,conunintervalo
deconfianzadefinidoporloslmites
0,640y1,564,comoelintervalode
confianzacubreel1,sepuede
concluirqueelORnoes
significativo,esdecir,eltabacoes
unfactorconfusor.
SantiagodelaFuenteFernndez
52