La regressione logistica e i modelli log-lineari nella ricerca sociale

499 64 8MB

Italian Pages 186 Year 2012

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

I modelli e la concezione del mondo nella fisica moderna da Laplace a Bohr

630 57 5MB Read more

Responsabilità sociale e strategia. Alla ricerca di un'integrazione 8823841917, 9788823841918

210 68 1MB Read more

La logica della ricerca sociale. Sociologia generale Vol. 1 (Mimesis)

Pierre Bourdieu (1930-2002) ha consacrato i suoi primi cinque anni d'insegnamento al Collège de France a un corso d

678 70 1MB Read more

Il Trentino e i trentini nella Grande Guerra. Nuove prospettive di ricerca 9788815273499, 9788815339782

La prima guerra mondiale in Trentino è una storia carica di silenzi. A lungo, per gran parte del secolo scorso, i soli p

143 21 2MB Read more

Shockdown. Media, cultura, comunicazione e ricerca nella pandemia 9788855194518

430 115 1MB Read more

Statistica per la ricerca sociale [1 ed.] 8815082662, 9788815082664

Scienze sociali

199 95 110MB Read more

Dall’imitazione alla cooperazione. La ricerca sociale e le sue sfide 9788833971605

Le scienze sociali rilevano spesso fenomeni di marca tendenzialmente opposta, separati appena dalla linea sottile dell&#

578 56 3MB Read more

La gestione della proprietà intellettuale nella ricerca universitaria. Invenzioni accademiche e trasferimento tecnologico 9788815133694, 9788815304933

Da luoghi di generazione e trasmissione della conoscenza, le università e gli enti pubblici di ricerca stanno affermando

111 88 1MB Read more

I test psicologici: teorie e modelli psicometrici 8843034200, 9788843034208

575 120 81MB Read more

Il welfare. Modelli e dilemmi della cittadinanza sociale 9788815244802, 9788815316097, 8815244808

Un lusso che non possiamo più permetterci, per alcuni. Un pilastro a tutela dei diritti e dell'accesso ai beni comu

140 29 903KB Read more

La regressione logistica e i modelli log-lineari nella ricerca sociale

Author / Uploaded
Fabrizio Martire

Table of contents :
Blank Page......Page 1
Blank Page......Page 2

Citation preview

Metodologia delle scienze umane

Collana della Sezione di Metodologia dell' Associazione Italiana di Socio logia Direttore: Alberto Marradi Comitato Scientifico: Enrica Amaturo, Rita Bichi, Antonio Chiesi, Alberto Marradi, Cinzia Meraviglia, Paolo Montesperelli, Juan lgnacio Piovani (Universida des Buenos Aires e La Plata), Franco Rositi La collana è un punto d'arrivo e allo stesso tempo un punto di partenza delle riflessioni sul metodo entro l' ampio ventaglio delle scienze umane. Come punto d' arrivo di una tradizione complessa e ricca di solidi sedimenti, la collana intende collocarsi sul versante dell'alta divulgazione e raggiunge re non solo gli studenti e i docenti universitari, ma anche il pubblico cre scente delle professioni interessate alle varie forme di trattamento delle informazioni. Come punto di partenza, essa non mancherà di presentare in modo proble matico quei settori della tradizione metodologica teoricamente incerti, o fon dati su presupposti discutibili, o soggetti ad abusi applicativi; né trascurerà di suggerire nuove direzioni e orientamenti. Il piano della collana prevede ora una cinquantina di volumi, programmati su un arco di tempo di circa dieci anni e affidati a studiosi di sociologia, psico logia, statistica, storiografia, economia e altre discipline: una enciclopedia per il consolidamento e lo sviluppo delle scienze umane.

1 120. Metodologia delle scienze umane l. 2. 3. 4. 5. 6. 7. 8.

Gianni Losito, L'analisi del contenuto nella ricerca sociale Luca Ricolti, Tre variabili. Un 'introduzione ali'analisi multivariata Alberto Marradi, L'analisi monovariata Roberto Biorcio, L'analisi dei gruppi Oscar Itzcovich, L'uso del calcolatore in storiografia Giuseppe A. Micheli, Piero Manfredi, Correlazione e regressione Francesca Zajczyk, Fonti per l e statistiche sociali Giampietro Gobo, Le risposte e i l loro contesto. Processi cognitivi e co-

9. 1 0. 11. 1 2. 13. 14.

Paolo Montesperelli, L'intervista ermeneutica Roberto Fideli, La comparazione Antonio M. Chiesi, L'analisi dei reticoli Cinzia Meraviglia, Le reti neurali nella ricerca sociale Elisabetta Ruspini, La ricerca longitudinale Juan lgnacio Piovani, Alle origini della statistica moderna. La scuola in

15.

Giovanni Di Franco,

municativi nelle interviste standardizzate

glese di fine Ottocento

Corrispondenze multiple e altre tecniche multiva-

riate per variabili categoriali

16. 17. 18. 1 9.

Ivana Acocella, Il focus group: teoria e tecnica Erika Cellini, L'osservazione nelle scienze umane Paolo Parra Saiani, Gli indicatori sociali Maria C. Pitrone, Sondaggi e interviste. Lo studio dell'opinione pubbli ca nella ricerca sociale

20.

Giovanni Delli Zotti, Tecniche grafiche di analisi e rappresentazione dei

21.

Federico Podestà, Tecniche di analisi per la ricerca comparata trans-na

22.

Fabrizio Martire, La regressione logistica e i modelli log-lineari nella ri

dati

zionale

cerca sociale

Questo volume è stato accettato nella collana in seguito al giudizio positivo conforme di due referees anonimi, di cui uno straniero. Per conto del Comitato Scientifico della collana hanno seguito la redazione del volume: Antonio De Lillo (t) Alberto Marradi

Fabrizio Martire

La regressione logistica e i modelli log-lineari nella ricerca sociale

Metodologia delle scienze umane l 22 FrancoAngeli

Grafica della copertina: Elena Pellegrini

Copyright© 2012 by FrancoAngeli s.r.l., Milano, ltaly. Ristampa

Anno

o l 2 3 4 5 6 7 8 9

2012 2013 2014 2015 2016 2017 2018 2019 2020 2021

L'opera, comprese tutte le sue parti, è tutelata dalla legge sui diritti d'autore. Sono vietate e sanzionate (se non espressamente autorizzate) la riproduzione in ogni modo e forma (comprese le fotocopie, la scansione, la memorizzazione elettronica) e la comunicazione (ivi inclusi a titolo esemplificativo ma non esaustivo: la distribuzione, l'adattamento, la traduzione e la rielaborazione, anche a mezzo di canali digitali interattivi e con qualsiasi modalità attualmente nota od in futuro sviluppata). Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall'art. 68, commi 4 e 5, della legge 22 aprile 1941 n. 633. Le fotocopie effettuate per finalità di carattere professionale, economico o commerciale o comunque per uso diverso da quello personale, possono essere effettuate a seguito di specifica autorizzazione rilasciata da CLEARedi, Centro Licenze e Autorizzazioni per le Riproduzioni Editoriali (www.clearedi.org; e-mail [email protected]).

Stampa: Tipomonza, via Merano 18, Milano.

Indice

Introduzione

l. Le relazioni tra variabili categoriali

1 . 1 . Proprietà e variabili 1 .2. I concetti di autonomia semantica e grado di libertà 1 .3 . Forme e scopi dell'analisi dei dati 1 .4. L' analisi delle variabili categoriali: cenni storici 1 .5 . Come si analizzano le tabelle di contingenza bivariate 2 . Come i modelli log-lineari scompongono una tabella di

contingenza

2. 1 .

I modelli log-lineari come strumento di rappresenta-

zione 2. 1 . 1 . La stima degli effetti a partire dalle frequenze di cella 2 . 1 .2. Dalle frequenze di cella ai logaritmi delle frequenze di cella 2. 1 .3 . Semplificare la rappresentazione di una tabella di contingenza 2.2. L'analisi delle relazioni tra due variabili categoriali alla luce di una terza 2.3. I modelli log-lineari per l'analisi dei sistemi multivariati 2 .3 . 1 . La scelta delle variabili da includere nell'analisi 2.3.2. La scelta del modello migliore 2.3 . 3 . I limiti dell'analisi basata sulla distribuzione di l

7

pag.

9

))

))

13 13 16 21 27 36

))

44

))

44

))

47

))

57

))

60

))

64

))

69 69 73 83

)) )) )) ))

)) ))

))

3. L'analisi delle dipendenze in una tabella di contingenza: i modelli logit e la regressione logistica

3 . 1 . I modelli logit 3 . 1 . 1 . Un'applicazione dei modelli logit 3 . 1 .2. La capacità predittiva di un modello logit 3.2. La regressione logistica 3 .2 . 1 . La stima e l' interpretazione dei parametri 3 .2.2. Valutare la qualità di un modello logistico e il contributo dei singoli parametri 3 . 3 . Tre ragioni per fare analisi delle dipendenze

pag. )) )) )) )) )) )) ))

90 90 94 96 1 00 1 06 1 12 122

4. I modelli Iog-lineari per la scomposizione delle tabelle complesse

))

4. 1 . I modelli log-lineari con variabili politomiche 4.2. L'analisi log-lineare delle variabili con categorie ordinate 4.2. 1 . L'uso delle covariate 4.2.2. I modelli log-lineari per controllare ipotesi complesse 4.3. L' analisi dei residui

))

5. L'analisi delle dipendenze nelle tabelle complesse

5 . 1 . Quando la variabile dipendente è politomica 5 . l . l . Variabili dipendenti ordinali 5 .2. Quando le variabili indipendenti sono politomiche 5 .2. 1 . Variabili indipendenti cardinali 5.3. La path analysis attraverso la regressione logistica Riferimenti bibliografici

8

)) )) )) )) ))

1 25 125 1 34 135 1 50 1 55

))

158 158 1 64 1 66 1 69 1 73

))

1 77

)) ))

)) ))

Introduzione

Negli anni novanta i modelli log-lineari godevano di un credito notevole tra i ricercatori sociali. Le loro potenzialità come strumento di analisi mul tivariata espressamente dedicato alle variabili categoriali venivano illustrate e analizzate in numerosi saggi metodologici, e messe alla prova in diversi ambiti di interesse socio logico (comportamento elettorale, mobilità sociale, etc.). Di recente l'interesse verso i modelli log-lineari è rapidamente dimi nuito; nello stesso periodo, e altrettanto rapidamente, la regressione logisti ca si è affermata nella comunità dei ricercatori sociali come nuovo modo per analizzare le relazioni tra variabili categoriali. Tutto ciò potrebbe far supporre che le due tecniche siano intercambiabili in riferimento alle forme di analisi che consentono, e che la regressione lo gistica si sia affermata perché più adatta alle esigenze specifiche dei ricer catori sociali. A mio avviso i modelli log-lineari non sono pienamente so stituibili dalla regressione logistica (per approfondimenti vedi oltre, par. 1 .4). Le due tecniche infatti presuppongono due diverse rappresentazioni delle relazioni tra variabili: i modelli log-lineari sono adatti ad analizzare strutture di relazioni simmetriche tra le variabili; la regressione logistica analizza invece relazioni di dipendenza e presuppone quindi che il ricerca tore distingua tra variabili dipendenti e variabili indipendenti. A partire da questa differenza generale, nel libro illustro le specificità delle due tecniche, cercando soprattutto di mettere in luce in quali circo stanze una tecnica è preferibile all'altra. Oltre che per far emergere le loro specificità, il confronto fra i modelli log-lineari e la regressione logistica è utile anche per mostrare le potenziali tà e i limiti che le accomunano. In particolare mi riferisco alle difficoltà che si pongono nell'interpretazione dei risultati dei modelli log-lineari e della regressione logistica quando le due tecniche vengono usate per analizzare 9

le relazioni tra variabili categoriali politomiche. Tali difficoltà non sono imputabili ad aspetti formali delle due tecniche, quanto piuttosto all'alta au tonomia semantica delle variabili categoriali, che ha conseguenze rilevanti 1 in sede di analisi dei dati indipendentemente dalla tecnica adottata • Nel primo capitolo tratto alcune questioni metodologiche a mio avviso utili per inquadrare al meglio i modelli log-lineari e la regressione logistica: la natura particolare delle variabili categoriali politomiche e dicotomiche; i diversi scopi conoscitivi delle tecniche di analisi dei dati più usate nella ri cerca sociale; la storia (ricostruita nelle sue fasi principali) degli strumenti di analisi ideati espressamente per le variabili categoriali; le tecniche di a nalisi delle relazioni fra due variabili categoriali. Nel secondo e nel terzo capitolo introduco, rispettivamente, i modelli log-lineari e la regressione logistica. Entrambi i capitoli sono dedicati agli aspetti fondamentali delle due tecniche: i modi di rappresentazione delle relazioni tra variabili che esse presuppongono; le procedure di calcolo; l'interpretazione dei risultati che producono. Nel terzo capitolo, in relazione a ciascuno di questi aspetti, mi soffermo sulle principali differenze fra le due tecniche. Nel secondo e nel terzo capitolo presento i modelli log-lineari e la re gressione logistica mostrando alcune applicazioni all' analisi delle relazioni tra variabili dicotomiche, cioè nelle situazioni in cui le due tecniche dànno il loro meglio. Nel quarto e nel quinto capitolo mostro le principali difficol tà che le variabili politomiche pongono alle due tecniche e suggerisco alcu ne soluzioni (soprattutto in riferimento ai modelli log-lineari) per gestire tali difficoltà. Nella stesura dei capitoli ho ridotto allo stretto indispensabile la tratta zione degli aspetti formali e matematici. Ho invece cercato di approfondire gli assunti che le procedure di calcolo delle due tecniche implicano. Ho il lustrato gli usi possibili dei modelli log-lineari e della regressione logistica attraverso una serie di esempi basati su dati effettivamente rilevati. Più che per mostrare il funzionamento delle due tecniche nelle situazioni in cui i 1 Sul concetto di autonomia semantica vedi il par. 1 .2. Questo concetto fondamentale per la raccolta e ancor più per l'analisi dei dati è stato introdotto da Alberto Marradi nel l 980, e da lui approfondito in lavori successivi, dal 1 992 al 2007. Il fatto che prima il concetto fos se ignorato (e tuttora lo sia largamente) nei manuali statistici e metodologici potrebbe sor prendere chi non tenga presente che l'impostazione positivista e comportamentista che ha dominato- e continua sostanzialmente a dominare - la statistica e l'analisi dei dati condan na come soggettivo, e quindi non-scientifico, ogni accenno al significato, al fatto che le va riabili e le loro categorie vanno interpretate da menti umane perché i calcolatori non possono farlo, e così via.

10

risultati che esse producono sono chiari, ho scelto esempi che facciano e mergere anche le debolezze e gli aspetti problematici. Ringrazio Maria Concetta Pitrone per i consigli che mi ha dato durante la progettazione del volume. Ringrazio inoltre il compianto Antonio De Lil lo e Alberto Marradi per le preziose indicazioni che mi hanno dato revisio nando i capitoli. Ringrazio in particolare Alberto Marradi per avermi aiuta to a depurare il testo da inutili tecnicismi.

11

l.

Le relazioni tra variabili categoriali

1.1. Proprietà e variabili

Le tecniche di analisi che illustrerò in questo testo presuppongono una matrice dei dati come forma specifica di organizzazione del materiale em pirico, che a sua volta presuppone dal parte del ricercatore la rappresenta zione di un fenomeno da indagare in termini di proprietà, oggetti e stati su propnetad . Per riempire una matrice dei dati un ricercatore deve definire delle rego le e delle procedure che gli consentano di individuare i referenti del tipo di oggetto sul quale ha deciso di condurre l' indagine, e di rilevare su essi le proprietà che gli interessano. Questa operazione di ricerca è un passaggio cruciale di qualsiasi indagine che si basa su una matrice dei dati, anche se, come lamenta Ricolfi ( 1 995, 407), è "troppo sovente trascurato o assunto come automatico". Adottando la terminologia usata da Marradi (2007, capi tolo 6) chiamerò tale operazione di ricerca 'definizione operativa' ; 'variabi li', 'categoria' e 'casi' i suoi esiti. Nelle matrici dei dati non abbiamo quin di le proprietà, ma le variabili; abbiamo i casi e non gli oggetti; e nella cel la-incrocio tra un determinato caso e una determinata variabile abbiamo un o

1 Con il termine 'proprietà' si intende una caratteristica che il ricercatore decide di rilevare sistematicamente su tutti gli oggetti della sua ricerca. Con il termine 'oggetto' si intende l'unità sulla quale il ricercatore decide di rilevare (o alla quale decide di riferire) le proprietà. Una vol ta stabiliti gli oggetti e le proprietà, la logica matriciale impone che tutte le proprietà siano rile vate su (o riferite a) tutti gli oggetti. Con l'espressione 'stato su una proprietà' si intende lo sta to che un dato oggetto assume in riferimento a una data proprietà; ad esempio 'in cerca di oc cupazione' è un possibile stato sulla proprietà 'condizione lavorativa'; 'italiana' è un possibile stato sulla proprietà 'cittadinanza'; etc. Per approfondimenti sui concetti di matrice, proprietà, oggetto e stato su una proprietà vedi Marradi (2007, capitoli 5 e 6).

13

dato, cioè il modo in cui la definizione operativa registra lo stato di quel ca so (in riga) su quella proprietà (rappresentata dalla variabile in colonna). Questa distinzione tra il piano concettuale (proprietà, oggetti e stati sulle proprietà) e quello della matrice (variabili, casi e dati) è particolarmente ri levante perché tra le coppie di elementi di ciascun piano non esiste una cor rispondenza univoca. In altre parole, una volta che ho stabilito le proprietà da rilevare o gli oggetti su cui condurre l'indagine, la definizione operativa che posso adottare per trasformati, rispettivamente, in variabili e in casi non è determinata soltanto dalla loro natura, ma dipende anche dagli obiettivi, dalle esigenze e dai vincoli della ricerca. La figura 1 . 1 rappresenta una possibile corrispondenza tra una tassono mia di proprietà e una di variabile . proprietà

variabili

discrete categoriali discrete ordinali discrete cardinali continue percepibili con i sensi continue non percepibili con i sensi

F1g. 1.1

-

-+

categoriali

-+

cardinali naturali

-+

-+ -+

ordinali cardinali metriche ordinali quasi cardinali

o

o

Quadro delle cornspondenze fra tlpl d1 propneta e tlpl d1 varwbll1 (adattamento da Marradi 2007, tab. 7. 8).

Le corrispondenze rappresentate nella figura 1 . 1 non vanno tutte intese come un vincolo. Solo le proprietà categoriali devono essere trasformate nel tipo di variabile ad esse corrispondente; per tutte le altre proprietà esiste un margine - più o meno ampio - di scelta. In questo senso possiamo immagi nare una gerarchia tra le proprietà. Quelle che possono dar luogo a variabili cardinali sono trasformabili anche in ordinali o categoriale . La ragione di tutto ciò è semplice: se tra gli stati di una proprietà posso stabilire relazioni quantitative posso anche limitarmi a considerare il loro ordine (e trasfor marle in variabili ordinali), o semplicemente il fatto che sono uno diverso dall'altro (trasformandole in variabili categoriali). Ovviamente, il margine di scelta per le proprietà ordinali è meno ampio: posso trasformate in varia bili ordinali o categoriali. 2 Per approfondimenti sulle due tassonomie vedi Marradi (ivi, capitolo 7). 3

Lo stesso discorso vale per le proprietà continue i cui stati non sono percepibili con i

sensi, cioè quelle che possono dar luogo a variabili quasi-cardinali.

14

La relativa indipendenza tra proprietà e variabili può essere una caratte ristica da sfruttare sia nella fase della raccolta dei dati sia in quella del l'analisi. Si pensi al reddito, una proprietà discreta cardinale e quindi tra sformabile in una variabile cardinale naturale. Nei sondaggi il declassamen to di questa proprietà a varabile ordinale è una pratica consolidata. Il reddi to infatti è considerato una proprietà che molti soggetti ritengono riservata: chiedere informazioni su di esso potrebbe causare risposte infedeli o, peg gio, l'interruzione dell'intervista. Si preferisce quindi proporre all'intervi stato diverse fasce di reddito (costruendo così una variabile ordinale) e chiedergli a quale fascia appartiene. Il declassamento delle variabili è un'operazione comune anche nell'a nalisi dei dati. Si pensi all'età anagrafica; in un sondaggio, per non rinun ciare a livelli di dettaglio potenzialmente rilevanti, è opportuno chiedere l'età in anni compiuti. Ma in fase di presentazione monovariata dei dati una distribuzione di frequenza con una cinquantina (o più) di categorie, ciascu na con bassa frequenza, è una maniera di disperdere l'informazione. Nei capitoli 4 e 5 mostrerò come in alcuni casi i modelli log-lineari e la regressione logistica riescano a far emergere relazioni particolari tra due o più variabili ordinali proprio quando il ricercatore decide di trattarle come categoriali. La lista di variabili riportata nella figura 1 . 1 è costruita in funzione dei diversi modi per definirle operativamente. Se invece della raccolta si assu me come riferimento l'analisi dei dati, può essere opportuno proporne una diversa; nella figura 1 .2 (colonna a destra) propongo una classificazione di tipi di variabili rilevante per un'adeguata illustrazione delle tecniche di ana lisi illustrate in questo libro. Alcuni tecniche di analisi possono trattare solo variabili cardinali. Ri spettato questo vincolo, l 'opportunità di prendere in considerazione una da ta variabile dipende, oltre che da riflessioni teoriche, dalla sua distribuzione monovariata e/o dalle relazioni che ha con le altre variabili considerate. Si tratta di valutazioni che prescindono dalla specifica definizione operativa attraverso la quale la variabile in esame è stata costruita. Di conseguenza, in sede di analisi dei dati la distinzione tra cardinali naturali, metriche e quasi-cardinali perde rilevanza.

15

tipi di variabili costruiti infimzione dell'analisi dei dati

tipi di variabili costruiti infunzione della definizione operativa -+

categoriali ordinali cardinali naturali cardinali metriche quasi cardinali F1g. 1.2 - Due classificazwm d1 vanab1h. .

-+

-+

categoriali dicotomiche categoriali politomiche ordinali

-+

cardinali

.

Oltre ad accorpare i diversi tipi di variabili cardinali in una categoria u nica, passando dalla prospettiva della raccolta dei dati a quella dell'analisi è utile, a mio avviso, specificare due sotto-tipi delle variabili categoriali: le dicotomiche e le politomiche. L' opportunità di questa distinzione è stretta mente legata al concetto di autonomia semantica delle categorie. Si tratta di un concetto cruciale che chiamerò sistematicamente in causa nei capitoli che seguono; per questo gli dedicherò il prossimo paragrafo. In relazione alla classificazione di tipi di variabili proposta nella colonna di destra della figura 1 .2 è possibile individuare una prima grande differen za tra i modelli log-lineari e la regressione logistica: i primi sono tipica mente usati per analizzare variabili categoriali (sia dicotomiche, sia polito miche) e ordinali; la regressione logistica può gestire anche le variabili car dinali4 .

1.2. I concetti di autonomia semantica e grado di libertà

L' autonomia semantica è una proprietà di una categoria e consiste nella maggiore o minore possibilità di interpretarla senza far ricorso al nome del la variabile o delle altre categorie della variabile. Le categorie delle variabi li categoriali hanno massima autonomia semantica; quelle delle categoriali ordinate hanno un' autonomia minore mentre quelle delle variabili cardinali hanno in genere autonomia semantica minima o nulla. Il concetto è stato proposto da Marradi ( 1 980, 57-65) per mettere in luce i problemi che diver si tipi di variabili pongono nella fase della raccolta dei dati5 . Successiva-

4 Per approfondimenti vedi il capitolo 5.

5 Ad esempio l'autore (ivi, 65) sottolinea: "le scale Likert [ . . . ] sono estremamente vul nerabili alle distorsioni perché le loro categorie (d'accordo, sfavorevole, etc.) mancano di autonomia semantica, cioè dipendono integralmente, per la loro interpretazione, dal testo

16

mente, l 'autore ha analizzato le conseguenze dell'autonomia semantica in sede di analisi dei dati (Marradi 1 993; 1 997; 2007). In questo paragrafo ri prendo questa seconda prospettiva. Si prendano le due variabili riportate nella tabella 1 . 1 : le categorie della variabile di sinistra (categoriale) hanno maggiore autonomia semantica di quelle della variabile di destra (cardinale). Tab. 1 . 1 - Due ipotetiche distribuzioni difrequenza. gradimento delfilm "Il digenere cinematografico prefescorso del Re" su una scala % rito da l a 1 0 animazione 8 l avventura 20 2 commedia 14 3 drammatico 4 4 horror 2 5 musicale 6 6 sentimentale 7 9 storico 7 8 thriller 18 9 western 12 IO totale 1.500 totale

%

2 14 6 8 4 7 12 18 15 14 1.500

Il grado di autonomia semantica ha importanti conseguenze sul piano dell'analisi dei dati. Dalla distribuzione di frequenza della variabile 'genere cinematografico preferito' risulta che un intervistato su cinque ha indicato 'avventura' . Ovviamente la distribuzione si presta ad interpretazioni più so fisticate; tuttavia questo dato elementare assume pieno significato indipen dentemente dalle percentuali degli altri generi cinematografici. Al contrario nella colonna di destra per dare un pieno significato al fatto che, ad esempio, il 1 4% degli intervistati ha scelto la modalità 2 devo far riferimento non solo al nome della variabile, ma anche alle percentuali del le altre modalità6 . In questo senso, l' incidenza relativamente alta della mo dalità 2 si configura come un'eccezione in una distribuzione di frequenza della domanda ('d'accordo' con che cosa? 'sfavorevole' a che cosa?). È questo fatto a ren dere possibile la 'curvilinearità': se la categoria è semanticamente autonoma, cioè è un'af fermazione di senso compiuto, è assai più difficile che venga disapprovata da due persone per motivi opposti". 6 Allo scopo di mantenere distinte le fasi di ricerca, userò il termine 'modalità' in riferi mento alle operazioni di analisi dei dati e 'categoria' in riferimento ai procedimenti della definizione operativa e della raccolta dei dati.

17

sbilanciata verso i punteggi alti. Qualora le percentuali dei punteggi bassi fossero state più alte, avrei dato un'interpretazione diversa alla percentuale della modalità 2. Il grado di autonomia semantica influenza non solo l'interpretazione delle singole modalità, ma anche l' analisi della variabile nel suo complesso. Come abbiamo appena visto, la distribuzione di frequenza nella colonna di destra si presta a questa interpretazione sommaria, ma difficilmente conte stabile: tendenzialmente tra gli intervistati si registra una valutazione posi tiva del film Il discorso del Re. Se avessimo deciso di registrare il livello di gradimento con una scala da l a l 00 e se anche in questo caso le risposte si fossero concentrate sui livelli alti della scala, avremmo potuto dare la stessa interpretazione. Molto diverso è il caso delle variabili categoriali, in cui ogni modalità è un centro autonomo di interesse semantico. L'interpretazione della distri buzione riportata nella colonna sinistra non può che essere più articolata di quella della colonna di destra. Sintetizzandola discorsivamente si può infat ti sostenere: i generi avventura e thriller sono i più scelti, anche il genere commedia fa registrare un discreto consenso, mentre i film horror decisa mente non piacciono. L'interpretazione può essere più o meno sintetica, ma comunque non si può fare a meno di fare riferimento alle singole modalità. Di conseguenza, qualora avessimo deciso di scorporare, ad esempio, il ge nere thriller nei sotto-generi noir, giallo e poliziesco, l'interpretazione complessiva della distribuzione di frequenza sarebbe stata ulteriormente complicata dall'aumento dei centri autonomi di interesse semantico. Queste differenze tra variabili categoriali e cardinali emergono anche nell'analisi bivariata. Se, ad esempio, su un campione di studenti universi tari ho rilevato le variabili 'tempo dedicato allo preparazione dell'esame X' e 'voto conseguito all' esame X' posso analizzare la relazione tra le due va riabili e trovarmi realisticamente in una di queste situazioni: a) tra le due variabili non c'è relazione; b) maggiore è il tempo dedicato più alto è il vo to ottenuto; c) fino a una certa soglia di tempo dedicato le due variabili so no correlate positivamente; oltre una certa soglia si registra una relazione inversa. L' interpretazione della relazione può arricchirsi ulteriormente - ad esempio considerando la sua intensità - ma comunque quando analizzo va riabili cardinali sono in grado di dare significato a una relazione facendo riferimento al nome delle variabili. Se dalla stessa ipotetica matrice prendo due variabili categoriali come 'scuola superiore frequentata' e 'corso universitario di appartenenza' mi trovo in una situazione diversa. Dall'analisi della loro relazione potrei cer tamente evincere che tra le due variabili c'è indipendenza statistica; ma in 18

caso contrario non posso prescindere dal chiamare in causa le singole mo dalità. Infatti una frase come "il tipo di scuola superiore frequentata influ enza il corso di laurea scelto" non ci dà molte informazioni; dire poi che tra le due variabili c'è una relazione diretta o inversa è semplicemente un non sense. La natura categoriale delle variabili richiede una descrizione della loro eventuale relazione che espliciti i rapporti tra le singole modalità; ad esempio: "tendenzialmente chi proviene dalla scuola X si iscrive al corso universitario Y"; "chi ha frequentato il liceo Z tende a non iscriversi al cor� so V"; etc. Ne consegue che, quando tratto variabili le cui categorie hanno alta au tonomia semantica, un elevato numero di modalità può rendere lunga e complessa l'analisi e l' interpretazione dei dati. Questo fa emergere un'im portante tensione tra le esigenze della raccolta dei dati e quelle dell'analisi. Per non perdere informazioni potenzialmente rilevanti, nella fase di rileva zione è consigliabile costruire variabili molto sensibile ; tuttavia nella fase di analisi la sensibilità delle variabili categoriali può diventare un problema per le ragioni che abbiamo appena visto. Di conseguenza per analizzare le variabili categoriali è spesso opportuno aggregare le loro categorie in un numero ridotto di modalità8 . Alla fine del paragrafo precedente ho introdotto una distinzione tra va riabili categoriali politomiche e dicotomiche chiamando in causa il concetto di autonomia semantica. In un certo senso le variabili dicotomiche possono essere assimilate alle variabili ordinali, che sono caratterizzate da un livello di autonomia semantica ridotto rispetto alle categoriali9• Si prenda ad e sempio la variabile genere; posso ordinare le due modalità maschio e fem mina se ri-concettualizzo la variabile come appartenenza al genere femmi nile (o maschile, in quel caso l'ordine sarebbe ovviamente inverso); in tal caso infatti posso dire che un maschio è meno appartenente al genere fem minile di una femmina. Una simile ri-concettualizzazione è applicabile a qualsiasi variabile dicotomica (Marradi 1 997, 54). 7 Con il termine 'sensibilità' intendo il rapporto tra le categorie di una variabile e gli sta ti potenziali della proprietà da cui deriva (Marradi 2007, l 07). 8 Oltre che per ragioni semantiche, la riduzione del numero di modalità è necessaria anche per ragioni statistiche. Maggiore è il numero delle modalità, maggiori sono i rischi di avere distribuzioni di frequenza squilibrate o modalità con frequenza scarsa o nulla, le quali a loro volta ostacolano il corretto funzionamento delle principali tecniche di analisi dei dati (Marradi 1 993; 1 997; Di Franco 2006). Tornerò sul punto nel par. 1 .5 e nei capitoli successivi. 9 Infatti, le principali differenze tra le possibilità di interpretazione delle due distribuzio ni illustrate nella tabella 1 . 1 sono largamente imputabili al fatto che tra le modalità della va riabile 'gradimento del film Il discorso del Re' posso stabilire un ordine.

19

La specificità delle variabili dicotomiche emerge anche nell'analisi dei dati. Si prenda ad esempio la relazione tra genere e comportamento eletto rale riportata nella tabella 1 .2. Ri-concettualizzando le due variabili posso descrivere la loro relazione nel suo complesso; sulla base delle frequenze di cella posso infatti dire che le femmine hanno una certa propensione ad an dare a votare. Questa frase rende pienamente conto di tutta l'informazione contenuta nella tabella perché implicitamente ci dice anche che tendenzial mente i maschi vanno meno spesso a votare. Quando metto in relazione due variabili dicotomiche sono sempre in grado di descrivere la loro relazione nel suo complesso perché posso considerare le modalità di tali variabili l'una il complemento dell'altra. Sul piano strettamente statistico, la specificità delle variabili categoriali può essere descritta facendo riferimento al concetto di gradi di libertà, in trodotto da Fisher nei primi anni del secolo scorso. Il grado di libertà di una distribuzione statistica consiste nel numero di valori indipendenti che essa può assumere. Il grado di libertà di una distribuzione congiunta tra due va riabili è (n- l )(m- 1 ) , dove n e m rappresentano il numero di modalità della prima e della seconda variabile; di conseguenza, il grado di libertà di una distribuzione congiunta tra due dicotomie è l. Ciò significa che in una tabella di contingenza come quella riportata di seguito (tab. 1 .2), fissata a un dato valore la frequenza di una delle quattro celle, le altre tre sono completamente determinate: a partire da una qualsiasi delle frequenze di cella è possibile ricostruire tutte le altre10 . Ne consegue che per analizzare la relazione tra due variabili dicotomiche è sufficiente fare riferimento a una sola cella, valutando l'attrazione o la repulsione tra le modalità cui essa si riferisce 1 1 •

1 0 I vincoli reciproci che legano le quattro celle di una tabella di contingenza fra due di cotomie sono facilmente visualizzabili nella tabella 1 .2. Se le femmine che hanno dichiarato di aver votato alle ultime elezioni sono 350, quelle che hanno dichiarato di non aver votato non possono che essere 1 50, visto che le femmine intervistate sono in totale 500. Secondo la stessa logica, dato che le femmine che hanno dichiarato di non aver votato alle ultime ele zioni sono 1 50, i maschi che si sono astenuti non possono che essere 350, visto che in totale le persone che hanno dichiarato di non aver votato sono 500. 1 1 Seguendo Benzécri ( 1 973), userò il termine 'attrazione' per designare le situazioni in cui la frequenza di una data cella è sensibilmente più alta rispetto a quanto ci si aspetterebbe nel caso di indipendenza tra le due modalità che formano la cella; il termine 'repulsione' quando invece la frequenza è sensibilmente più bassa rispetto al caso di indipendenza. Pos siamo che in caso di attrazione due modalità sono caratterizzate da un'associazione positiva; in caso di repulsione da un'associazione negativa (Marradi 1 997, 28).

20

Il grado di libertà di una distribuzione congiunta tra due variabili poli tomiche (o tra una dicotomia e una politomia) è invece necessariamente maggiore di l ; in tal caso quindi l ' interpretazione delle relazioni tra le va riabili non può limitarsi a considerare un'unica frequenza di cella, ma deve essere configurativa, cioè basata sull'analisi congiunta di più celle. Tab. 1.2 - Tabella di contingenza fra due variabili dicotomiche. comportamento elettorale ha votato alle ulnon ha votato alle time elezioni ultime elezioni 350 femmina 1 50 350 genere maschio !50 totale 500 500

totale 500 500 1 .000

Come vedremo più avanti, tutto ciò fa delle variabili dicotomiche il ma teriale ideale da trattare con i modelli log-lineari e la regressione logistica, mentre le categoriali politomiche sono difficili da gestire. Questo tema sarà il filo conduttore del libro.

1.3. Forme e scopi dell'analisi dei dati

Le tecniche di analisi dei dati possono essere classificate in vari modi. Uno dei criteri più usati è il livello dell'analisi; in base ad esso si distinguo no: gli strumenti che trattano la distribuzione di una sola variabile (analisi monovariata); quelli che analizzano la distribuzione congiunta di due varia bili (analisi bivariata); quelli che trattano la distribuzione congiunta di tre o più variabili (analisi multivariata). Si tratta del criterio di classificazione tradizionale che orienta buona parte dei manuali e dei corsi universitari di metodologia della ricerca sociale. Gli strumenti propri di un dato livello sfruttano concetti e operazioni proprie del livello precedente. Ad esempio il coefficiente di correlazione (strumento dell'analisi bivariata di variabili cardinali) sfrutta due operazio ni tipiche dell' analisi monovariata come il calcolo della media e della devi anza; a sua volta tale coefficiente fa parte della procedura dell'analisi in componenti principali (strumento dell'analisi multivariata di variabili car dinali) 12 . 1 2 L'analisi in componenti principali può basarsi sul calcolo della covariazione, anziché su quello della correlazione; ma anche la covariazione è un'operazione del livello bivaritato

21

La classificazione degli strumenti in base al loro livello di analisi crea però alcuni problemi rilevanti per i temi che tratterò nel libro. I modelli log lineari sono giustamente considerati uno strumento tipico dell'analisi mul 13 tivariata ; ed è prevalentemente in questi termini che li presenterò nei prossimi capitoli. Tuttavia un ambito di applicazione privilegiato dei mo delli log-lineari è costituito dalle tavole di mobilità 14, cioè una particolare forma di tabelle di contingenza bivariate. Di conseguenza un' eventuale classificazione degli strumenti in relazione al livello di analisi risulterebbe non mutuamente esclusiva. Il livello di analisi come criterio di classificazione pone anche altri pro blemi, soprattutto rispetto alle variabili categoriali. Un cambiamento del livello di analisi non sempre implica un cambiamento degli strumenti usati. Nel suo celebre libro The Logic of Survey Analysis, Rosenberg ( 1 968) pro pone una trattazione sistematica dei modi in cui si può analizzare il ruolo di una terza variabile rispetto a una relazione bivariata. Per illustrare l'analisi delle relazioni fra tre variabili categoriali Rosenberg non introduce tecniche ad hoc, ma mostra come il ruolo di una terza variabile C possa essere stu diato confrontando le tabelle di contingenza tra A e B in ogni sotto-gruppo di casi individuato da ciascuna modalità della variabile C 1 5 . Un altro criterio - che è possibile combinare con quello appena visto per classificare le tecniche di analisi potrebbe basarsi sui tipi di variabile trattati. Su questo piano possiamo immaginare una distinzione generale tra gli strumenti che sono in grado di trattare tutti i tipi di variabili e quelli che invece hanno dei vincoli. L' analisi in componenti principali potrebbe ad esempio essere considerato un caso tipico di strumento riservato alle varia bili cardinali, ma l'applicazione della tecnica a variabili ordinali è una pra-

di analisi. Sugli scopi e la natura dell'analisi in componenti principali tornerò più avanti in questo paragrafo. 13 Non a caso Di Franco (2003) ha intitolato il suo libro sui modelli log-lineari L'analisi multivariata nelle scienze sociali. Modelli log-lineari e variabili categoriali. 14 Una tavola di mobilità rappresenta la distribuzione congiunta tra una variabile di ori gine e una di destinazione; generalmente le due variabili hanno le stesse modalità (Hout 1 983). Esempi tipici sono le tavole di mobilità che mettono in relazione la classe sociale di partenza e quella di destinazione; in questi casi si assume di solito una prospettiva inter-ge nerazionale, definendo operativamente la classe sociale di partenza come la classe sociale dei genitori. Altrettanto tradizionale è lo studio della mobilità elettorale, per studiare la quale si confrontano le preferenze espresse da una stessa persona in due elezioni differenti. Tratte rò a�profonditamente questi argomenti nel capitolo 4. Rosenberg ( 1 968/2003, 44) chiama questo procedimento "classificazione in sotto gruppi".

22

tica corrente che - a certe condizioni - non comporta gravi distorsioni 1 6 • Di conseguenza questo criterio - quando viene applicato alle effettive pratiche di ricerca - risulta poco discriminante. Al di là dei difetti sopra illustrati, il criterio basato sui livelli dell' analisi e quello relativo ai tipi di variabili fanno riferimento esclusivamente ad a spetti procedurali. Per inquadrare al meglio le tecniche che tratterò nel libro preferisco adottare un criterio di classificazione che chiami in causa gli o biettivi conoscitivi per i quali possono essere usati. A questo proposito mi pare utile, riprendendo IUcolfi ( 1 993 ) introdurre una prima distinzione tra due scopi generali : scomporre le distribuzioni congiunte tra due o più variabili; analizzare i modi in cui una variabile di pendente è influenzata da una o più variabili indipendenti. Nel primo caso l'insieme di variabili che si sottopongono ad analisi sono tutte sullo stesso piano; il ricercatore è interessato a cogliere la struttura delle relazioni reci proche che le caratterizza. Nel secondo caso si introduce un'asimmetria: il ricercatore sceglie quale variabile trattare come dipendente ed è interessato soprattutto a riprodurre la sua varianza in funzione di una serie di variabili indipendenti 17 . La scomposizione come operazione di ricerca può seguire due strade: introdurre o non introdurre dimensioni latenti. Nel primo caso in letteratura si parla di interpretazione1 8 . L'analisi in componenti principali e l'analisi delle corrispondenze (semplici o multiple) sono esempi tipici di tecniche di ,

16

Per approfondimenti vedi Di Franco e Marradi (2003); Gangemi (2007).

17 I due obiettivi conoscitivi appena descritti non esauriscono il vasto mondo dell'analisi

dei dati; essi possono essere considerati i due possibili focus dell'analisi delle reazioni tra variabili. Ma un ricercatore, invece che alle relazioni tra variabili, può essere interessato alle relazioni tra casi (cluster analysis, analisi sociometriche, etc.); oppure può porsi l'obiettivo di allargare una matrice costruendo variabili nuove a partire da un sotto-insieme di quelle già presenti in matrice (a questo proposito Ricolfi parla di tecniche di assegnazione). Nel resto del paragrafo mi occuperò prevalentemente dell'analisi delle relazioni tra variabili per ché sia i modelli log-lineari sia la regressione logistica si usano per questo obiettivo. 1 8 Nel lessico delle scienze umane il termine 'interpretazione' è uno dei più polisemici. Io qui lo uso per designare una specifica operazione di ricerca, e non l'attività cognitiva complessa attraverso cui si dà significato a una serie di informazioni. Nell'ambito dell'a nalisi dei dati possiamo individuare almeno due accezioni diverse del termine. Nel suo già citato libro sull'analisi trivariata, Rosenberg ( 1 968) definisce 'interpretazione' la generica operazione che consiste nell'analizzare una relazione tra due variabili alla luce di una terza. Il significato che gli darò io - l'attribuzione di una struttura di relazioni tra n variabili al l'azione di una proprietà non rilevabile è proposto, tra gli altri, da Ricolti ( 1 993) e Di Franco (2006). -

23

interpretazione. Pur applicandosi a strutture di dati diverse 1 9 , entrambi gli strumenti rappresentano le relazioni tra le variabili incluse nell'analisi come l'effetto delle relazioni che ciascuna di esse ha con una o più proprietà non rilevabile0 • Anche i modelli log-lineari sono una tecnica di scomposizione, ma - al contrario delle due appena citate - non danno luogo a un procedimento di interpretazione. Essi rappresentano la struttura delle relazioni tra le variabili come l' effetto di una serie di caratteristiche interne alla tabella di contin genza cui vengono applicati (il numero di casi, il peso di una modalità ri spetto alle altre della variabile cui appartiene, l 'attrazione o repulsione tra due modalità, l'interazione fra tre o più modalità21 ), senza alcun riferimento all'azione di eventuali proprietà non rilevabili. Per comprendere la specificità dei modelli log-lineari come tecnica di scomposizione è utile introdurre un ulteriore criterio di classificazione, di stinguendo le tecniche che trattano solo le relazioni bivariate da quelle prendono in considerazione anche le relazioni fra tre o più variabili; Ricolfi ( 1 993, 176) chiama "ordinarie" le tecniche del primo tipo e "generalizzate" quelle del secondo. L'analisi in componenti principali e l'analisi delle corrispondenze mul tiple - pur essendo tecniche di analisi multivariata - si basano esclusiva mente sulle relazioni bivariate tra le variabili che il ricercatore decide di considerare (vedi in proposito la nota 1 9 di questo capitolo); mentre con i modelli log-lineari si possono prendere in considerazione e quantificare an 22 che interazioni di ordine superiore • 19 L'analisi in componenti principali analizza una matrice variabili per variabili (con le stesse variabili in riga e in colonna); in ciascuna cella troviamo il coefficiente di correlazio ne, o un altro coefficiente che quantifica la relazione tra le due variabili che individuano quella cella. L'analisi delle corrispondenze si basa invece su una matrice modalità per moda lità, cioè una tabella di contingenza bivariata; oppure, nel caso dell'analisi delle corrispon denze multiple, su una giustapposizione di tutte le tabelle di contingenza bivariate che si possono costruire mettendo in relazione a due a due le variabili incluse nell'analisi. 20 Anche la classificazione degli strumenti di analisi dei dati in funzione delle operazioni di ricerca può porre problemi di mutua esclusività. Quando un ricercatore decide di usare l'analisi in componenti principali per costruire uno o più indici essa può essere considerata sia una tecnica di interpretazione sia una tecnica di assegnazione. In questo senso Ricolti (2002, 8) parla di tecniche ibride. 21 Per approfondimenti vedi il prossimo capitolo. 22 Sul piano matriciale la differenza può essere descritta così: mentre l 'analisi in compo nenti principali e l'analisi delle corrispondenze trattano sempre strutture bidimensionali in dipendentemente dal numero di variabili trattate, i modelli log-lineari si applicano a strutture n-dimensionali, dove n è dato dal numero delle variabili considerate.

24

La distinzione fra tecniche di scomposizione ordinarie e generalizzate è importante anche perché mostra come, per certi aspetti, l'analisi delle va riabili categoriali abbia fatto più strada rispetto all'analisi delle cardinali. Infatti, come ricorda Ricolti (2002, 1 62), "a tutt'oggi non esiste una tecnica di analisi che lavori su scale cardinali e che possa essere considerata l 'equivalente - per 'profondità' statistica- dell' analisi log-lineare". Come anticipato in precedenza, per analizzare le relazioni tra variabili è possibile focalizzare l' attenzione sulla loro distribuzione congiunta (in tal caso applico una tecnica di scomposizione) oppure scegliere una variabile dipendente e stimare se e come una serie di altre variabili (indipendenti) in fluenzano la sua distribuzione. Da questo punto di vista la regressione è una forma di analisi tipica; ap 3 plicare a una serie di variabili un modello di regressione2 significa capire se la modalità assunta da una variabile dipendente può essere stimata (o prevista) dalla combinazione delle modalità di una o più variabili indipen denti secondo una funzione matematica che l'analisi mira a specificare. Se guendo la terminologia proposta da Ricolti ( 1 993 , 5 1 -53) userò l'espres sione 'analisi delle dipendenze' per designare le tecniche che dividono le variabili in dipendenti e indipendenti24 . La scomposizione e l' analisi delle dipendenze rispondono a criteri di qualità differenti. L'applicazione di un modello log-lineare, e in generale di una tecnica che analizza strutture di relazioni simmetriche, si giudica in vir tù del suo grado di adattamento ai dati (goodness offit). Quando invece ap plico una tecnica di analisi delle dipendenze giudico il risultato soprattutto in funzione della capacità predittiva, cioè la capacità di riprodurre la va rianza della variabile dipendente. 23 La regressione logistica è una delle specifiche forme che può assumere un modello di regressione. Tornerò diffusamente sull'argomento nel capitolo 3. 24 Come nota Ricolfi (ivi, 5 1) in alcune tradizioni di pensiero "la separabilità tra sistema influenzante e sistema influenzato" è un prerequisito necessario affinché si possa parlare di relazione causale. Assumendo questa prospettiva "posso parlare di una relazione causale tra la preparazione dell'insegnante e profitto scolastico, ma non posso parlare di una relazione causale tra sesso e profitto scolastico, nonostante sia perfettamente pacifico il carattere a simmetrico della relazione". Questo perché l'appartenenza di genere è un aspetto non sepa rabile dal soggetto (lo studente) di cui dovrebbe spiegare il comportamento (in questo caso il profitto). Una posizione del genere può essere più o meno condivisibile, ma preferisco co munque non parlare di analisi causale in relazione agli strumenti statistici proprio perché il concetto di causalità implica considerazioni gnoseologiche ed epistemologiche indipendenti da essi. Da questo punto di vista l'espressione 'analisi delle dipendenze' mi sembra meno ambigua e controversa.

25

I due concetti di bontà di adattamento e capacità predittiva sono molto utili per chiarire la principale differenza tra i modelli log-lineari e la regres sione logistica. Per quanto semplice, la tabella che segue può essere oggetto tanto di un'analisi tramite modelli log-lineari quanto di una regressione lo gistica. Tab. 1 . 3 - Tabella di contingenzafra due variabili dicotomiche. comportamento elettorale non ha votato alle ha votato alle ultime elezioni ultime elezioni femmina 280 70 genere maschio 520 1 30 totale 200 800

totale 350 650 1.000

Si tratta evidentemente di una tabella che rappresenta un'assenza di re lazione: sia tra i maschi, sia tra le femmine la quota delle persone che han no votato è pari all' 80%. Come anticipato in precedenza applicare i modelli log-lineari significa scomporre una tabella di contingenza in una serie di effetti; in questo caso un modello che prendesse in considerazione solo l'effetto del numero dei casi e dello squilibrio delle due distribuzioni mo novariate (escludendo quindi l'effetto della relazione tra le due variabili) avrebbe un adattamento ai dati perfetto. Per applicare una regressione logistica alla tabella 1 .3 devo innanzitutto stabilire la direzione della relazione25 e calcolare la funzione che rende la variabile dipendente meglio riproducibile in funzione della variabile indi pendente. In questo caso, proprio perché tra le due variabili non c'è rela zione, la capacità predittiva sarà nulla. L'indipendenza tra bontà di adattamento e capacità predittiva, e la con seguente differenza tra modelli log-lineari e regressione logistica, può esse re descritta anche in un altro modo. Data una tabella di contingenza a n di mensioni è sempre possibile costruire un modello log-lineare che abbia un adattamento ai dati perfetto; è il cosiddetto modello saturo, che include tutti i possibili effetti in cui è scomponibile la tabella26 . Per la regressione logi stica non esiste un equivalente del modello saturo: per quanto io includa nel 25 In questo caso la scelta è obbligata, dato che il comportamento elettorale può dipende re dal genere, ma il genere non può dipendere dal comportamento elettorale. 26 Ovviamente un modello del genere ha solo un valore descrittivo e serve a quantificare le intensità dei vari effetti. Solitamente è il primo passo di un'analisi iterativa attraverso cui costruire modelli più parsimoniosi eliminando gli effetti meno significativi. Tornerò sul pun to nel capitolo 2.

26

modello di regressione interazioni di ordine superiore tra la dipendente e le indipendenti non è detto che io raggiunga livelli accettabili di capacità pre dittiva. Tutto ciò è riconducibile ai diversi scopi dei due strumenti. Si usano i modelli log-lineari per ricostruire una trama complessiva di relazioni tra n variabili; si applica la regressione logistica per capire quanto e come una data variabile (la dipendente) è riproducibile in funzione delle relazioni che essa ha con altre variabili (le indipendenti). Nel capitolo 2 tratterò i modelli log-lineari come tecnica di scomposi zione; nel capitolo 3 i modelli logit (una variante dei modelli log-lineari) e la regressione logistica come tecniche di analisi delle dipendenze. 1.4. L' analisi delle variabili categoriali: cenni storici

Oltre che sul piano delle diverse forme e dei diversi scopi che l'analisi dei dati può assumere, è opportuno contestualizzare i modelli log-lineari e la regressione logistica su un piano storiografico. Prima che queste due tec niche si affermassero come strumenti per l'analisi multivariata delle varia bili categoriali, nelle scienze sociali l'interesse per tali variabili si è manife stato in momenti e in modi diversi. Agli inizi del '900 Pearson e il suo allievo Yule sono i protagonisti di un'accesa controversia su quale sia il modo migliore di quantificare la rela zione tra variabili categoriali2 7. Per l'analisi della relazione tra due dicoto mie Pearson propone il "coefficiente tetracorico di correlazione" (Pearson e Heron 1 9 1 3). MacKenzie ( 1 978, 39) illustra nel modo seguente l'approccio cui tale coefficiente si ispira: "Esso assume che le quattro modalità A 1 , A2 , B 1 e B2 che formano una tabella 2x2 sono una riduzione di due variabili ad intervalli x e y: A 1 corrisponde ad esempio a y:Sk, A2 a y>k, B 1 a x:Sh e B2 a x>h; e assume inoltre che le due variabili a intervalli x e y seguono una di stribuzione congiunta distribuita normalmente." L'assunto della normalità delle distribuzioni e il fatto che si applichi e sclusivamente alle variabili dicotomiche costituiscono per Pearson i due di fetti principali del coefficiente tetracorico di correlazione. Per risolvere questi problemi Pearson propone altre misure di associazione tra variabili categoriali, sempre peraltro assumendo - come afferma MacKenzie - che 27

Per una bibliografia accurata dei saggi attraverso i quali Pearson e Yule hanno dato vi

ta alla controversia vedi Walker ( 1 929).

27

"una tabella di contingenza rappresenta l'incrocio tra due variabili cardinali categorizzate in due o più modalità" (ivi, 42). L'approccio di Pearson non era accettato da tutti. Come sottolinea Pio vani (2006, 1 3 1 ) , già nel 1 8 8 1 Edgeworth aveva posto l'esigenza di svilup pare strumenti statistici applicabili a variabili non cardinali. In linea con questa riflessione, Yule era convinto che il vincolo della cardinalità fosse il difetto più grave della tradizione statistica: "nella teoria della correlazione, normale o meno, si assume sempre di lavorare con materiali suscettibili di variazione continua, o quanto meno, variazioni con un numero considere vole di passi" (Yule 1 900, 257). Rifiutando tale assunto, Yule sostenne che per trattare le variabili dico tomiche ci fosse bisogno di "una sorta di 'coefficiente di associazione' che prenda il posto del 'coefficiente di correlazione' per variabili continue" (ivi, 27 1) . Secondo Yule non c'è associazione tra due variabili dicotomiche quando la probabilità che due modalità si presentino congiuntamente è u guale al prodotto delle probabilità che ciascuna modalità ha di presentarsi separatamente28 . Il coefficiente proposto da Yule ha l'obiettivo di quantifi care la misura in cui una tabella di contingenza 2x2 si discosta da una si tuazione di non associazione29 • Proponendo un coefficiente che non tratti le dicotomie come la riduzio ne di variabili cardinali, Yule ( 1 9 1 2, 6 1 0) critica esplicitamente i presuppo sti sui quali si basa il coefficiente tetracorico di correlazione: "L'introdu zione di ipotesi non necessarie e non verificabili non mi pare un modo ap propriato per fare scienza". In molti casi - prosegue il ragionamento di Yu le - assumendo che una dicotomia sia la ricodifica di una variabile cardina le si sfiora il ridicolo: "I non vaccinati sono tutti non vaccinati [ . . . ] Nessun individuo è più o meno vaccinato degli altri [ . . . ] Similmente, tutti quelli che sono morti per un attacco di vaiolo sono ugualmente morti: nessuno è più o meno morto degli altri [ . . . ] E i morti sono chiaramente distinti dai so pravvissuti" (ivi, 6 1 1 -6 12). Per quanto possa sembrare elementare, questo ragionamento per Pear son ed Heron ( 1 9 1 3, 1 6 1 ) era una vera e propria eresia: "La differenza principale tra il signor Yule e noi sta nel fatto che lui non si ferma a discu28

La tabella 1 .3 esemplifica una situazione di non associazione. La probabilità che le modalità 'femmina' e 'ho votato alle ultime elezioni' si presentino congiuntamente è data da 280/1 .000 0,28. Essa coincide con il prodotto delle probabilità che ciascuna modalità ha di presentarsi separatamente; infatti la probabilità della modalità 'femmina' è 350/1 .000 0,35 e la probabilità della modalità 'ho votato alle ultime elezioni' è 800/1 .000 0,8. 29 Per approfondimenti vedi par. l. 5. =

=

=

28

tere se le variabili che tratta sono realmente continue o discrete, o nasconde dietro una terminologia discreta variabili effettivamente continue. Noi in vece dietro modalità come 'morte', 'guarigione', 'occupato' o 'non occupa to' vediamo solo misure approssimative di variabili continue, che ovvia mente non seguono necessariamente una distribuzione gaussiana". La controversia tra Pearson e Yule fu animata da lunghe discussioni tecniche sui pregi e i difetti di varie soluzioni alternative per la quantifica zione della relazione tra variabili categoriali. Tuttavia, le citazioni sopra ri portate chiariscono bene come la controversia non poteva essere risolta sul piano procedurale. Come giustamente sottolineano MacKenzie ( 1 978) e Piovani (2006, 139-148), Yule e Pearson sono stati i protagonisti di una battaglia tra due diverse idee di scienza. Per Pearson infatti tutti i tentativi di definire un coefficiente adatto alle variabili categoriali dovevano presupporre - e non mettere in discussione le teorie statistiche consolidate: "Il coefficiente di correlazione ha - sul pia no delle proprietà fisiche - significati così ben definiti e apprezzabili che se fosse possibile applicarlo a qualsiasi genere di materiale empirico sarebbe immensamente più degno di un qualsiasi arbitrario coefficiente di 'colle gamento' o 'associazione' 30" (Pearson ed Heron 1 9 1 3, 300). Pearson era interessato all'eugenetica e all'ereditarietà, ambito nel quale, a quel tempo, le teorie della correlazione e della regressione erano larga mente consolidate. Abbastanza esplicitamente Pearson sosteneva che per il progresso di quel ramo della scienza fosse necessario adattare i fenomeni (le proprietà categoriali) alla teoria statistica (correlazione e regressione) , piuttosto che fare il contrario (MacKenzie 1 978, 55). Yule è mosso da interessi non molto diversi da quelli di Pearson (del re sto, come anticipato in precedenza, era un suo allievo); anche per Yule lo studio delle relazioni tra variabili è funzionale alla risoluzione dei problemi di controllo e predizione dei fenomeni. Tuttavia sul piano epistemologico le sue convinzioni sono quasi incommensurabili rispetto a quelle di Pearson (ivi, 52): Yule era convinto che

un

ricercatore, quando lavora con dati categoriali, è tenuto

ad accettare i limiti implicati da tale livello di misurazione: avere a che fare con casi raggruppati in categorie, e nulla più. Lo statistico deve accettare i dati per quello che 30 Si noti l'accezione negativa che i due autori danno in questo passaggio al termine 'as sociazione'; si tratta di un chiaro attacco a Yule che - come abbiamo visto in precedenza introduce questo termine per sottolineare le differenze tra l'analisi delle variabili cardinali e quella delle categoriali.

29

sono. Yule era interessato alla predizione dei dati categoriali come fenomeni in sé pienamente degni; l' analogia variabili categoriali/variabili a intervalli non aveva per lui alcuna attrattiva.

A differenza di Pearson, Yule è dunque convinto che debbano essere gli strumenti di analisi ad adattarsi alle specifictà dei fenomeni e non il contra rio. Portando questa convinzione fino quasi alle sue estreme conseguenze, Yule arriva a mettere in discussione lo stesso concetto di associazione. In una lettera31 scritta a Major Greenwood (epidemiologo e statistico), Yule scrive: "Non riesco a trovare una buona misura di associazione perché non ho chiaro cosa effettivamente vogliamo misurare con un coefficiente di as sociazione [ . . . ] [A volte] mi sembra che non abbiamo bisogno affatto di un coefficiente di associazione". Con queste perplessità Yule sembra sfiorare il concetto di autonomia semantica, proposto molto anni dopo da Marradi ( 1 980; 1 995; 1 997). Come abbiamo visto nel par. 1 .2, la relazione tra due variabili categoriali non può che essere descritta facendo riferimento all'attrazione e alla repulsione tra singole modalità; e ciò è dovuto proprio al fatto che ogni modalità costitui sce un centro autonomo di interesse. Quindi se la frase "tra la confessione religiosa di appartenenza e genere musicale preferito c'è una relazione in tensa" non ha un significato univoco, allora a fortiori sintetizzare tale rela zione in un solo coefficiente non è particolarmente informativo, indipen dentemente dalle procedure di calcolo che si decide di adottare32 . Forse Yu le non è arrivato a cogliere pienamente questa specificità delle variabili ca tegoriali perché ha concentrato le sue riflessioni sulle variabili dicotomiche, le quali, come abbiamo visto, sul piano dell'analisi dei dati sono più assimi labili alle variabili cardinali di quanto lo siano le categoriali politomiche. Il pieno riconoscimento del contributo di Yule alla storia dell'analisi dei dati è frutto del senno di poi. Come ricorda Ricolfi (2002, 1 39) "nei primi decenni del secolo [scorso] lo spazio per lo studio delle relazioni fra varia bili qualitative è dayvero minimo, al punto che l'opera di Yule dovrà atten dere una cinquantina d'anni prima di riemergere dall'oblio". Verso la metà 31

Il testo della lettera è parzialmente riportato da MacKenzie ( 1 978, 77-78).

32 In effetti i tradizionali coefficienti usati per studiare le relazioni tra variabili categoria li si limitano a quantificare la differenza tra una data distribuzione congiunta tra due variabi li e la teorica distribuzione congiunta che si avrebbe se le due variabili fossero perfettamente indipendenti; ci dicono quindi quanto la distribuzione congiunta tra due variabili si allontana dali 'ipotesi di indipendenza, ma non dicono (non possono dire) nulla che aiuti a interpretare la loro eventuale relazione. Su questo punto tornerò nel prossimo paragrafo.

30

del '900 il rinnovato interesse per le variabili categoriali è imputabile a una "rivoluzione linguistica" e alla creatività di alcuni autorevoli metodologi (ibidem), di cui è protagonista lo psicologo Stanley S. Stevens. Nel 1 946 Stevens pubblica su "Science" il celebre saggio On the Theory of Scales of Measurement. In riferimento alle variabili categoriali, Stevens introduce l'espressione 'scala nominale' che - dal suo punto di vista - de signa una delle possibili forme che può assumere la misurazione. Come no ta Marradi (1 980, 44), l'espressione 'scala nominale' comporta una contra dictio in adjectu: per Stevens infatti "si ha una scala nominale quando tra i nomi (cioè le classi) intercorrono differenze soltanto qualitative. Ma questa condizione contraddice il concetto di scala, nel quale è implicito un disli vello tra i gradini". Tuttavia, la proposta di Stevens è troppo attraente per una platea di psi cologi e sociologi in cerca di legittimazione scientifica. In tre pagine (que sta è la lunghezza del suo articolo su Science) Stevens estende il concetto di misurazione alle varabili categoriali; per gli studiosi che credono nell'equa zione misurazione scienza si tratta di una conquista irrinunciabile. Più o meno nello stesso periodo (inizio anni ' 50) Paul F. Lazarsfeld che pur essendo per formazione uno statistico e uno psicologo diventerà nel tempo una figura cruciale per la storia della sociologia e della ricerca socia le33 - avvia un programma di lavoro dedicato allo sviluppo di nuove tecni che di analisi specifiche per variabili categoriali34 . Lazarsfeld pone a fondamento del suo programma la stessa urgenza sen tita da Yule: sviluppare strumenti di analisi che rispettino le specificità del le variabili che trattano 3 5 . La citazione seguente esemplifica bene il suo modo di ragionare: =

Circa vent'anni fa il testo statistico più usato era quello originariamente scritto da Yule e curato da Kendall nelle edizioni successive. In un certo senso era un libro cu rioso. I primi due capitoli trattavano quanto i due autori definivano la statistica degli 33 Non a caso Corbetta ( 1 999, 9) lo definisce "il padre della moderna metodologia della ricerca sociale". 34 Si tratta di un merito notevole visto che - come ricorda Marradi ( 1 980, 44) - in segui to alla rivoluzione linguistica di Stevens "molti ricercatori si sono sentiti autorizzati ad usare anche sulle 'scale nominali' strumenti statistici adatti alle scale vere e proprie, con risultati tragicomici". 35 Nelle pagine che seguono mi sofferrnerò sui contributi di Lazarsfeld; ma l'esigenza di mettere a punto strumenti di analisi specifici per variabili categoriali accomuna - negli an ni '50 - anche altri autori. Tra i più significativi possiamo citare Kruskal e Goodman. Per approfondimenti vedi Ricolti (2002, 1 39-142).

31

attributi. Il seguito del testo trattava le variabili quantitative e la loro distribuzione. Da allora in poi sono comparsi innumerevoli testi di statistica, ma sono tutti imper niati sulla statistica delle distribuzioni quantitative [ . . . ] La statistica degli attributi non viene affatto trattata, oppure è presentata nella stessa forma che aveva decenni fa. [Molti autori sono stati] attratti dall' idea della misura senza rendersi conto di un'im plicazione molto più generale: la maggior parte dei dati delle ricerche sociologiche sono di natura qualitativa e pertanto l'intero problema della statistica degli attributi deve avere preferenza assoluta (Lazarsfeld 1 95511 967, 536-537).

Lazarsfeld rivolge queste critiche soprattutto ai tentativi di applicare l'analisi dei fattori alle variabili dicotomiche: "spesso il materiale [a dispo sizione del ricercatore] consiste in domande come: sì/no, vero/falso. [ . . . ] Allo scopo di trattare questo materiale in termini quantitativi furono escogi tati stratagemmi di ogni sorta, come correlazioni tetracoriche e simili coef ficienti" (ibidem). Per evitare forzature del genere, Lazarsfeld propone due tecniche di interpretazione36 specifiche per variabili categoriali: il modello delle classi latenti, che mira a ricondurre la distribuzione congiunta di un insieme di variabili categoriali rilevate a una proprietà categoriale non rile vabile; l'analisi della struttura latente, che invece assume come riferimento una proprietà continua non rilevabile37 . Nel 1 96 1 Lazarsfeld pubblica The Algebra ofDichotomous Systems, nel quale abbozza una teoria statistica generale per l'analisi di sistemi di rela zioni complessi che coinvolgono variabili dicotomiche. Questo articolo e i vari saggi sull'analisi della struttura latente costituiscono i principali risul tati di un progetto generale che Lazarsfeld e la sua scuola hanno perseguito per costruire un'architettura complessiva dell'analisi dei dati nella ricerca sociale (Di Franco 2003, 1 8). Tuttavia, come nota Ricolfi (2002, 14 1), e come si evince anche dal titolo stesso del saggio del 1 96 1 , l'ambizioso pro gramma di Lazarsfeld "di unificare il linguaggio della ricerca sociale è [pe rò] troppo legato al caso speciale delle variabili dicotomiche3 8". 36 Sul significato dell'espressione 'tecniche di interpretazione' vedi sopra, nota 1 8.

37

Per approfondimenti vedi Lazarsfeld ( 1 950) e Di Franco (1 999). Questo limite non deve essere inteso in senso formale e matematico. Nell'incipit di un saggio sull'analisi della struttura latente Lazarsfeld scrive: "Il presente scritto tratta dell'ap plicazione di un modello matematico a un problema di misura nelle scienze sociali. Molti campi di ricerca usano un tipo di misurazione [ . . . ] consistente nel fare osservazioni di tipo qualitativo su di una persona e poi nell'attribuire loro una certa 'misura' per poter raffronta re la persona presa in considerazione con altre persone sottoposte allo stesso test. Le osser vazioni possono essere di vari tipi. Per esempio: ha un particolare comportamento in una certa situazione? Risponde 'sì' o 'no' a una data domanda? Ha fatto una particolare espe rienza? In teoria, non è necessario limitare queste osservazioni a dicotomie" (Lazarsfeld 38

32

Alcuni degli sviluppi successivi della storia dell'analisi delle variabili categoriali possono essere interpretati come evoluzioni del programma la zarsfeldiano; mi riferisco in particolare all'Analyse des données di Jean Paul Benzécri, alla sistematizzazione dell'approccio log-lineare proposta da Leo A. Goodman e all'adattamento delle tecniche di analisi delle dipenden ze ai casi in cui la variabile dipendente è categoriale39 . In realtà, quando, verso la fine degli anni '60, Benzécri definisce la tec nica dell'analisi delle corrispondenze40 (analyse des correspondances), il suo obiettivo esplicito non è costruire uno strumento specifico per le varia bili categoriali4 1 , né superare l'approccio lazarsfeldiano. Tuttavia, per come viene comunemente usata, l'analisi delle corrispondenze può essere intesa come una tecnica di interpretazione per variabili categoriali che supera i principali limiti del modello delle classi latenti e dell'analisi della struttura latente, ovvero la limitazione alle variabili dicotomiche e il riferimento a una sola proprietà non rilevabile (continua o discreta che sia). Dal canto loro, i modelli log-lineari possono essere considerati una pro posta di soluzione a un problema di analisi che Lazarsfeld affronta esplici tamente. Come nota Capecchi (1967, lxviii), nel saggio The Algebra of Di chotomous Systems Lazarsfeld mostra "la necessità di passare a considerare frequenze di ordine superiore sulla cui base formulare indici di dipendenza condizionati e non solo indici di dipendenza parziali". Come ho scritto nel paragrafo precedente, i modelli log-lineari possono essere definiti una tec nica di scomposizione generalizzata, che non si limita cioè a considerare le relazioni tra due variabili, ma quantifica anche le interazioni di ordine supe riore; in questo senso i modelli log-lineari offrono una risposta all'esigenza posta da Lazarsfeld e sottolineata da Capecchi. Considerato il padre dei modelli log-lineari (Sloane e Morgan 1996, 352), Goodman illustra gli aspetti generali della tecnica in una serie di sag1 953/1 967, 447, corsivo aggiunto). Nonostante la precisazione finale, Lazarsfeld illustra l'analisi della struttura latente applicandola solo a variabili dicotomiche. Inoltre, gli studiosi che hanno analizzato le potenzialità della tecnica si sono prevalentemente concentrati sui casi di distribuzione congiunte fra tre o più dicotomie; vedi in proposito Lambert ( 1 959); Duncan, Stenbeck e Brody ( 1 988); Di Franco ( 1 999). 39 La regressione. logistica è l'espressione più attuale di questo terzo filone. 40 Per un approfondimento sulla storia dell'analisi delle corrispondenze vedi Di Franco (2006, 22-28). 41 Come ricorda Di Franco, "l'analisi delle corrispondenze non assume un preciso mo dello di relazione fra le variabili, e queste, inoltre, non sono sottoposte al rispetto di alcun vincolo. [ . . . ] Si assume che il tipo di scala delle variabili non sia noto a priori, ma che que sto debba essere individuato sulla base dei risultati dell'analisi" (ivi, 24-25).

33

gi scritti negli anni settanta e raccolti nel volume Analyzing Qualitati ve/Categorical Data, pubblicato nel 1 978. Nelle intenzioni del loro ideatore, i modelli log-lineari dovrebbero costituire un'emancipazione dal vincolo delle dicotomie; vengono infatti presentati come uno strumento di rappre sentazione e analisi di qualsiasi tabella di contingenza. Tuttavia - come sot tolineano Sloane e Morgan (ibidem) "i modelli log-lineari sono spesso criticati per il fatto di produrre 'troppi risultati' quando trattano tabelle di contingenza di grandi dimensioni". A mio avviso siamo di nuovo di fronte a un problema che non può esse re pienamente riconosciuto finché non si pensa in termini di autonomia se mantica. Come vedremo nei prossimi capitoli, i modelli log-lineari - e su questo piano la regressione logistica ha gli stessi problemi - producono "troppi risultati" quando trattano variabili categoriali politomiche. Se tra le modalità di una variabile non è possibile stabilire almeno un ordine (e quindi ridurre la loro autonomia semantica), le relazioni di tale variabile con altre non può che essere espressa, come detto in precedenza, chiaman do in causa i rapporti tra le singole modalità; di qui la proliferazione di ri sultati (parametri, coefficienti, etc.) che servono per descrivere tali relazio ni42 . Il vincolo delle dicotomie può quindi forse essere superato su un piano formale e matematico; ma l'analisi delle variabili categoriali politomiche implica problemi legati alle specificità di tali variabili e indipendenti dalla soluzione tecnica che si decide di adottare. Come anticipato, un'ulteriore fase di sviluppo nella storia dell'analisi delle variabili categoriali è costituita dall'estensione dell'analisi delle di pendenze ai casi in cui la variabile dipendente è categoriale. L'impulso de cisivo in questa direzione è arrivato dall'econometria43 ; in anni recenti tale forma di analisi si è progressivamente accreditata anche nelle altre scienze sociali e umane44 . Alla regressione logistica saranno dedicati i capitoli 3 e 5; in questo pa ragrafo è opportuno fare qualche altra considerazione di carattere storiogra fico. Pur avendo goduto di un certo credito in un passato recente, oggi i -

42 Proliferazione che eventualmente può essere ridotta accorpando le modalità di una va riabile categoriale, riducendo così l'impatto dell'autonomia semantica sui procedimenti di analisi dei dati. 4 3 Vedi in proposito Theil (1 969); Maddala ( 1 983); Ricolti (2002, 1 4 1 ). 44 A partire dai primi anni '90, nella celebre collana "Quantitative Applications in the Social Sciences" della Sage vengono pubblicati diversi testi sulla regressione logistica. Vedi, tra gli altri, De Maris (1 992); Pampel (2000); Borooah (2002); O'Connell (2006). In Italia il primo manuale dedicato alla regressione logistica per le scienze sociali è stato scritto da Maurizio Pisati nel 2003.

34

modelli log-lineari sembrano definitivamente usciti dalla cassetta degli at trezzi del ricercatore sociale; al contrario, la regressione logistica - prati camente ignorata fino a circa un decennio fa - sembra oggi diventata uno strumento essenziale e irrinunciabile45 . Dall'archivio dei Sociological Ab stracts46 risulta che quasi 1' 80% dei saggi che fanno riferimento alla regres sione logistica - o come oggetto di riflessioni metodologiche o come tecni ca usata per l'analisi dei dati - sono stati pubblicati dal 2000 in poi; mentre risultano pubblicati nello stesso periodo di riferimento solo il 9% di tutti i saggi che trattano i modelli log-lineari47, la maggioranza dei quali (circa il 5 1%) è stata pubblicata negli anni '90. Corbetta propone una spiegazione plausibile dell'avvicendamento tra i due strumenti. Nell'introduzione alla nuova edizione del suo manuale Me todi di analisi multivariata per le scienze sociali l'autore scrive: I modelli log-Iineari, pur mantenendo una loro vitalità specie per la modellizza

zione di problemi specifici e particolari, sono stati affiancati e in parte sostituiti, nella pratica corrente dell'analisi multivariata condotta su variabili nominali, dalla regres sione logistica, la quale, seguendo una logica assai prossima a quella ormai consueta della regressione lineare, appare di più facile comprensione e utilizzazione da parte dei ricercatori sociali (Corbetta 2002, 7-8).

In virtù di queste considerazioni può sembrare del tutto inopportuno scrivere oggi un testo sui modelli log-lineari. Vorrei quindi usare le ultime righe di questo paragrafo per giustificare la scelta di scrivere un libro sulla regressione logistica e sui modelli log-lineari. In primo luogo la progressiva sostituzione dei modelli log-lineari con la regressione logistica non è una tendenza del tutto incontrastata: come scrive lo stesso Corbetta, esistono dei settori di indagine sociologica che ancora oggi sono efficacemente serviti dall'approccio log-lineare48 ; inoltre, i mo-

45 Ringrazio Giovanni Di Franco per avermi suggerito questa chiave di lettura storiografica. 46 Si tratta di un database che include i riferimenti bibliografici di tutti gli articoli pub blicati sulle principali riviste di scienze sociali. 47 Per definire l'insieme degli articoli sui modelli log-lineari ho scelto dall'archivio i saggi che includono nei rispettivi abstract l'espressione 'loglinear models' ; per la regressio ne logistica ho usato come chiave di ricerca l'espressione 'logistic regression' . 4 8 M i riferisco i n particolare allo studio della mobilità (sociale, occupazionale, elettorale, etc. ) . Vedi sul punto il capitolo 4 e la nota 14 di questo capitolo.

35

delli log-lineari continuano ad essere oggetto di insegnamento in molte U niversità, soprattutto negli Stati Uniti49 . In secondo luogo, e soprattutto, la trattazione congiunta dei due stru menti è a mio avviso utile per tre ragioni metodologiche. l . Entrambi sono adatti all'analisi delle relazioni tra variabili catego riali e/o ordinali, ma - come ampiamente chiarito in precedenza vengono usate per obiettivi conoscitivi diversi. 2. Pur avendo obiettivi diversi, i due strumenti scontano problemi comuni (legati alle specificità delle variabili categoriali) che un confronto tra le due tecniche può far emergere con chiarezza. 3. Come ho già accennato, esiste una variante dei modelli log-lineari (i modelli logit) che può essere considerata un'alternativa alla re gressione logistica come strumento di analisi delle dipendenze per varabili categoriali; vale la pena quindi capire quali sono le diffe renze tra le due tecniche5 0• 1.5. Come si analizzano le tabelle di contingenza bivariate

Prima di entrare nel merito dei modelli log-lineari e della regressione logistica, è opportuno qualche cenno agli aspetti basilari dell'analisi delle relazioni tra variabili categoriali. Piuttosto che descrivere nel dettaglio le caratteristiche tecniche dei vari coefficienti abitualmente usati, cercherò di mostrare come l'analisi configurativa di una tabella di contingenza (cioè il controllo, cella per cella, delle attrazioni e delle repulsioni tra singole mo dalità) non può essere del tutto sostituita dal calcolo e dall'interpretazione dei coefficienti.

49 Alla Columbia University, ad esempio, nel corso di laurea in sociologia è attualmente previsto un insegnamento intitolato Analysis ofCategorical Data - Log-linear Mode/s. 50 Questo punto verrà sviluppato nel capitolo 3 .

36

Tab. 1 . 4 - Due tabelle di contingenzafra due variabili categoriali politomiche. priorità per la scelta de/ lavoro

avere un buon rapporto con i colleghi Cina Germania

Nazione di appartenenza

Italia Spagna St. Uniti totale

fare un lavoro importante

un buon reddito

un lavoro sicuro

totale

frequenza

350

150

400

100

1.000

% di riga

35,0%

15,0%

40,0%

1 0,0%

100,0%

frequenza

200

400

100

300

1.000

% di riga

20,0%

40,0%

10,0%

30,0%

100,0%

frequenza

350

100

150

400

1.000

% di riga

35,0%

10,0%

15,0%

40,0%

100,0%

frequenza

150

200

200

450

1.000

% di riga

15,0%

20,0%

20,0%

45,0%

100,0%

frequenza

150

450

300

100

1.000

% di riga

15,0%

45,0%

30,0%

10,0%

100,0%

frequenza

1.200

1.300

1.150

1.350

5.000

% di riga

24,0%

26,0%

23,0%

27,0%

100,0%

priorità per la scelta de/ lavoro

avere un buon rapporto con i colleghi Cina Germania

Nazione di appartenenza

Italia Spagna St. Uniti totale

fare un lavoro importante

un buon reddito

un lavoro sicuro

totale

frequenza

350

100

150

400

1.000

% di riga

35,0%

10,0%

15,0%

40,0%

100,0%

frequenza

150

200

200

450

1.000

% di riga

15,0%

20,0%

20,0%

45,0%

100,0%

frequenza

150

450

300

100

1.000

% di riga

15,0%

45,0%

30,0%

10,0%

100,0%

frequenza

200

400

100

300

1.000

% di riga

20,0%

40,0%

10,0%

30,0%

100,0%

frequenza

350

150

400

100

1.000

% di riga

35,0%

15,0%

40,0%

10,0%

100,0%

frequenza

1.200

1.300

1.150

1.350

5.000

% di riga

24,0%

26,0%

23,0%

27,0%

100,0%

coefficienti di associazione Phi

0.49

V di Cramer

0.28

coeff. di contingenza

0.44

Si prendano ad esempio le due relazioni rappresentate nella tabella 1 .4. Le due tabelle fittizie hanno gli stessi totali di riga e di colonna, ma presen tano due situazioni molto diverse tra loro. 37

Analizzando le percentuali di riga nella prima parte emerge una certa propensione degli italiani e degli spagnoli a valorizzare la sicurezza del po sto di lavoro; mentre tedeschi e statunitensi puntano di più sul prestigio (cioè fare un lavoro importante). La seconda parte si presta a considerazioni diverse: cinesi e tedeschi valorizzano la sicurezza; italiani e spagnoli il pre stigio. I tradizionali coefficienti usati per la quantificazione delle relazioni tra variabili categoriali politomiche non sono in grado di cogliere queste diffe renze; essi infatti portano agli stessi risultati per entrambe le tabelle. Ciò è dovuto al fatto che tali coefficienti danno una misura di quanto una data ta bella di contingenza sia distante dalla situazione di indipendenza statistica tra le due variabili, ma sono insensibili alla particolare configurazione di attrazioni e repulsioni tra le modalità che determina tale distanza5 1 . Da questo punto di vista Marradi ( 1 997, cap. 2) ha pienamente ragione nel sostenere che la paziente lettura di tutte le celle di una tabella di contin genza dà molte più informazioni rispetto a qualsiasi coefficiente di associa zione52. Nel caso in cui la tabella di contingenza rappresenti la relazione fra due variabili ordinali, la situazione è diversa. Proprio in virtù della minore au tonomia semantica delle modalità, un'eventuale relazione tra variabili ordi nali può essere espressa facendo riferimento al nome delle variabili senza chiamare in causa le singole modalità (Marradi 1 997, 77). Pur potendo es sere ulteriormente specificata, l'affermazione "più è elevato il titolo di stu dio del padre, maggiore è quello della madre" ha pienamente senso. Tutto ciò ha conseguenze importanti anche sul piano dei coefficienti che si usano per analizzare statisticamente le relazioni tra variabili ordinali.

5 1 I tre coefficienti riportati nella tabella 1 .4 sono tutti basati sul chi-quadrato di Pearson. Esso "è stato progettato per rifiutare l'ipotesi di indipendenza fra due variabili nella popola zione dalla quale è stato estratto il campione con procedimento casuale [ . . . ] Il valore ottenu to dal chi-quadrato può essere inteso come una misura della distanza tra la tabella di contin genza ottenuta sulla base delle frequenze congiunte rilevate e un'altra tabella che si costrui sce sotto l'assunto che fra le stesse due variabili ci sia il massimo grado di indipendenza" (Di Franco 2007, 427). Essendo un test di significatività, il chi-quadrato dipende - oltre che dalla relazione tra le due variabili - dal numero dei casi. I coefficienti riportati nella tabella 1 .4 possono essere considerati tre diverse normalizzazioni del chi-quadrato al fine di annul lare l'effetto del numero dei casi. Per approfondimenti vedi Marradi ( 1 997, 7 1-76); per una presentazione di altri coefficienti di analisi delle relazioni tra variabili categoriali vedi Agre sti (2002, 36- 1 1 5); Di Franco (2007, 43 1 -435); Fienberg (2007, 8-26). 52 Sul punto vedi anche Corbetta ( 1 999, 593). 38

Tab. 1.5 - Tabella di contingenzafra due variabili ordinali. titolo di studio della madre

lic. media o inferiore titolo di studio del padre

diploma laurea o post-laurea totale

frequenza % di riga frequenza % di riga frequenza % di riga frequenza % di riga

lic. media o inferiore 1 86 76,9% 38 9,6% 14 5,6% 238 26,7%

l

diploma 41 1 6,9% 98 24,7% 191 75,8% 330 37,1%

l

laurea o post-laurea 15 6,2% 260 65,7% 47 18,7% 322 36,2%

totale 242 1 00,0% 396 1 00,0% 252 1 00,0% 890 1 00,0%

Coeff. di associazione per variabili ordinali Gamma 0.37 tau-b di Kendall 0.29 0.28 tau-c di Kendall D di Somers 0.29

Essi infatti non si limitano a dare informazioni rilevanti per capire se tra le due variabili c'è associazione o indipendenza, ma indicano anche la dire zione di tale relazione, cioè se siamo in presenza di una cograduazione tendenzialmente i casi che assumono valori alti (o bassi) su una delle due variabili assumono valori alti (o bassi) anche sull'altra - o di una contro graduazione - tendenzialmente i casi che assumono valori alti (o bassi) su una delle due variabili assumono valori bassi (o alti) sul!' altra. Tuttavia, anche analizzando le variabili ordinali l'ispezione configurativa della tabel la di contingenza può far emergere aspetti rilevanti che i coefficienti non riescono a cogliere. Si prenda ad esempio la tabella 1 .5. Applicati a questa tabella, i tradi zionali coefficienti per l'analisi delle relazioni tra variabili ordinali5 3 segna53 Tali coefficienti possono assumere valori compresi tra + l e - l . Nel primo caso si parla di perfetta cograduazione, nel secondo di perfetta contrograduazione. In una tabella di con tingenza quadrata - cioè quando le due variabili hanno lo stesso numero di modalità - si ha perfetta cograduazione quando tutti i casi si addensano nelle celle poste sulla diagonale principale, cioè quella che parte dal vertice in alto a sinistra e arriva al vertice in basso a de stra. Si ha invece perfetta contrograduazione quando tutti i casi si addensano sulla diagonale secondaria, che va dal vertice in alto a destra a quello in basso a sinistra. I coefficienti ripor tati nella tabella 1 .5 risultano uguali a O quando tra le due varabili ordinali esaminate non c'è alcuna relazione monotonica (né cograduazione, né contrograduazione).

39

lano la presenza di una relazione cograduata (più è alto il titolo di studio del padre, maggiore è il titolo di studio della madre), anche se non particolar mente intensa. Tuttavia l'ispezione della tabella cella per cella consente di ottenere informazioni non desumibili dal valore dei coefficienti, per esem pio la frequente ricorrenza di due situazioni: padre diplomato e madre lau reata; padre laureato e madre diplomata. In generale si può dire che quando i coefficienti assumono un valore prossimo a + l o a - l l'ispezione della tabella di contingenza verosimilmen te non dà rilevanti informazioni ulteriori. In questi casi infatti la relazione (cograduata o contrograduata) è molto intensa, quindi la maggior parte dei casi si addensano lungo la diagonale principale (o secondaria). Quando in vece i coefficienti assumono valori bassi (o al limite prossimi allo O) è op portuno considerare le attrazioni l repulsioni che caratterizzano ciascuna cella, perché la relazione tra le due variabili potrebbe essere non monotoni ca (Marradi 1 997, par. 2.4; Di Franco 2007). Come ampiamente illustrato nelle pagine precedenti, le variabili dico tomiche presentano - sul piano dell'analisi dei dati - differenze cruciali ri spetto alle variabili categoriali politomiche. In particolare ho segnalato co me la relazione tra due variabili dicotomiche sia di più immediata interpre tazione rispetto a una relazione tra variabili categoriali politomiche. Di con seguenza i coefficienti abitualmente usati per le dicotomie danno più in formazioni rispetto a quelli applicabili per l'analisi delle relazioni bivariate tra due variabili politomiche. Nel paragrafo 1 .2 ho scritto che le variabili dicotomiche possono essere riconcettualizzate come variabili ordinali; in effetti, per certi versi, i coeffi cienti per l'analisi delle variabili dicotomiche sono assimilabili a quelli usa ti per le variabili ordinali. Infatti il Q di Yule - il coefficiente più elementa re per stimare la relazione tra due dicotomie54 - si basa sulla distinzione tra diagonale principale e diagonale secondaria, varia tra - l (tutti i casi sulla diagonale secondaria) e + l (tutti i casi sulla diagonale principale) e assume valore O quando tra le due variabili non c'è relazione. Si prendano ad esempio le tabelle 1 .2 e 1 .3. Il valore di Q per la prima tabella è .7; mentre per la seconda è O. Il valore positivo assunto da Q non è Per approfondimenti sulle procedure di calcolo e sui modi in cui tali coefficienti si ap plicano alle matrici rettangolari (i casi in cui le due variabili ordinali non hanno lo stesso numero di modalità) vedi Di Franco (2007, 436-440); per l'illustrazione di altri coefficienti per l'analisi bivariata delle variabili ordinali vedi Agresti (2010, 1 -44). 54 Per una dettagliata trattazione dei principali coefficienti per le dicotomie e dei loro di fetti vedi Marradi ( 1 997, 3 1 -51).

40

però univocamente interpretabile come quello dei coefficienti per variabili ordinali che, quando assumono valori positivi, segnalano la presenza di una cograduazione. Il suo segno infatti dipende dalla disposizione delle modali tà delle variabili dicotomiche nella tabella di contingenza, la quale non è vincolata - come invece accade per le variabili ordinali vere e proprie - da alcun criterio semantico55 . In una tabella costruita su due dicotomie, il cosiddetto rapporto di asso ciazione (odds ratio), che a sua volta deriva dal rapporto di probabilità (odds), è un altro modo per trattare le differenze tra la diagonale principale e quella secondaria. Rapporto di probabilità e rapporto di associazione sono due concetti di importanza cruciale perché possono essere considerati il cuore tanto dei modelli log-lineari quanto della regressione logistica. Data una distribuzione di frequenza di una variabile dicotomica, lo squi librio tra le due modalità può essere rappresentato in vari modi. Un modo classico è affiancare alle frequenze i valori percentuali. Nella tabella 1 .6 la distribuzione percentuale ci informa che due terzi circa degli intervistati è contrario al nucleare. Le percentuali si calcolano attraverso una proporzio ne, cioè rapportando una parte (i contrari) al tutto (i contrari + i favorevoli). Invece che rapportare una parte al tutto, per quantificare lo squilibrio tra due modalità posso rapportare le due parti, e calcolare così un rapporto di probabilità (Corbetta 1 992, 271). Nella tabella 1 .6 il rapporto di probabilità (Q) della modalità 'contrario' è 1 .52 1/748 = 2,033; tutto ciò significa che per ogni persona favorevole al nucleare ce ne sono più di due contrarie5 6 • 55 Per dare un significato al valore di Q relativo alla tabella 1 .2 bisogna fare riferimento al modo in cui è costruita quella tabella di contingenza. Solo così è possibile capire che . 7 è la quantificazione della propensione delle femmine ad andare a votare e, specularmente, del la propensione dei maschi a non andare a votare. 56 Il rapporto di probabilità della modalità A sulla modalità B è pari all'inverso del rap R porto di probabilità della modalità B sulla modalità A. Nel nostro caso nFAVO EVOLE 1 1 ncONTRARro 0,49. Tra la proporzione (p) di una data modalità e il suo rapporto di probabi lità esiste una corrispondenza biunivoca data dalle seguenti equazioni: p ill( I+fl); n p/( 1 -p). Più complessa è invece la relazione tra gli incrementi di proporzioni e gli incrementi di rapporti di probabilità. Illustrerò approfonditamente questo punto nei prossimi capitoli; per ora è opportuno sottolineare che tra i due incrementi non esiste una corrispondenza biu nivoca: passare da p a p+O,l porta ad incrementi diversi di n a seconda del valore di p. La proporzione di una data modalità può variare da O (tutti i casi ricadono nell'altra mo dalità) a l (tutti i casi sono concentrati nella modalità di cui si sta calcolando la proporzione) ed è 0,5 quando c'è perfetto equilibrio tra le due modalità. Il rapporto di probabilità di una data modalità varia invece da O (tutti i casi ricadono nell'altra modalità) a +co (tutti i casi sono concentrati nella modalità di cui si sta calcolando il rapporto di probabilità) ed è l quando c'è perfetto equilibrio tra le due modalità. =

=

=

41

=

-

T.ab. 1 6 Due madi per rappresentare o squilibrio tra due madalita' . frequenze % 67,03 contrario 1 .521 giudizio sul nufavorevole 32,97 748 cleare totale 2.269 1 00,0

QCONTRARI = 2,033

Tanto le proporzioni quanto i rapporti di probabilità possono essere usati per analizzare la relazione tra due variabili dicotomiche. Introducendo una seconda variabile posso calcolare infatti le proporzioni condizionate e/o i rapporti di probabilità condizionati.

Si prenda ad esempio la tabella 1 .7. In riferimento alla modalità 'contra rio' della variabile 'giudizio sul nucleare' posso calcolare due proporzioni condizionate, una relativa al sottogruppo dei contrari ai cibi OGM e una re hitiva ai favorevoli. Nel primo caso la proporzione è 0,78; nel secondo 0,53. Compiendo un'operazione analoga posso calcolare i rapporti di probabilità condizionati, ovvero calcolati entro ciascuna categoria della variabile 'giu dizio sui cibi OGM'. Nel sottogruppo dei contrari ai cibi OGM il rapporto di probabilità dei contrari al nucleare è 3,58; nel sottogruppo dei favorevoli ai cibi OGM è l , 1 1 . Tanto le proporzioni condizionate quanto i rapporti di probabilità condizionati mostrano che tra i contrari ai cibi OGM l'incidenza dei contrari al nucleare è maggiore e quindi si può dire che tra le due moda lità (essere contrari al nucleare e essere contrari ai cibi OGM) c'è attrazione. . . h 1't1 d"zcotomzche. T.ab. l 7 T.abeIla d'1 contmgenza tra due vana giudizio sui cibi OGM contrario favorevole 997 contrario 524 giudizio sul 469 279 favorevole nucleare 1 .276 totale 993 -

totale 1 .521 748 2.269

Il rapporto di associazione (odds ratio) non è altro che il rapporto tra due odds condizionati; in questo senso può essere considerato una misura dell'associazione tra due variabili dicotomiche57 • La regressione logistica e 57 Sopra ho scritto che l'odds ratio è un modo per quantificare la differenza tra la diago nale principale e quella secondaria in una tabella costruita su due variabili dicotomiche. Ciò può essere chiarito attraverso una semplice dimostrazione matematica. Abitualmente una generica frequenza di cella di una tabella di contingenza è designata dalla notazione t;1, dove i indica la modalità della variabile in riga che forma la cella e j la modalità della variabile in colonna. Seguendo questa notazione possiamo definire l'odds ratio in questo modo: (f1 1/f21)/(f12/f22). Attraverso alcune trasformazioni algebriche è facile dimostrare che tale e-

42

i modelli log-lineari quantificano le relazioni tra variabili proprio in termini di odds ratio; ed inoltre nella regressione logistica e nei modelli logit la va riabile dipendente viene espressa in termini di rapporto di probabilità. Da tutto ciò deriva la centralità di questi due concetti per gli strumenti di anali si cui è dedicato questo libro. Nei capitoli che seguono riprenderò questi temi, illustrando come la logica degli odds e degli odds ratios possa essere estesa alle variabili politomiche. In questo paragrafo, attraverso alcuni esempi, ho cercato di mostrare come l'analisi configurativa delle tabelle di contingenza sia in molti casi un'operazione non sostituibile dal calcolo e dall'interpretazione dei coeffi cienti. È chiaro però che tale forma di analisi è tanto meno gestibile quanto più è complessa una tabella di contingenza, dove il grado di complessità è dato dal numero delle variabili e dal loro numero di modalità. Nelle pagine che seguono vedremo come i modelli log-lineari e la regressione logistica consentono di gestire tale complessità.

spressione è equivalente a questa: (fi i *f22)/(f1 2*f21), cioè al prodotto delle due celle sulla diagonale principale diviso il prodotto delle celle sulla diagonale secondaria.

43

2.

Come i modelli log-lineari scompongono una ta bella di contingenza

2.1. I modelli log-lineari come strumento di rappresentazione

Nel suo manuale dedicato ai modelli log-lineari Corbetta (1992, 283) in troduce così la tecnica: "I modelli log-lineari rappresentano un approccio compatto al problema dell'analisi multivariata delle variabili categoriali, permettendo di superare, in modo modellistico e quindi globale, la frammen tazione dell'approccio tradizionale, che riduceva l'analisi multivariata delle variabili categoriali a tutta una serie di analisi bivariate, con i problemi di perdita di vista dell'insieme e di minuta suddivisione" che esso implica. Come anticipato in precedenza (vedi sopra, par. 1 .3), l'analisi multiva riata delle variabili categoriali può essere svolta valutando come cambia una data relazione tra due variabili categoriali nei sotto-gruppi di casi indi viduati dalle modalità di altre variabili. I modelli log-lineari si basano pro prio su questo principio, offrendo al ricercatore un'alternativa meno disper siva rispetto all'analisi di una serie molto lunga e articolata di tabelle di contingenza bivariate. Per comprendere il loro funzionamento è opportuno introdurre i modelli log-lineari come strumento di rappresentazione di una tabella di contingen za e successivamente chiarire quali possibilità di analisi derivano da tale forma di rappresentazione (Rudas 1 998, 32). Si prenda ad esempio la tabella 2. 1 ; essa rappresenta la distribuzione congiunta di tre variabili dicotomiche 1 • 1 Per agevolare l 'esposizione degli aspetti generali della tecnica comincerò a illustrare i modelli log-lineari applicandoli all'analisi delle dicotomie. Tratterò l'applicazione dei mo delli log-lineari alle variabili politomiche più avanti in questo capitolo, e più approfondita mente nel capitolo 4.

44

Tab. 2. 1 - Relazione tra genere, titolo di studio e interesse per la politica. Fonte: World Va. lue sunJey, ed"mone 2005 2008, ltatw2. genere femmina maschio interesse per la politica interesse per la politica non intenon inteinteressa totale interessa totale ressa ressa dipl. o meno 161 234 85 302 387 395 titolo di stu- laurea 1 03 54 34 69 58 1 12 dio 268 356 498 totale 230 143 499 -

Tab. 2.2 - Notazione di una J che quantifica

�52, che quantifica la propensione la propensione relativa di chi frerelativa di chi frequenta il liceo quenta il liceo scientifico rispetto scientifico rispetto a quelli che frea quelli che frequentano l'istituto quentano l'istituto tecnico ad avere tecnico ad avere paure postpaure esistenziali materialiste piuttopiuttosto che paura sto che paura della della morte morte

�23, che quantifica

� ,g

�\ che quantifica

�53, che quantifica

�33, che quantifica �3, che quantifìca la propensione la propensione la propensione relativa di chi frerelativa di chi frerelativa di chi frequentatm altro tipo quenta tm altro tipo quenta tm altro tipo di liceo rispetto a di liceo rispetto a di liceo rispetto a quelli che frequen- quelli che frequen- quelli che frequentano l'istituto tecni- tano l'istituto tecni- tano l'istituto tecnico ad avere paure co ad avere paure co ad avere paure socio-affettivepiut- materiali piuttosto post-materialiste che paura della tosto che paura piuttosto che paura della morte della morte morte

la propensione relativa di chi frequenta tm altro tipo di liceo rispetto a quelli che frequentano l 'istituto tecnico ad avere paure esistenzialipiuttosto che paura della morte

-

-

o u

·a u B ..... -� ,-.,

-

-

:::!:.-

1 67

-

Come abbiamo visto nel par. 5 . 1 , i parametri relativi ai rapporti di pro babilità tra due qualsiasi modalità della variabile dipendente possono essere ricavati da quelli stimati dal modello di regressione logistica multinomiale. Così, ad esempio, la stima della propensione relativa di chi frequenta il li ceo classico (rispetto a quelli che frequentano l'istituto tecnico) ad avere paure esistenziali piuttosto che paure socio-affettive si ottiene calcolando �5l - �2l ' Attraverso operazioni simili è possibile stimare propensioni relative che si basano sul confronto tra due qualsiasi modalità della variabile indipen dente. Così, ad esempio, �i - �; quantifica la propensione relativa di chi frequenta il liceo classico rispetto a quelli che frequentano il liceo scientifi co ad avere paure socio-affettive piuttosto che paura della morte. Come già anticipato nel paragrafo 5 . l , i parametri � di una regressione lo gistica multinomiale non sono direttamente interpretabili in termini di attra zioni e repulsioni tra le modalità, e questo li rende più difficili da interpretare rispetto ai parametri prodotti dai modelli log-lineari. Per chiarire questo pun to si consideri la tabella 5.4, che mostra le diverse rappresentazioni che la re gressione logistica e i modelli log-lineari danno di una stessa tabella di con tingenza. In ciascuna cella sono riportati due parametri: quello stimato dal modello log-lineare (À) e quello stimato dalla regressione logistica (�); i pa rametri statisticamente significativi sono evidenziati in grassetto. Tab. 5.4 - Come i modelli log-lineari e la regressione logistica rappresentano la relazione tra le variabili 'paura prevalente per il futuro ' e 'tipo di scuola frequentata '. Fonte: "Rappresentazioni sociali e discorso pubblico: giovani e sostanze psico atttive " ricerca realizzata nel 2011 e diretta da Franca Faccio!i paura prevalente per ilfuturo (2) (5) (4) (l) (3) pawa della

morte

A

�

·�

�

"'

..st

c ;: