TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Introduzione Analisi della variabilità. Tre esercizi mentali e una avvertenza In questa lezione.. In questa lezione tratteremo questi argomenti: Cosa è la variabilità. I tre ‘esercizi mentali’ della Statistica Primo esercizio: enucleare la componente ‘strutturale’ di un fenomeno Secondo esercizio: spiegare un fenomeno associandolo a un altro Terzo esercizio: inferire a struttura di un collettivo da una sua parte Caveat. Fallacy della variabilizzazione del mondo Sintetizzare un individuo, sintetizzare un collettivo Un individuo è caratterizzato da molti aspetti. Ma per ogni singolo aspetto posso tentare di valutarlo univocamente. Una popolazione, cioè un collettivo di individui, è anch’essa caratterizzata da molti aspetti. Ma anche se prendo un solo aspetto, faccio fatica a valutarla univocamente. Ha in testa 2.647.319 capelli Ha 27 anni, Fa l’operaio 3 mesi e edile... un giorno E’ alto 1 mt e 92 cm Un carattere di una popolazione è VARIABILE: cioè differenti individui manifestano differenti modalità. Molto bassi Bassi Medi Alti Molto alti Cos’è la variabilità La variabilità è una condizione d’essere di un collettivo (o popolazione) che è intermedia tra due stati stazionari. Questi due stati trovano riscontro in modi di dire e situazioni della realtà sociale Ancora tutti insieme In pile di altezza variabile Tutti dispersi Assenza di variabilità Variabilità Massima polverizzazione “Scattare all’unisono” Il gioco dei cubi “Società anomica” “Indossare un’uniforme” “Consenso ‘bulgaro’ “Entropia” “Cuius regio, eius religio” Variabilità e precisione Assenza o presenza di variabilità non sono condizioni oggettive, ma il risultato della percezione della realtà da parte dell’osservatore, a sua volta legata alla distanza a cui egli si colloca, cioè dal grado di analiticità o di precisione del suo ‘sguardo’ (parleremo di precisione della rilevazione). Da lontano (al macroscopio) un confine sulla carta geografica appare una linea retta senza variazioni. Ma se ci avviciniamo (al microscopio) il confine risulta pieno di insenature e sporgenze. Visti da vicino (al microscopio) greci, belgi, baschi, turchi, irlandesi hanno caratteri somatici diversi. Eppure per un orientale (al macroscopio) sono tutti uguali (come i cinesi per gli occidentali). Se rilevo la dimensione delle imprese artigiane catalogandole in grandi classi secondo il numero di addetti (da 0 a 100, da 100 a 200), certo perderò differenze importanti tra loro… Ogni oggetto (e ogni disciplina) ha un livello ‘giusto’ di precisione. Individuarlo è un compito non demandabile agli automatismi di formule statistiche: spetta alla saggezza del ricercatore. Variabilità e struttura La scienza moderna ha tentato in tutti i campi, inclusi quelli delle dinamiche economiche e sociali, di tener sotto controllo (cioè calcolare, prevedere) la variabilità, dovunque essa si manifesti. Per questo motivo essa ha sviluppato un modello di realtà, secondo il quale la Variabilità può essere cartesianamente scomposta in due parti: VARIABILITÁ Componente accidentale (inspiegata e imprevedibile) Componente ‘strutturale’ (Aufbau) o intrinseca Sono tre gli esercizi mentali che noi attiviamo con la Statistica Primo esercizio: trovare componenti intrinseche Il primo esercizio mentale attivato dalla Statistica consiste nella descrizione di un fenomeno variabile, cioè nella enucleazione, in un fenomeno osservato, della componente strutturale o intrinseca, depurata dalla componente accidentale. La componente intrinseca può essere di diversa natura. Può riguardare una modalità di manifestazione del carattere studiato, che in qualche modo sia rappresentativa del tutto. Nelle scienze fisiche e naturali è frequente l’assunzione che un carattere X sia intrinsecamente comune a tutti i soggetti di una popolazione, ‘salvo scostamenti accidentali’. Adolphe Quetelet, astronomo e precursore delle scienze sociali (Physique social, 1869), interpreta così la dispersione dei caratteri antropometrici intorno a un valore ‘vero’. Carattere ‘medio’ X ma che senso può avere, nelle scienze dell’uomo, ipotizzare l’esistenza di un valore ‘vero’? Esempi Quale componente intrinseca (una modalità rappresentativa, un parametro indicativo della legge di distribuzione) cerchereste osservando dei dati relativi ai seguenti fenomeni? Carattere osservato Modalità rappresentativa Proprietà della distribuzione Reddito pro-capite degli italiani Reddito medio Quanti sotto la ‘linea della povertà’? Voti dei partiti a una elezione politica Partito di maggioranza Grado di polarizzazione Reti segnate da Vieri a partita Media goal Numero partite in bianco Tassi provinciali di microcriminalità Tasso medio nazionale Differenziali (gradienti) sud-nord MQ di terra di abitanti di Minais Gerais % ‘sem terra’ (sperequazione) Altre componenti intrinseche La componente intrinseca può riguardare qualche altro parametro che descriva la forma della distribuzione del carattere nella popolazione, esprimendone: la dispersione, la simmetria o asimmetria, la mono- o bipolarità, la concentrazione.. Il carattere X può cioè essere intrinsecamente distribuito nella popolazione secondo una legge di distribuzione particolare, ‘salvo scostamenti “accidentali”’. Per esempio: ? Una distribuzione asimmetrica, concentrata su modalità basse (legge di Pareto dei redditi) ? O una distribuzione simmetrica campanulare (legge di Gauss) Impareremo presto a disegnare questi grafici Che fenomeni vi fan venire in mente distribuzioni così? ? ? Quali fenomeni si distribuiscono così? ? Ma allora cosa c’è su questo asse?) Quali fenomeni secondo voi si distribuiscono come la curva rossa? E quali come la curva blu? Come la curva rossa: Come la curva blu: I voti di un prof carogna I voti di un prof equilibrato Le imprese per dimensione Prove ripetute di una misurazione Barili di petrolio estratti Stature dei coscritti Secondo esercizio: spiegare associando Cogliere la ‘struttura’ intrinseca di un fenomeno è davvero un’operazione mentale nobile. Ma ancora più nobile, se possibile, è l’operazione mentale della SPIEGAZIONE. Facciamo un paio di esempi. Il risultato scolastico di una coorte di studenti varia con una forma e con un ‘valore medio’ che determiniamo, d’accordo: Ma cosa ‘spiega’ una buona performance, o una bocciatura? E posso associare il risultato scolastico con il reddito familiare, o la presenza di eventi biografici critici, o la statura? Tra i ‘presi in carico’ da un servizio psichiatrico alcuni non ricorreranno più a queste cure, altri torneranno una volta, altri due o più di due. La distribuzione di queste persone secondo il numero di ‘recidivanze’ avrà una sua forma e un suo valore medio, d’accordo: Ma come spiegare il fatto che A ‘guarisce’ e B ricade più volte? E posso associare la recidivanza con la precocità dell’insorgenza, o con l’assenza di una rete sociale di supporto, o con la qualità della risposta del servizio? Esempi Quali fenomeni, o fattori (o variabili) associate a questi fenomeni? Y = .. .. F(X,Z,W..) Risultato scolastico Reddito familiare, eventi biografici critici, numero dei fratelli, conoscenza della lingua, single mother Ricaduta in uso droghe Rete sociale di supporto, precocità della prima esperienza, contesto di vita, genere, status sociale Peso alla nascita “small for gestational age” (Povertà, disordini alimentari, consumo droga, diabete) della madre, altitudine, cultura alimentare Tasso di inflazione nazionale Livello retribuzioni, Prezzo del petrolio, Cambio parità monetaria, Politiche di spesa Vendite di una vettura Rapporto qualità/prezzo, Livello della domanda, Potere d’acquisto, Inquinamento (percezione di) Trovare una relazione funzionale Il secondo esercizio mentale attivato dalla Statistica consiste nella spiegazione della variabilità di un fenomeno mediante la enucleazione di una associazione ‘strutturale’ con un altro fenomeno, associazione anch’essa depurata dalla componente accidentale. Anche in questo caso, dunque, lo sforzo è quello di individuare una relazione funzionale tra una variabile da spiegare (dipendente, explanandum) e una ‘esplicativa’ (indipendente, explanans), formulabile come: Y = (X) Dipendente Indipendente Enucleando la ‘regola’ matematica degli ‘scostamenti accidentali’. Due esempi Fechner e Weber (1882) Relazione logaritmica tra intensità dello stimolo e della percezione Y = f(X) Yerkes e Dodson (1908) Curva U-shaped tra stimolazione (stress) e performance Y = f(X) x x Trovate voi una relazione funzionale Quali curve potreste associare a queste relazioni? E soprattutto, perché? Popolazione = f(tempo) Rendimenti=f(investimenti) Numero figli = f(istruzione) Terzo esercizio: inferire dalla parte al tutto Non sempre, tuttavia, possiamo valutare un carattere osservando una popolazione nella sua totalità. Talvolta l’universo è attingibile, ma troppo costoso. Per esempio: un censimento di una popolazione la sottoposizione dei fili di un tessuto ad un esame chimico invasivo interviste in profondità tutta la popolazione di una Regione Talvolta poi l’universo è addirittura inattingibile, perché costituito da un numero potenzialmente indefinito di ‘casi’ (per esempio: controllo sulla qualità di una catena produttiva a tempo continuo). In questi casi è opportuno o inevitabile rinunciare ad osservare il carattere che si vuole studiare sull’intera popolazione, e limitarsi a rilevarne una parte. Ma se la popolazione è VARIABILE, cosa ci consente di inferire qualche elemento strutturale ? dalla parte al tutto? La sineddoche e l’induzione Un esempio di inferenza da una parte al tutto lo si trova nel mondo della retorica. La sinèddoche è una figura retorica che trasferisce il significato da una parola a un’altra sulla base di un rapporto di contiguità quantitativa: la parte per il tutto, l’individuo per il collettivo. l’inglese è un tipo flemmatico (cioè tutti gli ingle-si sono tipi flemmatici) Nuvolari era un campione del volante Nulla da dire sulla sostituzione del volante all’auto: la parte “rappresenta” bene il tutto. Ma la prima sineddoche implica che la flemma sia un carattere indifferentemente di un inglese a caso o di tutti gli inglesi. Implica insomma che non ci sia variabilità nel grado di flemmaticità degli inglesi. E’ una condizione preliminare per il funzionamento di una delle tre forme di sillogismo, l’INDUZIONE. CASO John è inglese RISULTATO John è flemmatico REGOLA: l’inglese è un tipo flemmatico Anche mick jagger? Controllare la variabilità senza stereotipi La figura retorica di sostituire l’individuo al collettivo implica una situazione di zero-variabilità. Se nella popolazione c’è variabilità la figura della sineddoche (che pure assolve all’obiettivo, che noi ci siamo posti, di enucleare la ‘struttura’, il carattere ‘di fondo’ del collettivo) sottintende un processo psicologico collettivo: quello della adesione ad uno stereotipo. Ma se siamo in presenza di variabilità del fenomeno studiato, e non ce la sentiamo di affidarci ad una valutazione stereotipica del collettivo, siamo nei guai!!! Per esempio: per stimare il saldo mensile dei bilanci familiari a Milano, considerare sottoparti (campioni) abitanti al centro o alla periferia porta a risultati ben diversi! Esempi: inferire dalla parte al tutto In quali tra i seguenti casi, secondo voi, è più ragionevole indurre le proprietà di un collettivo dalle proprietà di una sua parte? E’ possibile indurre la volontà di voto popolare dalla scelta di voto di un singolo cittadino al tempo di Kim Il Sung? E’ possibile valutare il livello di buona educazione dei componenti di una famiglia dal livello di buona educazione di un suo componente? E’ possibile stabilire la fascia di reddito dei soci del Costa Smeralda Yacht Club conoscendo la fascia di reddito di un solo socio? E’ possibile misurare il livello di preparazione di una classe basandosi sul livello testato su un singolo allievo? Risposta: Dipende sempre dal livello di precisione della misura!! Come tenere sotto controllo la variabilità? Normalmente non c’è motivo per fidarsi di una “inferenza” dal particolare al generale, dal basso all’alto. CASO: un 'campione' di 100 milanesi è scelto tra fumatori accaniti RISULTATO: nel 'campione' sono rilevati 40 casi di enfisema polmonare REGOLA: i fumatori accaniti (in generale) incorrono 4 volte su 10 in enfisemi polmonari E se il campione desse un’immagine distorta della realtà? Cosa può distorcere l’inferenza? Nel caso discusso, quali fattori possono invalidare l’inferenza dal campione alla popolazione? CASO: un 'campione' di 100 milanesi è scelto tra fumatori accaniti RISULTATO: nel 'campione' sono rilevati 40 casi di enfisema polmonare REGOLA: i fumatori accaniti (in generale) incorrono 4 volte su 10 in enfisemi polmonari Per esempio: •Il campione risiede in un quartiere molto inquinato •Nel campione c’è una % anomala di figli di malati di enfisema •Si sono dichiarati fumatori accaniti (e quindi sono entrati nella popolazione campionata) persone che non fumano ma sono affette da enfisema.. Una corda su cui arrampicarsi Se qualcuno calasse una corda dall’alto (cioè dalla popolazione intera), che collegasse ‘in modo generale’: La forma della variabilità del carattere studiato nell’intera popolazione con Potremmo risalire dalla parte al tutto arrampicandoci per questa fune! La forma della variabilità del carattere studiato in ognuna delle sue possibili sottoparti (campioni) ritagliabili La ‘fune’ che serve allo scopo è il corpo teorico del ‘Calcolo delle probabilità’: ne faremo conoscenza!! Caveat Nel paradigma della ‘variabilizzazione del mondo’ le variabili cessano di rappresentare proxies astratte della realtà per ‘diventare’ la realtà: “l’attività teoretica si esercita svolgendo asserzioni sui nessi tra astrazioni come genere, capitalismo, educazione, burocrazia. Gli individui sono ‘unità d’analisi’ e non attori nelle relazioni sociali” (Abbott, 1997). La fallacy della variabilizzazione del mondo Correlazioni, regressioni, fattorializzazioni sono applicabili solo se si premette che i ‘valori delle variabili’ sono comparabili in un ampio ventaglio di contesti. La variabilizzazione del mondo omologa gli individui a unità di analisi, estirpandone la specificità personale e insieme contestuale.