Casuale e rappresentativo: ma cosa vuole dire? *
di Alberto Marradi
pp. 9-52 in Paolo Ceri (cur.), La politica e i sondaggi. Torino: Rosenberg & Sellier 1997.
Premessa
Nel momento in cui scrivo (estate ’96) il culmine dell’ondata più recente di sondo-mania
(infatuazione per i sondaggi) sembra passato. Ma l’acqua non si è ritirata: lo spazio dedicato ai
sondaggi sui media di ogni genere resta alto, e tale appare destinato a restare.
Ceri ha sostenuto (1994, 886-7) che i sondaggi pre-elettorali, che trainano tutti gli altri,
attraggono tanto più l’attenzione quanto meno solide e diffuse sono l’identificazione e la fedeltà di
partito, e quindi maggiore è l’ansia con cui politici e giornalisti attendono indicazioni sugli
orientamenti dell’elettorato. Rositi ha aggiunto la profondità e la virulenza del conflitto politico tra
i fattori che conferiscono rilevanza ai sondaggi (1995, 2).
Queste due tesi combinate, e unite a una ragionevole valutazione del senso di sazietà che l’ultima
ondata aveva provocato in molti, possono confortare le affermazioni con cui ho aperto questo
saggio. Il senso di sazietà, e il fatto che il conflitto politico sembra — forse anche per effetto del
carattere tranquillo del Presidente del consiglio — meno virulento che alcuni mesi or sono,
rendono infatti plausibile l’impressione che il culmine dell’ultima ondata di sondo-mania sia
passato.
D’altra parte, si ha la precisa sensazione è che nuove ondate incombano. Vediamo perché.
Lo sgretolamento delle identificazioni di partito, e anche delle sub-culture politico-ideologiche,
sembra un fenomeno di lungo periodo — addirittura un fenomeno irreversibile. Ciò comprime, e
continuerà a comprimere, la quota del “voto di appartenenza”, il tipo di voto che conferisce
stabilità e prevedibilità ai risultati elettorali, e quindi riduce l’importanza dei sondaggi.
I due tipi alternativi di motivazione al voto tradizionalmente riconosciuti 1 , il voto di opinione e il
voto di scambio, sono due manifestazioni della razionalità (che promuove valori universalisti nel
primo caso, interessi particolaristi nel secondo). Tanto l’elettore di opinione quanto l’elettore di
scambio possono razionalmente cambiare voto da una consultazione all’altra; quindi, maggiori le
quote di questi due tipi di elettorato, più alto è l’interesse dei sondaggi.
Inoltre, accanto al voto di opinione e al voto di scambio, dovrebbe ormai esser riconosciuta la
presenza di un quarto tipo di voto, che chiamerei “voto di impressione”, perché in tal modo mi
sembra di catturarne la natura di risposta immediata, superficiale, irriflessa, affidata più ai sensi
che all’intelletto. L’elettore di impressione può mutare orientamento di sera in sera. Quindi ha
senso rilevarne gli orientamenti sera per sera — come infatti si fa. Inoltre i suoi orientamenti
vengono non solo (spesso) rilevati e pubblicizzati attraverso il mezzo televisivo, ma vengono
anche (più spesso, e in misura crescente) determinati dallo stesso mezzo che li rileva.
Lo stesso fatto di essere un elettore di impressione viene in larga misura prodotto — come ha
cautamente suggerito Rositi (1995, 7-8) — dall’esposizione ai messaggi televisivi del tipo
attualmente prevalente anche nelle trasmissioni di argomento politico.
Ritengo infatti — anche se sarebbe arduo corroborare questa tesi empiricamente — che il
sostituirsi della televisione alla famiglia come agente di socializzazione primaria abbia, fra le altre
conseguenze, determinato l’erosione del voto di appartenenza; ma che la televisione abbia
sostituito anche la scuola come agente di socializzazione, e ciò abbia precluso la trasformazione di
questi voti in voti di opinione e li abbia dirottati verso i lidi soffici e umbratili del voto di
impressione. Analogo dirottamento hanno probabilmente subito i voti che il recente sviluppo
economico di alcune zone del paese poteva aver messo in grado di uscire dalla palude del voto di
scambio.
*
Questo saggio è stato preparato fruendo del contratto CNR n. 96.01481.10.
Almeno a partire dal noto articolo in cui Parisi e Pasquino (1977) hanno codificato e denominato i tre criteri
(appartenenza, .scambio e opinione) che un elettore può seguire nel decidere per chi votare.
1
Riassumendo: decresce l’incidenza della motivazione di lungo periodo al voto (l’appartenenza);
rimane stabile, o decresce leggermente, l’incidenza delle motivazioni razionali e di medio periodo
(l’opinione, lo scambio); cresce impetuosamente, auto-alimentandosi, l’incidenza delle
motivazioni non-razionali e di brevissimo periodo (le impressioni).
Se questa analisi è corretta, e fin tanto che i rapporti di forza tra le varie motivazioni non
cambieranno, l’acqua resterà alta — cioè i politici e i giornalisti avranno sempre le loro ottime
ragioni per commissionare, diffondere, commentare sondaggi pre-elettorali. Su questa situazione
cronica si innesteranno crisi acute di sondo-mania ogni volta che il conflitto politico diventerà
acuto, cioè quanto meno nei mesi precedenti importanti scadenze elettorali.
La conclusione è preoccupante perché, scrutando lo scenario da gratta-e-vinci che ci sta attorno,
non si vedono dighe capaci di contenere in qualche modo questo genere di inondazioni.
Molti (fra gli ultimi Ceri 1994, Rositi 1995, Bosio 1996 — per non menzionare innumerevoli
articoli sulla stampa non accademica) hanno analizzato i pericoli che una sondo-crazia unita a una
video-crazia, cioè un quarto potere che, sulla base dei sondaggi, si proclama depositario e
interprete unico dell’opinione pubblica, rappresenta per una società civile che sembra essere uscita
da un’adolescenza sessantottina solo per piombare in un’infanzia tele-dipendente. Rositi in
particolare ha ricordato gli ammonimenti di Tocqueville contro gli interpreti della volontà
nazionale, e di Weber contro la democrazia plebiscitaria — il “potere di un capo che si legittima
in nome di una diretta, immediata consonanza con la volontà collettiva”.
Malauguratamente, il setting per una video-crazia/sondo-crazia è pronto; molti elementi li ha
elencati Rositi (1995, 4): diffuso anti-parlamentarismo, impreparazione politica di larghi strati
dell’elettorato, indebolimento dell’associazionismo politico; un altro l‘ho ricordato sopra:
sostituzione della televisione alla famiglia e alla scuola come agente di socializzazione; altri se ne
possono aggiungere: continuo impoverimento delle capacità critiche trasmesse dalla scuola 2 ,
pervasiva e continua sottolineatura dell’importanza del caso, della sorte, della lotteria rispetto al
merito, dell’apparire rispetto all’essere, del comunicare rispetto al pensare. E non è detto che i
pericoli per la democrazia liberale debbano venire solo dall’indovinato cocktail di gaullismo e
tycoonismo rampante di cui abbiamo recente esperienza. La storia dell’America latina, alla quale i
processi socio-culturali sopra richiamati ci vanno inesorabilmente avvicinando, mostra che
caudillos e jefes possono provenire dal sindacalismo, dai militari nazionalisti e progressisti, dal
populismo lumpen-proletario. E — visto che la storia ha molta più fantasia degli uomini — non
si può neppure escludere la video-crazia/ sondo-crazia di una casta di alti papaveri di partito, che
controllino l’opinione pubblica attraverso squadre di intervistatori, senza dover ricorrere a polizie
segrete.
E’ opportuno quindi che chi percepisce il pericolo che la video-crazia/ sondo-crazia costituisce per
le libere istituzioni (e anche per il, già disastrato, livello culturale medio del paese) si ponga con
urgenza il problema di scalzare, o almeno scalfire, i pilastri sui quali poggia il nuovo Moloch.
In particolare, chi ha avuto esperienze a vario livello con la macchina che produce sondaggi può e
deve sentire il dovere di mettere queste sue esperienze e competenze al servizio della società civile.
In effetti, non sono mancati gli addetti ai lavori che hanno pubblicato analisi critiche di quegli
aspetti della macchina-per-fare-i-sondaggi di cui avevano fatto particolari esperienze o avevano
maggiore conoscenza: per i sondaggi accademici Boccuzzi (1985), intervistatrice e poi dottore
di ricerca; per i sondaggi di agenzia Toller (1994), intervistatrice “pentita” e ora giornalista;
per le proiezioni il collega Draghi (1982; 1996); per gli exit polls il collega Natale (1996); per i
sondaggi telematici la collega Pavsic (1996); e così via. Questi autori, e altri come loro, hanno
reso un servigio prezioso, analizzando al microscopio i problemi, i limiti e le distorsioni relativi
a specifiche tecniche o aree di ricerca. Visto che l’evoluzione tecnologica è rapida anche in
questo settore, la comunità scientifica deve ogni volta augurarsi che qualche suo membro,
acquisita esperienza nell’impiego di una nuova tecnica, ne voglia fare oggetto di una pubblica
2
Alludo in particolare alla pratica abolizione del compito di tradurre (in classe o a casa) da una lingua all’altra, che
addestrava la mente alla soluzione di problemi anziché all’apprendimento mnemonico, e quindi abituava a pensare
autonomamente. Alludo anche alla continua contrazione del mero bagaglio di nozioni trasmesse e richieste: a un
bagaglio di nozioni si può infatti sempre attingere per formare, una volta maturati, una coscienza critica.
valutazione critica. Se questo aggiornamento non è tempestivo, la critica rincorrerà gli ultimi
sviluppi con armi spuntate perché relative ai penultimi.
C’è peraltro, credo, un modo per rendere meno affannosa questa rincorsa critica alle novità. E’
affrontare il nocciolo del problema, cioè il potere sacrale che le due parole magiche ‘casuale’ e
‘rappresentativo’ conferiscono a chi se ne appropria, permettendogli di spiegarci ogni sera cosa
pensano 50 milioni di italiani adulti su questo e su quello dopo averne interrogati sì e no mille con
frettolose telefonate.
Sono convinto che non dovremmo stare a preoccuparci della sondo-crazia se ai portavoce televisivi
di questi nuovi demiurghi fosse vietato di dire: “onorevole X, sette milioni di italiani le
chiedono...” in luogo di un più dimesso “onorevole X, 128 persone (sulle 1.000 cui abbiamo
telefonato) hanno scelto di porle — fra le quattro che abbiamo sottoposto loro — questa
domanda:...”
A 128 persone nessuno darebbe grande peso. Ma chi osa contestarne sette milioni? E’ su questa
proiezione automatica sui moltissimi delle informazioni relative ai pochissimi che si fonda il potere
sacrale dei sondaggi, e il loro pericolo.
La tendenza a sparare grosse cifre sulla base di informazioni ben più modeste si manifesta anche
al di fuori dei sondaggi, ed è comunque congeniale al mezzo televisivo. «Oggi 15 milioni di
autovetture hanno viaggiato sulle autostrade» «Ventidue milioni di famiglie sono rimaste a casa
in questo week end». Nel primo caso, si proietteranno i conteggi (o le stime a lume di naso?) di
qualche decina di operatori ai caselli. E nel secondo? Si telefona a duecento portieri?
Alle cifre con molti zero noi italiani siamo particolarmente affezionati (è già un tratto che ci
accomuna ai sudamericani): guadagnare uno stipendio espresso in milioni ci fa sentire
importanti, mentre un tedesco sarebbe terrorizzato al ricordo della grande inflazione degli anni
’20 — un terrore che anche i tedeschi più giovani ereditano con il patrimonio genetico.
Obbligare chiunque diffonda risultati di sondaggi a dare prima il totale effettivo degli interrogati
e le frequenze effettive di ogni risposta, ciascuna seguita dalla relativa percentuale, vietando
inoltre qualsiasi proiezione in cifre assolute calcolate sull’intera popolazione, sarebbe una
misura semplicissima, ma naturalmente non piace a nessuno.
Ho visto complicati codici di auto-regolamentazione proposti 3 da associazioni di operatori
professionali nel settore: avanzavano richieste (pubblicazione del testo integrale del questionario,
delle procedure dettagliate di campionamento, e simili) che evidentemente nessun giornalista
sarebbe disposto a soddisfare, perché ciò comporterebbe una dilatazione dei tempi e degli spazi
contraria ai più elementari canoni giornalistici. Ma non ho visto traccia di una proposta così
semplice, che costerebbe solo una riga e pochi secondi. 4
Ho l’impressione che la proposta di costringere i media a dare solo le cifre effettive degli
intervistati non sarà mai oggetto di discussione. Ai giornalisti è gradita come la peste, perché
sanno che il pubblico è stato abituato (anche e soprattutto da loro) a prestare attenzione solo dal
milione in su. Da parte loro, gli accademici delle scienze umane, anche se magari non hanno mai
avuto a che fare con i sondaggi, sentono che una proposta del genere vibrerebbe un colpo d’ascia
all’albero sul quale stanno seduti. Togli alle scienze umane la pretesa di generalizzare (a una
popolazione o addirittura al cosiddetto universo) le informazioni ricavate su pochi casi, e hai
scardinato il pilastro che agli occhi dei più, dentro e fuori il recinto, regge il loro status di scienze.
3
Alludo in particolare al codice di auto-regolamentazione proposto nell’aprile ‘95 dall’Associazione degli Istituti di
Ricerca e di Marketing (ASSIRM) in un convegno sul tema. Peraltro, un codice del genere esiste già; ma “non pare
essere stato applicato sin qui non essendo mai pervenuta notizia di alcuna sanzione, anche di fronte a casi di palese
inaccuratezza nell’esecuzione di rilevazioni” (Mannheimer 1996, 7).
4
Quando, intervenendo al convegno di cui alla nota precedente, avanzai la proposta descritta nel testo (obbligo di dare
le cifre effettive prima delle percentuali, divieto di proiettare tali percentuali in cifre assolute calcolate sull’intera
popolazione) gli interventi successivi hanno riconosciuto che sarebbe stata una proposta semplice ed efficace, e la cosa
è finita lì.
Quella che ho appena descritto resta comunque una battaglia da fare, con l’ottimismo della
volontà. Ma anche col pessimismo della ragione, predisponendo una seconda trincea o — se
preferite — una seconda linea di attacco.
Come dicevo sopra, la valutazione critica delle singole innovazioni tecniche è preziosa, e c’è da
augurarsi che si trovi sempre qualche competente disposto a farla. Anche una rassegna panoramica
come quella di Groves (1989) è importante. Peraltro, le analisi critiche delle specifiche
innovazioni tecniche sono destinate ad essere superate con la stessa rapidità con cui sono superate
le tecniche che analizzano: inoltre, sono contributi che per essere assimilati richiedono
inevitabilmente competenze tecniche assai più ampie e dettagliate di quelle a disposizione di un
profano, pur colto e interessato.
C’è quindi bisogno anche di un lavoro che affronti il cuore del problema — cioè, ripeto, i
concetti di estrazione casuale e di distribuzione rappresentativa. Se l’analisi è condotta con
sufficiente profondità e generalità, essa dovrebbe stabilire criteri che valgono per qualsiasi novità
presente o futura, cioè per qualsiasi tecnica escogitata per estendere a un’intera popolazione i
risultati relativi a un campione — quindi, per i sondaggi telefonici come per gli exit polls, per le
proiezioni come per i sondaggi effettuati per via telematica, cioè interrogando periodicamente un
campione di persone attraverso un computer consegnato loro 5 . In tal modo potrebbe fornire ogni
volta la base e il punto di riferimento per le critiche agli aspetti specifici di ciascuna innovazione
tecnica.
Devo peraltro temperare subito la generalità di questa affermazione osservando che proiezioni ed
exit polls hanno caratteristiche tali da differenziarsi nettamente dalle altre tecniche da entrambi i
punti di vista che ci interessano: l’affidabilità dei risultati e la pericolosità per le libere istituzioni.
Le caratteristiche rilevanti che proiezioni ed exit polls hanno in comune sono due:
— si riferiscono a qualcosa di già avvenuto (i voti già espressi);
— le stime che essi producono vengono confrontate nel giro di poche ore con i risultati effettivi.
Qualcosa che è già avvenuto non può essere modificato: sono quindi i media, e non i partiti, che
hanno interesse a commissionare proiezioni ed exit polls. Ma anche sul mercato della
comunicazione, il loro valore è altissimo fin tanto che non sono noti i risultati ufficiali; dopodiché
essi vengono per così dire assorbiti da questi ultimi.
Il pubblico delle maratone televisive post-elettorali si trova per qualche ora nella situazione di
quelle fanciulle alto-borghesi che per secoli le famiglie nobili europee hanno scelto come
consorti dei loro cadetti più timidi e remissivi. Una volta prescelta, la fanciulla veniva ammessa
nel palazzo dove le si faceva incontrare il nobile rampollo solo dopo una congrua anticamera da
trascorrere nel salone con i ritratti degli avi, in modo che si rendesse meglio conto dell’onore che
le era toccato. Durante l’attesa la fanciulla interrogava ansiosamente le fisionomie dei ritratti per
avere un’anticipazione delle fattezze del suo promesso. Ma quando finalmente la porta del
salone si apriva e appariva il principe azzurro, i ritratti così spasmodicamente scrutati erano
istantaneamente dimenticati — e magari la fanciulla odiava quella sala per il resto della sua
vita.
Per questi motivi sostengo che proiezioni ed exit polls non possono, e non potranno mai, avere un
impatto politico distinto dall’esito elettorale, di cui sono l’anticipazione, e di conseguenza non
potranno esser manovrati al punto da costituire un pericolo per la democrazia.
Beninteso, man mano che affluiscono i risultati ufficiali, qualcuno del pubblico, e molti fra gli
addetti ai lavori, possono confrontare quei risultati con le previsioni ricavate da proiezioni ed exit
polls . Ma questo fenomeno non ha alcuna conseguenza politica, mentre ha un effetto benefico
sulla qualità dei sondaggi. Vediamo perché.
Chi confronta previsioni e risultati effettivi lo fa per vedere “se X {l’agenzia che effettua le
proiezioni o i polls ] ci ha indovinato”. Quella che nel pubblico è una curiosità accademica, negli
addetti ai lavori può essere qualcosa di ben diverso: una valutazione delle prestazioni delle varie
agenzie, da comparare fra loro e con i relativi prezzi al fine di orientare le future commesse.
5
Sui sondaggi telematici (electronic mail surveys) vedi Kiesler e Sproull (1986); Saris (1989); Walsh et at. (1992);
Beckenbach (1995).
Proprio perché — come ricordavo sopra — le stime prodotte possono essere confrontate “a
caldo”; e da un vasto pubblico, con i risultati, le agenzie sanno benissimo che la maratona
televisiva post-elettorale è per esse un banco di prova decisivo. Quindi hanno tutte le ragioni per
investire il massimo delle loro attenzioni e risorse nel miglioramento delle loro prestazioni —
come in effetti fanno. 6
Rispetto ai comuni sondaggi, i punti di campionamento sono molto più numerosi e scelti assai
più accuratamente : si suddivide il territorio in varie decine di zone omogenee entro le quali si
7
scelgono con cura i seggi (fra i 300 e i 600, quindi tre o quattro volte tanto i punti di
campionamento di un comune sondaggio) la cui composizione demografica ha subito le minori
alterazioni rispetto alle precedenti elezioni, e nei quali la distribuzione dei voti nelle precedenti
elezioni è stata la più vicina alla distribuzione dei voti in quella zona (Draghi 1996, 133).
Nel caso degli exit polls, si intervistano dai 30mila ai 120mila votanti — almeno cinquanta
volte tanto rispetto a un comune sondaggio. Si organizzano addirittura dei sondaggi preliminari
ad hoc negli stessi distretti in cui verranno poi effettuati i polls, per disporre di una stima più
aggiornata dei loro orientamenti rispetto alle elezioni imminenti.
A qualche lettore tutti questi accorgimenti possono magari sembrare ovvi e normali: ma è
invitato a confrontarli con la superficialità e la parsimonia di mezzi con cui sono condotti i
sondaggi comuni, dei quali si dirà nelle sezioni successive. Rifletta anche, il lettore, sul fatto
che se ogni sondaggio dovesse essere così impostato, pochissimi committenti potrebbero
permettersene il costo.
A parte la cura incomparabilmente maggiore con cui vengono condotti, ci sono fattori intrinseci
che rendono più affidabili i risultati di proiezioni ed exit polls rispetto ai risultati dei comuni
sondaggi. Nel caso delle proiezioni, questi fattori sono evidenti: si parte infatti non da
dichiarazioni circa il voto (da esprimere o già espresso) ma dagli effettivi risultati in un seggio, o
gruppo di seggi limitrofi, dai quali si inferisce, in base a formule di ponderazione più o meno
complicate, il risultato dell’intera area o dell’intero paese 8 . Non si ricorre, quindi, a una
dichiarazione per ricostruire un comportamento, ma si stima la distribuzione di questi
comportamenti sulla base della distribuzione di un loro sotto-insieme. Il problema dell’inferenza
campione-popolazione si pone qui allo stato puro, privo di tutte quelle complicazioni che
descriverò a partire dal § 1.2. In particolare, non si pongono i due problemi capitali di ogni forma
di sondaggio:
— non è detto che l’individuo estratto si trasformi in intervistato, perché può essere irreperibile,
rifiutare l’intervista, non rinviare il questionario postale, non accettare il televisore in casa, e così
via;
— non è detto che le dichiarazioni dell’intervistato corrispondano ai suoi comportamenti, o
atteggiamenti, effettivi.
Gli scarti fra gli esiti delle proiezioni e i risultati effettivi dipendono quindi da due soli fattori:
— il cosiddetto “errore di campionamento”, cioè il fatto che la distribuzione dei voti nei seggi
scelti a far parte del campione si discosta — per motivi erratici — dalla distribuzione dei voti
nell’intero paese. L’errore di campionamento non è un errore umano, e caratterizza ogni inferenza
fra un campione e la relativa popolazione, anche quella più semplice e diretta (vedi oltre, § 1.2).
— errori (in questo caso umani, pienamente giustificabili data la complessità del problema) nella
scelta delle varie formule di ponderazione con le quali i risultati dei vari seggi sono combinati per
produrre delle stime relative ai collegi, alle regioni, all’intero paese.
6
I dettagli di queste procedure sono descritte nel saggio di Natale in questo volume. Qui richiamo solo gli aspetti in cui
l’investimento di risorse e di attenzione si discosta di più da quello operato nei comuni sondaggi, descritti nella sez. 1.
7
Nel caso dei polls si scelgono le “sedi”, gruppi di seggi ubicati nello stesso edificio. Sarebbe infatti complicato per un
intervistatore individuare i votanti in quel dato seggio fra tutti quelli che escono dall’edificio. Per maggiori particolari vedi
il saggio di Natale in questo volume, § 2c.
8
Inoltre, per poter fornire proiezioni anche quando lo spoglio in alcuni dei seggi scelti non è stato completato, si ricorre a
un clustering agglomerativo dei seggi omogenei, ben descritto da Draghi (1996, 134).
A differenza delle proiezioni, gli exit polls sono, come dice il nome, sondaggi. Presentano quindi
entrambi i generi di problemi appena richiamati: l’individuo che si sceglie di intervistare può
rifiutare l’intervista, o può dichiarare il falso. Ma entrambi questi problemi si presentano in forma
molto attenuata rispetto ai comuni sondaggi. Innanzitutto, non si dà il caso che l’individuo sia
irreperibile: egli viene scelto non estraendolo da una lista di indirizzi e poi andandolo a cercare a
quell’indirizzo, ma individuandolo nel flusso dei votanti che escono dai seggi 9 . Certo, può
rifiutare l’intervista; ma è improbabile che lo faccia, visto che è fuori casa, è già stato distolto
dalle sue abituali occupazioni, e gli riesce difficile invocare impegni urgenti, dato che è
domenica 10 . Inoltre, l’impegno che gli si chiede è palesemente molto limitato (l’intervistatore gli
presenta una scheda dove deve replicare il voto appena dato, corredandolo di tre o quattro
informazioni elementari: sesso, età, titolo di studio, professione), e talvolta può anche essere
considerato divertente (di solito viene messa a disposizione degli intervistati la replica di una
cabina elettorale dove il voto può essere espresso in segretezza).
Quest’ultimo accorgimento elimina il rischio di mancata corrispondenza fra il voto dichiarato e il
voto effettivo per ragioni di riserbo. E’ escluso anche che l’intervistato non ricordi il voto appena
espresso (mentre nei comuni sondaggi il cattivo ricordo riduce molto la fedeltà delle dichiarazioni
circa i precedenti voti), ed è molto improbabile che abbia già cambiato idea (mentre il problema
dei late switchers è uno dei più seri fattori di insuccesso dei sondaggi pre-elettorali). Certo,
l’intervistato può prendersi gioco dell’agenzia, dichiarando volutamente un voto diverso, e magari
opposto, a quello effettivo.
Nel complesso, comunque, gli exit polls sono del tutto immuni da molti dei principali fattori
intrinseci di infedeltà propri dei normali sondaggi, presentano i restanti fattori in forma attenuata,
e non ne presentano di specifici.
Dato che, per le ragioni illustrate, essi, come le proiezioni, non costituiscono alcun pericolo per
la nostra libertà politica, non me ne occuperò nella trattazione che segue.
Visto che, invece, le altre forme di sondaggio possono costituire un pericolo, la loro trattazione
non può esser circoscritta agli addetti ai lavori, ma deve esser condotta con il linguaggio più vicino
possibile a quello ordinario, e presupponendo il minimo possibile di conoscenze matematiche e
statistiche. Qualche anno fa ho fatto un tentativo del genere (1989). Ma, sia perché il linguaggio
era ancora troppo tecnico, sia perché il saggio vide la luce su una pubblicazione nobile ma
relativamente poco diffusa, mi sembra il momento di riprovarci, svolgendo le argomentazioni di
allora in forma semplificata e aggiornata.
1. Casualità, cioè estrazione casuale
Dei due concetti fondamentali per il nostro discorso, il concetto di casualità è il più facile da
illustrare ai non addetti ai lavori, perché si può ricorrere — come infatti fanno i manuali di
statistica e di metodologia — all’immagine di un’urna dalla quale vengono estratte delle palline.
Si può aggiungere l’immagine dell’estrazione dei numeri del lotto, che serve a sottolineare il fatto
che le palline non devono essere riconoscibili da parte di chi le estrae nel momento in cui le estrae.
Immagini così immediate e familiari dovrebbero rendere evidente il requisito che tutti i membri
della popolazione campionata, così come tutte le palline dell’urna e tutti i numeri del lotto, devono
avere esattamente la stessa probabilità di essere estratti.
11
Esse svolgono così la classica funzione ideal-tipica
di evidenziare le differenze fra la
situazione ideale e le varie situazioni effettive. Vediamo un esempio. Se non è indotto a
riflettere, il non addetto ai lavori può anche ritenere che intervistando le persone “a caso” per
strada si operi un campionamento casuale. Ma è facile (me lo conferma l’esperienza didattica)
fargli riconoscere che mentre tutte le palline dell’urna hanno la stessa probabilità di essere estratte
9
Di solito si contatta un votante ogni tanti che escono, in certe fasce orarie: vedi il saggio di Natale in questo volume.
Draghi rileva una maggiore propensione al rifiuto fra gli anziani e le donne, ma non la quantifica (1996, 139).
11
Per Weber (1904) la principale funzione del tipo ideale è costituire un termine di paragone: confrontando con esso
le situazioni effettive, si può meglio valutare per quali aspetti, e quanto, esse se ne distaccano.
10
(e quindi sono una popolazione dalla quale di effettua un campionamento casuale) non si può
immaginare alcuna popolazione definita i cui membri abbiano la stessa probabilità di imbattersi
in quel dato intervistatore e di attirarne l’attenzione. Infatti, anche se fosse definibile una
popolazione di “quelli che passano di lì”, alcuni membri ci passeranno più spesso nelle ore in cui
lavora l’intervistatore ; inoltre alcuni si faranno notare di più, altri tenderanno a passare
inosservati, etc.
L’immagine ideal-tipica dell’urna serve quindi a rendere familiare l’idea che l’uguale probabilità
di essere inseriti nel campione per tutti i membri della popolazione campionata è un requisito
della casualità.
È’ una condizione necessaria? È’ una condizione sufficiente?
La prima questione è controversa e complicata, e l’affronterò nella sez. 4. Consideriamo ora
l’altra.
1.1. Nella teoria statistica si fa notare che, se si scelgono i membri di un campione mediante una
tavola dei numeri casuali (il che equivale a estrarre le palline da un’urna) non solo ogni elemento ma
anche ogni combinazione di elementi ha la stessa probabilità di essere scelta12 (cfr. Corbetta 1972,
350; Chiari e Corbetta 1973, 484). Questo differenzia il campionamento detto ‘casuale semplice’ dal
campionamento detto ‘sistematico’, che non garantisce affatto l’equi-probabilità di estrazione per
ogni combinazione di individui.
Si può effettuare un campionamento sistematico se si dispone di un elenco completo e numerato degli
individui nella popolazione da campionare 13 . Basta dividere l’elenco in tanti segmenti di lunghezza
uguale quanti sono i membri del campione che si vuole estrarre; dopodiché si estrae a caso un
elemento dal primo segmento, e da ogni altro segmento si estrae l’elemento che porta il numero
corrispondente. Supponiamo ad esempio di aver diviso un elenco di mille nomi in 10 segmenti di
cento nomi, e di aver estratto il 57° individuo dal primo segmento: il nostro campione di 10 membri
(tanti quanti sono i segmenti) risulterà composto dagli individui che occupano le posizioni 57, 157,
257, ..., 957 nell’elenco generale.
Questa procedura, molto usata nelle scienze sociali perché particolarmente rapida ed efficiente, non
soddisfa la condizione di equi-probabilità di estrazione per ogni combinazione di individui. Anzi, la
stragrande maggioranza delle possibili combinazioni non ha alcuna possibilità di essere inclusa (non
può infatti essere estratta alcuna combinazione che comprenda due o più membri che occupano una
posizione sequenzialmente diversa: ad es., l’ottavo membro di un qualunque segmento ed il decimo
membro di un qualunque altro segmento). 14
Ma questo — come vedremo — è di gran lunga il meno grave di tutti i problemi che affliggono il
campionamento nelle scienze sociali. Solo se il passo (la lunghezza del segmento) viene scelto in
modo infelice, può capitare che l’estrazione si distacchi in maniera significativa da una sostanziale
casualità. 15
Gran parte dei sondaggi telefonici ricorrono al campionamento sistematico, adottando come
rudimentale “passo” la pagina dell’elenco telefonico: di solito viene estratto il primo (o l’ennesimo)
12
E’ il caso di aggiungere un rilievo peraltro ovvio: le combinazioni hanno uguale probabilità di essere estratte solo se
hanno lo stesso numero di elementi. Tutte le combinazioni di n elementi hanno la stessa probabilità di essere estratte, e
ciascuna di esse ha una probabilità maggiore di qualsiasi combinazione con più di n elementi e minore di qualsiasi
combinazione con meno di n elementi.
13
Di solito si precisa che il criterio secondo il quale sono ordinati gli individui non dev’essere in alcun modo collegato
alle proprietà che interessano nella ricerca per la quale si effettua il campionamento. Ma — come verrà mostrato in una
prossima nota — questo inconveniente può essere neutralizzato con una scelta oculata del passo (lunghezza del segmento
dal quale si estrae un elemento).
14
Nel momento in cui decidiamo di ricorrere a un campione sistematico decidiamo automaticamente che tutte le
combinazioni comprendenti membri in posizione diversa non saranno estraibili; nel momento in cui stabiliamo il passo
(100 nomi, oppure 200, etc.) decidiamo automaticamente anche quante saranno effettivamente tali combinazioni non
estraibili.
15
Per spiegare cosa intendo per “scelta infelice del passo”, invito il lettore a immaginare una divisione di fanteria
composta da cento plotoni, ognuno con cento effettivi di cui 5 graduati; nell’elenco degli effettivi di ogni plotone, i primi
numeri sono assegnati ai graduati, gli altri ai soldati semplici. E’ evidente che applicando un campionamento sistematico
con passo 100 all’elenco degli effettivi della divisione ordinati per plotone si estrarrebbe o un campione senza graduati
oppure un campione senza soldati. Ma questa conseguenza sarebbe evitata con qualsiasi passo diverso da 100 (o da un
multiplo o sotto-multiplo di 100).
nome di ogni pagina, oppure un nome ogni due, tre o più pagine. Se interessano solo individui,
tutti i nomi di ditte, uffici, negozi eventualmente estratti vengono sostituiti con i più vicini nomi di
individui. Questo naturalmente aumenta molto le probabilità che entrino a far parte del campione
persone il cui cognome inizia in modo simile a un nome ricorrente di ditta o di negozio (ad es. Bar...,
Ass...). Ma a questa distorsione si può porre rimedio, così come si può tener conto del fatto che la
maggior parte delle utenze sono intestate al “capo-famiglia”, adottando delle complicate tabelle per
stabilire quale membro della famiglia scelta attraverso l’elenco telefonico debba essere intervistato.
Un problema più delicato è posto dal fatto che chi vive solo ha (per es.) quattro volte più probabilità
di entrare nel campione di ciascuno dei membri di una famiglia-tipo (coniugi, nonna, figlio
ventenne) con un solo numero telefonico. E’ teoricamente possibile rimediare ex post a questa
distorsione con complicate ri-ponderazioni; ma, a parte le gravi riserve sulle legittimità di queste
ponderazioni, che esporrò al par. 4.1, per effettuarle sono necessarie varie informazioni non
facilmente disponibili in veste aggiornata. 16
Un problema altrettanto serio, e più evidente, è costituito dal fatto che non tutti gli italiani adulti
sono titolari, o comunque riconducibili, a un’utenza telefonica privata che compaia sull’elenco. Si
potrebbe pensare che questo limite riguardi solo le aree più povere del paese, ma non è affatto così. 17
Questi ultimi due problemi, peraltro, non riguardano il sondaggio telefonico in sé, e meno che mai
il campionamento sistematico in sé. Essi emergono soltanto se si vuole estendere l’inferenza al di là
della popolazione effettivamente campionata, che non è una popolazione di residenti adulti, e
nemmeno una popolazione di residenti forniti di telefono, ma è una popolazione di utenze
telefoniche. D’altra parte, questa estensione dell’inferenza è inevitabile, dato che a nessuno
interessano atteggiamenti e comportamenti delle utenze telefoniche.
Stando così le cose, ritengo che si possano campionare utenze telefoniche ed estendere i risultati alla
corrispondente popolazione di residenti adulti solo se:
— si dispone di un’aggiornata distribuzione per numero di componenti delle famiglie (meglio se
delle sole famiglie con utenza telefonica) e si opera in modo da produrre un’analoga distribuzione
delle famiglie individuate e inserite nel campione mediante l’elenco del telefono;
— si dispone di una seria stima della quota di residenti sprovvisti di telefono nelle zone dove
vengono effettuate interviste, e si fa in modo di intervistare un numero di tali residenti proporzionale
alla loro quota sul totale della popolazione.
Visto che più si estende l’ambito territoriale della ricerca, più diventa difficile procurarsi queste
informazioni per l’intero ambito, ritengo del tutto insostenibile la pretesa di aver estratto attraverso
l’elenco del telefono un campione casuale della popolazione italiana adulta.
1.2. Un problema generale, che riguarda tutte le forme di sondaggio, è posto dal fatto che nelle
scienze sociali l’estrazione non è fine a se stessa, ma è in funzione di un successivo contatto (di solito
un’intervista). Se un individuo estratto non viene reperito dall’intervistatore al suo indirizzo o non
risponde al telefono, oppure non si lascia interrogare o non rinvia il questionario compilato, o non
16
Bisognerebbe disporre della distribuzione aggiornata delle famiglie per numero di componenti nell’area in cui si
effettuano le interviste, per poterla confrontare con l’analoga distribuzione nel campione, quale risulta da apposita domanda
agli intervistati. Inoltre, ammesso che tale distribuzione sia disponibile, essa riguarderebbe tutti i residenti e non solo quelli
forniti di telefono nell’abitazione — il che ci riconduce al punto successivo.
17
In occasione di una ricerca (condotta negli anni ottanta e inedita) sull’immagine delle tre industrie irizzate (Ansaldo,
Italimpianti, Italsider) presso gli abitanti di Genova, convinsi i committenti a controllare in sede di pre-test le indicazioni
fornite alla SIP circa la percentuale di genovesi forniti di telefono (il 90%). Il pre-test fu quindi svolto su intervistati scelti
con la tecnica del city-block sampling (letteralmente campionamento degli isolati, spesso detto “campionamento per spot”
dalle agenzie italiane): partendo da un punto da noi assegnato, gli intervistatori facevano il giro dell’isolato entrando in un
portone ogni cinque e alternando i pianerottoli. Al termine, chiedevano all’intervistato il suo numero di telefono “così
quelli possono controllare che l’intervista sia stata effettuata e non inventata”. La percentuale fornita dalla SIP risultò esatta
solo per i quartieri residenziali; ma nel centro storico e nella periferia operaia trovammo percentuali fra il 45% e il 60%.
Su tali percentuali ci basammo per integrare quartiere per quartiere l’elenco degli intervistati estratti con il campionamento
sistematico dall’elenco telefonico, intervistando genovesi privi di telefono individuati mediante la stessa tecnica del cityblock sampling.
Sulle distorsioni alla casualità del campionamento nei sondaggi telefonici, Brick et al. (1995); Keeter (1995). Sui
sondaggi telefonici in generale, Groves e Kahn (1979).
accetta di ospitare in casa un calcolatore collegato con l’agenzia, è come se non fosse stato estratto:
egli viene a “cadere” dal campione.
Ora, per quanto molti ricercatori siano assai parchi di informazioni sull’incidenza di tali “cadute” nei
loro sondaggi 18 , è comune esperienza che esse possono raggiungere l’80-90% del campione se il
questionario è inviato per posta, il 50-60% se l’intervista è sollecitata per via telefonica, e il 30-40%
se è sollecitata di persona da un intervistatore. 19
Quello che preoccupa di più, peraltro, non è l’alta incidenza numerica delle cadute. Come osservano
Castellano e Herzel, “se le caratteristiche dei non-rispondenti rispetto all’oggetto dell’indagine fossero
le stesse di quelli che rispondono al questionario, il fenomeno sarebbe di importanza trascurabile: si
avrebbe soltanto una riduzione della dimensione del campione... che potrebbe essere compensata
mediante la rilevazione di altre unità sostitutive... [ma] in generale la massa dei non-rispondenti si
differenzierà da quella dei rispondenti per abitudini di vita, situazione economica, livello di istruzione,
età, e per altri fattori consimili, ed è poco probabile che questo complesso di fattori non influisca
anche sulla distribuzione del carattere che si intende indagare” (1971, 302).
20
L’opinione di Castellano e Herzel è suffragata dai risultati di mezzo secolo di ricerche . Nel
caso di questionari postali, risulta più probabile che rispondano gli anziani con un livello di
cultura medio-alto, mentre è più difficile che rispondano quelli che svolgono un lavoro full-time
fuori casa, nonché gli scarsamente istruiti ; professionisti e lavoratori autonomi rispondono solo
se sono interessati al problema specifico toccato dal sondaggio. Se il questionario è
somministrato da un intervistatore, di persona o per telefono, questi ha ovviamente maggiori
difficoltà a reperire chi lavora fuori casa, incontra un maggior tasso di rifiuti per indifferenza o
diffidenza nei quartieri del centro cittadino e in quelli sottoproletari, trova quasi sempre ben
21
disposte le casalinghe e le giovani, mal disposti gli occupati e i giovani, etc.
Nel caso di
sondaggi telematici, è risultato — non era difficile immaginarlo — che il nuovo strumento è
accettato meno volentieri in casa dalle persone anziane, in genere abitudinarie e sospettose di
ogni novità ; in generale dalle persone non familiari con i calcolatori (Pavsic 1996) ; d’altra
parte, ha meno motivi per accettare le condizioni dell’agenzia chi non ha bisogno di (altri)
calcolatori in casa e chi vive in appartamenti piccoli (prevalentemente giovani residenti in grandi
città). Alcuni particolari categorie di persone — giovanissimi, super-impegnati — magari
accettano le condizioni ma poi mancano di soddisfarle (Kiesler e Sproull 1986 ; Walsh et al.
1992).
In altre parole, la mera appartenenza di un soggetto a certe categorie riduce oppure accresce a priori,
e in modo significativo, la probabilità che egli sia reperibile al telefono o al suo indirizzo nelle ore in
cui può cercarlo un intervistatore, che conceda l’intervista, che rinvii il questionario postale, etc.
18
Lo lamenta anche Statera (1982, 137). Sui tassi abituali di “cadute” vedi Pitrone (1984, 145-157) e la letteratura ivi
citata.
19
E’ infatti molto più facile troncare una conversazione telefonica che mandare via una persona dalla porta di casa
sbattendogliela in faccia. L’intervista telematica (effettuata attraverso un calcolatore domiciliato nelle abitazioni) è
ancora molto poco diffusa, e non ho informazioni sul tasso di rifiuti di ospitare il calcolatore alle condizioni poste
dell’agenzia.
20
Tra le più antiche, Stanton (1939) e Reid (1942). Tra le più note, un’intera monografia (Marquis 1977), e inoltre
Ferber e Wales (1952); Donald (1960); Heberlein e Baumgartner (1978), che passano in rassegna le opere precedenti;
Goyder (1982). Per un elenco più nutrito, rinvio a Marradi (1989, 73). Sulle specifiche distorsioni alla causalità
introdotte dalle nuove tecniche, Herzog et al. (1983); Walsh et al. (1992).
21
Le distorsioni introdotte, in un modo o nell’altro, nel processo di reperimento dell’intervistato e di esecuzione
dell’intervista hanno ricevuto una grande varietà di etichette nella letteratura metodologica: le più usate fra queste (design
bias e participation bias) non sono molto felici come espressioni, ma sono state definite con chiarezza da Stephenson.
Si ha design bias perché “la gente non sta seduta a casa ad aspettare che si faccia vivo un intervistatore”, e si ha
participation bias perché “anche quando l’intervistatore rintraccia qualcuno, non è detto che questo cooperi” (1979, 483).
Due espressioni non corrispondenti, in quanto relative a un confronto a posteriori fra caratteristiche degli intervistatori e
degli intervistati, sono stati introdotte da Ferber e Wales (1952): una corrispondenza più alta di quella attribuibile al caso
fra le caratteristiche dell’intervistato e quelle dell’intervistatore è stata da loro denominata selection bias se si riferisce alle
caratteristiche socio-demografiche e answer bias se si riferisce alle opinioni.
Per capire le conseguenze di questo fatto, ricapitoliamo tutto il procedimento con l’aiuto della fig. 1.
Se ognuno dei membri della popolazione campionata ha la stessa probabilità di essere estratto a far
parte del campione, diremo
che questo campione è casuale al momento
Fig. 1: Da un campione casuale a due
dell’estrazione (cce). Durante i passaggi
campioni non casuali
intermedi fra l’estrazione e la concessione
dell’intervista, tuttavia, ogni cce si divide di
fatto in due sub-campioni: quello dei soggetti
che rispondono (sr) e quello dei soggetti che,
per questo o quel motivo, non vengono
intervistati o comunque non rispondono
(snr) 22 . Per le ragioni sopra ricordate, né sr
né snr possono essere considerati campioni
casuali di cce, e quindi a fortiori della
popolazione che interessa.
Conseguenza: anche un campione casuale al
momento dell’estrazione viene trasformato,
dal processo di reperimento e intervista dei
singoli soggetti, in due campioni non
casuali 23 . Su uno di questi (sr) viene svolta
la ricerca, continuando a considerarlo
pienamente casuale.
L’immagine dell’estrazione dall’urna è pienamente applicabile solo nel caso di popolazioni che
per qualche motivo sono a disposizione del ricercatore e non possono rifiutarsi di rispondere
24
(soldati, internati in carceri, ospedali, ospizi, manicomi, e in larga misura anche studenti ).
25
A parte queste situazioni di “cattività” , gli esseri umani differiscono dalle palline nell'urna per
due aspetti essenziali: non sono a portata di mano del ricercatore e sono pienamente liberi di non
rispondere ai suoi quesiti anche quando sono stati raggiunti (mentre le palline non possono
rifiutarsi di essere estratte). Di conseguenza, l'estrazione casuale degli intervistandi da un elenco
è una condizione necessaria ma non sufficiente di casualità del campione : se si intende conoscere
le opinioni e/o altre caratteristiche non-pubbliche degli individui estratti, è necessario che tutti
22
Dato che alcune categorie di persone, anche quando concedono l’intervista, tendono a rifiutare più della media
domande che ritengono delicate (sul voto, il reddito, il sesso, etc.), il discorso che stiamo facendo per l’intervista nel
suo complesso dovrebbe essere ripetuto separatamente quanto meno per ogni domanda delicata.
23
Anche il prof. Luzzatto Fegiz, fondatore della Doxa, ammise il fatto che i questionari postali sono soggetti a
distorsioni sistematiche: “è dimostrato che coloro che rispondono non sono affatto un campione rappresentativo
dell’universo cui è stato spedito il questionario... può succedere che coloro che rispondono siano sistematicamente
differenti da quelli che cestinano i questionari” (Bollettini Doxa n. 20 del 15 ott. 1951, p.156 e n. 21 del 1° nov. 1951,
p.159). Luzzatto omise peraltro di menzionare il fatto che le distorsioni sistematiche sono inevitabili anche nel caso di
sondaggi mediante intervista. Forse perché molti potenziali committenti sono in grado di organizzarsi da soli un
questionario postale (quindi è meglio scoraggiarli), mentre se si vuole fare un sondaggio mediante interviste è più
difficile fare a meno dei servigi di un’agenzia specializzata.
Altra osservazione riguarda l’uso del termine ‘rappresentativo’ da parte di Luzzatto Fegiz. Dato che l’avere uno stato
piuttosto che l’altro su alcune proprietà (età, sesso, status occupazionale, livello di istruzione, etc.) influisce sulle
probabilità di un individuo di entrare a far parte di sr (il sub-campione dei soggetti che rispondono), la questione
riguarda prima di tutto la casualità del campione e solo in secondo luogo, ed eventualmente, la sua rappresentatività. Ai
rapporti fra casualità e rappresentatività dedicherò la sez. 3.
24
Infatti buona parte delle ricerche pubblicate dagli psicologi sono condotte sugli studenti dei loro corsi universitari.
25
I soggetti a disposizione dei ricercatori sono detti captives (prigionieri) da psicologi e sociologi di lingua inglese,
siano effettivamente reperiti e collaborino ; ma se gli individui non sono in qualche modo tenuti o
costretti a farlo, è molto improbabile che tutti (o anche quasi tutti) si prestino.
Più alta è l’incidenza delle “cadute” dal campione estratto, meno è legittimo continuare a
definirlo ‘casuale’. Sarebbe come fare un’estrazione dei numeri del lotto in cui alcune palline
sono più leggere e altre sono più pesanti della media delle palline. Le prime tenderebbero a
restare negli strati alti dell’urna, e quindi i numeri che portano avrebbero più probabilità della
media di essere estratti. Le seconde tenderebbero ad andare in fondo all’urna, e quindi i loro
numeri verrebbero estratti più raramente degli altri.
Non molti autori hanno denunciato il fatto che le “cadute” rendono non-casuale anche un campione
estratto casualmente 26 . Fra questi, Mosteller precisa che le mancate interviste “provocano
allargamenti di ampiezza ignota attorno alle stime dei parametri” (1968, 120). Analogo rilievo da
parte di Chiari e Corbetta, che aggiungono: “In effetti, anche il ricercatore più rigido si vedrà
costretto a sostituire, con altri estratti a caso, i soggetti irreperibili o che assolutamente si rifiutano di
rispondere. In certe situazioni cercherà anche, con cautela naturalmente, di ridurre la dispersione
delle unità campionarie più scomode mediante una concentrazione delle stesse in un numero limitato
di aree in modo da facilitare la raccolta dei dati” (1973, 646).
In questo passo si mettono inavvertitamente sullo stesso piano due operazioni profondamente
differenti : la sostituzione ex post dei soggetti caduti dal campione perché irreperibili e/o non
disposti a farsi intervistare, e la manipolazione preliminare e deliberata, per ragioni economiche
(risparmio sui costi di trasferta degli intervistatori), del piano di campionamento. Si tratta
invece di due operazioni che si compiono in momenti diversi, con motivazioni diverse e con —
soprattutto — conseguenze di ben diversa gravità sulla natura casuale dell’estrazione, e quindi
del campione.
Nel par. 4.1 vedremo le procedure cui ricorrono le agenzie per “ridurre la dispersione delle unità
campionarie più scomode”. Consideriamo ora la sostituzione dei soggetti non intervistabili con altri.
Questa è una pratica corrente, cui anche i metodologi più rigorosi fanno ricorso, per ragioni di forza
maggiore. Tuttavia essa introduce una distorsione di entità e conseguenze non accertabili rispetto
all’esito dell’originaria estrazione casuale, e pertanto a rigore non è compatibile con la pretesa di
aver estratto un campione casuale.
Come osservano Castellano e Herzel (1971, 302), anziché intervistare unità sostitutive bisognerebbe
concentrare gli sforzi sul tentativo di reperire e intervistare un sub-campione casuale di quelli che
non rispondono (cioè un sub-campione di quello che ho chiamato snr) al fine di poter stimare
l’entità delle differenze sistematiche fra sr e snr sulle proprietà più rilevanti per la ricerca in corso,
e così avere almeno un’idea delle distorsioni introdotte, rispetto a cce, dal processo di reperimento e
intervista.
Ma anche questa procedura particolarmente faticosa e dispendiosa non costituisce in realtà una
soluzione soddisfacente, perché nulla garantisce che il sub-campione dei soggetti che sono stati
reperiti e/o intervistati con uno sforzo supplementare siano a loro volta un campione casuale di
snr, cioè di tutti quelli che non erano stati reperiti e/o intervistati al primo tentativo. Si può anzi
ragionevolmente pensare che questo gruppo (che chiamerò srs, sub-campione di rispondenti in
seconda battuta) abbia caratteristiche in qualche modo intermedie fra quelle degli intervistati in
prima battuta (sr) e quelle degli irriducibilmente irreperibili e/o non intervistabili (snr — srs).
Di conseguenza, è abbastanza illusorio pensare di stimare attendibilmente le distorsioni, anche se
ogni tentativo di farlo è comunque meritorio perché mostra e induce sensibilità al problema.
Bisogna poi considerare che l’entità relativa di tutti questi gruppi (sr, snr ed eventualmente srs)
varia a seconda del tipo di ambito, della forma di contatto (questionario postale, intervista
27
e di imprevedibili fattori
personale, telefonica o telematica), dell’oggetto della ricerca
26
Tra questi, oltre a Castellano e Herzel (1971, 302), Mosteller (1968, 120); Chiari e Corbetta (1973, 646-9); Henkel
(1976, 25 e 76-80); Perry (1979, 314).
27
Un ricercatore che voglia ottenere risposte sincere, significative e approfondite dovrebbe dichiarare e/o far dichiarare ai
suoi intervistatori che l’oggetto della ricerca è meramente cognitivo anziché sostenere che essa potrà avere conseguenze
benefiche in qualche modo rilevanti per l’intervistato; descrivere fedelmente tale oggetto invece di rappresentarlo nel
contingenti. Pertanto, pensare di poter stimare ex ante gli effetti delle varie distorsioni è ancora
più illusorio che pensare di poterli stimare ex post.
2. Rappresentatività, cioè rapporto proporzionale fra distribuzioni nel campione e nella
popolazione
Esaminiamo ora il significato dell’altro termine-feticcio: rappresentatività.
Nei manuali di metodologia delle scienze umane non se ne trovano molte definizioni. In quella che
ne dà Statera, “un campione è rappresentativo dell’universo di cui fa parte se ne riproduce, in
piccolo, le caratteristiche, con scarti non significativi imputabili al caso” (1982, 124). La scelgo
perché ha il pregio di rispecchiare sinteticamente il punto di vista della grande maggioranza degli
scienziati sociali, riproducendo in forma indiretta anche il rituale nesso fra rappresentatività e
casualità. Mettiamo da parte per il momento questo nesso (cui sarà dedicata la sez. 3), e
analizziamo attentamente il resto.
Si dice che un campione rappresentativo deve riprodurre in piccolo le caratteristiche della
popolazione. Per giudicare se e in che misura A riproduce effettivamente certe caratteristiche di B,
dobbiamo poter confrontare A e B per quanto riguarda tali caratteristiche. Ne consegue che per
poter stabilire se un campione rappresenta (certe caratteristiche del)la popolazione, è necessario
conoscere empiricamente (almeno rispetto a tali caratteristiche) sia il campione sia la popolazione.
Primo corollario: visto che (almeno per certe caratteristiche) la popolazione deve essere conosciuta,
si può parlare di rappresentatività solo rispetto a una popolazione, non rispetto a un universo. 28
Secondo corollario: visto che il campione deve essere noto, non si può parlare di rappresentatività se
non dopo che il campione è stato estratto. A differenza della casualità, che è una proprietà del
procedimento di estrazione, la rappresentatività è una proprietà dell’esito di tale procedimento. Il
giudizio sul grado di rappresentatività di un campione rispetto a una popolazione dipende solo da
tale confronto di distribuzioni ed è pertanto completamente indipendente da ogni informazione sulla
procedura di estrazione. Una data distribuzione potrà quindi esser giudicata rappresentativa (o
meno) qualunque sia la procedura con cui è stata ottenuta.
2.1. Si è parlato sinora di “riprodurre, in piccolo, le caratteristiche della popolazione”. Ma cosa
sono queste caratteristiche? Non possono essere che le proprietà (dette anche attributi) alcune delle
quali sono trasformate in variabili attraverso una definizione operativa.
E cosa vuol dire “riprodurre in piccolo”? Ecco una domanda che nessuno si pone, fra gli autori che
ho consultato. Ma se si vuole chiarire il concetto di rappresentatività non si può evitare di porsela, e
— una volta postala — evitare di giungere a una certa risposta, che comporta alcune conseguenze
spiacevoli (il che probabilmente spiega anche il fatto che si eviti di porsi la domanda).
Alla risposta spiacevole ma inevitabile si giunge mediante una serie di argomentazioni che sviluppo
qui di seguito.
a) Ciò che deve essere riprodotto in piccolo è una “caratteristica”, cioè — abbiamo visto — una
proprietà.
modo più gradevole possibile; premettere che l’intervista è impegnativa e dura 90 minuti anziché promettere al
malcapitato che se la caverà in mezz’oretta. Tutto questo però aumenta le probabilità che gli intervistandi meno interessati
a quell’oggetto, più occupati, meno sensibili a interessi puramente cognitivi, etc. rifiutino l’intervista, e quindi aumenta il
tasso di distorsione di sr rispetto a cce. Il modello idealtipico dell’estrazione casuale è congruente — non per caso —
con il modello idealtipico dell’intervistato nell’epistemologia behaviorista (una specie di banca-di-dati, fornito di
un’opinione su tutto e pronto a manifestarla sinceramente: vedi i rilievi di Pitrone 1984, 121-9); si concilia assai meno
con le situazioni reali e con un approccio alla ricerca che prenda atto e rispetti le specificità dei soggetti — per dovere
etico oltre che per ottenere informazioni più attendibili.
28
Da Fisher (1922, prima parte) in poi la statistica distingue correttamente fra universo (infinito, e puramente ipotetico)
e popolazione (finita e concreta): vedi anche Hagood (1941); Hogben (1957); Bakan (1966); Morrison e Henkel (1970);
Henkel (1976). Da quanto osservato consegue che il concetto di universo è a stretto rigore rilevante solo per la casualità
dell’estrazione: infatti alcuni fondamentali principi statistici (legge dei grandi numeri, teorema del limite centrale, etc.)
valgono solo per un universo (cioè un numero infinito) di estrazioni.
b) Se tale proprietà fosse una costante, basterebbe rilevare il suo stato in un caso qualunque per
sapere quale stato essa abbia in tutti i casi della popolazione (esattamente come il fisico rileva lo
spettro, la conduttività elettrica e le altre proprietà di un composto servendosi di un campione
qualunque di tale composto, certo che quanto egli rileva varrà per tutti gli altri possibili campioni
dello stesso composto). Quindi, affinché l’intera procedura del campionamento abbia un senso,
bisogna dare per scontato che la proprietà in questione assuma almeno due stati diversi nella
popolazione.
c) Ogni volta che gli stati di una proprietà sono almeno due, diventa importante la distribuzione dei
casi fra i vari stati possibili. La proprietà in questione presenterà una certa distribuzione
(chiamiamola D) fra i casi della popolazione, e una certa distribuzione (chiamiamola d) fra i casi
del campione. Nel confronto fra campione e popolazione di cui si parlava poco sopra, ciò che viene
confrontato è appunto (per ciascuna delle proprietà che interessano — su questo punto tornerò) la
distribuzione d con la distribuzione D.
d) Stabilito questo, comincia a farsi più chiaro il significato dell’espressione ‘riprodurre in piccolo le
caratteristiche’. In senso stretto, ‘riprodurre’ vorrebbe dire fare in modo che, per ciascuna
proprietà, la distribuzione d sia uguale alla distribuzione D. Ma ciò non è possibile perché per
definizione i casi del campione sono meno numerosi dei casi della popolazione. Aggiungendo
l’espressione ‘in piccolo’ si intende tener conto di questo fatto: visto che non può essere uguale alla
distribuzione D, la distribuzione d deve essere proporzionale ad essa; questo per ciascuna delle
proprietà considerate, e per ciascuna loro combinazione.
Per chiarire cosa intendo per distribuzione proporzionale a un’altra, nella fig. 2 presento due
istogrammi: in quello a sinistra (d) la distribuzione degli stati su una proprietà (poniamo il titolo di
studio) nel campione; in quello a destra (D) la stessa distribuzione nella popolazione. L’altezza
delle colonne (che corrispondono alle frequenze dei vari titoli di studio) è naturalmente molto
differente nel campione e nella popolazione, ma le percentuali di casi che cadono in due colonne
corrispondenti (ad es., la colonna e e la colonna E) è la stessa. Se noi rendessimo l’altezza di
ciascuna colonnina proporzionale non alla frequenza nella categoria che essa rappresenta, ma alla sua
percentuale sul totale dei casi, i due istogrammi sarebbero identici.
e) Naturalmente una perfetta corrispondenza bi-univoca fra le percentuali di casi nella stessa
categoria del campione e della popolazione è un requisito troppo restrittivo. Anni fa Mannheimer
propose una definizione così rigida (“la rappresentatività del campione è condizionata dal fatto che la
distribuzione di una serie di attributi... degli intervistati sia esattamente proporzionale a quella
dell’universo che si vuole rappresentare”: 1985, 149; corsivi miei). Ma non credo che ora la
sottoscriverebbe. Allora, quale scostamento siamo disposti a tollerare in pratica? Quanti punti di
percentuale in più o in meno, e per quali e quante delle categorie? Non mi risulta che alcuno abbia
dato risposta a questa domanda, cioè abbia proposto un qualche criterio per l’attribuzione o meno del
crisma della rappresentatività.
Si osserverà che è ridicolo pretendere di dare un taglio netto chiamando ‘rappresentativo’ tutto ciò
che si trova appena al di qua del taglio e ‘non-rappresentativo’ tutto ciò che si trova appena al di là.
Dopo aver osservato, per inciso, che proprio su tagli netti come questo si fonda tutto quel settore
portante della statistica classica detto “test delle ipotesi” 29 , ammetterò senza difficoltà che la
soluzione del taglio netto è in effetti ridicola. Ma se le cose stanno così, si dovrebbe prenderne atto,
concependo ‘rappresentatività’ come un concetto di grado, che può assumere cioè innumerevoli stati
intermedi fra l’assenza e la pienezza.
Invece il termine è usato quasi sempre in forma dicotomica, come se si riferisse a qualcosa che o c’è
o non c’è (nelle auto-valutazioni delle agenzie di sondaggi, c’è sempre). 30
Nella scienza come nella vita quotidiana, un concetto di grado è semplificato in una dicotomia
quando si preferisce non problematizzarlo per non doversene preoccupare. Nel nostro caso, non
solo non sono state proposte precise soglie demarcanti l’uso legittimo del termine, ma è mancata
qualsiasi forma di dibattito sul tema ; anzi — a quanto mi consta — il tema non è stato mai
sollevato in forma problematica.
Tutto ciò fa dubitare che sia stato proprio il senso del ridicolo a trattenere statistici e scienziati
sociali dal fissare delle soglie-limite per l’uso del termine ‘rappresentativo’; si può sospettare che
giochi una diversa motivazione : non essendo stato stabilito alcun limite, ciascuno usa il termine
come più gli aggrada, dichiarando ‘rappresentativa’ una distribuzione nel campione quali che
siano i suoi rapporti con la corrispondente distribuzione nella popolazione — ammesso che
quest’ultima sia nota, cosa tutto sommato piuttosto rara.
2.2. Ma il punto più grave non sta ancora qui. L’esplorazione dei possibili significati del termine
‘rappresentativo’ deve ancora investire alcuni aspetti specifici, e assai rilevanti per il nostro discorso,
della situazione epistemologica delle scienze sociali. Il filo dell’argomentazione riparte pertanto dalla
considerazione che:
f) La teoria degli errori del ‘700/’800, la statistica pre-inferenziale dell’800 e quella inferenziale del
‘900 hanno in comune la caratteristica di essere essenzialmente monovariate, cioè di interessarsi alla
distribuzione degli stati di una proprietà per volta, o di più proprietà solo se indipendenti tra loro 31 .
A tutt’oggi, uno dei più autorevoli trattati sul campionamento dedica al caso di obiettivi di
ricerca multi-variati solo una notazione rapida e indiretta: “quando l’inchiesta ha più oggetti si
deve aver riguardo, naturalmente, a tutti gli oggetti del campionamento, mediante una
stratificazione per classi combinate di tutti i caratteri che interessano le rilevazioni” (Castellano e
Herzel 1971, 237). Un più recente manuale di statistica dedica alle distribuzioni multi-variate
solo 20 pagine su un totale di 450 (Orsi 1985).
29
Il “test delle ipotesi” consiste nello stabilire una “ipotesi nulla” che si respinge o meno a seconda che certi valori
sintetici (ad esempio la media) del campione siano al di sotto o al di sopra di una certa soglia, stabilita facendo
riferimento alle speciali proprietà della “curva normale”.
30
Per documentare questa affermazione (che ho formulato sulla base dei rapporti ricevuti da varie agenzie cui avevo
commissionato sondaggi) devo far riferimento al Bollettino della Doxa, come ho già fatto e continuerò a fare in questo
articolo. Il Bollettino è infatti l’unica pubblicazione periodica da parte di un’agenzia di sondaggi che abbia avuto lunga
durata (fondata nel 1947 con periodicità quindicinale, e mai interrotta). La Demoskopea ha pubblicato in tutto una
ventina di numeri di “Ricerche Demoscopiche” fra il 1969 e il 1975.
Da un’analisi sistematica di 42 annate (Siboni e Marradi 1989) è risultato che nella maggior parte dei casi la Doxa
afferma che i suoi campioni sono rappresentativi senza addurre alcuna prova o indizio. In alcuni casi, essa basa tale
affermazione sulla procedura di estrazione; più raramente la basa su un confronto (peraltro non sempre ben documentato)
delle distribuzioni di alcune proprietà elementari con quelle rilevate dal precedente censimento; ancor più di rado
combina queste due giustificazioni.
31
Vedi sul punto le ricostruzioni di Lazerwitz (1968), Capecchi (1972), McKenzie (1981).
Al contrario, praticamente tutte le ricerche empiriche in sociologia, scienza politica, psicologia
sociale sono multi-variate, nel duplice senso che:
1) il disegno della ricerca è multi-variato, cioè contempla la raccolta di informazioni su molte
proprietà contemporaneamente. Limitandoci ai sondaggi per campione, che sono oggetto specifico
di questo saggio, metterne in moto tutta la complessa macchina organizzativa al fine di raccogliere
informazioni solo su una o due variabili sarebbe una follia — e infatti non accade mai, malgrado
gli ossequi rituali alla vigente ortodossia epistemologica popperiana, che prevede il controllo
empirico di ipotesi isolate.
2) non solo il disegno globale è multi-variato, ma lo sono anche gran parte dei modelli che stanno
dietro ad ogni singola applicazione delle tecniche di analisi. Questi modelli, entro i limiti che le
difficoltà tecniche pongono a una loro eccessiva articolazione, cercano tuttavia di riprodurre la
complessa rete di interrelazioni esistente fra le proprietà osservate nelle situazioni reali.
g) Il fatto che il campionamento sia operato nel quadro di un disegno di ricerca multi-variato ha
conseguenze non trascurabili sui possibili significati del termine ‘rappresentativo’. Le esaminerò in
questo paragrafo, per passare poi alle conseguenze della natura multi-variata dei modelli.
Si è visto come della rappresentatività si debba giudicare in base a un confronto fra le distribuzioni
della stessa proprietà nel campione e nella popolazione, e come tale confronto si possa operare solo
se entrambe le distribuzioni ci sono note.
Quando estraggono un campione di italiani, le agenzie di sondaggi usano come termine di confronto
i dati dell’ultimo censimento pubblicato. E questo è naturale: come osservava un anonimo estensore
del Bollettino Doxa 32 , “come si può conoscere perfettamente, prima di iniziare il sondaggio, la
struttura economica e sociale di una certa zona?”
Peraltro, contro questa procedura si sentono muovere delle obiezioni:
— i dati censuali sono inattendibili, in quanto raccolti da operatori improvvisati, poco pagati e
motivati, ancor meno addestrati, e niente affatto controllati 33 ;
— data la cadenza decennale dei nostri censimenti, il termine di confronto è già abbastanza lontano
nel tempo quando i dati censuali vengono pubblicati, e continua ad allontanarsi fino alla successiva
pubblicazione. Per cui i sondaggi svolti nel 1992 e magari anche nel 1993 sono stati confrontati con
il censimento del 1981 perché quello del 1991 era ancora inedito.
Entrambe le obiezioni sono fondate, e in sé importanti. Il loro effetto sul concetto di
rappresentatività è tuttavia marginale rispetto all’effetto di un’altra obiezione, sollevata finora da
pochissimi e con insufficiente rilievo. Questa obiezione si basa sul fatto, poco sopra richiamato,
che il confronto è possibile solo fra due distribuzioni entrambe note. Pertanto, nel caso che le
informazioni sulla popolazione derivino da un censimento, il confronto dovrà limitarsi alle proprietà
che nel censimento sono rilevate (di fatto, il confronto avviene sempre sulle stesse due o tre
proprietà elementari: residenza, età, sesso; vedi Siboni e Marradi 1989).
A parte questo, il rilievo veramente cruciale è che dalla (eventuale) corrispondenza fra le
distribuzioni di una o più proprietà nel campione e nella popolazione non si potrà inferire analoga
corrispondenza relativa alle distribuzioni di altre proprietà.
La rappresentatività — anche ammesso che sia stata accertata — non si trasmette da una
proprietà all’altra : “un campione può essere rappresentativo di una popolazione relativamente ad
un carattere e non esserlo relativamente ad un altro” (Castellano e Herzel 1971, 16. Una
dichiarazione identica si legge sul “Bollettino Doxa” n. 56 del marzo 1950, p. 41).
34
Di diverso avviso è invece l’estensore di un altro brano, di poco precedente , dello stesso
Bollettino, che afferma : “l’esperienza ha dimostrato che quando il campione è rappresentativo
riguardo ai principali caratteri demografico-sociali della popolazione considerata,
è
rappresentativo anche rispetto alle sue caratteristiche psicologiche e alle opinioni politiche”.
Non si vede in che modo possa essersi accumulata tale esperienza, visto che la distribuzione delle
caratteristiche psicologiche e delle opinioni politiche nella popolazione è sempre ignota.
32
(n. 24 del 30 dicembre 1958, p. 219).
Si veda il preziosoo libretto di Marco Pasquali(1992), che rivela tutte le difficoltà del lavoro del rilevatore censuario, e
tutte le invenzioni e gli accomodamenti che stanno dietro i pretesi “dati duri” di un censimento, e li rendono possibili.
33
34
N. 8 del maggio l949, p.46.
L’unica esperienza cui può legittimamente riferirsi l’estensore è il fatto che nessun committente
abbia protestato, il che permette alle agenzie di sondaggi di fare appello al fondamentale
35
principio scientifico detto “fin che la barca va” .
Del resto, qualche anno dopo lo stesso bollettino ospitava i rilievi critici sul punto
dell’economista e statistico Guglielmo Tagliacarne:
“L’istituto Doxa afferma che il
campionamento che esso ha adottato risponde alle regole della rappresentatività... Ma se la
rappresentatività è sicura riguardo alla proporzione delle classi di età, delle condizioni sociali,
delle regioni di appartenenza, etc. delle donne comprese nel campione, essa non è altrettanto
36
certa riguardo alle esatte proporzioni fra donne di diverso peso”.
In realtà, sin dal 1929 i due statistici italiani Gini e Galvani, lavorando sui dati del censimento del
1921, hanno dimostrato che la scelta “ragionata” 37 di un campione in modo che sia rappresentativo
su alcune proprietà (raccomandata da Kiaer sin dal 1903) non comporta affatto una garanzia di
rappresentatività su altre proprietà che non sono state considerate in tale scelta. Come era da
attendersi, tanto meno una proprietà è correlata con le proprietà considerate nella scelta del
campione, tanto più divergono le distribuzioni dei suoi stati nel campione e nella popolazione (vedi
Castellano e Herzel 1971, 7). Quindi, se abbiamo accertato che il campione è rappresentativo (nei
limiti descritti sopra, al punto e) rispetto a una proprietà X, abbiamo una ragionevole aspettativa
che esso sia passabilmente rappresentativo rispetto alle proprietà più strettamente correlate con la
proprietà X, ma non possiamo affermare nulla rispetto alle altre. In particolare, dalla (eventuale)
rappresentatività su alcune proprietà socio-demografiche non si può assolutamente inferire una
rappresentatività sulle caratteristiche psicologiche, le opinioni, i valori, a meno di voler dare per
scontata un’influenza determinante della “struttura” sulla “sovrastruttura” — tesi ormai passata di
moda, e che comunque pochi responsabili di agenzie sottoscriverebbero, pur servendosene ogni
volta che dichiarano ‘rappresentativo’ il loro campione in un sondaggio di opinione.
Le considerazioni svolte fin qui ci conducono a percepire quello che potremmo definire il paradosso
della rappresentatività : possiamo stabilirla solo quando abbiamo le necessarie informazioni relative
alla popolazione (e in tal caso le corrispondenti informazioni sul campione sono un duplicato);
quando invece le informazioni sul campione non sono un duplicato, in quanto non abbiamo le
corrispondenti informazioni sulla popolazione, allora non possiamo affermare niente circa la
rappresentatività.
Questo fatto paradossale — e le sue conseguenze per il concetto di rappresentatività — non è
sfuggito a due statistici avvertiti come Castellano e Herzel: “Se rispetto ad un certo carattere una
popolazione P di N unità è ripartita in k classi tali che ciascuna unità appartiene a una sola di esse,
una rilevazione rappresentativa di n unità dovrebbe porre in ogni classe n = n(N /N) unità se N è il
numero delle unità della classe i-esima in P. La rappresentatività di una rilevazione parziale non è
35
Definire “fin che la barca va” un fondamentale principio scientifico è provocatorio, ma non assurdo. Quanto meno
nelle scienze sociali, infatti, solo una minima parte della produzione “scientifica” viene sottoposta a una qualche forma di
controllo. La gran parte di ciò che viene pubblicato (e presentato ai vari concorsi accademici) non viene attentamente
letto da alcuno che abbia la competenza epistemologica e/o tecnica per criticarlo adeguatamente. Se è abbastanza raro che
il lettore abbia la competenza, è ancor più raro che egli abbia il tempo e la voglia di approfondire le singole critiche,
nonché il tempo, la voglia e la convenienza di renderle pubbliche. Anche ammettendo che in qualche caso l’ethos
scientifico imponga di trovare il tempo per scrivere una critica, il breve spazio di una recensione o di una “nota” impedisce
di argomentare adeguatamente più di una o due critiche: le altre devono per forza venir tralasciate, o accennate
sommariamente. Da notare che quanto detto sinora si riferisce ovviamente soltanto alle critiche che possono essere
apportate sulla base della lettura del rapporto di ricerca. Molti altri difetti verrebbero probabilmente a galla se si
disponesse dei dati sui quali si è svolta la ricerca. Ma questi sono raramente a disposizione del pubblico; ed è comunque
estremamente improbabile che qualche studioso competente investa il tempo necessario a rifare passo per passo una
ricerca di un collega al fine di sottoporre a controllo le sue conclusioni.
Quanto detto finora è basato su una lunga esperienza personale nella ricerca sociale. Ma anche i fisici intervistati da
Collins (1975) ammettono che non c’è alcuna convenienza a replicare le ricerche degli altri. Gli studi che passano in
rassegna e classificano il materiale pubblicato confermano che le ricerche intese a controllare empiricamente risultati
ottenuti da altri studiosi sono rarissime, o quanto meno non vengono mai pubblicate (Sterling 1959; Barnes 1972, 279;
Hyman 1972, 3; Somers 1972, 372).
36
(il sondaggio aveva per oggetto diete e problemi di peso; il brano è tratto dal “Bollettino Doxa” n. 12/13 del 15 luglio
1953, p. 91).
37
Sulla scelta ragionata torneremo nella sez. 3.
che un concetto teorico. Se non si conoscono le N non si potrà mai controllare se una rilevazione ha
il diritto di essere chiamata rappresentativa, e se si conoscessero le N non si farebbe nessuna
rilevazione” (1971, 8; corsivo mio).
h) Analizzando il concetto di rappresentatività alla luce della natura multi-variata dei disegni della
ricerca nelle scienze sociali siamo pervenuti a un paradosso. Se poi si prende in considerazione la
natura multi-variata della maggior parte dei modelli di relazioni fra variabili si ha una percezione
ancora più piena dell’inadeguatezza pratica di quel concetto rispetto al taumaturgico potere che gli
viene attribuito da produttori e utenti di sondaggi — e anche nel quadro della ricerca sociale.
Capecchi ha già messo in rilievo le conseguenze della natura multi-variata dei modelli sulla
comune pretesa di stabilire con una formula monovariata le dimensioni ottimali di un campione a
fini di inferenza alla popolazione : “La dimensione di un campione non può essere determinata
relativamente a una sola variabile... inoltre — e questo è veramente decisivo — quando si
effettua una ricerca sociologica si pensa di poter fare ovviamente degli incroci a due o più
variabili ; a questo punto la stima di n dovrebbe essere effettuata tenendo conto del campo di
variabilità non delle variabili considerate isolatamente, ma delle variabili a due o più dimensioni
che ne risultano” (l972, 5l).
Per le stesse ragioni, di queste “variabili a due o più dimensioni” — cioè della distribuzione
congiunta di tutte le variabili considerate nei vari modelli — si dovrebbe tener conto prima di
poter parlare di ‘rappresentativo’ 38 . E a quali condizioni se ne dovrebbe parlare?
Affinché il campione sia rappresentativo della popolazione rispetto a quel modello, è necessario
che non solo la proporzione dei casi in ciascuno stato di ciascuna variabile implicata sia
(approssimativamente: vedi sopra, punto e) la stessa nel campione e nella popolazione, ma che
lo sia anche la proporzione dei casi in ciascuna delle (ideali) celle formate dal prodotto logico
degli stati delle variabili implicate39 . Anche un’eventuale proporzionalità delle distribuzioni di due
o più variabili nel campione rispetto alle loro distribuzioni nella popolazione non garantisce nulla
circa la proporzionalità delle loro distribuzioni congiunte; ed è questo il tipo di distribuzione che
interessa allorché vogliamo stabilire delle relazioni fra variabili.
Come già osservato al punto e), il requisito della proporzionalità è certamente troppo restrittivo, ma
è quanto meno assai arduo stabilire, con un minimo di criterio e di accettabilità intersoggettiva, fino
a che punto esso possa essere liberalizzato.
Certo che, per quanto si allenti, si vorrà almeno lasciare in piedi il criterio di un confronto fra le
distribuzioni congiunte che le variabili dei vari modelli hanno nel campione e nella popolazione. Si
propone quindi con maggiore evidenza il paradosso di cui si diceva al punto g: se conosciamo tanto
bene la nostra popolazione da conoscere le distribuzioni congiunte relative a una serie di modelli
multi-variati, non si vede davvero a che scopo dovremmo estrarre un campione e porci dei problemi
di inferenza che possiamo evitare.
A parte il paradosso, la questione si complica ulteriormente se pensiamo che un disegno di ricerca
che preveda p variabili rende possibili innumerevoli modelli, di complessità crescente dal livello
diadico a quello p-adico. Solo un piccolo sotto-insieme di questi modelli viene effettivamente
sottoposto ad analisi ; ciò non toglie che ciascuno di loro è potenzialmente analizzabile in ogni
momento, una volta che i dati sono stati raccolti ; a stretto rigore, un campione dovrebbe essere
dichiarato ‘rappresentativo’ solo dopo che la proporzionalità delle distribuzioni congiunte nel
campione (rispetto alle corrispondenti distribuzioni congiunte nella popolazione) sia stata
controllata empiricamente per tutti i modelli concepibili all’interno del disegno della ricerca (cioè
tutti i modelli componibili con le variabili sulle quali si sono raccolti i dati).
38
Anche Mannheimer avverte che “la rappresentatività si riferisce al grado in cui una relazione esistente nel campione
esiste anche nella popolazione nella medesima proporzione” (1985, 148; corsivo mio).
39
Qualcuno potrà osservare che si può parlare di celle solo nel caso di una tabella di contingenza. Ma anche quando si
attribuisce valore cardinale ai codici numerici attribuiti agli stati, e quindi si analizzano le relazioni fra le variabili
mediante diagrammi, si può sempre concepire come una cella il punto sul diagramma individuato da ciascuna
combinazione di coordinate (e questo a fortiori nel caso di variabili cardinali tratte da sondaggi, che hanno sempre un
numero limitato di valori). Parlando di celle ideali, quindi, il discorso non perde affatto di generalità.
2.3. La catena di argomentazioni sviluppate fin qui dovrebbe aver chiarito i motivi per cui si
dovrebbero ritenere scorrette, in quanto prive di possibile riscontro empirico, espressioni come
‘campione rappresentativo’, ‘rappresentatività del campione’, usate in assoluto, cioè prive di alcuna
qualificazione. Ciò non comporta che l’aggettivo ‘rappresentativo’ e il sostantivo derivato debbano
essere banditi; solo che il loro uso dovrebbe essere limitato a proposizioni che abbiano un qualche
riscontro empirico, effettivo o possibile. Si può ammettere una frase come “il nostro campione è
rappresentativo della popolazione rispetto all’età”; molto meglio se è confortata da una tabella in cui
le due distribuzioni (campione e popolazione) per classi di età sono messe a confronto.
Certo che in quest’uso sorvegliato il termine perde tutta la sua carica suggestiva. Una cosa è dire, al
cliente o al lettore: “Il mio campione è rappresentativo”, sottintendendo “quindi tu, con pochi
milioni di lire, hai scoperto quello che consumano — o pensano, o voteranno — quaranta milioni
di italiani adulti” (oppure sottintendendo “quindi le teorie che questi dati suggeriscono o corroborano
sono la verità scientifica”). Un’altra cosa è dire: “la distribuzione per sessi nel nostro campione si
discosta dalla distribuzione nazionale, accertata dal censimento del 1981, del 2,2%; la distribuzione
per titolo di studio... etc. etc.; per tutte le altre proprietà rilevate nel nostro sondaggio non possiamo
affermare niente, perché le loro distribuzioni non sono confrontabili con le corrispondenti
distribuzioni rilevate da un censimento”.
Una frase del secondo tipo non è fatta per sollevare gli entusiasmi del lettore, né per allentare i
cordoni della borsa del cliente. Essa li rende cauti e sospettosi, dando loro una prima e pur vaga idea
degli strettissimi limiti epistemologici in cui si muovono le scienze umane e della limitata affidabilità
delle loro affermazioni. Si tratta di vedere se la scienza vada più d’accordo con gli entusiasmi e con i
cordoni della borsa oppure con la consapevolezza dei propri limiti.
E’ proprio questa la conseguenza spiacevole che (come si rilevava all’inizio del par. 2.1) si è voluto
esorcizzare evitando di sottoporre ad analisi i possibili significati del termine ‘rappresentativo’: da
una simile analisi, infatti, non poteva che emergere la natura ideologica (nel senso dell’ideologia
scientista) dell’uso che di tale termine si è fatto finora, e certamente si continuerà a fare, da parte di
accademici e agenzie di sondaggi.
3. Casualità dell’estrazione e rappresentatività del campione
3.1. Veniamo ora al rapporto fra il concetto di casualità e il concetto di rappresentatività.
Come si è già ricordato, la visione corrente è che la casualità del procedimento di estrazione
comporti la rappresentatività del campione. Questo nesso è ripetutamente esplicitato, ad
esempio, sul Bollettino della Doxa 40 . Tra gli autori accademici, Perrone mette in luce le
ragioni per cui il nesso fra casualità e rappresentatività doveva essere stabilito e dato per
scontato: “la rappresentatività non può essere empiricamente controllabile, e quindi deve
essere per così dire dedotta a priori all’interno del campione, e più precisamente dal metodo
(o modello matematico) con cui il campione è stato costruito” (1977, 76-7; corsivo mio).
Sull’assunto che l’estrazione casuale generi campioni rappresentativi riposa tutto il castello
dottrinale dell’inferenza statistica. Ma tale assunto è palesemente falso: non è difficile
dimostrare, infatti, che tra casualità del procedimento di estrazione e rappresentatività
dell’esito non esiste alcuna forma di implicazione logica, nel senso che la prima non è affatto
una condizione necessaria, e neppure una condizione sufficiente della seconda. Come ha
rilevato Schumpeter (1942) a proposito della democrazia, la procedura non garantisce
necessariamente la qualità dell’esito. Anche il rispetto più scrupoloso del criterio di casualità
nell’estrazione non garantisce affatto che il campione estratto sia rappresentativo rispetto a
una qualsiasi variabile o combinazione di variabili, e meno che mai garantisce che esso sia
rappresentativo tout-court (la rappresentatività senza qualificazioni è un concetto privo di
riscontro empirico: vedi sopra, par. 2.3). Come ricordano Castellano e Herzel, “se vogliamo
40
Inizialmente con qualche prudenza (“poiché si operò con un campione casuale... si può ritenere che
esso sia sufficientemente rappresentativo”: n. 10-11 del giugno 1951, p. 66); in seguito con assoluta
tranquillità (cfr. Siboni e Marradi 1989, sez.4).
determinare per campione il rapporto dei sessi in una popolazione scegliendo a caso 1.000
individui, è teoricamente possibile che la scelta cada su 1.000 individui dello stesso sesso,
anche se avremo correttamente evitato ogni procedimento difettoso” (1971, 11).
Questo problema non si pone soltanto per le estrazioni da popolazioni umane ; esso si pone in
modo identico qualunque sia la popolazione dalla quale si estrae casualmente. Torniamo
all’esempio delle palline nell’urna, e supponiamo di avere 100 palline bianche e 100 palline nere,
di estrarne una per volta, registrarne il colore, rimettere dentro la pallina estratta, agitare e tornare
41
ad estrarre . In questa situazione, ogni estrazione è un evento totalmente indipendente dal
precedente : la probabilità di avere una pallina bianca resta la stessa (1/2) qualunque esito abbia
avuto l’estrazione precedente, e qualunque serie di esiti abbia avuto la serie di estrazioni
precedenti. Se estraiamo un campione di 2 palline, abbiamo una probabilità su 4 di estrarle
entrambe bianche, una su 4 di estrarle entrambe nere, e 2 su 4 di estrarne una bianca e una nera,
cioè di avere un campione rappresentativo rispetto alla proprietà ‘colore’.
Se estraiamo 3 palline, così come con ogni numero dispari di palline estratte, non è possibile, a
rigore, avere un campione perfettamente rappresentativo rispetto al colore, visto che le palline
sono indivisibili. Costruendo un triangolo di Tartaglia o applicando la formula appropriata del
42
calcolo combinatorio , il lettore può constatare da sé che la probabilità di avere un campione
perfettamente rappresentativo rispetto al colore decresce con l’aumentare del numero delle
palline estratte : su due palline è la metà ; su 6 è già meno di un terzo (20 su 64) ; su 12 è meno
di un quarto (924 su 4096) ; su 16 è meno di un quinto (12.870 su 65.536) ; e così via.
Non solo un esito perfettamente rappresentativo è sempre meno probabile aumentando le
dimensioni del campione, ma esiti assai lontani da quello rappresentativo sono tutt’altro che
esclusi 43 : “non si può mai escludere la possibilità di estrarre un campione che dà un’immagine
completamente deformata della popolazione” (Castellano e Herzel 1971, 59).
Naturalmente un nesso causale semplicistico fra casualità e rappresentatività è ancora meno
sostenibile se si richiamano tutte le complicazioni ricordate nella sez. 2: le proprietà che
interessano sono più di una e hanno assai spesso più di due categorie; interessano le loro relazioni
e quindi le distribuzioni congiunte; etc. Tuttavia anche una situazione iper-semplificata come
41
Reimmettere la pallina estratta è un passo necessario per evitare di complicare gravemente i calcoli, e
quindi le formule. Si osserverà che nelle scienze sociali il campionamento è un’estrazione senza
reimmissione, perché un nome non può venire estratto due volte. Ma per popolazioni delle dimensioni
abituali nelle ricerche campionarie delle scienze sociali, la differenza fra estrazione con re-immissione ed
estrazione senza re-immissione ha effetti del tutto trascurabili sulle probabilità dei vari esiti, e quindi anche
dell’esito pienamente rappresentativo.
42
Il numero di combinazioni (equiprobabili) in cui si possono presentare r palline dello stesso colore su
n estratte (da un’urna con palline di due soli colori) è Errore.. Il simbolo n! sta per n fattoriale, cioè n *
n
(n — 1) * (n — 2) * .... * 2 * 1. Il totale delle combinazioni equiprobabili (con due colori) è 2 .
43
Anche questo si può facilmente riscontrare con un triangolo di Tartaglia ; vedine un esempio in Marradi (1989, 81).
Il lettore attento potrà aver colto una contraddizione fra quanto sostenuto nel par. 1.2 e quanto sostenuto in questa
sezione. Nel par. 1.2 si è detto che le minori probabilità che gli appartenenti a certe categorie hanno di essere reperiti e
di accettare un’intervista rende non-casuale anche un campione casuale al momento dell’estrazione. Ora si dice che
un’estrazione casuale può produrre (quindi è compatibile con) esiti anche lontanissimi dalla rappresentatività su un
numero illimitato di proprietà. Quindi, se l’estrazione casuale è compatibile anche con esiti gravemente nonrappresentativi, come si fa a sostenere che distribuzioni non rappresentative su qualche proprietà rendono non-casuale
un’estrazione? Sembra davvero una contraddizione.
Ma non è così. Infatti l’estrazione casuale è, sì, compatibile con qualsiasi distribuzione degli stati su qualsiasi proprietà
nel campione da essa prodotto. Ma è compatibile con una sola distribuzione delle probabilità di entrare nel campione
prima che esso sia estratto, e cioè con quella distribuzione che dà probabilità esattamente uguali a tutti i membri della
popolazione.
Se tale condizione è soddisfatta, un’estrazione resterà casuale anche se nel campione non è entrato alcun professionista,
o lavoratore autonomo, o anziano, o membro di una qualsiasi altra categoria su qualsiasi proprietà. Ma se un
professionista, o un anziano, o chiunque altro, a causa della natura del processo di reperimento e di intervista, hanno a
priori meno probabilità di entrare nel campione di soggetti effettivamente intervistati, allora quel campione non si può
considerare casuale anche se tutte le procedure formali che garantiscono la casualità dell’estrazione sono state
scrupolosamente rispettate.
In altre parole, è rilevante in questo caso la fondamentale distinzione fra i concetti statistico-matematici di probabilità
(a priori) e frequenza (a posteriori).
quella di una sola proprietà (colore) con due soli stati (bianco e nero) basta a dimostrare che la
casualità dell’estrazione non è una condizione sufficiente di rappresentatività, cioè non basta a
produrla.
Si può aggiungere che anche in questo caso le concezioni correnti conducono a un paradosso:
infatti, se un’estrazione casuale dovesse produrre un campione rappresentativo (tout-court), allora
tutte le possibili estrazioni casuali dalla stessa popolazione dovrebbero produrre campioni in cui
tutte le variabili hanno la stessa distribuzione, le stesse relazioni bivariate e multi-variate fra loro,
etc. Dovrebbero cioè produrre campioni identici sotto ogni possibile aspetto, quindi — in pratica
— campioni composti dagli stessi individui.
Questa conseguenza, logicamente ineccepibile, dell’assunto criticato in questo paragrafo è peraltro
clamorosamente lontana da quanto accade effettivamente. Tanto lontana che la statistica classica ha
formulato il concetto di distribuzione campionaria, che si riferisce alle distribuzioni dei valori
assunti da un qualsiasi parametro 44 in ciascuna delle estrazioni casuali da una stessa popolazione.
Sembra evidente che, se l’estrazione casuale (e quindi ciascuna estrazione casuale) generasse
automaticamente campioni rappresentativi, il concetto di distribuzione campionaria sarebbe inutile,
in quanto non ci sarebbe alcuna distribuzione: dato un qualsiasi parametro, il suo valore dovrebbe
essere lo stesso in tutti i campioni estratti o estraibili — anche in campioni di dimensioni
diversissime.
Qualche lettore potrà a questo punto osservare che tutte le argomentazioni esposte in questo
paragrafo sono ben note, e si possono trovare, in forma magari meno esplicita, in molti manuali di
statistica. Resta da spiegare perché gli statistici non abbiano mai — almeno a quanto mi risulta
— stigmatizzato la concezione corrente nelle scienze sociali (non soltanto presso le agenzie di
sondaggi) secondo la quale la casualità dell’estrazione genera rappresentatività dell’esito.
3.2. Stabilito che l’estrazione casuale non è una condizione sufficiente di rappresentatività del
campione, cioè non basta a garantirla, vediamo se ne è una condizione necessaria, cioè se si
possono ottenere campioni rappresentativi (con tutti i limiti posti a questa espressione nella sez. 2)
solo mediante un’estrazione casuale.
Cominciamo anche stavolta da una situazione iper-semplificata: un’urna con 100 palline bianche e
100 nere. Supponiamo di voler estrarre un campione di 10 palline perfettamente rappresentativo del
contenuto dell’urna rispetto alla proprietà ‘colore’ (cioè composto di 5 palline bianche e 5 nere).
Se procediamo a un’estrazione casuale, abbiamo meno di 1 probabilità su 4 di ottenere tale
campione 45 .
L’unica maniera di essere sicuri di ottenerlo è... guardare dentro l’urna mentre si estraggono le
palline, ed estrarle in modo che le proporzioni dei colori siano rispettate. Ma questa estrazione è
tutto fuorché casuale: dopo che è stata estratta la quinta pallina di un colore (bianco o nero), tutte
le altre di quel colore non hanno alcuna probabilità di entrare nel campione, perché verranno
scartate a favore delle palline del colore ancora da completare.
Veniamo ora a una situazione ricorrente nelle scienze sociali, il campionamento “per quote”: si
vuole riprodurre esattamente nel nostro campione la distribuzione congiunta per sesso e classi di età
di una data popolazione (quale risulta dalle pubblicazioni censuali). In questi casi si costruisce una
griglia che stabilisca quanti maschi e quante femmine tra i 18 e i 25 anni, tra i 25 e i 30, e così via,
devono essere intervistati. Man mano che le interviste vengono eseguite, si registrano nelle varie
celle della griglia; se — come accade di solito, data la diversa reperibilità e propensione a
lasciarsi intervistare delle varie categorie, cui si accennava nel par. 1.2 — il ritmo di riempimento
delle varie celle è diseguale, in alcune celle si raggiungerà il numero di intervistati previsto quando
in altre ne mancano ancora alcuni. Si cesserà quindi di intervistare individui dei tipi già completati,
ed ulteriori interviste eventualmente fatte a loro verranno escluse dal campione.
44
Monovariato, bivariato o multivariato: quindi la frequenza percentuale di una certa categoria, la mediana, la media,
la varianza, la covarianza, etc.
45
Basta applicare la formula di calcolo combinatorio data poco sopra in nota per riscontrare che con 100 palline e 10
estrazioni le possibili combinazioni sono 2
nere.
10
(cioè 1024), e che solo in 252 di queste avremo 5 palline bianche e 5
Anche in questo caso, quindi, come quando guardiamo dentro l’urna quali palline estrarre, non ci
affidiamo al caso, ma pilotiamo l’estrazione. Un’estrazione casuale è del tutto incompatibile con
l’obiettivo di assicurare la rappresentatività su alcune variabili. Siamo agli antipodi dell’assunto
che l’estrazione casuale genera automaticamente dei campioni rappresentativi, e ci si propone una
sgradevole scelta: o ci affidiamo al caso, e allora non siamo affatto certi delle caratteristiche che
avrà il campione, o vogliamo determinare qualcuna di tali caratteristiche, e allora dobbiamo
pilotare l’estrazione. Da questa alternativa non si esce: frasi come “n persone scelte a caso entro i
vari strati della popolazione in modo da rappresentare proporzionalmente i due sessi, le varie classi
di età, i diversi gruppi economico-sociali e i distretti della città”46 contengono una contraddizione in
termini che ho evidenziato con il corsivo.
Del resto, questa alternativa fra casualità e garanzia della rappresentatività su alcune variabili è
chiaramente presente nella storia dei sondaggi. Fino agli anni cinquanta si tendeva a privilegiare la
rappresentatività, e la maggior parte dei campionamenti si eseguivano “per quote”, cioè con lo
strumento della griglia schematicamente illustrato sopra 47 . Anche fra gli statistici teorici, il criterio
della “scelta ragionata” (cioè tale da garantire rappresentatività su alcune variabili) proposto da
Kiaer nel 1903 non venne contestato prima del 1925. 48
Questa relativa lentezza nel passare dalla “scelta ragionata” alla scelta casuale è dovuta assai
probabilmente al fatto che ci si rendeva conto di che cosa si perdeva (la garanzia di
rappresentatività su alcune variabili) mentre non erano affatto chiari i vantaggi arrecati dal caso.
Prima di esaminare tali vantaggi (sez. 4), è il caso di precisare che la scelta ragionata (e quindi il
campionamento per quote)
è metodologicamente più opportuna dell’estrazione casuale
ogniqualvolta ci siano buone ragioni per concentrare l’attenzione su un numero limitatissimo di
proprietà: ad esempio nei disegni quasi-sperimentali detti factorial designs 49 . Anche in un
normale sondaggio il campionamento per quote è la soluzione inevitabile quando non si dispone di
un elenco dei membri della popolazione, e può essere difendibile anche in altre situazioni
particolari.
4. Si possono conciliare casualità e rappresentatività?
Restano due domande:
a) Visto che l’estrazione casuale non garantisce la rappresentatività su alcuna variabile, perché
preoccuparsene tanto? Perché non tornare alla scelta ragionata, che almeno la garantisce rispetto
alle variabili sulla cui base si stabiliscono le quote?
b) Stabilito che l’estrazione casuale non è una condizione necessaria né una condizione sufficiente
di esiti rappresentativi, non esiste proprio alcun rapporto fra casualità e rappresentatività? Si
possono in qualche modo conciliare i due criteri?
Alla prima domanda la statistica induttiva risponde che solo se un campione è estratto casualmente
si può ritenere che esso faccia parte di un’ideale serie infinita (un universo) di campioni, universo
per il quale si dà per valida la cosiddetta “Legge dei Grandi Numeri”. Secondo tale legge, la
distribuzione campionaria (vedi sopra, par. 3.1) di un qualsiasi parametro tende, al crescere di n
(le dimensioni del campione), alla normalità attorno al valore del parametro stesso nella
46
Questa frase è tratta dal “Bollettino Doxa” n. 8 del maggio 1949, p. 46; frasi analoghe sono riportate nella sezione
seguente.
47
Dalle scarsissime indicazioni ricavabili dai Bollettini, sembra che il sistema “per quote” sia stato prevalentemente
utilizzato anche dalla Doxa fino alla fine degli anni cinquanta. Nel “Bollettino” n. 13-14 del luglio 1950, p. 177, si
legge “Di solito l’Istituto usa il metodo del campione stratificato, o quota sample”. Nel Bollettino n. 19-20 del 31
ottobre 1958, p. 177, si legge: “Nei sondaggi precedenti gli intervistatori sceglievano essi stessi le persone da
intervistare sulla base delle caratteristiche loro indicate (sesso, età, professione).”
48
In tale data gli statistici inglesi A.L. Bowley e D. Jensen presentarono all’Istituto Internazionale di Statistica un
rapporto che proponeva l’estrazione pienamente casuale.
49
Sui quali vedi l’eccellente trattazione di Chiari e Corbetta (1973, 656-666). Per la distinzione fra ‘sperimentale’ e
‘quasi-sperimentale’ vedi Campbell e Stanley (1963).
popolazione 50 . Bertoldo potrebbe obiettare che una legge del genere gli serve a poco, visto che lui
deve estrarre un solo campione, non infiniti campioni. Ma gli statistici gli obietterebbero che ha
torto, perché proprio sull’assunto di normalità delle distribuzioni campionarie, stabilito dalla
“Legge”, si fonda la dottrina dei tests di significatività, essenziale per generalizzare induttivamente
alla popolazione le conclusioni cui si è giunti analizzando i dati del campione.
Ad ogni modo, anche adottando il punto di vista di Bertoldo (che diffida di una serie infinita di
estrazioni e consimili diavolerie, e vuole semplicemente evitare di introdurre distorsioni nel suo
specifico campione) si deve convenire che il lento e graduale spostamento dell’accento — almeno
in sede di teoria statistica — dalla rappresentatività garantita su poche proprietà alla casualità
dell’estrazione è stato opportuno, in quanto risponde a una più corretta percezione della natura
articolata e diramata della rete di relazioni fra le proprietà di cui si occupano le scienze sociali.
L’estrazione casuale fornisce una garanzia solo negativa, ma importantissima: la garanzia di non
introdurre alcuna distorsione prevedibile nella rappresentatività del campione rispetto ad alcuna
proprietà della popolazione. Ogni altra forma di estrazione introduce distorsioni in direzioni
prevedibili, anche se di entità ignota.
In questa sezione esaminerò appunto le distorsioni al principio di causalità introdotte da criteri di
estrazione che cercano di garantire la rappresentatività su una o più proprietà.
4.1. Di gran lunga il più diffuso di questi criteri è il cosiddetto campionamento “a più stadi”
(multi-stage) cui ricorrono le agenzie di sondaggi per estrarre campioni dell’intera popolazione
italiana, e comunque quando la popolazione da studiare è dispersa sul territorio e si effettuano
interviste “faccia-a-faccia”.
Per la verità, lo scopo principale delle agenzie nel ricorrere al campionamento a più stadi non è
garantire rappresentatività ma ridurre i costi. Immaginate infatti un elenco di 2.000 italiani 51
estratti a caso. A parte i residenti nelle grandi città, sarebbe piuttosto improbabile che due o più
estratti abitassero proprio nello stesso centro (città, cittadina, paese, villaggio). Il campione
sarebbe con ogni probabilità disperso in mille o più luoghi diversi, in ognuno dei quali le agenzie di
sondaggi dovrebbero spedire un intervistatore, quasi sempre per fargli effettuare una sola intervista.
Un sondaggio del genere avrebbe quindi costi (e tempi) proibitivi.
Per questi motivi le agenzie non estraggono campioni nazionali con un campionamento casuale
semplice 52 , ma approfittano con disinvoltura di un’accezione estensiva del termine ‘casuale’, quale
compare in affermazioni come questa, dovuta a un influente statistico: “...il campione
probabilistico o campione casuale, in base al quale ogni elemento della popolazione ha una
probabilità nota e non nulla di entrare a far parte del campione. I campioni casuali semplici sono
quelli per cui la probabilità di estrazione è la stessa per ogni elemento” (Orsi 1985, 198-99). 53
50
Gli statistici induttivi chiamano ‘statistica’ un qualsiasi parametro riferito alla popolazione, ma non credo che tale
scelta terminologica sia particolarmente felice.
Ho riportato la “legge dei Grandi Numeri” nella versione “forte”, che Orsi (1985, 242) attribuisce al matematico
francese E. Borel. Aggiungo di aver riscontrato sorprendenti divergenze nel modo in cui vari manuali di statistica
presentato la “Legge dei Grandi Numeri” e i suoi rapporti con il “Teorema del Limite Centrale”: si confrontino ad
esempio Blalock (1960/1970, 224-8), Swoboda (1972, 160-7), Sadocchi (1984, 46-7), Orsi (1985, 240-50), Castellano
e Herzel (1971, 141-2). Questi ultimi dichiarano — manifestando l’atteggiamento critico che li distingue dalla
manualistica corrente — che “la cosiddetta ‘legge’ o ‘principio’ dei ‘grandi numeri’... non è dimostrabile
teoricamente, né verificabile sperimentalmente, in quanto a nessuno è dato di fare infinite esperienze. Non si tratta
perciò di una ‘legge’ vera e propria, ma piuttosto di un postulato... Vi è... chi afferma che tutto sarebbe basato su un
grosso equivoco: i matematici accetterebbero la ‘legge empirica del caso’ ritenendola una legge statistica, viceversa gli
statistici l’accetterebbero ritenendola una legge matematica” (1971, 142).
51
Dico 2.000 perché questa è stata per decenni la dimensione abituale di un campione nazionale, anche se da qualche
anno si tende al ribasso.
52
Anche la Doxa ammette sin dai suoi primi anni che “nell’esecuzione dei sondaggi statistici si ricorre solo
eccezionalmente a questo metodo, i cui vantaggi non sempre compensano gli inconvenienti” (Bollettino n. 5-6, marzo
1950, p. 41; analogamente sul Bollettino n.20, 15 ottobre 1951, p. 55). Gli inconvenienti sono appunto i maggiori costi
di trasferimento degli intervistati.
53
Fra le numerose dichiarazioni analoghe, Lazerwitz (1968); Chiari e Corbetta (1973, 481 e 645).
Definizioni del genere rispondono alla preoccupazione di molti statistici di offrire un fondamento
rigoroso alle pratiche di campionamento “stratificato non proporzionale” largamente usate in molte
discipline.
La popolazione viene suddivisa in un certo numero di sotto-insiemi di ampiezza nota, e da
ciascuno di essi (visto che ogni membro della popolazione deve avere una probabilità non-nulla
di essere estratto) si estrae almeno un membro del campione. Avremo così un campione
suddiviso in k sub-campioni, ognuno tratto da uno dei k sotto-insiemi della popolazione.
Dopodiché si potrà ripristinare artificialmente la pari probabilità ponderando i dati di ciascun subcampione con un coefficiente inversamente proporzionale alla corrispondente “frazione
campionata”, cioè al rapporto fra la numerosità di quel sub-campione e la numerosità della sub54
popolazione corrispondente.
Questa idea della ponderazione diversificata mette particolarmente bene in luce i presupposti
ontologici di tipo atomista della dottrina dell’inferenza statistica, nonché — a monte — i
presupposti ontologici di tipo meccanicista non solo dell’inferenza, ma di tutto l’orientamento di
55
ricerca (principi e conseguenti tecniche) che fa riferimento alla matrice dei dati.
Ammettendo infatti che anche un solo individuo (qui sta il punto) possa rappresentare un
numero infinito di altri individui, si trasferisce il concetto di rappresentatività da un rapporto fra
distribuzioni (nel qual caso l’ontologia atomista può restare fra le quinte) a un rapporto fra
individui globalmente intesi : in tal modo essa si manifesta in primo piano.
In altre parole, mentre è in qualche modo tollerabile — salvo l’accusa di meccanicismo di cui si
diceva sopra — l’idea che una distribuzione di stati su una proprietà ne rappresenti un’altra più
numerosa, è assai meno accettabile l’idea che un individuo considerato globalmente (cioè in
tutte le innumerevoli proprietà) ne rappresenti un altro, o un numero qualunque di altri.
Peraltro, anche un’estensione del concetto di casualità come quella operata dalla definizione sopra
riportata è assolutamente insufficiente a legittimare il campionamento “a più stadi” usato dalle
agenzie di sondaggi — che descriverò subito 56 . Questo procedimento pone problemi assai più
54
Per chiarire con un esempio: supponiamo di avere una popolazione di 300.000 occupati, di cui 50.000 agricoltori, e
di voler estrarre un campione di 300 persone (uno su mille). Visto che gli agricoltori sono costosi da raggiungere e
difficili da intervistare, un’agenzia di sondaggi ha tutto l’interesse a decidere di considerarli un sotto-insieme a parte, e
di intervistarne solo 5 anziché 50 come proporzionalità vorrebbe. Dopodiché ciascuna risposta data da un agricoltore
verrà fatta valere, nel computo totale, come dieci risposte date da un non-agricoltore.
55
L’ontologia meccanicista si manifesta nel fatto che i valori su una variabile (che rappresentano, in modo più o meno
fedele, gli stati su una proprietà) vengono, nell’inferenza, separati dagli individui cui appartengono tali stati e proiettati
su individui non conosciuti né indagati (in questo caso, gli agricoltori non interrogati); così come nelle tecniche di
associazione statistica due o più vettori di tali valori, completamente separati dai portatori dei relativi stati, vengono
posti in relazione fra loro per produrre i vari coefficienti di associazione.
Questi procedimenti presuppongono che uno stato sia totalmente indipendente dall’oggetto cui appartiene, cioè non
debba essere considerato alla luce degli stati delle altre proprietà (le poche eventualmente rilevate, e le innumerevoli non
rilevate) di quello stesso oggetto. Ciò è plausibile se l’oggetto è inanimato o è un automa meccanico; lo è assai meno se
l’oggetto è un organismo, e ancora meno se esso ha un’organicità non solo biologica, ma anche psicologica e culturale.
L’ontologia atomista si manifesta nel fatto che gli individui vengono ritenuti fungibili come gli atomi di uno stesso
elemento chimico, dal momento che uno qualunque di loro può “stare per” un numero di altri indefinitamente ampio.
Questa ontologia, se adottata integralmente, renderebbe inutile tutto il castello dottrinale della statistica inferenziale,
in quanto renderebbe impossibile la presenza di distribuzioni. Infatti, se tutti gli elementi sono uguali, allora anche i
loro stati su una qualsiasi proprietà sono uguali; se gli stati sono tutti uguali, non c’è distribuzione: basta far ricerca su
un solo individuo per estendere automaticamente ciò che scopriamo a tutti i suoi simili. La statistica inferenziale è,
quindi, auto-contraddittoria. Parte dalla constatazione che gli stati degli individui sulle proprietà sono diversi, il
che comporta l’inapplicabilità di un’ontologia atomista. Tuttavia, proprio a un’ontologia atomista essa fa appello,
in modo più o meno palese (molto palese, come si è rilevato, nel caso del campionamento “stratificato non
proporzionale”) ogni volta che deve sostenere un’inferenza dal campione alla popolazione. L’ontologia atomista
viene usata — diremo, adottando la nota immagine di Weber a proposito del materialismo dialettico — come un taxi
dal quale salire e scendere a seconda delle convenienze.
56
La descrizione deriva dalla mia esperienza diretta in quanto membro di vari istituti universitari committenti di sondaggi
nazionali. Essa peraltro non presenta sostanziali differenze — a parte i rilievi critici — con le descrizioni apparse (con
vari livelli di dettaglio) sul “Bollettino della Doxa” nei numeri: 5-6 del marzo 1950, p. 41; 20-21 del 9 dicembre 1966, p.
155; 14-15 del 28 giugno 1972, p. 175; 8-10 del 20 giugno 1973, p. 92; 10-11 del 20 giugno 1978, p. 102; 8-9 del 31
marzo 1979, p. 76.
delicati di quelli del campionamento “stratificato”,
esauriente” (Castellano e Herzel1971, 286).
e “si oppone a una trattazione teorica
L’abuso compiuto da chi applica a campioni multi-stage formule calcolate per campioni casuali
è concordemente denunciato da metodologi e statistici. Si fa notare che i margini di errore
attorno alle stime aumentano (Kish 1957 ; Kish 1959 ; Blalock 1970, 646) o diventano ignoti
(Kish 1965, 576 ; Henkel 1976, 76) ; che l’idea stessa di applicare delle formule per la stima non
ha senso (Henkel 1976, 25 e 76-80 ; Sadocchi 1984, 115).
Da notare che questi rilievi si applicano a un campionamento nel quale in tutti gli stadi si
procede a estrazioni veramente casuali. Se poi nelle varie estrazioni le agenzie e/o gli
intervistatori applicano quel genere di “correzioni” alla casualità che ricostruirò nelle pagine che
seguono, allora l’applicazione delle formule diviene qualcosa di diverso che meramente priva di
senso ; essa acquista anzi pienamente senso nell’ambito di una generale strategia di
mistificazione “scientifica” della reale natura dei procedimenti con cui vengono estratti questi
campioni.
Il primo stadio è la scelta dei comuni in cui effettuare le interviste, detti “punti di campionamento”
o p.s.u. (primary sampling units). Come si accennava, le agenzie ricorrono a questo passo per
ridurre il numero di comuni in cui devono far trasferire i loro intervistatori; ma si può concepirlo
anche come un tentativo di garantire la rappresentatività del campione rispetto alla proprietà
‘dimensione del comune di residenza’. Le agenzie raggruppano infatti i comuni italiani in cinque o
sei fasce dimensionali (dette anche “strati”) 57 ; da ognuna di queste fasce viene estratto un certo
numero di comuni nel cui territorio si effettueranno le interviste, e che sono quindi chiamati a
“rappresentare” tutti gli altri comuni della stessa fascia. 58
Se ci si limitasse a questo, potrebbe capitare che in una data fascia non fosse estratto alcun comune
dell’Italia centrale, oppure delle Tre Venezie. Date le differenze culturali che millenni di storia
hanno introdotto fra le varie regioni, e il loro prevedibile effetto sui comportamenti e gli
atteggiamenti, sarebbe difficile sostenere che i comuni di una certa area geografica sono
pienamente intercambiabili con i comuni di altre aree. Anche di questo le agenzie sono costrette a
tenere un qualche conto 59 , e lo fanno dividendo il paese in quattro o cinque zone geografiche (di
solito il Nord-Ovest o Triangolo Industriale, con Piemonte, Liguria e Lombardia; il Nord-Est, con
le tre Venezie e l’Emilia-Romagna; il Centro; il Sud, spesso distinto in Sud continentale e Isole).
Combinando queste zone con le fasce dimensionali si ottiene un certo numero di celle 60 , da un
minimo di 20 (5 fasce per 4 zone) a un massimo di 30 (6 fasce per 5 zone). I comuni sono
considerati pienamente fungibili se appartengono alla stessa cella, non fungibili se appartengono a
celle diverse.
57
Ad esempio, nella prima fascia sono posti i comuni con oltre 500.000 abitanti, nella seconda quelli tra i 100 e i 500
mila, nella terza quelli tra i 30.000 e i 100.000, e così via. La popolazione dei vari comuni è desunta dall’ultimo
censimento pubblicato.
58
Si può osservare che cinque o sei fasce non sono sufficienti a render conto di tutti i livelli dimensionali che
intercorrono fra Roma e Roccacannuccia. Inoltre, anche un criterio solamente dimensionale è insoddisfacente: ad
esempio, nella fascia fra 30.000 e 100.000 abitanti si trovano comuni con solide e antiche tradizioni urbane come Varese,
Savona, Lucca, Siena, Benevento, accanto a molti comuni “di cintura”, antichi borghi rurali ora gonfiatisi di pendolari
che lavorano in una vicina metropoli, e molti centri meridionali — in particolare pugliesi — che fino a poco tempo fa
erano solo dei grandi dormitori di contadini senza una vera qualità urbana.
Naturalmente, le disomogeneità socio-economiche, culturali e politiche fra i comuni della stessa cella non sono
eliminabili; ma esse potrebbero essere significativamente ridotte utilizzando strumenti facilmente accessibili, come le
classificazioni dei comuni secondo le caratteristiche urbano/rurali, più volte pubblicate dall’ISTAT (1963; 1986) e in
effetti usate in alcune ricerche accademiche (ad es. Tullio-Altan 1974).
59
Questo è uno dei casi in cui l’ontologia atomista che legittima molti aspetti della statistica induttiva rivela più
chiaramente la sua inadeguatezza: se i comuni fossero fungibili come gli atomi dello stesso elemento, un comune
qualunque potrebbe stare per tutti gli altri, senza distinzioni di aree geografiche, e neppure di nazionalità. Ma questo è
insostenibile, e quindi le agenzie scendono dal taxi dell’ontologia atomista e adottano una procedura che ne riconosce
implicitamente l’inadeguatezza.
60
Queste celle sono impropriamente dette ‘strati’ dalle agenzie di sondaggi, riecheggiando l’accezione del termine nella
teoria statistica: ma a rigore il termine ‘strato’ presuppone un solo fundamentum divisionis, e non la combinazione di due
(zona e dimensioni); esso inoltre implica — ad esempio in geologia — un certo ordine fra strato e strato. Pertanto esso
è correttamente applicabile alle fasce dimensionali ma non alle celle.
Questo tentativo di garantire la rappresentatività del campione rispetto alla proprietà ‘area di
residenza’ è piuttosto grossolano. Consideriamo ad esempio la fascia dimensionale più bassa
(comuni fino a 5.000 o fino a 10.000 abitanti) della zona detta “Nord-Est”, che comprende
Trentino, Alto Adige, Veneto, Friuli, Venezia Giulia, Emilia e Romagna. Fra i comuni di questa
cella possono essere individuati almeno quattro tipi significativamente differenti :
— comuni alpini e prealpini, con un’economia agro-pastorale, alta osservanza religiosa, alte
percentuali di voti alla Lega o a partiti analoghi ;
— comuni della Bassa Padana, con forti residue divisioni di classe fra possidenti e borghesi da
un lato, braccianti o discendenti di braccianti dall’altro ; completa scristianizzazione della classe
operaia, alte percentuali di voti alla sinistra ;
— comuni alla periferia di città come Trieste e Padova o sulla riviera del Garda e dell’Adriatico,
con una forte presenza di piccola e media borghesia sia dipendente sia indipendente e di
pensionati ; notevole secolarizzazione ed esposizione a influssi culturali internazionali ; buoni
risultati elettorali del centro laico e della destra ;
— comuni delle cinture industriali attorno a Bologna o a Venezia, con forte presenza di
borghesia impiegatizia e di élites operaie, parziale secolarizzazione, voto al Pds attorno al 40%.
Dato che in un sondaggio nazionale con circa 2.000 intervistati, i punti di campionamento
attribuiti a questa cella non saranno più di una dozzina, e dato che — almeno a quanto
61
dichiarano le agenzie — i comuni entro le varie celle sono estratti casualmente , può
benissimo capitare che i comuni di un certo tipo siano fortemente sovra— o sotto-rappresentati
fra quelli estratti. Se questo si verifica, automaticamente si riducono o accrescono a priori le
probabilità che gli individui appartenenti a certe categorie siano estratti nel campione, e quindi si
genera un campione non casuale.
Naturalmente, nulla esclude che i comuni estratti siano una miscela equilibrata dei quattro tipi
sopra descritti, e di altri ; ma — questo è il punto essenziale — nulla garantisce che lo siano.
La situazione potrebbe migliorare se il numero delle zone fosse aumentato e soprattutto se i loro
62
confini fossero disegnati tenendo conto della storia e delle tradizioni culturali . Ma questo
richiederebbe un impegno che i dirigenti di agenzia non hanno motivo di profondere nei comuni
sondaggi, almeno fino a quando i committenti non ve li costringeranno — una data che non
pare imminente.
Una volta costituite, nel modo visto, le celle, l’operazione immediatamente successiva è stabilire
quanti individui devono essere intervistati in ogni cella. La cosa è semplice: stabilito il totale di
individui da intervistare, si tratta di assegnare ad ogni cella un numero di interviste proporzionale
alla quota della sua popolazione sulla popolazione italiana. 63
61
Come vedremo presto, ci sono eccellenti motivi per sospettare che invece i punti di campionamento entro ogni cella
vengano scelti con criteri ben lontani da un’estrazione casuale; ma questo non migliora affatto la situazione, per i motivi
che vedremo.
62
Ad esempio, il Veneto e il Trentino dovrebbero essere uniti, anziché con l’Emilia-Romagna, con le cinque province
della Lombardia (Bergamo, Brescia, Como, Lecco, Sondrio) che presentano tradizioni religiose e politiche simili; il
“Centro” dovrebbe essere diviso in due separando le regioni e province con bassa osservanza religiosa e alto voto di
sinistra (Toscana, Umbria, Pesaro e Ancona) dalle altre; la Sardegna dovrebbe essere separata dalla Sicilia con cui ha in
comune solo il fatto di essere un’isola, e se mai riunita con Lazio, Abruzzi e Piceno (Marche meridionali). L’opportunità
di separare le due isole maggiori venne riconosciuta anche sul Bollettino Doxa n. 20 del 10 novembre 1955, p. 121:
“Soprattutto discutibile si presenta la riunione della Sicilia e della Sardegna sotto l’unica denominazione ‘Isole’: infatti
queste due entità geografiche presentano fortissime diversità dal punto di vista etnico ed economico, e dato che la
popolazione della Sicilia è quasi il quadruplo della Sardegna, ogniqualvolta si leggono risultati riguardanti le Isole si tratta
in sostanza di dati per la Sicilia un po’ deformati”. Ma la Doxa ha sempre tranquillamente usato il raggruppamento
‘Isole’, con pochissime eccezioni legate a ragioni molto specifiche (inchieste sulla popolarità di Segni, e simili).
Sociologi e politologi hanno avanzato molte proposte di divisione del paese in zone che tenevano conto delle tradizioni
culturali e politiche: fra le altre, Capecchi et al. (1968); Bartolini (1976); Mannheimer e Zajczyk (1982); Arculeo e
Marradi (1985); Cartocci (1988). Naturalmente, le agenzie di sondaggi ignorano queste pubblicazioni, come quelle
dell’ISTAT di cui si è detto in una nota precedente.
63
Un esempio: se gli italiani sono 60 milioni, e 1.200.000 risiedono nella cella costituita dalla 2° fascia dimensionale
della zona Nord-Ovest, in un campione di 2.000 persone a quella cella dovrebbero toccare 40 interviste (il 2% di 2.000,
così come 1.200.000 è il 2% di 60 milioni).
Subito dopo, si deve stabilire in quanti e quali comuni queste interviste saranno effettuate (cioè
quanti e quali comuni diventeranno p.s.u.), e come suddividere le interviste attribuite a quella cella
fra le p.s.u. della cella.
Per le fascia dimensionale più alta pare naturale che tutti i comuni diventino punti di
campionamento, perché è impensabile un campione nazionale di italiani privo, ad esempio, di
romani o di milanesi 64 . Per le fasce dimensionali medie e basse, le agenzie di sondaggi con le quali
ho avuto contatti seguivano, con minime variazioni fra loro, questa regola pratica: un solo punto di
campionamento per le celle cui toccavano 15 interviste o meno; un altro per ogni 10 (o frazione di
10) ulteriori interviste. Questo significa che, in un campione nazionale di 2.000 persone, tutti i
comuni con meno di 5.000 abitanti della zona “Centro” vengono rappresentati da 5 o 6 comuni, e
tutti quelli della zona “Sud” da 10-12 comuni.
Una volta stabilito quanti punti di campionamento toccano a una cella, per decidere quali essi
siano si ricorre (ufficialmente) a un’estrazione casuale. Un Bollettino Doxa del 1963 (n. 17-18
del 1° ottobre, p.223) è esplicito sul punto: “si è seguito il metodo del campione stratificato a
tre stadi, con estrazione completamente casuale delle unità di campionamento in ciascuno dei tre
65
stadi” .
Ma pochi anni dopo, sullo stesso Bollettino compare una dichiarazione in conflitto con la
precedente: “i comuni vennero scelti fra quelli costituenti la rete dei ‘punti di campionamento’
dell’Istituto Doxa” (n. 20-21 del 9 dicembre 1966, p.155). Dichiarazioni che parlano di una
scelta fra i “comuni costituenti la rete dei punti di campionamento della Doxa” compaiono anche
su vari altri bollettini successivi. Altre agenzie con cui ho avuto contatti non menzionavano
questa “rete”, ma nei progetti che mi hanno sottoposto dichiaravano — ad esempio — che i
punti di campionamento “saranno estratti casualmente in modo da essere rappresentativi della
loro regione per quanto riguarda la percentuale di diffusione della radio e della televisione”.
Questa dichiarazione è contraddittoria: come visto nella sez. 3, non si può estrarre un campione
in modo che sia casuale e contemporaneamente rappresentativo. A fortiori, se si scelgono dei
comuni da una “rete” precostituita non si può sostenere di averli estratti casualmente
dall’insieme dei comuni della cella. Per valutare almeno approssimativamente l’entità della
distorsione rispetto al principio di casualità bisognerebbe sapere da quanti comuni è costituita la
rete, con quali criteri è stata formata, per quanto tempo resta immutata, e — soprattutto — con
quali criteri sono scelti di volta in volta i comuni. Ma queste informazioni non sono,
ovviamente, a disposizione del pubblico : persino l’elenco dei punti di campionamento di un
sondaggio viene comunicato al committente solo dietro sua esplicita richiesta. Posso quindi solo
avanzare delle congetture, basate in parte su esperienze dirette, in parte su fonti pubblicate. Le
esperienze dirette qui rilevanti sono di tre tipi :
66
— tutte le (numerose) volte che, durante un briefing o per ragioni di controllo , sono venuto a
conoscenza del comune in cui risiedeva un intervistatore, è risultato che quel comune, piccolo o
grande che fosse, era stato “estratto casualmente” fra i punti di campionamento del sondaggio in
questione ;
— ogni volta che, ottenuta la lista dei punti di campionamento di un sondaggio nazionale, li ho
individuati uno per uno sulla carta geografica, ho riscontrato che tutti o quasi tutti i piccoli
comuni “estratti casualmente” si trovavano nelle adiacenze di grandi o medie città o lungo
grandi vie di comunicazione ;
64
Inoltre, le ditte di sondaggi hanno tutto l’interesse a includere nel loro campione le grandi città, dove certamente
dispongono di intervistatori professionisti, e quindi possono risparmiare sulle spese di trasferimento.
65
Il primo dei tre stadi cui allude il testo è l’estrazione dei punti di campionamento; il secondo è l’estrazione delle
sezioni elettorali; il terzo è l’estrazione dei singoli intervistati (vedi oltre, parr. 4.3 e 4.4).
66
Il briefing è una riunione in cui le caratteristiche del questionario usato per un sondaggio importante vengono
illustrate agli intervistatori professionisti di cui un’agenzia dispone in una certa area geografica, che allo scopo
confluiscono in una città logisticamente opportuna (se il sondaggio è meno importante si provvede per telefono). Di
solito un sondaggio nazionale prevede briefings in 5 o 6 sedi, tenuti da rappresentanti dell’agenzia. Può capitare che il
committente invii un proprio rappresentante (in genere un esperto di statistica o di metodologia) ad assistere al briefing
o a tenerlo; a questo titolo ho assistito, o tenuto personalmente, vari briefings .
Mentre il briefing è una procedura normale, è più raro che le prestazioni degli intervistatori siano controllate in sede di
codifica. Ma a me è capitato più volte di ottenere da un’agenzia che alcuni intervistatori rifacessero interviste troppo mal
eseguite, e in tali occasioni sono entrato in contatto diretto con gli intervistatori stessi.
— dopo ripetute esperienze come quelle sopra descritte, mi sono convinto che non era il caso di
affidare alle agenzie la scelta dei punti di campionamento. Quindi, in occasione di un sondaggio
che Tullio-Altan stava per compiere in Lombardia (Tullio-Altan e Cartocci 1979), preparai,
insieme con Cartocci, una lista dei punti di campionamento in cui comparivano vari comuni delle
valli alpine e prealpine. Ma le agenzie che consultammo rifiutarono di usare la nostra lista,
anche di fronte alla nostra offerta di pagare il doppio le interviste effettuate in quei comuni ;
dovemmo quindi spedire nelle valli alpine intervistatori da noi direttamente reclutati, addestrati e
retribuiti.
Fin qui le esperienze dirette. Da fonti pubblicate possiamo apprendere che sono stati estratti
campioni nazionali di 2.000 intervistati senza alcun addetto all’agricoltura (lo denuncia Capecchi
1972, 53), il che fa pensare che nessun comune rurale, collinare o montano fosse stato “estratto”
fra i punti di campionamento. Possiamo poi confrontare i due elenchi delle p.s.u. di importanti
ricerche dirette da Calvi, pubblicati con grande scrupolo in appendice ai relativi volumi (Calvi
1977 e Calvi 1980) insieme a molte altre informazioni preziose per valutare la fedeltà dei suoi
dati. Da questo confronto risulta che più della metà (71 su 138) dei punti di campionamento
usati nel secondo sondaggio erano stati usati anche nel primo sondaggio. Questo è un fortissimo
indizio dell’esistenza di una ristretta “rete” di punti di campionamento : infatti, visto che i
comuni italiani sono oltre 8.000, la probabilità che due liste di 138 comuni estratti casualmente
67
abbiano 71 elementi in comune è piccola al di là di ogni immaginazione.
Sembra difficile evitare di concludere, sia pure in via congetturale, sulla base di indizi forti e
convergenti, che:
a) le agenzie estraggono i comuni che diventano i loro punti di campionamento da una “rete” che
costituisce un piccolo sotto-insieme della totalità dei comuni;
b) tale rete è tendenzialmente permanente, o quanto meno viene modificata di rado e probabilmente
solo in piccola parte;
c) entrano di preferenza a far parte della “rete” i comuni raggiungibili dagli intervistatori con un
minimo di costi per l’agenzia (che rimborsa le spese di trasferimento), e cioè nell’ordine:
— quelli in cui risiedono gli intervistatori che lavorano per quella data agenzia (nessun costo di
trasferimento);
— quelli vicini ai precedenti (bassi costi di trasferimento), e quindi di preferenza i comuni situati
alla periferia di grandi e medie città; 68
— quelli situati lungo grandi vie di comunicazione (trasferimenti un po’ più costosi ma quanto
meno non disagevoli e quindi non sgraditi agli intervistatori);
d) un comune di montagna, o comunque costoso e faticoso da raggiungere, non ha alcuna
probabilità di entrare a far parte della “rete”, a meno che qualche intervistatore non vi risieda.
Se tutto ciò è vero, allora ci pare assai inopportuno parlare di campione ‘casuale’; un’espressione
che descrive assai meglio i fatti ci sembra essere ‘campione razionale’; più esattamente, usando le
categorie weberiane, campione zweckrational,
razionale rispetto ai mezzi
(economici
dell’azienda), anziché wertrational, razionale rispetto al valore (della correttezza scientifica).
D’altra parte, non si vede come ci si potrebbe attendere qualcosa di diverso da un’agenzia
commerciale, che come tale persegue fini di profitto, e quindi riduce i costi ovunque le è
consentito, altrimenti finisce fuori mercato. Naturalmente deve sperare che i committenti non
pretendano di controllare davvero le sue procedure. Per evitarlo un’agenzia fornisce su tali
69
procedure solo informazioni ridotte e generiche, e le sostituisce con un continuo ricorso a
67
Queste osservazioni non implicano minimamente una critica all’operato del prof. Calvi, che al contrario merita ogni
apprezzamento sia perché è uno dei pochissimi autori a fornire queste informazioni sulla propria ricerca, sia perché è
perfettamente consapevole dei limiti che esigenze organizzative ed economiche pongono alla fedeltà dei suoi dati e — a
differenza di molti responsabili di agenzia — dichiara esplicitamente tali limiti (vedi ad es. 1977, 25 e 135).
68
La tendenza a privilegiare, per mere ragioni di economia, i comuni vicini a grandi e medie città, o comunque non isolati,
produce dei campioni di sentimenti più secolarizzati e progressisti della generalità del paese, a meno che sia bilanciata da
tendenze contrarie nella scelta delle sezioni elettorali e degli individui da intervistare. Di questa eventualità diremo nei
paragrafi che seguono.
69
Limitatamente ai Bollettini della Doxa — che, come detto, sono praticamente l’unica fonte del genere accessibile al
pubblico — il continuo ricorso a questi termini è documentato in Siboni e Marradi (1989). Nelle parole di
un’intervistatrice, i committenti ricevono “molti paroloni su carta dorata che incarta un prodotto scadente” (Toller 1994,
termini che suonano bene e non costano niente, come ‘rappresentativo’, ‘casuale’, ‘scientifico’,
etc. Esattamente come Tartufo, che tanto più ricorreva a “devozioni” e giaculatorie quante più
magagne doveva coprire.
4.2. Se è ragionevole attendersi che nella maggior parte dei casi la scelta dei comuni in cui
effettuare le interviste si ispiri a criteri di razionalità economica immediata (massimo risparmio
sulle spese), nulla esclude che essa possa rispondere anche ai criteri di una razionalità economica di
più ampio respiro.
Supponiamo ad esempio che, per soddisfare gli interessi politici di un committente, si desideri
intervistare un campione di persone nel quale gli orientamenti conservatori in fatto di costume
sono particolarmente pronunciati. Basta orientarsi, in tutte le celle delle fasce dimensionali
medio-basse (nelle quali i comuni sono numerosi e spesso molto differenziati ; vedi l’esempio
portato nel paragrafo precedente) verso i comuni più spiccatamente rurali e isolati, evitando
invece i comuni periferici delle grandi città. Questo comporterà certamente maggiori costi e
problemi logistici, ma il sacrificio può essere giustificato dalla prospettiva di altre commesse da
quella parte politica.
Di converso, l’agenzia che desideri estrarre un campione particolarmente secolarizzato non ha
che accentuare la tendenza ad inserire nel campione i comuni delle “cinture” metropolitane,
privilegiando quelli dove il voto alla sinistra è più elevato.
In quasi tutte le celle in cui le agenzie di sondaggi suddividono il paese, coesistono comuni con
tradizioni politiche di sinistra, di centro o di destra; comuni rurali, urbani o periferici; comuni di
orientamento tradizionalista o secolarizzato. Una scelta oculata offre amplissime possibilità di
manovra a un’agenzia. Scegliendo ad hoc due o tre punti di campionamento per ogni cella nelle
fasce dimensionali medio-basse 70 , si può mutare profondamente la natura di un campione. E si
tratta di un delitto quasi perfetto, che lascia pochissime tracce, in quanto assai raramente la lista dei
punti di campionamento viene pubblicata, e ancor più raramente viene controllata da qualcuno
attento alle possibili distorsioni intenzionali.
Si obietterà che una forza politica non ha molto interesse ad alterare a suo favore i risultati dei
sondaggi pre-elettorali, perché non sono mai prevedibili le reazioni che una sua avanzata può
provocare sull’elettorato. Può darsi che si attraggano gli incerti o quelli che amano saltare sul
carro del vincitore ; può anche darsi però che i simpatizzanti più tiepidi, rassicurati dai sondaggi,
stiano a casa o facciano un picnic anziché andare a votare. E, specularmente, una manovra al
ribasso ha prospettive altrettanto incerte : può provocare una mobilitazione di tutti i fedeli, ma
anche la fuga delle frange opportuniste. Questi possibili effetti contrastanti dei sondaggi preelettorali sono stati descritti dai politologi americani, che vantano mezzo secolo di esperienza in
materia, e sono noti anche a noi.
Ci sono tuttavia situazioni, diverse da un’elezione, in cui quanto detto sopra non vale affatto:
situazioni in cui, cioè, i partiti sono ragionevolmente certi di avere tutto da guadagnare da un
determinato esito dei sondaggi da loro commissionati.
Ricostruiamo ad esempio la situazione precedente al referendum sul divorzio del 1974. L’istituto
del divorzio venne introdotto nell’ordinamento giuridico italiano dalla legge Fortuna-Baslini del
1° dicembre 1970. Contestualmente, per permettere al paese di esprimersi sulla questione, venne
introdotto anche l’istituto del referendum, dando soddisfazione alle forze cattoliche, che
sostenevano l’estraneità del divorzio alla coscienza dell’italiano medio. Venne infatti presentata
una richiesta di referendum, e subito dopo una proposta di modifica della legge Fortuna-Baslini
90).
70
Negli strati più alti i comuni sono assai meno numerosi, e quindi la possibilità di manovra si riduce. In questi casi
sarebbe possibile operare lo stesso genere di distorsione “politica” a livello più basso, cioè intervenendo nel secondo
stadio, cioè sulla scelta delle sezioni elettorali (vedi oltre, par. 4.3): in ogni grande città ci sono sezioni elettorali di destra
e di sinistra, tradizionaliste e modernizzate, etc. Tuttavia dare le necessarie istruzioni alla rete di intervistatori è più
faticoso e rischioso (perché la notizia diffondendosi può arrivare ad orecchie indiscrete). Tenderei pertanto, sempre su
base puramente congetturale, a ritenere improbabile che questo genere di interventi sia operato sui comuni più grandi.
per renderla meno sgradita ai cattolici e così “disinnescare la mina vagante del referendum”. I
partiti formarono una commissione che discusse e contrattò a lungo sulle modifiche da
71
approvare.
E’ evidente che durante la contrattazione sulle modifiche, i partiti antidivorzisti (Dc e Msi)
avevano tutto da guadagnare e niente da perdere dalla pubblicazione di sondaggi che mostravano
una maggioranza del paese ostile al divorzio ; tale notizia infatti rafforzava immediatamente la
72
loro posizione contrattuale entro la commissione, senza alcuna possibile conseguenza negativa .
E’ altrettanto evidente che i partiti divorzisti avevano un interesse uguale e contrario a sfruttare
nelle trattative notizie di sondaggi che rivelassero una maggioranza favorevole al divorzio.
Richiamato il “quadro politico”, vediamo ora come si comportarono quelle che al tempo erano le
due maggiori agenzie italiane di sondaggi. Durante la discussione sulla legge, la Doxa chiese tre
volte (giugno ’70, febbraio ’71, febbraio ’72) a campioni nazionali di italiani se erano pro o contro
il principio del divorzio (vedi fig. 3); la Demoskopea chiese loro la stessa cosa due volte (aprile
’70 e novembre ’71) 73 . Entrambe le agenzie posero anche due volte (febbraio ’72 e dicembre ’73
la Doxa; novembre ’71 e gennaio ’74 la Demoskopea) una domanda sulla propensione a votare pro
o contro l’abrogazione della legge sul divorzio nel referendum74 . Sulla base dei dati pubblicati nei
rispettivi bollettini 75 , si possono facilmente calcolare le cifre relative allo scarto fra intervistati
adulti contrari all’abrogazione (segno + ) e favorevoli all’abrogazione (segno — ) che si vedono
riportate nella tab. 1.
Tab. 1: Differenza fra % di favorevoli al divorzio (segno + )
e % di contrari al divorzio (segno — )
tema
periodo
principio
primavera ’70
principio
inverno ’71-72
legge
inverno ’71-72
legge
inverno ’73-74
legge
primavera ’74
sondaggio
Doxa
sondaggio
Demoskop.
—30,9%
(giu.’70)
—12,4%
(febb.’72)
—O,3%
(febb.’72)
+5,6%
(dic.’73)
+14,6%
(mar ’74)
—4,6%
(apr.’70)
+14,3%
(nov.’71)
+24,3%
(nov.’71)
+33,4%
(genn.’74)
+19,6%
(apr. ’74)
scarto
scarto corretto
per sfasamento
26,3%
27,3%
26,7%
28,2%
24,6%
26,1%
27,8%
27,3%
5%
4,5%
Il fatto che Doxa e Demoskopea abbiano compiuto quattro rilevazioni a brevissima distanza di tempo
l’una dall’altra consente di apprezzare più nitidamente l’entità e la stabilità dello scarto che divide i
due risultati: da uno scarto minimo poco inferiore ai 25 punti di percentuale a uno scarto massimo
vicino ai 28 punti di percentuale (prime quattro righe della tab. 1; della quinta riga dirò dopo) 76 .
71
I partiti di governo non vedevano infatti di buon occhio il referendum per l’ovvia ragione che esso spaccava in due la
maggioranza (Dc per l’abrogazione della legge, Psi e partiti laici minori contro). Ancora più ostile era il Pci, che non
voleva essere costretto a questo spiacevole dilemma: o prendere posizione contro la gerarchia cattolica su una questione di
coscienza apertamente, direttamente e davanti alle grandi masse elettorali, oppure defezionare dallo schieramento laico
come nel voto sull’art. 7 della Costituzione (riconoscimento del concordato fascista con la S. Sede).
72
Infatti, se poi si fosse effettivamente andati al referendum, un eventuale esito diverso da quello del sondaggio
avrebbe sempre potuto essere presentato come frutto di un mutamento di opinione intervenuto nel frattempo — come in
effetti fu fatto: vedi oltre.
73
Vedi il confronto fra i risultati di due coppie di sondaggi vicini nel tempo nelle due prime righe della tab. 1 (etichettate
‘principio’).
74
Vedi il confronto fra i risultati di queste due coppie di sondaggi nella terza e nella quarta riga della tab. 1 (etichettate
‘legge’).
75
“Bollettino Doxa” XXIV, n 17-18 (1970); XXV, n. 8-9 (1971); XXVI, n. 5-6 (1972); XXVIII, nn. 9 e 10 (1974);
“Panorama” 7 febbraio 1974 (per il sondaggio Doxa del dicembre 1973); “Ricerche Demoscopiche” III, n. 4 (1970); IV,
n. 2 (1972); VI, nn. 1 e 2 (1974).
76
Nella fig. 2 ho riportato le cifre dello scarto fra percentuali di risposte favorevoli e contrarie al divorzio sulle ordinate di
Sarebbe in ogni caso difficile attribuire una differenza di tale entità a redazioni diverse delle
domande ; peraltro le domande usate dalle due agenzie erano uguali. Sembrano poco plausibili
anche due spiegazioni alternative del divario, e cioè: a) istruzioni, date alle rispettive reti di
intervistatori, di influenzare o addirittura alterare le riposte nella direzione auspicata da ciascuna
agenzia (tali istruzioni, oltre che di esito incontrollabile, avrebbe presentato un alto rischio di
essere rivelate a un giornalista in cerca di scoops); b) una mera alterazione diretta delle cifre
totali prima della loro pubblicazione (essa sarebbe andata troppo platealmente contro l’etica
professionale). Visto che la fantasia non ci soccorre oltre nel trovare plausibili spiegazioni
alternative, non resta che attribuire una differenza così vistosa fra i risultati delle due agenzie a
77
una diversa politica di scelta dei punti di campionamento entro le diverse celle della griglia che
divide i comuni italiani per zona e dimensioni (vedi paragrafo precedente).
un diagramma cartesiano la cui ascissa è il tempo. Ciò rende più evidente il fatto che nel paese era in atto un rapido
spostamento di opinioni a favore del divorzio, la cui portata può essere stimata in mezzo punto di percentuale al mese.
Possiamo quindi correggere gli scarti fra i risultati di sondaggi vicini nel tempo in modo da renderli perfettamente
sincronici. Per farlo, basta togliere 0,5 allo scarto per ogni mese di differenza se il sondaggio della Doxa precede quello
della Demoskopea; aggiungere la stessa cifra se invece il sondaggio della Doxa segue quello della Demoskopea. Se si
esegue questa semplice operazione, la differenza in punti di percentuale tende a stabilizzarsi, cioè diventa ancora più
simile fra un sondaggio e l’altro (cifre date nell’ultima colonna della tabella, come “scarto corretto per sfasamento”): con
i dati grezzi la differenza varia fra un minimo di 24,6 e un massimo di 27,8; con quelli corretti per sfasamento essa
varia fra 26,3 e 28,2. Vedi i dettagli di queste stime e di questi calcoli in Marradi (1974, 591-601)
77
L’importanza della “rete dei punti di campionamento” (sampling frame) agli effetti dei risultati dei sondaggi è stata
Questa vicenda — che ho ricostruito in dettaglio per il suo valore emblematico — ha un seguito
non meno interessante. Nel febbraio ’74, fallito ogni tentativo di concordare una modifica alla
legge sul divorzio, venne indetto il referendum per il 12 maggio seguente. A questo punto, le
agenzie non avevano più l’esigenza di fornire “dati” che rafforzassero le posizioni dei rispettivi
committenti nelle trattative sulla modifica della legge. Diventava invece preminente l’esigenza di
tutelare la propria immagine “scientifica”, fornendo risultati quanto più vicini possibile a quello
che sarebbe stato il responso delle urne. La Doxa condusse un ultimo sondaggio nel marzo ’74, la
Demoskopea nell’aprile: i risultati, sempre sotto forma di scarto fra favorevoli e contrari, sono
riportati nell’ultima riga della tab. 1.
Come mostrano le cifre, la Doxa registrò un’impetuosa crescita del favore per il divorzio rispetto al
suo precedente sondaggio: 9 punti di percentuale in più in tre mesi (dal dicembre al marzo).
Contemporaneamente, la Demoskopea registrò un drammatico crollo dello stesso favore: 14
punti di percentuale in meno, sempre in tre mesi (gennaio-aprile). Di conseguenza, il divario fra
le due stime si ridusse da un abissale 27,8% a un più accettabile 5%.
Naturalmente, i bollettini delle due agenzie attribuirono all’elettorato (e più esattamente, alla
mobilitazione dello schieramento avverso) i due vistosi mutamenti uguali e contrari. Ma, visto
che lo stesso elettorato non può contemporaneamente divenire più secolarizzato e meno
secolarizzato, è difficile resistere alla tentazione di avanzare una spiegazione alternativa:
nell’imminenza del voto, ciascuna delle due agenzie, forse tenendo anche conto del divario fra i
rispettivi risultati precedentemente pubblicati, operò una serie di aggiustamenti al proprio elenco
dei punti di campionamento. Chi aveva un’eccedenza di comuni rurali, montani, o comunque
tradizionalisti,
ne avrà sostituiti alcuni con altri appartenenti alla stessa cella ma
presumibilmente più secolarizzati, perché industrializzati e/o situati nelle cinture peri-urbane o su
grandi vie di comunicazione. Chi aveva un’eccedenza inversa avrà compiuto la sostituzione
inversa. Entrambe le mosse nel tentativo di equilibrare meglio la propria rete di punti di
campionamento, rendendola un’immagine un po’ più fedele del paese, e quindi accrescendo le
probabilità che i risultati del proprio sondaggio si avvicinassero all’esito effettivo del
referendum.
4.3. Torniamo alla procedura a più stadi. Il secondo stadio è la scelta di alcune sezioni elettorali
nei comuni estratti al primo stadio; tali sezioni vengono denominate “punti di campionamento
secondario” (secondary sampling units, s.s.u.). Solo nei comuni molto piccoli 78 , l’intervistatore è
tenuto ad estrarre i nominativi degli intervistandi direttamente dalle liste elettorali dell’intero
comune; negli altri comuni l’intervistatore può estrarre un certo numero di sezioni elettorali, e poi
estrarre i nominativi dalle liste relative alle sole sezioni estratte.
Questo secondo stadio è stato introdotto dalle agenzie di sondaggi unicamente per minimizzare
tempi e costi di trasferimento dei loro intervistatori (e quindi le loro pretese economiche). Infatti,
dato che le sezioni elettorali sono ritagliate dai comuni con criteri di contiguità territoriale, le
persone estratte dalla stessa sezione abiteranno tutte a poca distanza l’una dall’altra. In tal modo
l’intervistatore, risparmiando molto sui tempi di trasferimento, potrà eseguire molte più interviste
nella stessa giornata; visto che inoltre risparmia anche sui costi di trasferimento, l’agenzia potrà
permettersi di pagare molto meno la singola intervista. Si potrebbe fare appello all’esigenza di
garantire la rappresentatività del campione per tipi di quartiere di residenza solo se la scelta delle
sezioni fosse “ragionata” anziché affidata ufficialmente alla sorte — e in effetti all’arbitrio degli
intervistatori (vedi oltre).
segnalata, fra gli altri, anche da Brislin, Lonner e Thorndike (1973, 74-75), che rilevavano come le previsioni elettorali
delle due maggiori agenzie inglesi differissero sistematicamente appunto per le differenti “reti” utilizzate.
78
Nel “Bollettino Doxa” n. 20-21 del 9 dicembre 1966, p. 155, si legge che “nei comuni più piccoli, in cui le sezioni
elettorali sono meno di 5, queste vennero considerate tutte”. Considerato che una sezione elettorale comprende
abitualmente fra i 600 e i 700 elettori, questo significa che la Doxa istruisce i propri intervistatori ad estrarre i nominativi
direttamente dalle liste relative a tutto il comune solo se il comune è inferiore ai 3.000 elettori, cioè circa 5.000 abitanti.
Altre agenzie stabiliscono il limite dei 10.000 abitanti.
Anche in questo caso, quindi, il criterio effettivamente dominante è la razionalità economica
(zweckrationalität ; vedi sopra, par. 4.1) dell’azienda, e non la wertrationalität, razionalità
rispetto al valore (di avere un campione di buona qualità). Infatti, “l’indipendenza reciproca dei
singoli soggetti campionati... è... requisito fondamentale per un campionamento casuale”
(Corbetta 1972, 350). “Per gli scienziati sociali, il requisito dell’indipendenza statistica significa
che le possibilità di interazione fra i soggetti devono essere ridotte al minimo” (Lazerwitz 1968,
279). Ma è un po’ difficile dare per scontato che non ci sia alcuna interazione fra numerosi
abitanti dello stesso isolato, o dello stesso vicinato.
Di conseguenza, gli statistici sono concordi nel dichiarare che ogni procedura definibile come
clustering (raggruppamento, con qualsiasi criterio, dei membri di un campione) ha come
conseguenza “un errore medio di campionamento più alto che nel campionamento semplice”
(Sadocchi 1984, 115; analogamente Lazerwitz 1968, 300). Stephenson definisce “perniciosi”
gli effetti del clustering sulla precisione delle stime (1979, 481). Si capisce come mai la teoria
statistica sia così sospettosa del campionamento a più stadi — anche se la legittimazione del
campionamento “stratificato” gli ha fornito una copertura di fatto.
Questo sia detto relativamente al semplice principio dell’estrazione dei nominativi dalle liste di
sezione anziché da quelle comunali. Va aggiunto che, come spesso accade, il modo in cui il
principio è attuato può aggravare molto la situazione. Le agenzie proclamano concordemente che la
scelta delle sezioni elettorali (s.s.u.) all’interno di ciascun comune è — come dubitarne? —
casuale. D’altra parte, in un “Bollettino Doxa” si legge, ad esempio: “In un secondo stadio venne
estratto, in ogni comune, un adeguato numero di sezioni elettorali in modo che tutti i diversi tipi
di aree abitate del comune (le zone centrali e periferiche, le frazioni e le case isolate) risultassero
rappresentate nelle giuste proporzioni” (n. 14-15 del 28 giugno 1972, p. 175 (corsivo mio). Come si
è mostrato nella sez. 3, il concetto di estrazione casuale e il concetto di estrazione “fatta in modo
che...” sono incompatibili.
Ma, a parte i resoconti delle agenzie, si può sospettare che la tensione fra principio di casualità e
principio di rappresentatività (che sta a monte dell’estrazione “in modo che”: vedi sopra, par. 3.2)
venga tranquillamente risolta, nei fatti, a favore di un terzo principio, estraneo a entrambi:
ancora il principio di razionalità rispetto ai mezzi, ma questa volta applicato dall’intervistatore nel
suo proprio interesse. Che è, naturalmente, quello di “estrarre” sezioni vicine fra loro e vicine alla
propria abitazione (se abita nel punto di campionamento, come accade spesso), e/o al proprio
luogo di lavoro o di studio, oppure al proprio luogo di accesso (stazione, parcheggio comodo, etc.)
al territorio del comune dove deve fare interviste 79 . Visto che l’intervistatore opera talvolta per
decenni in una ristretta zona attorno al suo luogo di residenza, non gli sarà certo difficile farsi un
quadro delle sezioni da “estrarre casualmente” nei pochi comuni dove gli capita abitualmente di
intervistare. 80
Un altro aspetto del tutto, ma inopportunamente, trascurato è il numero di interviste assegnate a
ciascuna sezione (s.s.u.). E’ ovvio che maggiore è tale numero, più comoda è la vita per
l’intervistatore, ma più alto è il clustering bias (distorsione dovuta alla violazione del requisito di
indipendenza dei membri). In letteratura si raccomanda di non superare le 5 interviste per s.s.u.
(Stephenson 1979, 490) o al massimo le 10 (Perry 1979, 315). Questo argomento non è trattato
nel Bollettino della Doxa, o nei rapporti sottopostimi in quanto committente dalle agenzie: forse
l’ampiezza delle s.s.u. è di fatto considerata materia di competenza esclusiva degli intervistatori.
79
Anche quando i punti di campionamento secondari sono assegnati dalle agenzie, sotto forma di incroci o numeri
civici dai quali partire nel “campionamento per spot” (city-block sampling ; vedi sopra, nota 17), gli intervistatori
tendono a manipolarli per ridurre i propri spostamenti (lo ammette la Toller 1994, 86-7).
80
Naturalmente, non voglio affatto escludere l’esistenza di intervistatori scrupolosi che ogni volta estraggono
casualmente le loro brave sezioni. Voglio solo far presente la banale considerazione che, data l’alta incidenza dei tempi
(e costi) di trasferimento, e dato che nessuno esercita un controllo sulla scelta delle sezioni (l’agenzia non ha alcun
interesse a farlo se il committente non lo richiede, e il committente medio non ha la competenza necessaria per
richiederlo), estrarre davvero casualmente le proprie sezioni quando è così facile andare nei quartieri vicino casa, è un
comportamento che richiede una dose notevole di abnegazione. Una dose che, sia pure in questo paese di navigatori, di
eroi e di santi, non è il caso di dare per scontata. E, visto il livello generalmente basso delle retribuzioni per intervista,
neppure di richiedere. Non si deve mai scordare, infatti, che l’intervistatore è “mal addestrato, mal pagato, peggio
seguito e tanto meno controllato” (Toller 1994, 90).
Stando così le cose, è difficile escludere che qualche intervistatore “se ne approfitti”, magari
senza neppure cercare di salvare le apparenze (tanto, questo aspetto non è mai oggetto di
controllo : cfr. Boccuzzi 1985 ; Toller 1994). Mi è infatti capitato di trovare, a un controllo del
tutto occasionale, trenta intervistati milanesi che risiedevano tutti nella stessa strada, nell’arco di
pochi numeri civici ; altri dieci risiedevano in una piazza limitrofa. Insieme, essi costituivano
81
quasi la metà delle interviste assegnate al comune di Milano in un sondaggio nazionale : mezza
Milano racchiusa in un fazzoletto.
4.4. Siamo arrivati così al terzo stadio della procedura di estrazione, con la quale i nomi degli
individui sono estratti dalle liste delle sezioni elettorali (per i comuni molto piccoli, come si è visto, i
nomi sono estratti direttamente dalle liste generali; si salta il secondo stadio).
In questo stadio, com’è ovvio, la libertà dell’intervistatore è massima, e quindi l’aneddotica a
disposizione di chi abbia una certa esperienza di lavoro con le agenzie è vastissima 82 . Accennerò
rapidamente ad alcune delle forme di distorsione che emergono, per poi concentrarmi su quelle più
direttamente pertinenti alla casualità dell’estrazione.
La distorsione che il profano tende a immaginare come la più frequente (interviste inventate di
sana pianta), è relativamente rara. Lo dichiara un’ex intervistatrice (Toller 1994, 87-8) e me lo
83
hanno confermato tutti gli intervistatori con cui ho avuto occasione di parlare in confidenza .
Le giustificazioni addotte da chi ammette di aver inventato interviste sono sempre le stesse:
“sfuggire alla persecuzione telefonica di una capo-zona che insiste perché i tempi di consegna
84
siano rispettati” (ibi) e sfuggire alla noia di somministrare “tutti quei cartellini” . Le batterie di
scale Likert o domande simili — che fanno la felicità dei metodologi perché possono trattarle
con tecniche quantitative di analisi — sono vittime pre-destinate degli intervistatori, che per
ridurre i tempi le compilano spesso di testa loro sulla base dell’idea che si sono fatti
85
dell’intervistato.
Veniamo infine ai problemi legati all’estrazione casuale dei nominativi. E’ previsto che ogni
intervistatore la effettui applicando una tavola di numeri casuali, fornita dall’agenzia, alle liste
elettorali delle sezioni scelte — o, per i piccoli comuni, dell’intero comune. Anche in questo
stadio, ci saranno senz’altro intervistatori scrupolosi che procedono effettivamente così; ma lascio
valutare al lettore quanto sia probabile che un intervistatore che opera magari da dieci anni nello
stesso comune (e quindi vi ha intervistato centinaia o migliaia di persone) ricorra davvero alla
tavola dei numeri casuali anziché rivolgersi a persone di cui ha già più volte constatato la
disponibilità ad essere intervistate. A sentire la Toller, “ogni intervistatrice con un po’ di
esperienza si costruisce una fitta rete di amici e conoscenti che a loro volta indicano altri amici e
conoscenti. Tra gli intervistatori questo si chiama effetto capannello“ (1994, 88). Anche il
81
Il sondaggio, che prevedeva 2.500 interviste, era stato commissionato ad un’agenzia milanese dall’Istituto
universitario presso il quale ero assistente negli anni ’70.
82
Chi non abbia esperienza diretta può leggere i classici saggi di Roth (1965) e Peneff (1988). Vedrà così che i
problemi non riguardano solo l’Italia, né solo i tempi recenti.
83
Mi è capitato assai più spesso di sentire degli studenti che confessavano di aver riempito di sana pianta o completato
— naturalmente a casaccio — dei moduli di rilevazione di censimenti o di altre indagini periodiche dell’ISTAT, dopo
aver vanamente tentato di farli compilare o completare dagli interessati, spesso irrintracciabili (cfr. il già ricordato
tascabile con le rivelazioni di un rilevatore censuale: Pasquali 1992). E dire che i dati censuali sono ritenuti dati “duri”,
cioè particolarmente attendibili.
84
I cartellini (gadgets) sono usati per attrarre l’attenzione dell’intervistato. Amati dai metodologi e dalle agenzie, sono
aborriti dagli intervistatori, che vedono in essi “il motivo principale dello scadimento di interesse e dell’affaticamento da
parte degli intervistati” (Toller 1994, 89).
Ritengo significativo il fatto che nessun intervistatore mi abbia addotto come motivazione il desiderio di evitare una
trasferta disagevole (neanche la Toller lo menziona). Evidentemente, i vari accorgimenti che ho provato a ricostruire nei
paragrafi precedenti sembrano efficaci nel ridurre al minimo l’incidenza delle trasferte disagevoli.
85
“Il salto di parte dell’intervista e la successiva invenzione da parte dell’intervistatore è ancora più probabile nel caso di
tabelle macchinose... In breve tempo si diviene convinti di essere perfetti conoscitori del genere umano” (Toller 1994,
88-9).
Sui risultati di controlli sul campo circa il modo in cui alcuni intervistatori sottopongono le domande in forma di batteria,
vedi una documentazione in Marradi (1989, 112-3).
Bollettino Doxa ha riconosciuto “la tendenza degli intervistatori di avvicinare prevalentemente
conoscenti o amici di conoscenti” ammettendo che essa “poteva [sic] introdurre nel processo di
scelta un elemento deformante”. 86
E’ molto difficile aver prove dirette di questo genere di distorsioni (anche se mi sono capitate
intervistatrici che ammettevano di aver intervistato gruppetti di amiche, separatamente o persino
tutte insieme). Un attento lavoro di controllo sui questionari inoltrati dall’agenzia può far
emergere, peraltro, situazioni gravemente sospette.
Sfogliando un pacco di questionari provenienti da Roma in una ricerca degli anni ’70 notai una
lunga sequenza di persone con idee di estrema sinistra. Incuriosito, controllai a tappeto tutti i
questionari degli intervistati romani : su 127, 92 avevano meno di 25 anni (circa otto volte tanto
il numero che doveva toccare in proporzione a quella fascia di età). Quasi tutti questi giovani
intervistati professavano idee di estrema sinistra. Visto che i recapiti non risultavano concentrati
in particolari vie o quartieri, pensai che gli intervistatori romani dell’agenzia fossero quasi tutti
giovani che interrogavano esclusivamente o quasi dei loro compagni di università e/o ex
compagni di medie superiori, scegliendoli con un criterio di affinità politica. L’effetto aggregato
di tutte queste micro-scelte, parzialmente ideologiche, parzialmente comode (intervistare amici,
magari in gruppo), era che la tranquilla Roma ministeriale di allora appariva una ribollente
Shanghai in piena rivoluzione culturale. La cosa può far sorridere il lettore ; un po’ meno chi ha
investito anni di lavoro in un progetto di ricerca di ambito nazionale e scopre che le informazioni
relative alla capitale sono troppo distorte per essere utilizzabili.
Conseguenze meno gravi hanno le distorsioni che riguardano città più piccole : scoprii per es.
che in un sondaggio il 90% delle persone intervistate a Brescia (una delle città più “bianche”
d’Italia) si dichiarava iscritto al Pci, e che in un altro quasi tutti gli intervistati a Ravenna
(roccaforte delle sinistre da oltre un secolo) dichiaravano di votare per il Partito Liberale.
Pur nella diversa gravità delle conseguenze, episodi come questi recano però tutti lo stesso
avvertimento: non esistono praticamente limiti alle libertà che si può prendere un intervistatore se
sa di non essere controllato. L’incidenza numerica di episodi del genere potrebbe anche esser
considerata non preoccupante, se fossero gli unici emersi in una serie di controlli sistematici. Ma
non sono stati fatti controlli sistematici — almeno, non da me. Gli episodi ricordati in questo
paragrafo, come in tutto il saggio, sono invece emersi per caso, quando ho approfondito qualche
stranezza che mi aveva colpito in sede di codifica o in sede di analisi. Può darsi che fossero gli
unici casi di distorsione grave nei sondaggi con cui ho avuto a che fare; può darsi che essi fossero
soltanto la punta di un iceberg.
4.5. Ho dedicato molto tempo al campionamento “a più stadi” data la sua diffusione e la sua
importanza. Una conclusione mi sembra imporsi: ridurre le distorsioni che esso comporta al
principio dell’estrazione causale è possibile solo a patto di straordinari investimenti (di impegno e
di risorse). Bisognerebbe costituire un numero maggiore di celle definite meglio (par. 4.1), ed
estrarre davvero casualmente i comuni entro le celle, le sezioni elettorali entro i comuni, gli
intervistandi entro ciascuna sezione elettorale (parr. 4.1, 4.3, 4.4). Se il committente volesse avere
la garanzia che tutto ciò sia fatto dovrebbe intervenire in ognuna di queste fasi (quindi in centinaia
di comuni sparsi sul territorio), con una mobilitazione di risorse non realisticamente proponibile.
Nei sondaggi di ambito più limitato, il criterio usato abitualmente per garantire la rappresentatività
del campione su alcune proprietà che si ritengono essenziali è l’assegnazione di quote (vedi sopra,
par. 3.2). Ad ogni intervistatore viene consegnata una griglia (sul tipo di quella riprodotta nella
fig. 4) con il numero di persone da intervistare nelle
86
N. 5-6 del 30 gennaio 1978, p. 34.
varie categorie. E’ prevedibile
che ciascun intervistatore, per
minimizzare la fatica e il rischio
di rifiuti, si rivolga a persone che
conosce, magari a familiari,
parenti e amici 87 : è probabile che
fra questi le persone del suo
stesso livello di istruzione, status
sociale e ambiente, quartiere,
opinione politica etc., siano
presenti in proporzione assai
maggiore (anche se è ignoto
quanto maggiore) che nell’intera
popolazione.
Se ci proponiamo di evitare
queste distorsioni, preparando una
griglia che tenga conto anche di
quelle variabili, ci troviamo di
fronte a una serie di ulteriori
problemi:
a) Non è detto che si conosca la distribuzione nella popolazione di tutte le proprietà sulle quali
vorremmo garantire la rappresentatività del campione; di molte conosceremo magari la
distribuzione monovariata, ma non quella congiunta con le altre proprietà della griglia. Se non
conosciamo la distribuzione congiunta di una proprietà con tutte le altre della griglia, non
possiamo inserirla nella griglia stessa, e quindi non possiamo garantirci la rappresentatività
rispetto ad essa.
b) Di alcune proprietà è teoricamente possibile conoscere la distribuzione nella popolazione, con
alcune distorsioni (si pensi al reddito) e/o limitazioni (si pensi alle opinioni politiche), ma può
essere ancora più arduo, e talvolta impossibile, all’intervistatore accertare attendibilmente lo stato
nei singoli casi. Anche rispetto a queste proprietà la griglia risulta inutilizzabile.
c) Il numero di celle della griglia cresce esponenzialmente all’aumentare del numero delle
proprietà e dei singoli stati presi in considerazione: una griglia come quella della fig. 4, con tre
sole proprietà e poche categorie, è già complessa da maneggiare. Gli intervistatori incontrano
assai spesso difficoltà a riempire alcune delle celle, cioè a trovare il numero richiesto di persone
con i requisiti desiderati e disposte a farsi intervistare. Ma anche se risolvessimo tutte queste
difficoltà e trovassimo intervistatori così abili e pazienti da gestire la mostruosa complessità di una
griglia che garantisca un campione rappresentativo rispetto a 5-6 proprietà anziché le solite 2 o 3,
tutto questo sforzo servirebbe solo a spostare il problema delle distorsioni qualche spanna più in là:
le proprietà la cui distribuzione può essere attivamente distorta da una “scelta ragionata” del
campione sono innumerevoli, e sarebbe follia illudersi di poterle controllare tutte.
Sono stati proposti vari criteri per ridurre il principale fattore di distorsione della casualità, cioè la
discrezionalità degli intervistatori nella scelta degli intervistandi entro le varie celle della griglia;
dei criteri a me noti, il più efficace sembra essere il cosiddetto probability sampling with quotas,
proposto da Sudman (1966). Confrontando i dati di vari sondaggi, Stephenson ha dimostrato
(1979) che esso presenta svantaggi non gravi, e anche qualche vantaggio, rispetto alle tecniche “a
più stadi” di cui si è detto lungamente.
87
E’ questo “l’effetto capannello” di cui parla la Toller (1994, 88).
Ad ogni modo, sarebbe il caso di essere tutti più consapevoli dell’incompatibilità fra l’obiettivo
della rappresentatività garantita su tutte le proprietà e la casualità dell’estrazione. Solo se ci si
contenta di garantire la rappresentatività su un numero ridottissimo di proprietà (una, due o, in
condizioni molto favorevoli, tre) si potrà soddisfare il requisito di un’estrazione veramente
casuale (pari probabilità a priori di essere estratto per ciascun membro della popolazione). Il
criterio da seguire è il campionamento sistematico (vedi sopra, par. 1.1), con un semplice
accorgimento.
Vediamo come fare, partendo dal caso più semplice: si vuole estrarre un campione casuale degli
adulti residenti nella provincia X, garantendo la sua rappresentatività sulla proprietà ‘comune di
residenza’. Si deve allora predisporre un elenco di tutti gli adulti della provincia, ordinati per
comune (prima tutti i residenti nel comune a, poi tutti i residenti nel comune b, e così via).
Dopodiché si stabilisce il passo (il numero di nomi in ciascuno dei segmenti uguali in cui si divide
l’elenco), si estrae casualmente un numero pari o inferiore al passo, e tutti gli individui che hanno
quella posizione entro i vari segmenti entrano nel campione. In questo modo si garantisce sia la
pari probabilità a priori di tutti gli individui di entrare nel campione, sia la rappresentatività del
campione sulla proprietà ‘comune di residenza’. Ogni comune avrà infatti un numero di estratti
pari alla sua quota, più o meno una frazione di unità. 88
Se si vuole garantire la rappresentatività del campione rispetto alla distribuzione congiunta del
sesso e del comune di residenza basterà elencare entro ogni comune prima gli adulti di un sesso e
poi quelli dell’altro sesso; la procedura resterà poi quella appena descritta. Dovrebbe essere
evidente che essa darà ad ogni gruppo (composto ad esempio dai maschi adulti residenti nel
comune X) la stessa garanzia di cui sopra: un numero di estratti pari alla sua quota, più o meno
una frazione di unità.
Dovrebbe essere altrettanto evidente che se introduciamo altre proprietà, il numero dei gruppi
cresce esponenzialmente col numero delle proprietà e delle loro categorie (sono infatti come celle
di una griglia: vedi sopra), e di conseguenza i gruppi divengono così piccoli che anche una
frazione di unità diventa significativa nel sovra- o sotto-rappresentarli.
Il secondo limite del criterio qui proposto è che esso — se si vuole ricorrere a interviste faccia-afaccia — si può applicare solo in ambiti territoriali limitati, altrimenti si ripropone il problema dei
costi di trasferimento degli intervistatori. Potrebbe peraltro essere applicato, in un sondaggio
telefonico, a un campione nazionale di utenze telefoniche 89 garantendone la rappresentatività per
distretto — naturalmente a condizione di potere ordinare per distretto le utenze telefoniche.
Bibliografia
ARCULEO, Antonella
MARRADI, Alberto
(1985) Relazione fra elezioni e referenda negli
anni settanta, in "Rivista Italiana di Scienza Politica" XV, 1
(aprile): 99-141.
BAKAN, David
(1966) The Test of Significance in Psychological Research, in
"Psychological Bullettin" LXVI, 6 (dicembre): 423-37.
BARNES, S. Barry
(1972) Introduction, in S. B. Barnes (ed.), Sociology of Science.
Harmondsworth: Penguin.
BARTOLINI, Barbara
(1976) Insediamento subculturale e distribuzione dei suffragi in
Italia, in "Rivista Italiana di Scienza Politica" VI, 3
(dicembre): 481-514.
88
Vediamo perché con un esempio. Supponiamo che si voglia inserire nel campione un adulto su 100, e che il
comune più piccolo abbia 572 residenti adulti. La sua quota è quindi 5,72 membri del campione. Con il
criterio che sto proponendo, gliene toccheranno 5 o 6 a seconda di quale sarà il numero estratto casualmente. Ci
sono 72 probabilità su 100 che gliene tocchino 6: quindi la sua quota sarà in effetti riprodotta dentro il
campione come meglio non si potrebbe da un punto di vista matematico.
89
Sul perché dico ‘utenze’ anziché ‘utenti’ o ‘individui’ vedi sopra, par. 1.1.
BECKENBACH, Andreas (1995) Computer-Assisted Questioning: the New Survey Methods in
the Perception of the Respondents, in “Bulletin de
Méthodologie Sociologique” XLVIII, 9: 82-100.
BLALOCK, Hubert M.
(1960) Social Statistics. New York: McGraw-Hill.
Citazioni dalla trad. it. Statistica per la ricerca sociale.
Bologna: Il Mulino, 1970.
BOCCUZZI, Ermelinda
(1985) Parcellizzazioni e reificazioni nelle ricerche sociologiche: il
punto di vista di un'intervistatrice, in "Rassegna Italiana di
Sociologia" XXVI, 2: 239-260.
BOSIO, Albino Claudio (1996) “Grazie no!”; il fenomeno dei non rispondenti, in “Quaderni di
Sociologia” XL, 10: 31-44.
BRICK, J. Michael
WAKSBERG, Joseph
(1995) Bias in List-Assisted Telephone Samples, in
“Public Opinion Quarterly” LIX: 218-235.
CALVI, Gabriele
(1977) Valori e stili di vita degli italiani. Indagine psicografica
nazionale 1976. Milano: ISEDI.
CALVI, Gabriele
(1980) La classe fortezza. Scelte degli elettori e responsabilit{ della
classe politica in Italia. Milano: Angeli.
CAMPBELL, Donald T. (1963) Experimental and Quasi-Experimental
STANLEY, Julian C.
Designs for Research. Chicago: Rand-McNally.
CAPECCHI, Vittorio
(1972) Struttura e tecniche della ricerca, in Pietro Rossi (cur.),
Ricerca sociologica e ruolo del sociologo. Bologna: Il
Mulino, pp. 23-120.
CAPECCHI, Vittorio
et al.
(1968) Il comportamento elettorale in Italia.
Bologna: Il Mulino.
CARTOCCI, Roberto
(1988) Otto risposte a un problema: la divisione dell'Italia in zone
politicamente omogenee, in "Rivista Italiana di Scienza
Politica" XXX, 1 (gennaio): 69-101.
CASTELLANO, Vittorio (1971) Elementi di teoria dei campioni. Roma: Ilardi.
HERZEL, Amato
CERI, Paolo
(1994) A che cosa servono i sondaggi, in “il Mulino” XLIII, 355
(settembre): 885-901.
CHIARI, Giorgio
CORBETTA, Piergiorgio
(1973) Il problema del campionamento nella
ricerca sociologica, in "Rassegna Italiana di Sociologia" XIV, 3
(giugno): 473-513 e 4 (ottobre): 643-667.
CORBETTA, Pergiorgio (1972) Sulla utilizzazione nella ricerca sociologica dei tests statistici di
significatività, in "Rassegna Italiana di Sociologia" XII, 2
(aprile): 341-64.
DONALD, Marjorie
(1960) Implications of Nonresponse for the Interpretation of Mail
Questionnaire Data, in "Public Opinion Quarterly" XXIV, 1
(spring): 99-114.
DRAGHI, Stefano
(1982) Le proiezioni dei risultati elettorali, in “Quaderni di
Sociologia” XXX, n. 2: 437-455.
DRAGHI, Stefano
(1996) L’anticipazione dei risultati elettorali. Exit polls e proiezioni,
in AA.VV., Cento anni di indagini campionarie. Roma:
Società Italiana di Statistica, 129-149.
FERBER, Robert
WALES, Hugh G.
(1952) Detection and Correction of Interviewer
Bias, in "Public Opinion Quarterly" XVI, 1 (spring): 107127.
FISHER, Ronald Aylmer (1922) On the Mathematical Foundations of Theoretical Statistics, in
"Philos. Transactions of the Royal Society", serie A,
CCXXII: 3O9-368.
GOYDER, John
(1982) Factors Affecting Response Rates to Mailed Questionnaires,
in "American Sociological Review" XLVII, 4 (summer):
550-53.
GROVES, Robert M.
(1989) Survey Errors and Survey Costs. New York: Wiley.
GROVES, Robert M.
KAHN, Robert L.
(1979) Surveys by Telephone. A National Comparison
with Personal Interviews. NY: Academic Press.
HAGOOD, Margaret Jarman (1941) Statistics for Sociologists. New York: Reynal & Hitchcock.
HEBERLEIN, Thomas A. (1978) Factors Affecting Response Rates to Mailed
BAUMGARTNER, Robert
Questionnaires: A Quantitative Analysis of the Published
Literature, in "American Sociological Review" XLIII, 4
(august): 447-62.
HENKEL, Ramon E.
(1976) Tests of Significance. London: Sage.
HERZOG, A. Regula
RODGERS, Willard L.
(1983) Interviewing Older Adults: A Comparison of
Telephone and Face-to-Face Modalities, in “Public Opinion
Quarterly” XLVIII: 356-69.
HOGBEN, Lancelot T.
(1957) Statistical Theory. The Relationship of Probability,
Credibility, and Error. New York: Norton.
HYMAN, Herbert H.
(1972) Secondary Analysis of Sample Surveys. New York: Wiley.
I.S.T.A.T.
(1963) Classificazione dei comuni secondo le loro caratteristiche
urbane e rurali, in “Metodi e norme”, 5 (luglio).
I.S.T.A.T.
(1986) Classificazione dei comuni secondo le loro caratteristiche
urbane e rurali, in “Note e relazioni”, n. 2.
KEETER, Scott
(1995) Estimating Telephone Noncoverage Bias with a Telephone
Survey, in “Public Opinion Quarterly” LIX: 196-217.
KIESLER, Sara
(1986) Response Effects in the Electronic Survey, in “Public
Opinion Quarterly” L: 402-13.
KISH, Leslie
(1957) Confidence Intervals for Clustered Samples, in "American
Sociological Review" XXII (april): 154-65.
KISH, Leslie
(1959) Some Statistical Problems in Research Design, in "American
Sociological Review" XXIV, 3 (june): 328-38.
KISH, Leslie
(1965) Survey Sampling. New York: Wiley.
LAZERWITZ, Bernard
(1968) Sampling Theory and Procedures, in Hubert M. Blalock and
Ann B. Blalock (eds.), Methodology in Social Research.
New York: McGraw-Hill, pp. 278-328.
MANNHEIMER, Renato
(1985) Metodologia sociologica e rilevamento delle tendenze
dell'opinione pubblica, in Vincenzo Zeno-Zencovich (cur.),
I sondaggi di opinione ed elettorali. Napoli: Jovene, pp.
146-56.
MANNHEIMER, Renato
(1996) Sull’affidabilità dei dati, in “Quaderni di Sociologia” XL,
10: 5-30.
MANNHEIMER, Renato (1982) L'astensionismo elettorale. Elementi di
ZAJCZYK, Francesca
analisi a partire dai risultati del referendum 1981, in
"Quaderni di Sociologia" XXX, nn. 2-3-4: 399-436.
MARQUIS, Kent H.
(1977) Survey Response Rates: Some Trends, Causes and
Correlates. Santa Monica: Rand Paper Series.
MARRADI, Alberto
(1974)
MARRADI, Alberto
(1989) Casualità e rappresentatività di un campione nelle scienze
sociali: contributo a una sociologia del linguaggio
scientifico, in Renato Mannheimer (cur.), I sondaggi
elettorali e le scienze politiche: Problemi metodologici.
Milano: Angeli, pp. 51-134.
Analisi del referendum sul divorzio , in "Rivista Italiana di
Scienza Politica" IV, 3 (dicembre): 589-644.
MACKENZIE, Donald A. (1981) Statistics in Britain, 1865-1930. The Social Construction of
Scientific Knowledge. Edinburgh: University Press.
MORRISON, Denton
HENKEL, Ramon E.
(eds., 1970) The Significance Test Controversy: A
Reader. Chicago: Aldine.
NATALE, Paolo
(1996) Quanto valgono gli exit-polls? in “Quaderni di Sociologia”
XL, 10: 45-69.
ORSI, Renzo
(1985) Probabilità e inferenza statistica. Bologna: Il Mulino.
PARISI, Arturo
PASQUINO, Gianfranco
(1977) Relazioni partiti-elettori e tipi di voto, in
Parisi e Pasquino (curr.), Continuità e mutamento elettorale in Italia.
Bologna: Il Mulino, pp. 215-249.
PASQUALI, Marco
(1992) Ho fatto il Censimento. Roma: Millelire.
PAVSIC, Rita
(1996) Electronic Surveys, in Ezio Marra e Tullio Romita (curr.),
L’officina dei dati. Strumenti per la ricerca sociale nella
società dell’informazione. Firenze: Arnaud.
PENEFF, Jean
(1988) The Observer Observed: French Survey Researchers at
Work, in "Social Problems" XXXV, 5 (december): 520-35.
PITRONE, Maria Concetta (1984) Il sondaggio. Milano: Angeli.
REID, S.
(1942) Respondents and Non-Respondents to Mail Questionnaires,
in "Educational Research Bulletin" XXI: 87-96.
ROSITI, Franco
(1995)
ROTH, Julius
(1965) Hired Hand Research, in "American Sociologist" I, 1
(november): 190-6.
SADOCCHI, Sandro
(1984) Introduzione al campionamento statistico. Firenze: Alfani.
SARIS, Willem E.
(1989) A Technological Revolution in Data Collection, in “Quality
and Quantity” XXIII, 3-4: 333-49.
Ideologia del sondaggio: considerazioni impolitiche,
relazione al convegno “Ragione democratica e qualità dei
sondaggi”. Milano, 7 aprile.
SCHUMPETER, Joseph A. (1942) Capitalism, Socialism, and Democracy. New York: Harper &
Row.
SELVIN, Hanan C.
(1957) A Critique of Tests of Significance in Survey Research, in
"American Sociological Review" XXII, 5 (october): 519527.
SIBONI, Mariangela
MARRADI, Alnerto
(1989) Casualità e rappresentatività nei Bollettini
della Doxa, in “Quaderni dell’osservatorio elettorale” n. 22
(gennaio) : 95-113.
SOMERS, Robert H.
(1972) Applications of an Expanded Survey Research Model to
Comparative Institutional Studies, in Ivan Vallier (ed.),
Comparative Methods in Sociology. Berkeley: University of
California Press, 357-420 .
STANTON, F.
(1939) Notes on Validity of Mail Questionnaire Returns, in "Journal
of Applied Psychology": 95-104.
STATERA, Gianni
(1982) Metodologia e tecniche della ricerca sociale. Una
introduzione sistematica. Palermo: Palumbo.
STEPHENSON, C. Bruce (1979) Probability Sampling with Quotas: An Experiment, in "Public
Opinion Quarterly" XLIII, 4 (winter): 477-96.
STERLING, Theodore D. (1959) Publication Decisions and Their Possible Effects on Inferences
Drawn from Tests of Significance — Or Vice Versa, in
"Journal of the American Statistical Association" LIV, 1
(march): 30-34.
SUDMAN, Seymour
(1966) Probability Sampling With Quotas, in "Journal of the
American Statistical Association" LXI: 749-771.
SWOBODA, Helmut
(1972) La statistica moderna illustrata. Milano: Rizzoli.
TOLLER, Cinzia
(1994)
TULLIO-ALTAN, Carlo
(1974) I valori difficili. Milano: Bompiani.
TULLIO-ALTAN, Carlo
CARTOCCI, Roberto
(1979) Modi di produzione e lotta di classe in
Italia. Milano: ISEDI.
WALSH, John P.
KIESLER, Sara
SPROULL, Lee S.
HESSE, Bradford W.
(1992) Self-Slected and Randomly Selected
Respondents in a Computer Network Survey,
“Public Opinion Quarterly” LVI: 241-44.
WEBER, Max
(1904) Die Objektivität sozialwissenschaftlicher und
sozialpolitischer Erkenntnis, in "Archiv für
Sozialwissenschaft und Sozialpolitik" XIX,1: 22-87.
Memorie di un’intervistatrice pentita,
economia” XXV, 5-6 (settembre): 85-90.
in “Politica ed
Scarica

La politica ei sondaggi. Tor