NOTE INTRODUTTIVE ALLA STATISTICA MEDICA
G.Gilli – G.C.Candini
2
INDICE DEGLI ARGOMENTI
Prefazione
STATISTICA DESCRITTIVA
I tipi di dati
Scale nominali
Scale ordinali
Scale intervallo
Rappresentare i dati
Percentili
Indici di posizione
Media aritmetica
Media geometrica
Media armonica
Mediana
Moda
Distribuzione di frequenze
LE BASI DELL’INFERENZA STATISTICA
Dispersione dei dati
Varianza e deviazione standard
Coefficiente di variazione
Elementi di statistica inferenziale
Intervallo fiduciale
Confronto tra medie
Analisi di varianza
ANOVA multivariata
Cluster analysis
Analisi discriminante
Analisi fattoriale
Regressione lineare semplice
Regressione logistica
Coefficiente di correlazione lineare (o di Pearson)
Analisi non parametriche
Tavole di contingenza e test sulle frequenze
Metodo ‘esatto’ di Fisher
Analisi di ‘sopravvivenza’
Analisi R.O.C.
Metanalisi
Conclusione
3
Appendice :
Richiami di matematica
Espressioni
Le potenze
Estrazioni di radice
I logaritmi
Ancora sulle espressioni
L'algebra
Le equazioni
La geometria analitica
Sistemi di equazioni
Regressione lineare
Correlazione
4
Prefazione
“ Il grande vuoto della nostra professione è dato dall’ASSENZA ASSOLUTA DI DATI DI
RITORNO frutto dell’analisi statistica, epidemiologica, scientifica dei dati clinici (e non) in
nostro possesso.”
Così si esprime un medico di base di Savignano (gennaio ’92), in una lettera ai curatori di una
rivista di settore. Il lamento è generale e accomuna medici di famiglia, quotati reparti, divisioni
ospedaliere e cliniche universitarie. Se poi si tiene conto che oggi è praticamente impossibile
pubblicare senza un adeguato apparato statistico di accompagnamento, risalta immediatamente la
carenza di analisi del flusso di dati che colpisce le strutture della sanità.
Che tale flusso contenga informazioni utili è chiaro anche al più distratto degli operatori. Il solo
ammontare dei dati in una certa direzione è indicativo di mode e mentalità di un corpo sociale di
cui pazienti & medici sono un ricco campione.
Non di rado l'esame di questo flusso indica quanto un certo movimento sia più il risultato di
opinioni correnti, che non l'applicazione di metodiche efficaci ed efficienti. Chi ci aiuta a condurre
simili necessarie distinzioni è la statistica.
La Statistica è una scienza discussa e soggetta ad ironiche osservazioni cui presta il fianco il suo
congenito ‘vizio' di estendere una singola deduzione a tutta una problematica; quasi un vestire le
più diverse taglie umane con un modello a misura unica. Eppure il credito di tali strane tecniche è
progressivamente cresciuto quando è apparso chiaro agli occhi di tutti che alcune migliaia di voti
sono sufficienti alla statistica per fornire il risultato di elezioni che si concluderanno solo 24 ore
dopo con molti milioni di voti in più.
Qualcosa del genere vale anche per la meteorologia, ugualmente bersaglio di frecciate ironiche,
dopo un ‘week end’ sotto pioggia battente che la meteorologia aveva descritto solo un po’
variabile.
E' la nostra mente che spinta dalla forza dell'evoluzione ad impegnarsi sul vicino e contingente,
stenta a vedere i nessi tra molti dati, le possibili sinergie e soprattutto il peso da attribuire ad entità
lontane, apparentemente libere. Così l'acida ironia per aver preso la pioggia in una certa incassata
valle alpina, ci nasconde che nel resto della regione le cose possono essersi svolte affatto
diversamente, o… che la parte dello stipendio 'medio' che non affluisce nelle nostre tasche fluisce
però in quelle di molti altri vicini o colleghi, cosa di cui solo la statistica sembra accontentarsi .
Ma tant'è: lontano dagli occhi lontano dal cuore…e dalla nostra mente; che è un altro modo per
dire che ciò che muove il nostro interesse ed il nostro ragionamento è quello che ci colpisce da
vicino e che adottiamo poi come soluzione immediata e semplificata di problemi spesso complessi.
Eppure è tutto il mondo contemporaneo ad essere cresciuto in complessità, è l'edificio sociale
che andiamo costruendo che non può più reggersi sulla vecchia economia dei piccoli gruppi del
passato cui era sufficiente la navigata esperienza di un singolo saggio. I legami sono multipli,
estesissimi ed ogni decisione si ripercuote lontano. Alla complessità si addicono allora modelli
complessi per simulare lo sviluppo di fenomeni a molte componenti. Chi potrebbe altrimenti
accorgersi che l'uso di un'innocua bomboletta spray innesca il fenomeno del buco nell'ozono in
alta atmosfera o che il fumo di sigaretta è inevitabilmente connesso con l'incidenza dei tumori ,
non solo polmonari ?
E’ necessario che ci convinciamo a fondo di queste caratteristiche salienti del nostro vivere per
'riconciliarci’ con il flusso di dati di cui siamo sempre più destinatari e sorgente.
5
Troppo spesso si attribuisce l’invasione di moduli, questionari e domande alla burocrazia la quale
però si trova sempre più spesso ad essere la prima vittima di ineludibili esigenze a cui risponde (..
qui è la colpa) con metodiche inadeguate e con profluvi di carte e modulari .
Non l’esigenza del dato ma il metodo è spesso errato. Noi vogliamo pensioni rapidamente
liquidate con la ricongiunzione di periodi contributivi effettuati lontano nel tempo presso aziende
diverse e diversamente ubicate, Ciò significherebbe, con l’usuale burocrazia, lettere di richiesta
(..per posta), polverosi scaffali a qualche metro d’altezza in afosi sotterranei o sacrificate soffitte
dove sono ammassate pratiche aperte magari nell’anteguerra, plichi (..postali) di ritorno, controlli
manuali di adeguatezza, calligrafie malamente comprensibili, richiesta di chiarimenti (…postali)
ed eventualmente con interposte ‘competenti commissioni’ che redigono corposi verbali, ecc.,
ecc. Nessuno dubita che quei dati siano necessari, come nessuno può ignorare che il problema,
enormemente cresciuto col crescere delle classi tutelate dalla sicurezza sociale, non può essere
risolto coi metodi tradizionali. Occorre una ‘evoluzione-rivoluzione’ culturale.
Evoluzione. Perché le soluzioni praticabili devono essere graduali al punto che in molti settori si
dovrebbe procedere su due binari contemporaneamente dato che l’impianto di nuove tecniche
richiede addestramento, adattamento, revisione rapida mentre tuttavia, nel quotidiano, si deve
mantenere il vecchio metodo cui tutti sanno mettere mano e che non pone imprevisti.
Rivoluzione. Perché al termine del passaggio più delicato si constaterà che un vero oceano
separa le moderne metodiche dalle precedenti.
Quanto abbiamo detto esulerebbe in parte dalla problematica della statistica medica se non fosse
che alla base di tutte le nuove tecniche di trattamento dell’informazione c’è innanzi tutto la
raccolta delle informazioni. L’informatica con le adeguate soluzioni ‘hardware’ (le macchine) e
‘software’ (i programmi) è capace di intercettare qualsiasi flusso di informazione e restituirlo
ordinato al potenziale utente per una semplice consultazione o per cercarne le caratteristiche
leganti o le significative diversità. Ma c’è un inevitabile ‘gap’ culturale da superare colmo di
piccole personali ‘pesantezze’ che portano a giudicare un aggravio ciò che è solo poco noto e che
ha il torto di esigere una forma di ‘apprendimento permanente’ cui però nessun operatore
sanitario può più onestamente pensare di sottrarsi. Anzi queste tecniche agevolano tale
apprendimento e facilitano potentemente il riciclo della propria iniziale formazione culturale.
Aumentano sul mercato ‘pacchetti’ di istruzione multimediale che per immagini e suoni
aggiornano l’utente spesso divertendo e solleticando la sua curiosità differenziando quindi anche la
profondità d’uso.
La crescente velocità delle macchine e l’ampiezza delle memorie elettroniche diviene disponibile
a prezzi sempre più ridotti. E disorienta il neofita la rapidità dei cambiamenti e la molteplicità delle
soluzioni proposte.
I pericoli che un mercato vasto e differenziato comporta, si affrontano con l’aiuto di esperti,
anche più di uno per i diversi settori, e con la gradualità con cui deve innestarsi l’informatica nel
nostro ambito di attività. E’ importante che dapprima si veda una soluzione informatica lavorare
sulla stessa problematica che noi dobbiamo affrontare. In altre parole è bene iniziare ‘per
imitazione’ di soluzioni e non obbedendo a stimoli pubblicitari che nascondono le difficoltà e
propongono apparati scintillanti ma ovviamente non calibrati sulle nostre esigenze. La storia è
vecchia e sempre nuova.
Concludendo, questa lunga dissertazione vorrebbe aver chiarito, un poco, che:
- la quantità di informazioni richieste e prodotte è una necessità dei tempi
- senza adeguati strumenti tecnici il flusso di informazioni è un’alluvione incontenibile
6
-
la disponibilità del dato, già importante in sé, diventa decisiva per le scelte future quando ci si
dispone ad analizzare l'informazione racchiusa nel dato stesso.
Sui primi due punti abbiamo già detto. Sull'ultimo che è il campo specifico della statistica medica
diremo diffusamente più avanti.
7
INTRODUZIONE ALLA STATISTICA MEDICA
I Parte :
STATISTICA DESCRlTTIVA
Introducendo il tema abbiamo parlato diffusamente della necessità e della difficoltà di
raccogliere, catalogare e riutilizzare i dati che scaturiscono dalla attività sanitaria.
Grandi possibilità di migliorare le proprie scelte si aprono a chi riesce a riflettere sui mille tasselli
del quotidiano che ad una certa 'distanza' si compongono a delineare un panorama.
Non di una distanza spaziale si tratta, come quella che consente ai satelliti di valutare stato e
risorse di immensi territori, ma di una visione d’assieme che abbraccia veri continenti di
informazioni per lo più ignoti. Non il razzo ma il computer, non la fotogrammetria ma la statistica
rivela le 'regole' di eventi apparentemente casuali solo perché visti da vicino, a grana troppo
grossa.
Le ricordate difficoltà non dovrebbero spaventare più di tanto perché potenti strumenti, accessibili
ormai a tutti consentono oggi di dominare il mare di eventi, solo che si voglia fare una breccia
nella ‘routine’ quotidiana dando corpo alla discussa 'formazione permanente'.
Fotografare i nostri dati
Il metodo più semplice per la descrizione dei risultati di un esperimento è la rappresentazione in
serie ordinata dei dati numerici grezzi. Tale metodo presenta tuttavia notevoli limitazioni sia per
la scarsità delle informazioni fornite, sia per la difficoltà di ordine pratico nella rappresentazione di
grandi quantità di dati. In quest'ultimo caso è spesso utile distribuire i dati in classi e determinare
la frequenza, cioè la numerosità di ciascuna classe, e quindi procedere a rappresentare i risultati.
ottenuti sotto forma di grafico.
I tipi di dati
Tuttavia per decidere quale strumento di rappresentazione usare ci si deve chiedere con che tipo
di dati si ha a che fare. Dire infatti 'dato' è dire qualcosa di molto generico: noi trattiamo di dati
suscettibili di elaborazione statistico-matematica. Ma pure con questa limitazione possiamo
distinguere diverse categorie di dati.
-
scale nominali
-
-
quando la distinzione tra le varie classi non implica alcun rapporto misurabile. Es.: la
classifica in maschi e femmine è tipicamente 'nominale' anche se usiamo dei codici numerici
come 1 e 2 per rappresentare i due sessi. Essere maschio-1 o femmina-2, o viceversa, non
implica affatto che il gruppo 2 sia più grande del gruppo 1.
scale ordinali
-
quando i dati stabiliscono tra loro almeno un ‘rango’, cioè un ordine che permetta una
classificazione univoca. Es.: nei dosaggi crescenti di un farmaco si può essere interessati al
8
fatto che il dosaggio A sia minore di quello B e quest’ultimo sia minore di quello C senza
preoccuparsi degli intervalli di grandezza tra i dosaggi (magari perché gli effetti possono
essere discontinui, a soglia). La situazione si può riscontrare se lo scopo è di studiare un
‘trend’, una tendenza, per cui un effetto si manifesta al crescere, più o meno rilevante,
dalla dose A alla dose B.
scale intervallo
-
-
quando i dati sono numeri che rappresentano delle misure le quali, proprio perché tali,
mantengono tra loro un rapporto misurabile. Es.: tra i dati pressori seguenti: 160 180 210
220 non solo si stabilisce una sequenza senza ambiguità per la quale, p.es. 180 è più
grande di 160 e sta dopo quest’ultimo, ma si dice pure quale è il valore dell'intervallo che
li separa, che infatti è la metà di quello che separa 180 da 210 ed il doppio di quello tra
210 e 220. A seconda del tipo di dato, calcoli e rappresentazioni non possono essere che
conseguenti : su scale NOMINALI si potranno fare dei conteggi: quanti sono i maschi
che...? ,quante le femmine che hanno..?. Su una scala INTERVALLO potremo fare
considerazioni molto più dettagliate del tipo : qual è il valore medio delle mie misure di
pressione ... ?.., questo valore medio è significativamente più grande dell'altro ? ecc., ecc. .
I dati su una ‘scala intervallo' possono essere sempre ridotti alle altre scale perdendo in
contenuto d'informazione. Non e' ovviamente possibile il viceversa.
Rappresentare i dati
In statistica sono utilizzati diversi tipi di grafici, secondo la natura dei dati e lo scopo che si vuole
raggiungere. Tra questi tipi ricordiamo il grafico a barre (o rettangoli), come si ha in fig. 1, il
grafico a barre sovrapposte come si vede in fig. 2, il grafico circolare (o ‘torta' o 'pie chart’), come
in fig. 3, l’ideogramma, fig. 4, ed altri .
Fig. 1
Fig. 2
9
Fig. 3
Fig. 4
Tutti questi adatti a ‘scale nominali o ridotte tali .
Per la rappresentazione grafica di una distribuzione di frequenze (cioè delle numerosità di vari
gruppi di cui si sta trattando) di una variabile continua, come la pressione arteriosa, l'indice di
massa corporea (Body Mass Index), la statura corporea e molte altre, si usano gli istogrammi o i
poligoni di frequenza.
L’istogramma non è altro che un insieme di rettangoli aventi la base centrata sul valore centrale
delle classi considerate, la lunghezza uguale all'ampiezza delle classi e l'altezza proporzionale alle
frequenze delle classi stesse (fig. 5).
Fig. 5
L’ampiezza delle classi è un compromesso tra la quantità di casi disponibili ed il dettaglio con cui
si vuole analizzare la variabile . Per esempio, volendo analizzare la variabile età dei nostri pazienti,
10
dopo aver preso visione dei dati si potrebbero costituire tre classi di età per intervalli di 10 anni
ciascuna 40-50 , 50-60, 60-70 con valori centrali di classe : 45 , 55 , 65 . Ma per un maggiore
dettaglio, sempre che disponiamo di casi, si potrebbero costituire 7 classi di cui le due estreme
'aperte'. Sarebbe inutile e sciocco costituire molte classi per ognuna delle quali ci fossero solo
pochi o pochissimi casi.
- fino a 40
- da 41 a 45
(valore centrale 43)
- da 46 a 50
( ‘
‘
48)
- da 51 a 55
( ‘
‘
53)
- da 56 a 60
( ‘
‘
58)
- da 61 a 65
( ‘
‘
63)
- da 66 a 70
( ‘
‘
68)
- oltre 70
L’istogramma differisce dal. diagramma a barre (bar chart) perché mentre quest'ultimo, lungo
l'asse orizzontale pone delle categorie senza significato numerico (p.es. le categorie del sesso) ,
l'istogramma porta una variabile continua e definita in tutto l’intervallo. Il termine ‘istogramma’ è
spesso usato genericamente ad indicare anche il ‘diagramma a barre’ poiché la rappresentazione ‘a
rettangoli’ di varia altezza è simile. La differenza è in realtà sostanziale poiché l’asse orizzontale
di un istogramma è una variabile continua mentre per il ‘bar chart’ è solo un riferimento su cui
impostare le barre. Quell’asse rappresenta infatti solo una variabile nominale (come p.es. il sesso)
o ordinale (categorie ordinate).
I poligoni di frequenza, derivati o parenti degli istogrammi, sono grafici a linea spezzata delle
frequenze delle classi dove la linea di rappresentazione passa per i valori centrali delle classi stesse
(fig. 6).
Fig. 6
Con questi si tende a sottolineare maggiormente l’andamento delle frequenze lungo i vari gruppi.
11
Frequentemente sono impiegate le cosiddette 'distribuzioni di frequenza cumulative' ottenute
riportando sotto forma, di istogramma o di poligono di frequenza i valori inferiori al confine
superiore di una data classe (fig. 7).
Fig. 7
Questa ultima rappresentazione, se la scala cumulativa ha 100 come fondo scala, ossia viene
espressa in percentuale, aiuta visivamente a individuare i percentili quei valori della variabile al
di sotto dei quali sta una fissata percentuale di casi della distribuzione data . Per esempio,
analizzando una variabile tempo (in anni), la curva ci indicherà quale anno porta dietro di sé il
50% delle osservazioni (o casi), o il 5%, il 10% ecc. . Oltre ai percentili si parla anche di decili e
quartili che, analogamente ai percentili, dividono le distribuzioni in decimi ed in quarti. Va da sé
che il 50° percentile, il 2° quartile ed il 5° decile, che identificano la mediana della distribuzione,
coincidono, come si vede dallo schema sottostante :
quartili
------------------1----------------------------2---------------------------3-----------------------4
%
decili
1----------2-----------3-----------4----------5----------6----------7----------8---------9-------10
%
percentili
10---------20----------30---------40--------50--------60---------70--------80--------90------100. %
Una distribuzione di frequenze, rappresentata in forma di istogramma o di poligono, qualora si
riduca l’ampiezza delle classi, subisce un livellamento, perdendo progressivamente la forma a
gradini, fino ad assumere l’aspetto di una curva smussata continua. Ciò equivale ad avere un
elevato numero di casi anche se in classi sempre più strette. (cfr. fig. 8)
12
Fig. 8
I connotati di un gruppo di dati : gli indici di posizione
L’opportunità di analizzare i propri dati, specialmente se molto numerosi, in forma di istogrammi,
risulta particolarmente evidente quando il grafico stesso mostra distribuzioni bimodali e
plurimodali, cioè quando si evidenziano due o più classi di dati, rispettivamente, presentanti un
picco rispetto alle classi adiacenti (cfr. ultimi profili di fig. 9) .
Fig. 9
Ciò indica che i casi in esame non sono omogenei per il carattere in studio, ma provengono,
probabilmente, da diverse popolazioni. Se analizziamo la distribuzione dei pesi corporei di
individui di specie a forte dimorfismo sessuale (grandi differenze fisiche tra maschi e femmine)
come avviene ad esempio nei trichechi o nei rospi, vedremo una curva bimodale che dimostra
come ciascuna popolazione non sia omogenea per il carattere ‘peso' ma sia in realtà costituita da
13
due gruppi (i due sessi) che andrebbero analizzati separatamente per quel carattere. La
rappresentazione grafica dei dati mostra anche le tendenze e le dissimmetrie insite in essi come si
vede dai profili di fig. 8 . Da qui la grande utilità di analizzare la distribuzione completa (per
istogrammi), dei propri casi, relativamente ai caratteri in studio.
Oltre ad analizzare la distribuzione d’insieme dei dati è indispensabile produrre alcuni indicatori
che descrivano sinteticamente con pochi numeri le caratteristiche salienti della distribuzione sotto
studio. Tali parametri sono : la media, la mediana, la moda e sono sovente riportati con il nome di
parametri di ‘tendenza media’ ed opportuni indici di scostamento (‘scatter’) dell’insieme dei dati
intorno a media e mediana.
- La media aritmetica
La più intuitiva di tali misure è la media aritmetica che ripartisce in modo identico, su ciascun
caso, il totale del valore sommato sui singoli casi. Matematicamente: dati n casi (o dati) , da 1 a
N, in cui Xi sia un generico caso tra gli N, si definisce la media aritmetica come:
N
∑i Xi
1
(1)
Media

=
N
ossia :
sommatoria da 1 a N di ciascun i-esimo caso diviso per il numero di casi. La sommatoria è
indicata col simbolo maiuscolo greco ‘∑’ (sigma).
Es.
giorno
Dati i valori seguenti. di pressione sistolica massima, rilevati ogni 12 ore su un certo
paziente, per 7 giorni, trovare la pressione media della settimana
1°
2°
3°
4°
5°
6°
7°
ore 8
160
180
170
180
200
190
160
ore 22
170
190
190
200
210
195
180
la media aritmetica di tutti i dati, senza riguardo alla fascia oraria, risulta : 183.9
Spesso tra i risultati di un esperimento, certi va1ori si presentano più volte. In questo caso,
indicando con f1, f2 f3…fn le frequenze dei valori Xl, X2, X3, ... Xn (cioè quante volte i valori Xl,
X2, X3, ... Xn si presentano), la (1) può essere scritta nel modo seguente:
14
N
∑i fi*Xi
1
(2)
Media
=

N
∑i fi
1
la frequenza con cui i dati si ripetono nell'insieme dato rappresenta il contributo di quel valore (o
fattore peso) nella determinazione della media, così la (2) viene anche detta 'media ponderata'.
Esempio:
Dati gli stessi valori pressori dell'esempio precedente rifare il calcolo tramite la media ponderata,
ovvero raggruppando e valutando le frequenza (il peso) con cui certi valori si ripetono. Abbiamo
così :
Valori
---------160
170
180
190
195
200
210
----------Totale
Frequenza
-------------- -------x
2 = 320
x
2 = 340
x
3 = 540
x
3 = 570
x
1 = 195
x
2 = 400
x
1 = 210
-------- ---------14
2575
Applicando la (2), ossia sommando i prodotti ‘frequenza per valori si ottiene :
Media = 2575 / 14 = 183,9
Il valore coincide con il precedente. A differenza del nostro piccolo esempio dove risulta
indifferente l'applicazione dell'uno o dell'altro metodo capita .spesso di avere a che fare con le sole
frequenze con le quali il valore si presenta, ragione per cui riesce utilissimo l'uso della metodica
'ponderata'
.. ma ci sono altri tipi di MEDIE
La media aritmetica fornisce una buona descrizione dei dati solo quando essi siano raggruppati in
modo che il valore medio aritmetico non sia troppo lontano da ciascuno dei valori di partenza,
ossia quando i dati provengono da un insieme piuttosto omogeneo. Ad esempio, volendo
calcolare la media degli stipendi di un gruppo di persone, la descrizione data dalla media
aritmetica è attendibile solo se quelle persone sono, diciamo, impiegati. Se tra loro vi fosse
qualche funzionario, o dirigente il cui stipendio sarebbe certamente diverso e maggiore, allora il
15
valore medio aritmetico sarebbe inattendibile a descrivere la maggior parte del gruppo poiché lo
stipendio di pochi eleverebbe oltremodo la media generale. Nel caso in esempio la correzione
adeguata consiste semplicemente nell’omogeneizzare i caratteri (le qualifiche) salvo quello in
esame (lo stipendio). In altri casi si ricorre a strumenti alternativi come :
…la media GEOMETRICA
Ammettiamo di avere dati che crescano in modo ‘accelerato’ come la sequenza 1 10 100 1.000
10.000 100.000 1.000.000
La media aritmetica è 1.111.13.1 / 7 = 158.730,14 che si colloca tra l'ultimo e il penultimo dato,
dunque fuorviante come indicatore del gruppo. Se pensiamo che la stessa sequenza può essere
vista come una serie di potenze di 10 :
esponente
0
1
2
3
4
5
6
base ->
10
10
10
10
10
10
10
si nota subito che gli esponenti delle potenze sono una serie di numeri vicini tra loro e crescenti in
modo omogeneo, continuo. Viene allora spontaneo lavorare sulla serie degli esponenti
(0,1,2,3,4,5,6) che matematicamente sono chiamati "Logaritmi decimali" dei dati originali.
Logaritmo di un numero è definito infatti come l’esponente da dare ad una base per ottenere
quel numero. Così avremo che :
1 =
2 =
3 =
Log10
Log100
Log1000
poiché
poiché
poiché
10 elevato alla 1 dà
10 elevato ‘’ 2 dà
10 elevato ‘’ 3 dà
10
100
1000
ecc..
La media aritmetica dei logaritmi è allora :
0+1+2+3+4+5+6
 = 3
7
Mlog =
(3)
Dal risultato 3 (logaritmo in base 10), si ricava il relativo numero decimale (ovvero
‘l’antilogaritmo’) che sarà 10 elevato alla 3 = 1000, detto 'media geometrica' e che infatti si
colloca al centro della serie di logaritmi (ossia la serie di esponenti delle potenze di dieci). Dunque
in questa particolare sequenza la media geometrica dà un valore ben più azzeccato perché più
‘centrale’ di quella aritmetica posto che la legge che sottendeva la serie dei dati non era lineare .
Sinteticamente tutto il discorso precedente equivale alla seguente definizione rigorosa, perciò
precisa e concisa, di media geometrica come:
Mg =
N
( X1 * X2 * X3 * .
* Xn)
ovvero : radice ennesima del prodotto di N osservazioni. Ma tale definizione, per le proprietà
fondamentali di definizione dei logaritmi equivale alla formula (3) soprastante e si applica
preferibilmente laddove i dati manifestino una crescita rapidissima, come nel caso in esempio di
tipo esponenziale.
16
- ….ed anche la media ARMONICA
E' definita come rapporto tra il numero di osservazioni e la somma dei reciproci dei dati, dove per
reciproco di un numero X si intende il valore 1/X.
Perciò la media armonica sarà :
N
Ma = 
1/X1 + 1/X2 + 1/X3 +
+ 1/Xn
Un impiego indicato della media armonica si ha quando alcuni valori possono risultare enormi
ma legittimi oppure convenzionali come 'infinito', senza che la distribuzione dei dati implichi una
qualche legge matematica come quella esponenziale sottesa alla media geometrica. In questi
casi infatti l'uso del reciproco che fa diventare molto piccolo , o addirittura zero, il reciproco di
un certo dato risultante, troppo alto per l’esperimento condotto, riduce validamente il contributo
di quel valore alla media senza toglierlo. Effettua cioè un intervento 'armonizzante' .
Si pensi ad esempio di prendere i tempi in minuti in cui avviene un certo evento per 4 soggetti
campione e che l'evento si manifesti solo per il primo ed il terzo soggetto :
casi esperimento
1°
2°
3°
4°
tempi all’evento (min.)
20
---
25
--
Poiché l'evento non si è verificato per il 2° e per il 4° soggetto si presentano diverse ipotesi :
eliminare i 2 casi invariati, ma ....
è erroneo poiché l'informazione secondo cui in due soggetti il tempo massimo
dell'esperimento (es. 6 ore) è trascorso per intero dovrebbe pur essere tenuto in
qualche conto. Magari, l’evento si sarebbe potuto verificare pochi secondi dopo il
tempo limite.
attribuire il tempo massimo, ma…
non è consigliabile poiché l'evento potrebbe non verificarsi, nella realtà, neppure
per tempi lunghissimi, cioè né presto né tardi
dare valore zero, ma…
è errato in quanto ciò indicherebbe che l'evento si è verificato prestissimo il che è
l'opposto di quanto è risultato dall'esperimento.
Viceversa, attribuendo un convenzionale valore "infinito" ai due soggetti il loro reciproco va a
zero. La posizione è valida quando il tempo massimo di esperimento fosse stato fissato
enormemente più lungo di quanto ci si attende e si verifica in sede di esperimento per cui i casi in
cui l’evento non si verifica avrebbero tempi se non infiniti almeno ‘lunghissimi’ da cui si derivano
reciproci molto piccoli e trascurabili, quando non zero. Calcolando la media armonica che pure
comprende i due zeri, 'armonici' si ottiene:
17
Ma =
4

1
1

+
0 +  + 0
20
25
=
44.4
Si vede come il contributo dei due elementi in cui l’evento non si è verificato ha prodotto uno
spostamento della media armonica verso valori più alti dei tempi registrati per i casi 2 e 3, in
modo 'ragionevole' senza stravolgere il senso dell'esperimento e spostando di 'un tanto' la media
verso l'alto. Si è ridotto l’effetto dei casi non verificati senza annullarne la presenza.
- Concludendo sulle medie ….
La media aritmetica è certo la misura d'insieme più facile, più intuitiva e più usata anche perché è
l'unica impiegata nelle procedure inferenziali ossia di estrapolazione dei risultati di un campione
sulla popolazione da cui il campione è tratto. Tuttavia in sede di analisi descrittiva le medie,
armonica o geometrica, potendo minimizzare l'effetto di valori ‘anomali’ e destabilizzanti,
possono rivelarsi più adatte per caratterizzare un campione.
- Altri ‘indici di posizione’
In aggiunta (..non in alternativa) alla media, citavamo altri cosiddetti 'indici di posizione' atti a
descrivere sinteticamente i dati. I più comuni indici di posizione , oltre la media sono la
mediana e la moda. La denominazione allude al fatto che quei valori occupano, nell'insieme dei
dati ordinati, una ben precisa posizione, caratteristica di quei dati.
La MEDIANA
Il valore di mezzo di un insieme di dati ordinati (p.es. in modo crescente) è detto 'mediana'. Per
un numero pari di dati la mediana viene calcolata come media aritmetica dei due valori centrali.
Es.:
mediana di :
1
3
5
7
= (3+5) / 2
=
4
Per serie di dati in numero dispari la mediana è il dato centrale della distribuzione ordinata.
Es. :.
mediana di
1
3
5
7
9
=
5
Un'estensione del concetto di mediana (valore che divide l'insieme dei dati in due parti
uguali) è quello che riguarda i valori che, nella sequenza ordinata dei dati, dividono
l’insieme in quattro parti uguali. Tali valori vengono chiamati ‘quartili’. In modo analogo
vengono definiti i decili e i percentili, valori che dividono l'insieme ordinato dei dati,
rispettivamente, in 10 e 100 parti uguali e di cui si è già detto. Si ricorderà ugualmente che
il quinto decile ed il cinquantesimo percentile coincidono con la mediana poiché questa
divide in due parti uguali (50% + 50%) la distribuzione.
18
La MODA
Il valore più frequente della classe, tra quelle opportune per una certa distribuzione di dati, avente
la frequenza (cioè la numerosità) più elevata, prende il nome di "moda". Aldilà della lettera della
definizione si pensi al valore corrente della parola 'moda' , ..la cosa che va di più, ...il
comportamento più frequente. Così anche in senso statistico : quel valore che nel gruppo dato si
presenta più volte.
Per es., se in una distribuzione di casi di un campione di maschi sui quali si vuole studiare il peso,
si decide di costituire classi ponderali. di 10 Kg e si trova che la classe più numerosa (o di
maggior frequenza) è quella tra 70 e 80 Kg potremo definire tale classe come ‘classe modale'.
All’interno di essa il valore che si presenta con più ripetizioni sarà la ‘moda’. Se tutti i valori
presentassero la stessa frequenza allora la moda non potrebbe essere definita. Come abbiamo già
osservato spesso si ha una sola classe modale, cioè si nota che una certa classe ha frequenza
superiore a tutte le classi contigue mentre queste hanno frequenze superiori ad una delle classi
loro contigue e inferiori a quelle dell’altra classe contigua . Si parla allora di distribuzione a una
moda o ‘unimodale'. Talvolta ci sono due o più classi di frequenza, superiore a quelle
strettamente contigue presentando allora un tipico profilo 'a gobbe'. Si parla allora di distribuzioni
‘bimodali’, ‘plurimodali’: chiaro indice di una mescolanza tra ‘popolazioni’ diverse per il carattere
che è stato misurato.
In una distribuzione sperimentale di frequenze non eccessivamente asimmetrica, unimodale, gli
indici di posizione non coincidono (fig. 10) ma sono legati tra loro secondo la relazione
approssimativa :
Media - Moda = 3 * (Media - Mediana)
(4)
Per constatare la non coincidenza degli indici sopra citati riprendiamo una distribuzione di
pressioni sistoliche simile a quella impiegata come esempio :
giorno
ore 8
1°
160
2°
180
3°
170
4°
180
5°
200
6°
190
7°
160
19
ore 22
170
190
190
I succitati valori di
pressione sono, per
semplicità, anche i
valori centrali delle
classi, salvo il dato
192 contenuto nella.
5° classe: 185-195’
200
210
classi
da >=
a<

155-160-165
165-170-175
175-180-185
185-190-195
195-200-205
205-210-215

192
180
frequenza
casi

x
2
x
2
x
3
x
4
x
2
x
1

14
Collochiamo i dati in ordine crescente sull'asse orizzontale di un grafico 'frequenze-pressioni',
ossia ricaviamo una distribuzione di frequenze .
dati
1
press. 160
2
160
3
170
4
170
5
180
6
180
La media si trova in posizione :
7
8
9
180 190 190
10 11 12 13
190 192 200 200
14
210
Xm = 183,7
La mediana è il punto centrale della distribuzione di tutti i dati e poiché i dati. sono in numero
pari, avremo che :
Me (mediana) = (180+190) / 2 = 185
La moda, cioè il valore più presente, (entro la classe con il maggior numero di casi e di più alto
valore) è 190 . Dunque :
Mo (moda) = 190
La relazione (4), vera solo per approssimazione, risulta soddisfatta a meno di circa 4 unità.
Solo nella distribuzione teorica detta 'normale' o gaussiana, simmetrica, dalla caratteristica forma a
campana, i tre indici di tendenza media (media, mediana e moda) coincidono in modo perfetto .
Va detto che quantunque moltissimi fenomeni si presentino con distribuzioni ‘gaussiane' o 'a
campana', esistono altri tipi di distribuzioni . Per esempio, in un lancio di dadi l'uscita delle diverse
combinazioni, se il dado non presenta difetti, è tale che, dopo un congruo numero di lanci, ogni
faccia del dado conta un numero pressoché uguale di uscite . Con espressione tecnica si parla
allora di distribuzione 'UNIFORME' .
-
... e per concludere, ecco un : esempio generale riassuntivo n. 1
20
La valutazione del peso alla nascita, in grammi, di un gruppo di 30 neonati di sesso maschile, di
pari età gestazionale, ha fornito i seguenti risultati disposti in ordine crescente:
I
II
III
1
2
3
4
5
6
7
8
9
10
2700, 2710, 2730, 2800, 2820, 2840, 2910, 2960, 3000, 3100
3120 3200, 3280, 3280, 3280, 3380 3400, 3420, 3450, 3460
3470 3480, 3490, 3550, 3580, 3600, 3650 3710, 3750, 4100
Determiniamo la media, la mediana, la moda nonché il 5°, il 25° e il 95° percentile della
distribuzione dei 30 dati sperimentali.
30
∑i Xi
98220
1
Media
=

=
N
Mediana

=
3274
30
= (3280 + 3380) / 2
=
3330
Moda
= 3280
Scegliendo classi di ampiezza pari a 100 g si ottiene la seguente:
Distribuzione di frequenze
peso (g)
frequenza

2700-2799,9
3
2800-2899,9
3
2900-2999,9 --------------------------------------------------2
3000-3099,9
1
3100-3199,9
2
3200-3299,9 ------------------------------------------------- 4
3300-3399,9
1
3400-3499,9
7
3500~3599,9 ------------------------------------------------- 2
3600-3699,9
2
3700-3799,9
2
3800-3899,9 ------------------------------------------------- 0
3900-3999,9
0
4000-4100
1

30

Consideriamo che il 5° percentile è quel peso che occupa nella distribuzione, il posto dato
dall’espressione:
21
Posizione del 5 %
=
5
 x 30 = 1,5
100
In altre parole si determina il valore del 5% di una scala che arriva a 30 (numero totale dei casi)
ottenendo che tale posizione si trova al posto 1,5 nella serie ordinata dei dati . Contenendo la
prima classe una frequenza pari a 3, dovremo considerare solo 1,5 di questi tre casi e, usando
il metodo della interpolazione lineare, si avrà:
P5
=
100
2700 +  x 1,5
3
=
2750
dove 2700 è il limite inferiore della prima classe e 100 è l'ampiezza delle classi. Abbiamo cioè
aggiunto al limite inferiore della classe una frazione data dalla classe, ampia 100, divisa per il
numero di suoi casi (3) pari a 33.3333 (numero di unità per ogni caso della classe) quindi
moltiplicando per il numero di casi trovati occorrenti di quella classe (1,5).
Risulta allora 49.999 che è il 5% della nostra distribuzione di 30 casi e che colloca tale percentile
sul valore 2750
Il 25° percentile è il peso che occupa il posto dato da:
Posizione del 25%
=
25
 x 30 =
100
7,5
Dato che la somma delle frequenze delle prime due classi, è pari a 6, per completare i 7,5 casi
richiesti dovremo considerare 1,5 dei 2 casi della terza classe, quindi si avrà:
l00
P25 = 2900 +  x 1,5 = 2975
2
Analogamente, per il 95° percentile si avrà:
Posizione del 95% =
P95
=
3700 +
95
 x 30 = 28,5
100
100
 x 1,5 = 3775
2
Avvio Software Statistica per esercitazione
22
II PARTE :
LE BASI DELL’INFERENZA STATISTICA
Nell'esempio n.1 , riportato alla fine della prima parte sono state create ben 14 classi su un insieme di soli
30 casi. Se i dati fossero stati molto più numerosi si sarebbe potuto elevare il numero delle classi ottenendo
ancora, per ciascuna classe, una presenza numerica (frequenza) consistente.
Gli istogrammi risultanti, man mano che aumenta il numero di classi, si. fanno più ravvicinati ed il
caratteristico profilo a gradinata va progressivamente smussandosi assumendo prima la forma a 'canne
d'organo' per avvicinarsi sempre più ad una figura ogivale simile ad una ‘campana’ senza più spigoli e
gradini, pressoché continua, e che si avvicina ad una forma teorica descritta perfettamente da un’equazione
matematica perfezionata da De Moivre nel XVIII sec. :
−
1
Y
=  *
(X m − X i )2
2σ 2
e
2π
Nella formula Xm è la media aritmetica dei dati, σ2 (sigma al quadrato) indica la varianza (misura
dello scostamento dei dati attorno alla media. Della varianza ci occuperemo in seguito.
Nella fig. 1 si riporta il procedimento geometrico-logico che illustra come al tendere del numero
delle classi all’infinito l'ampiezza delle classi stesse tenda a zero mentre gli 'spicchi' di frequenze
che riempiono l'area coperta dalla curva assumano il significato di probabilità che un generico caso
rientri in una distribuzione come quella sotto esame. Infatti : tutta l’area indica per l’appunto la
totalità dei casi, il 100% della popolazione sotto studio di 'pesi' o di ‘battiti cardiaci, o di 'altezze',
ecc., ecc.
Fig 1 : Aumento del numero di classi e approssimazione alla
curva teorica.
23
Il processo teorico che abbiamo seguito ha trasformato una distribuzione di frequenze ‘discreta’,
ossia fatta di un numero finito di dati raggruppati in un numero finito di classi, in un continuo,
cioè in una entità tale che presi due suoi elementi pur vicinissimi è sempre possibile trovare un
elemento interposto tra essi.
L'importanza di questo concetto è legata al fatto che, se possiamo dimostrare che il campione si
avvicina ad una distribuzione teorica continua come quella a 'campana' suddetta, (meglio nota
come ""normale" o "gaussiana", perché studiata dal sommo matematico Federico Gauss, verso la
fine del 1700), tutte le notevoli proprietà di quest'ultima possono essere estese anche alla intera
popolazione da cui il campione è stato tratto permettendo una innumerevole serie di
considerazioni induttive sulla popolazione che altrimenti non sarebbe possibile fare .
Abbiamo detto che non tutti i fenomeni si esprimono in modo 'normale' o ‘gaussiano’: esistono
altre distribuzioni come quella 'uniforme' quella di 'Poisson' ecc. Per tutte queste sono state
trovate le distribuzioni teoriche grazie alle quali si può inferire anche in quei domini.
Media, mediana e moda che già sono ravvicinate, in una buona distribuzione sperimentale a
istogrammi, sono poi perfettamente coincidenti nella distribuzione teorica gaussiana.
- Come descrivere la dispersione dei dati
Il più semplice indice di dispersione è dato dal campo di variazione ovvero dalla differenza tra il
valore massimo ed il valore minimo dei dati sperimentali. Ma questa informazione sul ‘range’ o
intervallo estremo dei dati non dice molto su come i dati si addensano in quel ‘range’ . Anche la
media, benché riassuma una caratteristica comune dei dati non basta a descrivere un campione.
Due gruppi di dati potrebbero avere infatti una stessa media aritmetica pur avendo valori
diversissimi.
Si osservi la situazione seguente che dà l’altezza media, in cm, di due gruppi ‘a’ e ‘b’ di individui.
151+170+130+160+140+173
Ma
=

= 154
6
180+140+120+200+100+184
Mb
=

= 154
6
Se vogliamo dunque dare delle descrizioni sintetiche delle due piccole distribuzioni non possiamo
limitarci alla sola media aritmetica. Anche le altre medie non sono di aiuto poiché i dati non
mostrano caratteristiche speciali come una crescita geometrica o assenza di misure . Si dovrà
invece dare una misura della dispersione (in inglese ‘scatter’) dei dati attorno alla media.
24
- Varianza e deviazione standard
Poiché varianza e deviazione standard sono misure dello scostamento dei dati attorno alla loro
media, con una formulazione piuttosto inconsueta e stranamente complessa per il neofita, si tratta
di identificare bene cosa si deve intendere per scostamento (o ‘scarto’). L'idea base è di misurare
lo scarto di ciascun dato dalla media presa come termine di paragone, e di sommare tali scarti per
ciascun gruppo. Ma l'uso della sola sommatoria degli scarti è inutilizzabile poiché i segni negativi
riducono il totale dello scartamento rispetto alla media, a zero. Ciò per definizione di media
aritmetica. Si potrebbero togliere i segni negativi tenendo il valore senza segno, il cosiddetto
‘valore assoluto’ dello scarto (indicato da barre verticali ‘| |’ entro cui si scrive il valore) dividendo
poi la sommatoria degli scarti per il numero di dati ottenendo così uno scarto medio.
----------------------------------------GRUPPO
‘a’
classi
deviaz.
----------------------------------------154-151
154-170
154-130
154-160
154-140
154-173
=
=
=
=
=
=
+3
-16
+24
-6
+14
-19

0
-----------------------------------------
-------------------------------------GRUPPO
‘b’
classi
deviaz.
-------------------------------------154-180
154-140
154-120
154-200
154-100
154-184
=
=
=
=
=
-26
+14
+34
-46
+54
-30

0
--------------------------------------
Si veda intanto come il gruppo ‘b’ riporti un’ampiezza di ‘scatter’(dispersione) decisamente
maggiore. Lo scarto medio può essere definito tramite la formula sottostante :
N
∑i | Xm – Xi |
1
Scarto medio
Sm =

N
Se ci limitassimo a definire dei parametri semplicemente descrittivi dello ‘scatter-dati’ ciò
potrebbe bastare ma esiste il metodo apparentemente più complicato ma più fecondo di risultati
tipico della statistica inferenziale, ossia la somma e l'elevazione al quadrato dei singoli scarti. Con
questo metodo i segni negativi sono eliminati per elevazione al quadrato secondo quanto insegna
l’algebra quando facendo il prodotto tra due numeri negativi ottiene un risultato positivo (Es. - 4
x - 4 = +16).
La sommatoria degli scarti, resi quadratici, viene poi divisa per il numero dei dati per fornire una
quantità media degli scarti quadratici. Tale quantità è nota come ‘varianza’ (indicata spesso con
la lettera greca ‘σ2 ’ (sigma minuscola) elevata al quadrato.
25
Dunque la varianza è :
∑i (Xm – Xi)

N
2
varianza = σ =
2
e rappresenta perciò una ‘media quadratica’ della variabilità dei dati .
Calcolando poi la radice quadrata della varianza, ossia facendo il procedimento inverso a quello di
elevazione al quadrato degli scarti, ossia de-quadratizzando la varianza si ricava la cosiddetta
'deviazione standard’ (ingl. standard deviation , s.d.) o 'scarto quadratico medio' spesso indicata
con le sigle 'd.s', o 's.d’ o ‘s’ od anche con la σ (sigma) . Per quanto detto si riassume la
definizione, al solito modo preciso e conciso con la formula :
d.s. = σ =
∑
(X m − X i )2

N
Si noti che la formula sopra scritta che dà la deviazione standard è identica a quella della varianza
più sopra riportata salvo che per la presenza della radice quadrata. Per calcolare infatti la
deviazione standard, avendo la varianza, basta estrarre la radice quadrata della varianza .
Viceversa avendo la d.s. si ha la σ elevando al quadrato la deviazione standard.
Es: se varianza =
e se d.s. .
=
25
allora
5
allora
i
d.s. =
σ2
=
25
52
=
5
= 25
Nel concreto, l'importante calcolo della deviazione standard non avviene per lo più come
sottinteso della definizione matematica, cioè facendo le differenze tra ciascun dato con la propria
media, quindi elevando gli scostamenti al quadrato, ecc., bensì con un metodo più razionale,
specialmente quando si usano procedimenti. automatici su calcolatrici e calcolatori elettronici.
Infatti il procedimento della definizione matematica richiede di memorizzare tutti i dati, affinché
dopo il calcolo della media, si proceda alle singole differenze. Ciò significa un grande dispendio di
memoria di lavoro elettronica: pensiamo alla frequenza con cui si devono calcolare medie
provenienti da migliaia di dati.
La formula della deviazione standard viene dunque
opportunamente manipolata per ottenerne un'altra, equivalente, che non richiede più di conoscere
valore medio per
effettuare i calcoli.
d.s. = σ =
∑
i
( X i ) 2 − (∑ i X i ) 2 / N
dove N è il numero dei dati, Xi è un generico dato.
N −1
26
Anziché avere una sommatoria di differenze quadratiche si ha ora la differenza tra due
sommatorie. L’una è la sommatoria dei singoli dati quadratizzati, l'altra è la somma
quadratizzata dei singoli dati .
Risulta chiaro che un calcolatore, a questo punto, non deve far altro che memorizzare tre soli
valori man mano che i dati si. presentano, cioè : la somma di ciascun dato quadratico, la somma
dei dati, quali sono, e il numero dei dati.
Terminato l'arrivo dei dati, la macchina provvede ai calcoli finali. Qualunque macchina, comprese
le calcolatrici tascabili operano convenientemente in tal modo senza più limiti di dati .
Così calcolata, la d.s. del l° gruppo risulta 16,9 mentre quella del 2° gruppo è 39,8 : oltre 2
volte la precedente, com’è giusto.
Possiamo notare che essendo la d.s. calcolata su un insieme di dati campionari, cioè estratti da
una popolazione su cui si vorranno poi fare considerazioni inferenziali, ossia di induzione sulla
popolazione da cui è tratto il campione, si effettua una sorta di correzione usando in formula la
quantità N-1 invece che N. Questa riduzione, qui modesta, rispetto al numero N dei casi
fornisce la quantità nota come ’grado di libertà’, indicata per lo più come ‘g.d.l’ (in inglese
‘d.o.f’- degrees of freedom-)
La sua spiegazione richiederebbe una trattazione che esula dagli scopi di queste note: limitiamoci
a dire che la nozione di 'grado di libertà attiene al fatto che data una serie di elementi a comporre
un ‘sistema’ (p.es. gli elementi A,B,C,D) la quantità di combinazioni che si possono stabilire tra
un qualunque elemento con tutti gli altri è pari a N-1 (cioè a 4-1 = 3). Infatti la ‘libertà’ del
gruppo così definito è che preso un elemento, p.es. C, si avrà ‘libertà’ di formare solo 3 coppie
CA, CB, CD. Ugualmente preso l'elemento D, potremo avere la possibilità dì avere solo DA,
DB, DC. E così via. Se dunque il ‘sistema’ era definito per la messa in coppia di 4 elementi a
due a due riscontrando che la ‘libertà’ di movimento degli elementi era ‘tre’, così, in modo
analogo, definito un ‘sistema’ fatto di una media aritmetica e dei dati che la compongono, forniti i
dati e fissata la media aritmetica, uno di questi dati è sovrabbondante nel senso che rimane definito
senza equivoci quando si sono fissati gli altri elementi .Dunque questo particolare ‘ sistema’ ha
grado di libertà pari al numero di dati meno uno. Con altre parole possiamo dire che conoscendo
lo scarto totale dei valori A B C dalla media non occorre calcolare anche lo scarto tra D e la
media perché esso resta fissato per differenza tra il totale degli scarti e quello dei primi tre già
effettuati. La scienza statistica vuole che nei calcoli di un qualunque test ci si serva dei g.d.l
specifici di ogni test, ovvero del numero minimo sufficiente di dati, anziché del semplice ma
ridondante numero dei casi.
- Il ‘coefficiente di variazione' : CV
Un ulteriore interessante parametro è il 'coefficiente di variazione definito come rapporto
percentuale tra deviazione standard e media aritmetica.
σ
CV =  * 100
Xm
Esso esprime sinteticamente di quanto variano i dati in termini di deviazione standard rispetto alla
media, fatta 100. E' così possibile stabilire confronti tra le dispersioni di. gruppi di dati misurati
su scale diverse poiché le dispersioni sono rapportate alle medie dei rispettivi gruppi.
27
16,9
CV =  * 100
154
Così il nostro gruppo ‘a’ ha
= 10%
ossia la variabilità media (deviazione standard) dei dati attorno alla loro media è del 10% della
media stessa. Per il 2° gruppo si ha:
39,8
CV =  * 100
154
= 25%
Se dunque il gruppo ‘a’ mostra una dispersione del 10% rispetto alla sua media mentre per il
secondo gruppo, ‘b’, è del 25% possiamo dire che quest’ultimo è due volte e mezzo più disperso
del primo gruppo.
Conclusione sulle ‘dispersioni’
Volendo riassumere e completare quanto detto finora sul modo di raggrupparsi e/o di disperdersi
dei dati, in pratica si tiene conto e si definiscono i seguenti parametri:
Scarto : differenza tra un dato qualunque e la media dei dati. Viene spesso indicato con S e può
essere positivo o negativo potendo essere il singolo dato maggiore o minore
del valore medio, Xm .
Scarto
S = Xm - Xi
Devianza : sommatoria degli scarti quadratizzati (per annullare le differenze negative).
Viene spesso indicata con D
N
devianza D = ∑i (Xm - Xi)
2
N
1
Varianza :
∑i S2
=
1
E' la stessa devianza D divisa per il numero di casi (o per n-1 se il gruppo di
dati è un campione tratto da una popolazione)
N
∑i (Xm - Xi)2
1
Varianza
σ2
=

N
=
D

N
28
Deviazione standard : è la radice quadrata della varianza (si usa N-1 se il gruppo di dati è un
campione di una popolazione)
N
Dev. Stand.
Coeff. di variaz.
σ2
∑
=
CV
i
(X m − X i )2
1
N
=
=
D
N
σ
 * 100
Xm
- Conclusione del discorso con un : esempio generale n. 2
Riconsiderando i dati di cui all'esempio 1 (prima parte) e che qui trascriviamo per comodità,
vogliamo calcolarne la varianza, la deviazione standard ed il 'coefficiente di variazione'
Dati originali : 30 misure di peso alla nascita in grammi
2700, 2710, 2730, 2800, 2820, 2840, 2910, 2960, 3000, 3100, 3120, 3200, 3280, 3280,
3280, 3380, 3400, 3420, 3450, 3460, 3470, 3480, 3490, 3550, 3580, 3600, 3650, 3710,
3750, 4100
si era ottenuta la media aritmetica = 3274
Calcoliamo ora la varianza e deviazione standard usando il metodo 'economico' (ossia quello che
non richiede il preventivo calcolo della media e poi il calcolo di tutti i singoli scarti).
Ci basta la sommatoria dei quadrati dei dati ed il quadrato della sommatoria dei dati, secondo la
formula (A) precedentemente scritta :
29
n.
DATI Quadrati
n.
DATI
Quadrati
---------------------------------------------------------------------------------------------------1
2700 7290000
16
3380
11424400
2
2710 7344100
17
3400
11560000
3
2730 7452900
16
3420
11696400
4
2800 7840000
19
3450
11902500
5
2820 7952400
20
3460
11973600
6
2840 8065600
21
3470
12040900
7
2910 8468100
22
3480
12110400
8
2960 8761600
23
3490
12180100
9
3000 9000000
24
3550
12602500
10
3100 9610000
25
3580
12816400
11
3120 9734400
26
3600
12960000
12
3200 1024000
27
3650
13322500
13
3280 1075840
28
3710
13764100
14
3280 1075840
29
3750
14062500
15
3280 1075840
30
4100
16810000
-------------------------------------------------------------------------------------------------------Fatti i calcoli si ottiene:
Dati :
Somma dati :
Somma quadrati
N
∑ Xi
∑ Xi2
= 30
= 98220
= 325258600
E dalle due sommatorie ricaviamo, secondo la formula (5) :
∑ Xi2 - (∑ Xi )2 / N
325258600 – 982202 / 30 = 122877,33
=
dividendo poi il risultato per 29 (usiamo cioè ' N-1 gradi di libertà' , considerando i dati un
campione) :
si ottiene
la Varianza
σ2 =
e quindi.
la Dev. Stand.
σ
=
il Coeff. di Variaz. CV
=
poi
122877,33 / 29
12714,48
= 127114,48
= 356,53
(356,53 / 3274) * 100
= 10,88 %.
Avvio Software Statistica per esercitazione
30
III PARTE Elementi di statistica inferenziale
Abbiamo visto la definizione di deviazione standard (o scarto quadratico medio) e di errore
standard. Abbiamo accennato pure al significato della distribuzione normale ed alle sue proprietà.
Ricordiamo che se una 'popolazione' è distribuita 'normalmente' per un certo carattere ciò
equivale a dire che c'è un addensamento di casi, secondo certe leggi, nei gruppi aventi un valore
intermedio di quel carattere e, viceversa, una rarefazione di casi nei gruppi con valori estremi di
quel carattere. Così , p.es. se misuriamo le stature di una popolazione umana troveremo
moltissimi casi nelle classi di statura tra 160 e 180 cm., pochi casi nelle classi tra 140-150 e 180200 cm, rarissimi casi sotto il metro e sopra i due metri.
Tale popolazione avrà una certa statura media e un proprio modo di distribuirsi dei casi attorno al
valore medio, come descritto dalla deviazione standard. Se misuriamo gli scostamenti, invece
che nelle unità usate in quel particolare studio (nel nostro esempio in cm), in deviazioni standard
attorno al valore medio, preso come punto zero degli scostamenti , avremo trasformato la curva
gaussiana o normale in una curva normale standardizzata, cioè rapportata alle deviazioni standard
e per la quale si definisce che tutta l'area sottostante la curva abbia convenzionalmente valore 1.
Questo ci consente di fare delle considerazioni più generali. E' infatti come quando si paragonano
due fenomeni percentualizzando le misure. Se volessimo, ad esempio. paragonare il potere di
acquisto dei salari di operai russi e italiani, sarebbe molto difficile ragionare in termini di rubli e di
lire e del loro cambio. E' molto più facile paragonare le percentuali di incidenza sull'intero
rispettivo salario che italiani e russi sborsano all'acquisto di un certo bene. Se i russi impiegano il
30% del salario per comprare un paio di scarpe e gli italiani spendono solo il 10% per un prodotto
analogo siamo autorizzati a paragonare le due percentuali ed a concludere che in Italia le scarpe
costano meno. Tornando alle gaussiane standardizzate : se due gruppi di dati presentano medie
diverse la cui incertezza statistica (ossia l’entità della oscillazione, ricavata a mezzo della
deviazione standard, e contenente con buona probabilità la media vera della popolazione, di cui i
dati correnti sono un campione) è tale da non implicare una sovrapposizione delle due medie pur
rimanendo similare,nei due gruppi, l’ampiezza di tale oscillazione statistica, sarà difficile poter
considerare omogenei i due gruppi : dunque dovremo considerarli statisticamente diversi .
Procedendo con ordine, diciamo intanto, e si dimostra (... noi ne prendiamo solo atto) che l'area
sottostante la gaussiana standardizzata compresa tra due intervalli multipli e/o sottomultipli di
deviazioni standard attorno alla media, considerata convenzionalmente zero, esprime direttamente
la probabilità che un caso qualunque, appartenente a quella popolazione normale, abbia una
misura del carattere in studio, compreso in quell'intervallo attorno al valore medio. Tale numero,
percentualizzato ossia moltiplicato per 100, esprime ugualmente la percentuale dei casi della
distribuzione che hanno valori compresi fra gli intervalli attorno allo zero mediano. Noi insomma,
dalle caratteristiche di una gaussiana standardizzata sappiamo che il 68,26% dei casi (1/3 circa) di
tutti i casi di una popolazione distribuita 'normalmente' sta tra -1 e +1 deviazioni standard dalla
media mentre a due deviazioni standard si trova il 95,45% dei casi .
31
Riassumendo, in una popolazione normalmente distribuita si ha che :
la media ± 1 dev. stand. raccoglie il 68.26% della popolazione
la media ± 2 dev. stand.
''
il 95,45%
''
''
la media ± 3 dev. stand.
''
il 99,73%
''
''
Ogni volta che in seguito ad opportune considerazioni potremo asserire che il campione in studio
(selezionato con buoni criteri di rappresentatività) è distribuito anch'esso normalmente, saremo
autorizzati ad estendere le conclusioni dal campione all'intera popolazione a meno di un certo
inevitabile errore, dovuto al fatto che il campione per quanto rappresentativo non sarà identico alla
popolazione di origine.
Intervallo fiduciale di una media (confidence limits)
___
Sappiamo già che esiste un indice detto errore standard della media che vale s / √ n in cui
‘s’ è la deviazione standard campionaria ed n il numero dei casi. Se invece di un solo campione
estraessimo cento, mille, diecimila campioni essi presenterebbero un insieme di medie a loro volta
distribuite normalmente.
E' intuitivo infatti che moltissime medie avrebbero dei valori relativamente vicini e solo poche o
rare, se il campione è buono, avrebbero valori fortemente scostantisi . L'errore standard della
media va visto come la deviazione standard di una popolazione di medie, per cui costruendo
attorno alla media del gruppo sperimentale un intervallo in frazioni o multipli di errore standard
(vista come dev. stand. delle medie), per le considerazioni sopra svolte sulle distribuzioni normali
standardizzate, otterremmo la percentuale della popolazione di medie che possono considerarsi
omogenee a quelle comprendenti la media che il campione in studio ha generato.
Se usiamo due deviazioni standard attorno alla media si raccoglierà oltre il 95% dei casi (qui
delle medie...) della distribuzione e solo il restante 5% verrà escluso pur appartenendo alla
distribuzione stessa. Commetteremo perciò solo un errore inferiore al 5% escludendo dai valori
possibili quelli che si discostano più di due deviazioni standard .
32
Se poi andiamo a calcolare i valori risultanti dalla somma e differenza della media campionaria
con i due err. stand. indicanti la probabilità di includere oltre il 95% delle medie, otteniamo due
limiti, destro e sinistro attorno al valore medio campionario che costituiscono il cosiddetto
‘intervallo fiduciale della media’, al prescelto livello fiduciale del 95% . Va da sé che si
possono calcolare i limiti fiduciali per altri livelli, come il 99%, moltiplicando l'errore standard
per tre, dal momento che uno scostamento dalla media pari a tre dev. stand. raccoglie oltre il
99% dei casi di una distribuzione normale .
Esempio :
Il calcolo della media di un campione di degenze ospedaliere per un certo tipo di ricoveri ha
fornito questi valori :
degenza media m
(giorni) = 12.5
dev. stand
s
(giorni) =
9.9
n. casi esaminati
= 180
con la formula e.s. = s / ( 180 )
ricaviamo e.s. = 0.93
calcoliamo ora gli estremi destro e sinistro attorno alla media aggiungendo e sottraendo alla
stessa due volte l'errore standard della media. L'uso di un fattore due indica che intendiamo
comprendere oltre il 95% delle medie appartenenti a quella popolazione normale che si creerebbe
se estraessimo centinaia o migliaia di campioni di degenze calcolandone le relative medie, anziché
un solo campione con una sola media, come dal nostro esperimento. Avremo pertanto che dalla
espressione :
m - 2 e.s. < m < m + 2 e.s.
sarà
9.77 < m < 13.48
ossia
12.5 - 2 x .93 < m <
(limiti fiduciali al 95%)
12.5 + 2 x .93
Possiamo affermare, ( .... sempre che il campione sia rappresentativo di una popolazione
distribuita normalmente ! ) che la media vera della popolazione si trova all'interno dell'intervallo
calcolato e che nell'affermare ciò non sbaglieremo più di 5 volte su cento.
33
Confronto tra medie di due gruppi ( t di 'Student')
Spesso si manifesta l'esigenza di paragonare le medie campionarie di due gruppi per saggiare se
l'inevitabile differenza tra i valori calcolati possa essere ritenuta statisticamente significativa cioè
se si riproduca con alta probabilità in ripetuti validi campionamenti della stessa popolazione, o in
altre parole, se il risultato dell'esperimento condotto su un campione valga per l'intera
popolazione, e ciò sotto una prestabilita soglia di errore, di solito sotto al 5%. Anche in questi
casi dovremo riferire il nostro esperimento campionario ad una distribuzione teorica più generale,
somigliando alla quale potremo trasferire i risultati dal campione alla popolazione.
Viene definito un indice 't' calcolato in due modi. Se le medie provengono da due campioni i cui
casi non hanno legami tra loro se non una generica paragonabilità ( p.es. età, patologie, altre
situazioni comparabili tra i due gruppi). Si parla allora di confronto tra 'dati non appaiati' . La
formulazione di questo primo modo appare come segue ed 'S' è definita deviazione standard
media (cfr. più sotto), mentre 'n' indica la numerosità rispettivamente dei due gruppi 'a' e 'b' :
Se osserviamo la formula che definisce l'indice 't' notiamo che fondamentalmente consiste in una
differenza tra le medie dei gruppi, differenza che poi viene corretta per la numerosità dei gruppi e
per la dispersione complessiva dei dati, tramite le loro devianze (..definite come sommatorie
quadratiche degli scarti di ogni valore dalla media, in formula : ∑ (Xm-Xi)2 ).
E' abbastanza intuitivo che quanto più differiscono le medie tanto più probabile è il rifiuto
dell’ipotesi base (detta ipotesi zero e spesso riportata col simbolo H0) che i gruppi siano
statisticamente omogenei e quindi appartengano alla stessa popolazione. Se facessimo moltissime
altre campionature, di due gruppi in due gruppi, troveremmo che moltissime differenze tra le loro
medie si accumulerebbero intorno ad un certo valore e progressivamente molte meno si
situerebbero su valori inferiori o superiori. Un discorso analogo è già stato fatto per introdurre la
distribuzione 'normale'. Dicevamo infatti che una popolazione è ‘normale’ se per un certo
carattere misurato si osservano un accumulo di 'frequenze' in certe classi centrali ed una
rarefazione nelle classi estreme, secondo certe proporzioni. Ora, anche la distribuzione delle
differenze tra le medie di due gruppi presenta questo fenomeno, pur con sue caratteristiche. C'è
34
insomma una distribuzione teorica, analoga alla 'normale', chiamata 'distribuzione t' ed è
possibile fruire di tabelle che ci dicono con quale probabilità di errore possiamo rigettare l'ipotesi
di omogeneità, di non differenza statistica tra le medie in esame ( la citata ipotesi H0). Il test che
discende dalla distribuzione 't' e che è formalizzato dall'indice 't' è chiamato 't di Student' dallo
pseudonimo dello statistico Gosset che l'ha studiato e proposto. La tabella dei valori limite di 't'
per la significatività del test di Student è riportata su tutti i testi di statistica, anche i più
elementari, stante la grande diffusione di questo metodo. Diamo qui sotto un breve campione di
come è solitamente presentata tale tabella :
Tabella dei valori t di Student
----------------------------------------------------------------------Gradi di
---Livelli di probabilita' --- *
liberta'
P 5%
P 1%
---------------------------------------------------------------------1
12.71
63.66
2
4.30
9.93
3
3.18
5.84
4
2.78
4.60
5
2.57
4.03
6
2.45
3.71
7
2.37
3.50
8
2.31
3.36
9
2.26
3.25
10
2.23
3.17
.....
......
......
.....
......
......
15
2.13
2.95
17
2.11
2.90
.....
......
......
20
2.09
2.85
.....
......
......
30
2.04
2.75
.....
......
.... ..
60
2.00
2.66
.....
......
.. ....
120
1.98
2.61
.....
......
......
**
N>>
1.96
2.58
---------------------------------------------------------------------*
I valori di t sono arrotondati al 2. decimale
* * N>> indica un valore molto grande, verso l'infinito
Il secondo modo di definire 't' si ha quando i casi appartenenti ai due gruppi sono direttamente
legati o sono addirittura lo stesso caso visto in momenti o stati diversi. Questa situazione è nota
come 'appaiamento' e produce una speciale comparabilità di cui le formule devono tenere conto:
35
Anche qui si fa uso della quantità 'S' , già descritta come deviazione standard media, e di 'n' :
numerosità dei gruppi. Tipico di questa situazione è il caso di pazienti di cui venga registrato un
parametro prima e dopo un determinato intervento, trattamento o terapia.
Esempio :
confronto tra le medie di due gruppi, senza appaiamento
Supponiamo di avere due gruppi di individui di età paragonabile ma di sesso diverso e si voglia
verificare se la media dei pesi (in kg) dei due gruppi, che nei campioni risulta diversa, possa
indicare in modo statisticamente significativo che, in generale, maschi e femmine, differiscono per
il peso a parità di età. Sia la seguente la tabella dati distinta per sesso, completa dei rispettivi
quadrati .
-------------------------------------------------------------------------------------------------N.caso
Maschi
Femmine
------------------------------------------------------------------------------------------------Peso
Peso^2
Peso
Peso^2
-------------------------------------------------------------------------------1
77.2
5959.8
62.1
3856.4
2
71.7
5140.9
69.5
4830.2
3
80.5
6480.2
72.4
5241.8
4
78.0
6084.0
61.1
3733.2
5
68.1
4637.6
65.7
4316.5
6
72.3
5227.3
59.3
3516.5
7
90.8
8244.6
85.5
7310.2
8
84.4
7123.4
49.0
2401.0
9
93.2
8686.2
78.1
6099.6
10
77.2
5959.8
----------------------------------------------------------------------------------------------------Totali ---->
793.4 63543.8
602.7 41305.4
36
Calcoliamo poi rapidamente :
Peso medio
Dev.standard
Errore stand. m.
Interv.fiduc. 95%
Maschi
79.34
8.14
2. 47
73.52 -:- 85.16
Femmine
66.97
10.97
3.62
58.61 -:- 75.32
Dando i simboli ‘m’ ed ‘f’ rispettivamente a maschi e femmine, ed indicando con N la numerosità
dei gruppi, con 'gdl' la sigla : gradi di libertà (per questo test, per ogni gruppo sono pari al
numero dei dati meno 1) ed indicando le sommatorie col simbolo greco ‘∑'’ (sigma maiuscolo),
useremo le sottostanti formulazioni :
+ N
Fattore delle numerosità
:
Devianza maschi
:
∑ pesi
- ( ∑ pesi m) 2 / N m
= 595.44
Devianza femmine
:
∑ pesi f 2 - ( ∑ pesi f) 2 / N f
= 944.59
:
( devz m + devz f ) x ( gdl
Dev. stand. media
Otterremo un indice
T =
(N
x N
m
2
m
3.001
f
)/(N
che ha
m
Nm+
m
f
)
= 39.24
+ gdl f )
= 161.80
Nf - 2
=
17
gdl
Consultando le tavole riportanti i valori soglia della distribuzione 't' vediamo che con 17 gradi di
libertà i valori soglia di significatività al 5% ( 2.11) ed all'1% (2.90) sono entrambi superati dal
nostro T calcolato.
Pertanto, la differenza tra i due valori medi è di una entità tale che ci consente di affermare, a
meno del 1% di errare, che le due medie non appartengono probabilmente alla stessa
distribuzione, ovvero rigettiamo l’ipotesi H0 di omogeneità e concludiamo affermando che i due
gruppi hanno pesi significativamente diversi con P < 0.01.
Il problema di confrontare medie si estende ovviamente al confronto tra più gruppi e non può
essere correttamente risolto facendo tutti i possibili confronti a coppie. Si verifica infatti un
'accumulo di errore' che finisce per sovrastimare i risultati producendo differenze solo apparenti .
Si applica allora la cosiddetta 'correzione di Bonferroni' che consiste nel moltiplicare la probabilità
risultante dal confronto tra due qualunque degli n gruppi per cui è fatto l'esperimento per ‘n’
(numero dei gruppi). E' comunque consigliabile ricorrere ad una metodica più generale chiamata
‘analisi di varianza’ .
37
Analisi di varianza (ANalysis Of VAriance : ANOVA) monovariata
Tale metodica non può essere estesamente trattata in queste brevi note, diremo comunque che si
applica comunemente quando si devono confrontare le medie di più di due gruppi relativamente
ad un criterio di suddivisione (analisi di varianza ad una via : one way ANOVA, monovariata)
oppure con due o più criteri di suddivisione (analisi di varianza a due o più vie : two ways, three
ways ANOVA).
Se dovessimo, p.es., confrontare le medie dei pesi di cinque gruppi di individui trattati con
diete diverse applicheremmo una ANOVA a 1 via, infatti il criterio di divisione è uno solo : le
diete, come si vede dall'esempio nella seguente tabellina dove troviamo i pesi medi di 5 gruppi di
individui trattati con 5 diverse diete :
pesi medi
dieta 1
dieta 2 dieta 3 dieta 4 dieta 5
-------------------------------------------------------------55
59
57
60
61
--------------------------------------------------------------
Se volessimo rifare l'esperimento tenendo conto anche del sesso degli individui dovremmo
misurare i pesi suddividendo ciascun gruppo-dieta in due gruppi di sesso e prendendone poi i
valori medi per ottenere :
pesi medi
‘’ ‘’
dieta 1
dieta 2 dieta 3 dieta 4 dieta 5
-----------------------------------------------------------maschi
55
59
57
60
61
femmine 54
57
58
58
59
------------------------------------------------------------
L' ANOVA , svolta normalmente al calcolatore per la quantità di calcoli da eseguire, specie se
con molti dati e/o a più vie, produce normalmente un risultato globale che segnala se
complessivamente c'è differenza tra le diete (one way), come nel primo esempio, e tra le diete e/o
i sessi (two ways), come nel secondo esempio. In caso esistano tali differenze globali è possibile
verificare tra quali coppie di gruppi-dieta e/o sesso risiedono le differenze di peso. Il discorso si
complica con l'aumentare delle vie anche perché nella comprensione dei risultati entra in gioco un
nuovo fattore noto come 'interazione'. La presenza di interazione significativa indicherebbe un
legame inscindibile tra diete e sessi che rende inutile una trattazione separata per diete e sessi. E'
come dire che, per qualche nota o meno nota ragione, le diete, agiscono molto di più su un sesso
(magari per la presenza di ormoni anabolizzanti, in quelle diete, ecc.).
Per la valutazione del significato statistico di una analisi di varianza ci si basa, come al solito, su
una retrostante distribuzione : la ‘F’ di Snedecor, definita come un rapporto tra due variabilità.
Una è chiamata 'media dei quadrati entro i gruppi' e consiste in una sommatoria delle varianze di
ciascun gruppo, ciascuna moltiplicata per la numerosità ( meno 1) del gruppo stesso, quindi divisa
per i gradi di libertà (numerosità globale meno il numero dei gruppi). L'altra e' chiamata m
' edia
dei quadrati tra i gruppi' e consiste nella sommatoria delle differenze quadratizzate tra la media
di ciascun gruppo con la media di tutti i casi di tutti i gruppi, assieme, e con ciascuna differenza
moltiplicata per la numerosità di ciascun gruppo, quindi divisa per il proprio grado di libertà (
numero dei gruppi -1 ).
38
Come sempre si consulteranno apposite tabelle (che non riportiamo) per vedere se l'indice ‘F’
calcolato, supera quello riportato sulle tabelle, al voluto livello di probabilità. In caso affermativo
può essere sostenuta una diversità tra le medie dei gruppi. Nel caso di un confronto tra due
gruppi il risultato è identico a quello di un confronto fatto con il 't di Student' . Nel caso di più
gruppi, poiché la risposta data dalla 'F' è globale mentre al ricercatore interessa sapere tra quale o
tra quali gruppi c'è differenza significativa, occorre ricorrere ad appositi metodi, noti come 'post
hoc tests' per individuare dove risiedono tali differenze. I metodi sono diversi ed i più noti sono :
il test di Scheffé, di Duncan, di Tukey , ecc.. Ogni pacchetto statistico ben fornito li contiene
nella propria dotazione .
Il confronto tra le medie di due gruppi, condotto col 't' o con l'analisi di varianza, condotta su più
medie con le ANOVA, può compiersi purché siano rispettati alcuni assunti, ossia sotto i vincoli di
normalità della distribuzione dei casi e della cosiddetta 'omogeneita' delle varianze', cioè che i
gruppi in esame mostrino similari modi di distribuirsi dei dati attorno alle rispettive medie. Anche
qui non possiamo trattare diffusamente del problema ma vanno tenuti presenti alcuni criteri di
massima, orientativi all'uso :
1. non si impieghi il 't' o l' ANOVA se i gruppi a confronto non sono dell'ordine di qualche
decina di casi
2. si abbia la nozione se la variabile in esame (peso, altezza, ecc) da cui il campione è stato
estratto risulti distribuita normalmente, tenendo conto della esistente letteratura
3. si cerchi di usare gli appositi test che verificano la normalità (p.es. il test di Kologorov Smirnov ) e l'omogeneità delle varianze (p.es. il test di Bartlett).
Questi test sono studiati per sondare la presenza di non normalità e non omogeneità delle
varianze, rispettivamente, pertanto si procederà con le analisi parametriche (ANOVA, ecc.)
quando essi risultano non significativi. Infatti la loro significatività equivale al rigetto della
‘ipotesi zero’ (H0) che ci sia una distribuzione normale e che le varianze siano omogenee.
39
ANOVA multivariata
Fin da quando abbiamo definito il 't di Student' per il confronto tra le medie di due gruppi e giù
fino alle analisi di varianza tra più gruppi ed eventualmente a più vie, si è detto che i gruppi e le
vie sono un modo di analizzare i dati ma sempre relativamente ad una sola caratteristica per volta:
il peso, l'altezza, i giorni di degenza, ecc. Nell'esempio sopra riportato abbiamo raccolto i pesi per
diversi gruppi di dieta e di sesso dove il carattere esaminato era sempre e solo il peso mentre i
raggruppamenti erano fatti sotto due modalità (due vie): il sesso e le diete . Ci sono tecniche per
vedere se i valori medi dei casi si distinguono analizzando contemporaneamente più caratteri, per
esempio peso e altezza insieme. Questa tipo di analisi di varianza è detto: 'multivariato' ovvero a
più variabili .
Altre tecniche multivariate
Tutte le analisi tipo ANOVA analizzano i dati riguardo ai valori medi di gruppi e sottogruppi in
cui possono essere organizzati. E' possibile condurre molti altri tipi di analisi in grado di operare
su più variabili contemporaneamente. Tra le diverse ricordiamo :
- cluster analysis : tendente a raccogliere in dati in gruppi più o meno vicini tra loro a
seconda dei valori che ogni caso riporta per le diverse variabili esaminate.
- analisi discriminante: tendente a costruire, da un campione esemplare, una equazione che
serva a classificare correttamente, in una di due alternative, (sani/ammalati, a rischio/non a
rischio, ecc.) nuovi casi man mano che si presentano in base ad n variabili note.
- analisi fattoriale : tendente a ‘semplificare’ l’insieme delle variabili sottoposte all’analisi in
speciali raggruppamenti, detti ‘fattori’ che diventano vere e proprie nuove variabili, in numero
decisamente inferiore, atte a descrivere il campione
Riguardo alla ‘cluster analysis’ si immagina che ogni caso, definito tramite più caratteri (variabili)
come p.es.: peso , altezza, età, degenza, ecc. sia come un punto in uno spazio ad n dimensioni in
cui i valori assunti dalle variabili siano le coordinate di tali punti nello spazio. Naturalmente aldilà
delle tre coordinate non è più possibile una rappresentazione grafica dato che lo spazio fisico nel
quale ci muoviamo è di sole tre coordinate. Concettualmente parlando e lavorando con le formule
matematiche non c'è limite al numero delle dimensioni elaborabili. Il vocabolo ‘cluster’ è
mutuato dall’inglese e significa precisamente grappolo, raggruppamento.
40
In figura, un esempio di processo di ‘clusterizzazione’ su dati riguardanti le lunghezze dei canali
vascolari entro occhi umani. Ad un normale ‘scatter plot’ è sovrimpresso un raggruppamento per
un massimo di tre gruppi .
Il metodo usato per la
costituzione dei gruppi
(‘average’)
compone
gruppi aventi la distanza
media (tra i dati) minima
possibile.
Nel caso specifico di plot
a due dimensioni questo
soft si incarica non solo di
segnalare le appartenenze
ai cluster ma anche di
contornare
i
cluster
individuati. Ci sono altri
tipi di rappresentazione
che
tendono
ad
evidenziare le ‘distanze’
che separano gruppi e
sottogruppi tra loro. Se il
processo di suddivisione è
pensato
come
‘gerarchico’, ovvero come
un processo che può
andare dalla massima
frantumazione (tutti i casi, singolarmente, fanno un gruppo a sé) fino ad unico gruppo che di
riunione in riunione raduna tutti i casi, allora si può ottenere un ‘dendrogramma’, una figura ad
albero che si apre in molte diramazioni (gruppi e casi).
In questa figura si
osserva
un
dendrogramma che a
partire
dall’estrema
sinistra della figura, fino
alla estrema destra
raccoglie
progressivamente casi e
gruppi fino ad una sola
entità. Gli ultimi gruppi
(a
destra)
sono
caratterizzati da grandi
differenze
(distanze)
evidenziate dalle quote a
cui avviene l’unione tra due gruppi qualunque.
41
Riguardo alla analisi discriminante si intende soprattutto costruire uno strumento matematico,
una equazione, che in base alla misura di uno o più caratteri (peso, altezza. età) sia in grado di
classificare (per esempio come patologico o meno) ciascun nuovo caso che si presenti al
ricercatore.
I casi costituenti il campione, certamente numerosi, (molte decine o centinaia, per dare un
riferimento…) non possono essere casi ignoti, da studiare, ma casi esemplari, sicuramente
classificati in uno dei due gruppi stabiliti a priori. E’ come se lo spazio n-dimensionale fosse
diviso in regioni contenenti casi p.es. casi sicuramente patologici e sicuramente sani oppure su due
regioni di casi a bassa e alta risposta ad una certa terapia, ecc. . L’equazione ricavata, se mostra di
poter riclassificare con accuratezza gli stessi casi del campione nelle rispettive regioni di
appartenenza, diciamo attorno al 90-95% dei casi del campione potrà essere impiegata per
classificare nelle stesse regioni un nuovo caso introducendo nella equazione trovata i valori delle
variabili proprie di quel nuovo caso, a meno dell’errore che siamo disposti a tollerare e che risulta
nel momento in cui accetta l’equazione.
In figura, una tipica
uscita (qui del prodotto
PSP,
per
una
elaborazione con tre
variabili).
Si osservi in particolare
il valore della ‘soglia
discriminante’
che
costituisce il punto di
distinzione tra i casi
ricadenti nel primo o nel
secondo
gruppo.
Ciascun nuovo caso,
fornito del valore di
ognuna delle tre variabili
ritenute
discriminanti
viene collocato nel proprio campo calcolando il relativo ‘L’ che viene confrontato con la soglia (26.442).
Riguardo alla analisi fattoriale notiamo che nelle diverse ricerche è normale che ciascun caso sia
descritto con molte o moltissime variabili, non di rado varie decine. Si constata che parecchie
variabili si muovono insieme, sono tra loro correlate in senso diretto (se crescono o calano
insieme) o in senso inverso (se mentre cala l'una un'altra cresce). Ciò è normale, soprattutto in
ambito medico, se non altro perché molte variabili sono misurate nello stesso distretto biologico :
il fegato, il muscolo, i reni, ecc. Inoltre alcune variabili sono più valide di altre a caratterizzare i
casi.
E' possibile, con l’analisi fattoriale, semplificare la descrizione del campione tramite
l'identificazione di due, tre o più fattori, ossia raggruppamenti di variabili configurate come una
sorta di 'supervariabili' fittizie. Può allora intravvedersi p.es. un fattore 'antropometrico' dato dal
contributo delle variabili antropometriche come peso, altezza, eta', body-mass-index (peso in kg /
(altezza in metri)2) ecc.. , e/o può uscire un fattore ‘epatico’ da alcune variabili del distretto
epatico, ecc. Di ogni fattore sarà possibile vedere l'importanza rispetto agli altri fattori ed il
contributo di ciascuna variabile alla sua consistenza .
42
Regressione lineare semplice
Non si può parlare di analisi di varianza senza ritornare sul tema delle regressioni. La procedura
di regressione è una tecnica del tutto matematica e produce immancabilmente il suo risultato dopo
una nutrita serie di passaggi di calcolo con i quali essenzialmente si risolve un sistema di due
equazioni ottenendo il coefficiente angolare 'm' della retta e l'intercetta 'q' sull'asse y delle
ordinate . Tale risultato, ancorché tecnicamente corretto può aver valore statistico nullo. Infatti
bisogna verificare che i punti (i casi) in regressione, quando siano espressione di una
campionatura, in dipendenza del loro numero e della entità del coefficiente angolare trovato,
esprimano una regressione valida per l'intera popolazione . Allo scopo, le regressioni presenti nei
pacchetti statistici sono generalmente corredate di due strumenti statistici essenziali : l'analisi di
varianza della regressione e la statistica del coefficiente angolare (di solito condotta su una
distribuzione 't' di cui il ‘pacchetto’ dà spesso anche il relativo P di significatività) . Nell’esempio
in figura, nella sezione di descrizione della elaborazione numerica, si vede il risultato della analisi
di varianza della regressione . Questa segnala, tramite il coefficiente ‘F’ se il modello di
regressione, in generale può ritenersi valido . La ‘slope’ (pendenza) fornisce invece il tasso di
variazione della variabile dipendente in funzione della variazione unitaria della variabile
indipendente . Il risultato è ben riassunto nel quadro sottostante che riassume la legge di
variazione della accelerazione in funzione del tempo : -3.37 x 10-3 per ogni unità di peso . Il
valore negativo indica un proporzione inversa ovvero che al crescere del peso diminuisce
l’accelerazione. Il modello di regressione è valido con P < 0.01 .
43
L'analisi della varianza col relativo 'F' ci dice se la regressione possa essere valida nel suo
complesso, mentre il test 't' sul coefficiente angolare ci dice se tale coefficiente possa ritenersi
significativamente diverso da zero . In altre parole si controlla che la pendenza (slope) data dal
coefficiente 'm' non sia solo apparente. Dire infatti che 'm' ( tasso di variazione della variabile
dipendente y, al variare della variabile indipendente x ) e' zero equivale a dire che il variare di x
non trascina alcuna variazione significativa di y. Nelle regressioni semplici, quelle con una sola
variabile indipendente x, il valore di 'F' coincide con quello del 't' del valore di pendenza 'm'
poiché tale coefficiente è anche il solo che fa sussistere la regressione.
Tra le tecniche multivariate molti includono anche le multiregressioni in cui una variabile
dipendente Y varia in funzione della variazione di più variabili indipendenti X1,X2, X3, ecc. Per
fissare le idee si immagini, ad esempio di voler testare se la lunghezza della degenza (y) dipenda
contestualmente dalle variabili età (X1), tempo di presenza della patologia (X2), livello dei
trigliceridi (X3), livello delle gamma-globuline (X4) .
Avremmo il seguente modello di regressione multipla :
Y = a X1 + b X2 + c X3 + d X4
in cui a, b, c, d sono i coefficienti da determinare con la regressione multipla , e dove ciascuno di
loro è analogo alla 'm' di una regressione semplice poiché indica il tasso di variazione della
variabile dipendente Y al variare di una unità di quella particolare variabile indipendente.
In questo caso ciascun coefficiente ha valori diversi dall'indice 'F' globale di regressione ed i
diversi coefficienti possono risultare o meno significativi indicando così che la y dipende
realmente solo da quelle variabili indipendenti (a,b,c,d) risultate significative (significativamente
diverse da zero). Ovviamente se 'F' fosse statisticamente insignificante ( errore P dell'indice 'F'
troppo grande, ampiamente sopra il convenzionale 0.05) sarebbe inutile consultare a,b,c,d in
quanto l'intero ‘modello’, cioè il complesso delle variabili indipendenti scelte non avrebbe
significato.
Nella regressione lineare semplice (una variabile dipendente ed una dipendente) e nella
regressione lineare multipla (una variabile dipendente e molte indipendenti) sono in gioco
variabili misurate su scala intervallo (quali peso, altezza, età e normalmente distribuite). Questa e
le altre tecniche appena descritte sono cioè tipicamente ‘parametriche’.
44
Esistono regressioni come la regressione logistica (semplice o multipla) in grado di utilizzare
variabili classificatorie cioè misurate su scala nominale, come il sesso, le classi di età, l'essere o
meno fumatore , ecc. andando a comporre modelli di regressione con variabili di tipologia mista,
del tipo :
Y = altezza + sesso + Body-Mass-Index + età + fumatore
Caratteristica appariscente della regressione logistica è che la variabile dipendente (Y) è codificata
in modo dicotomico (modello logistico binario) ossia classificando i casi con due soli valori 0/1,
1/2 ecc. che indicano il verificarsi di un certo evento o la presenza di una certa situazione, ad es.
paziente migliorato o meno, situazione di alto rischio - basso rischio, obeso - non obeso, deceduto
non deceduto, ecc. Ma la caratteristica principale di questa analisi è che il risultato viene letto in
termini di probabilità, ossia che il muoversi di una unità (o di una categoria) in una delle variabili
indipendenti sposti dalla categoria 0 a quella 1 (o da 1 a 2…) la variabile dipendente. Anche la
regressione logistica fornisce dei coefficienti che sono testati statisticamente. Se risultano
significativi si esamina il ‘peso’ che essi hanno sul variare della Y in termini di ‘rischio’, cioè,
ripetendo quanto si è detto poco sopra, la probabilità che il muoversi di una unità (o categoria, se
quella variabile è di tipo nominale) di una variabile indipendente provochi il muoversi della
variabile binaria dipendente (da 0 a 1, o da 1 a 2).
Nella figura sottostante è riportata una tipica uscita della sezione ‘rischio’ (odds ratio) di una
analisi di regressione logistica. Si può vedere che, p.es., la variabile 9 (esrisv8b_2) nel passare
dalla categoria di riferimento alla categoria connotata da questa variabile implica l’innalzarsi di
ca. 2 volte la probabilità che la variabile dipendente passi da 0 a 1 (cioè da assenza di un certo
stato alla presenza di quello stato. Anche la variabile 2 (sessv1_1), indicante in questa analisi il
sesso femminile, alza di quasi 2 volte (1.925) la probabilità che la variabile dipendente passi allo
stato 1. Nelle righe inferiori della figura sono riportati alcuni parametri globali della regressione
tra cui il ‘CHI-SQ P-VALUE’ indicante la significatività statistica del modello di regressione
nel suo complesso e che qui risulta accettabile con P < = 0,05
La colonna degli ‘odds’ è affiancata a destra da due altre colonne riportanti i limiti fiduciali ( in
45
figura, al 95%) attorno al valore calcolato. Più alta è la significatività statistica delle variabili in
esame e del modello nel suo insieme, più stretto sarà l’intervallo sfiduciale che identifica con più
affidabilità l’odds calcolato. Regola pratica per asserire la significatività degli odds è che i limiti
fiduciali non devono contenere il valore 1. Gli odss ed i rispettivi estremi sopra il valore 1
indicano un ‘rischio’ ovvero che il crescere della variabile fa crescere anche la probabilità, della
quantità indicata dall’odds, di spostare la variabile dipendente allo stato 1. Gli stessi valori, sotto
l’unità, indicano che il crescere della variabile indipendente agisce ‘in protezione’ , ossia al
crescere della variabile diminuisce la probabilità di spostare la variabile dipendente allo stato 1.
Bisogna notare che gli ‘odds ratio’ spiegati da molti come ‘rischio relativo’ sono in realtà una
approssimazione del rischio relativo, secondo la più corretta definizione dello stesso. Sotto certe
condizioni tuttavia le due quantità sono abbastanza simili. Se infatti chiamiamo p1 e p2 la
probabilità di verificarsi di un certo evento in due diverse condizioni (es: ammalarsi [o meno],
dopo esposizione [o no] ad una situazione rischiosa) ed (1-p1) e (1-p2) la probabilità del non
verificarsi dello stesso evento, si ha, per definizione, che il ‘rischio relativo’ (RR) e l’ ‘odds ratio’
(OR) sono dati, rispettivamente, da :
p2
RR = 
p1
p2 / (1 - p2)
OR = 
p1 / (1 - p1)
E’ evidente che le due definizioni forniscono valori tanto più vicini quanto più piccoli sono p1 e
p2 .
Rileviamo altresì che mentre le regressioni lineari semplici e multiple sono per lo più parte
integrante dei comuni pacchetti statistici la regressione logistica viene spesso confinata in moduli
aggiuntivi (da acquistare..). Poiché molti noti soft statistici sono organizzati a moduli attorno ad
un ‘nucleo-base’ l’acquirente farà bene ad accertarsi che le analisi di suo interesse siano realmente
contenute nei moduli acquistati.
Coefficiente di correlazione lineare (o di Pearson)
Se il coefficiente angolare 'm' misura il tasso di variazione della variabile dipendente (x) al variare
di quella indipendente (y) il coefficiente di correlazione r (oppure R) è un indice di associazione
tra le due variabili in regressione. E' definito dalla relazione :
dove X ed Y sono le coordinate cartesiane dei vari punti e ∑ indica la sommatoria estesa a tutti i
punti. Varia tra zero ed uno indicanti rispettivamente assenza o massima correlazione. Quanto
più alto è il coefficiente tanto più alta è la forza del legame lineare tra le variabili e perciò i punti in
regressione giacciono vicini ad una retta. E’ possibile che le variabili siano tra loro legate ma che
sia basso il coefficiente r di Pearson il che indicherebbe esistere un legame di tipo diverso da
quello lineare (esponenziale, parabolico, ecc.). Poiché in un esperimento i punti in regressione
rappresentano più spesso un campione di una popolazione, sarebbe fuorviante limitarsi a rilevare
46
la sola entità del coefficiente. Infatti quando siamo in presenza di un campione occorre verificare
la significatività del coefficiente tarandolo. Per così dire, su apposite tabelle in base al numero dei
punti (o meglio, dei gradi libertà) della regressione. Così con 50 punti è sufficiente un ‘r’ di
circa 0.28 per avere un errore sotto il 5% , (comunemente preso come soglia di significatività) .
Il coefficiente ‘r’ è simmetrico perché invertendo le variabili in regressione, ossia dichiarando
dipendente la variabile che prima era stata definita indipendente, fornisce lo stesso risultato (non
così il coefficiente ‘m’ di regressione).
Riportiamo uno stralcio di una tabella di significatività dei coefficienti ‘r’:
Tabella dei valori ‘r’ di regressione
----------------------------------------------------------------------Gradi di
--- Livelli di probabilità' --- **
Libertà *
P 5%
P 1%
---------------------------------------------------------------------1
.997
.9999
2
.950
.990
3
.878
.959
4
.811
.917
5
.755
.875
6
.707
.834
7
.666
.798
8
.632
.765
9
.602
.735
10
.576
.708
.....
......
......
15
.482
.606
17
.456
.575
.....
......
......
20
.424
.539
.....
......
......
30
.349
.449
.....
......
......
60
.250
.325
.....
......
......
100
.195
.254
.....
......
......
----------------------------------------------------------------------
*
**
I gradi di libertà sono il numero di coppie meno due
I valori di ‘r’ sono arrotondati al 3° decimale
Nel caso delle multiregressioni il relativo coefficiente di correlazione è detto ‘coefficiente di
correlazione multipla' .
47
Analisi non parametriche
Quando non siano soddisfatte le condizioni più sopra descritte di normalità delle distribuzioni, di
non omogeneità delle varianze, o quanto meno, di bassa o bassissima numerosità del campione
conviene rivolgersi ad analisi cosiddette ‘non parametriche’, cioè non necessitanti l'impiego di
misure su 'scala intervallo' . I gruppi non sono allora paragonati in base alla media ed alle
varianze, come avviene per un test parametrico, bensì rilevando come ciascun caso di un gruppo
si rapporta (più grande o più piccolo) con ciascun caso di altri gruppi e costruendo così una
gerarchia ordinale (rank order). In base al numero di voltein cui un dato precede o segue quelli
degli altri gruppi è possibile comporre test analoghi, nella funzione, a quelli già citati . Nella
seguente tabella sono riportate in prospetto le analisi più comuni e corrispondenti, per misure di
tipo parametrico e non parametrico .
---------------------------------------------------------------------------------------------------Analisi
Parametriche
NON parametriche
---------------------------------------------------------------------------------------------------tra due gruppi
t Student
Wilcoxon , Mann-Whitney
tra più gruppi
ANOVA 1 via
Kruskall-Wallis
tra più gruppi
ANOVA 2 vie
Friedman
tra più gruppi
ANOVA 3 -:- 5 vie
nessuna
----------------------------------------------------------------------------------------------------
All’occorrenza dunque si sceglierà un Wilcoxon anziché il ‘t’ di Student oppure un KruskallWallis anziché una ‘one way ANOVA, ecc. Si noti che nei singoli pacchetti statistici la modalità
di ingresso per i diversi tipi di analisi parametriche e non parametriche, normalmente, non varia e
dunque con la stessa preparazione di dati si lanciano indifferentemente l’uno o l’altro tipo di test.
Tavole di contingenza e test sulle frequenze
Finora abbiamo eseguito calcoli e test su vere e proprie misure di un qualche carattere : abbiamo
operato cioè su valori misurati su scala-intervallo . Ricordiamo infatti che la 'misura' di un
carattere può effettuarsi in tre modalita :
-
-
scala nominale : quando la misura e' puramente classificatoria, nominale, come quando per
misurare il colore degli occhi diciamo che un certo caso ha gli occhi neri, un altro ha occhi
blu, un altro ha occhi verdi, ecc ; oppure quando classifichiamo il sesso di un caso come
maschio e femmina dando eventualmente il valore 1 al maschio e 2 alla femmina, senza che i
due numeri abbiano alcun significato aritmetico .
scala ordinale : quando la misura pur essendo espressa da numeri e indicano rapporti di
grandezza non intende specificarne la precisa distanza con altre misure, ma solo l'entità
maggiore o minore di altre misure. Ciò avviene quando, per esempio, si misuri la gravità di un
sintomo con un punteggio (tipo 1,2,3,4) che pur segnalando una ingravescenza non intende
48
-
misurare gli intervalli tra i numeri e quindi non si potrà dire, p.es., che il sintomo 4 è grave
esattamente il doppio del sintomo 2 , ecc..
scala intervallo : quando la misura espressa con numeri ne mantiene tutto il significato sia di
ordine che di dimensione tra le misure. Così chi pesa 40 kg ha un peso che è la metà di chi
pesa 80 kg ed è 4 volte rispetto a chi pesa 10 kg .
Orbene le cosiddette ‘tavole di contingenza’ raccolgono e paragonano delle numerosità delle
'frequenze' (quindi delle percentuali), raccolte in base a 'misure nominali' di un certo carattere.
Quando ci poniamo domande del tipo: “ Quanti sono i casi maschi che presentano quel certo
sintomo rispetto ai casi analoghi di femmine ?… ” stiamo implicitamente parlando di frequenze e
di ‘tabelline’ di contingenza che raccolgono tali conteggi per fare su di essi qualche
considerazione e paragone.
Esempio :
Supponiamo di aver somministrato due diversi farmaci A e B a due gruppi di pazienti, composti
rispettivamente di 25 e 30 persone ciascuno e di aver preso nota di quanti casi di ogni gruppo
hanno presentato chiari segni di miglioramento. Al termine delle osservazioni raccogliamo i
risultati nella seguente tabellina di contingenza a due righe e due colonne ( 2 x 2) :
MEDICINALI
A
B
Migliorati
Non migliorati
TOTALI
colonna
12
13
25
11
19
30
TOTALI
riga
33
32
55
Dai risultati si evince che nel gruppo trattato con A sono migliorati 12 pazienti su 25 (oltre il
48%) , mentre dei 30 trattati con B sono migliorati in 11 (cioè il 37% circa). Ci chiediamo se
queste percentuali decisamente difformi possano indicare un modo significativamente diverso di
ripartirsi del miglioramento, in dipendenza dall'aver preso il farmaco A o quello B .
Allo scopo si calcola un indice ℵ2 (Chi-quadro , dalla lettera maiuscola greca che lo
contraddistingue) . A seconda che il ℵ2 superi o meno i valori teorici, riportati in apposite tabelle,
potremo affermare o no, con un errore non superiore a quello indicato dalle tabelle stesse, che la
ripartizione delle frequenze per i gruppi 'A' e 'B' è diversa .
Prima di procedere al calcolo del ℵ 2 è utile soffermarsi sul significato e la derivazione di tale
indice.
Analogamente a quanto abbiamo visto per il 'test t' reso possibile dall'esistenza di una
'distribuzione t' teorica così ora per il test ℵ2 facciamo ricorso ad una distribuzione teorica
chiamata allo stesso modo. E come per il 't' fu studiata la distribuzione delle differenze tra due
medie per vedere fino a che punto esse potessero differire prima di affermare una probabile
provenienza da gruppi diversi, cioè un'appartenenza a popolazioni diverse, così ora, il retroterra
del test ℵ2 prende a base la definizione che segue :
49
ovvero, distribuzione degli scarti quadratici calcolati tra frequenze osservate sperimentalmente e
frequenze attese, cioè quelle per le quali ci sarebbe omogeneità tra i gruppi in studio . Per capirci
: si pensi al caso in cui si abbiano 30 maschi di cui se ne ammalano 15 . Volendo vedere se 100
femmine si ammalano allo stesso modo, nello stesso rapporto, dovremo supporre una 'frequenza
attesa' di 50 ammalate perché non ci sia differenza tra i gruppi : solo così infatti la perc entuale di
ammalati nei due gruppi sarebbe la stessa.
Ma se vogliamo vedere un esempio completo supponiamo di avere 30 maschi e 120 femmine, e
che maschi e femmine si siano ammalati con le seguenti frequenze :
Frequenze osservate (o sperimentali )
Frequenze attese (o teoriche)
maschi femmine Totali col.
maschi
femmine
Totali
---------------------------------------------------------------------------------------------------ammalati 20
40
60
12
48
60
---------------------------------------------------------------------------------------------------sani
10
80
90
18
72
90
----------------------------------------------------------------------------------------------------Totali riga 30
120
150
30
120
150
Le frequenze attese sono date da :
30 ( 60/150 ) = 12 , 120 (60/150) = 40
e
30 ( 90/150) = 18 , 120 (90/150) = 72
per la prima riga
per la seconda riga.
Infatti viene impostata un proporzione in base alla seguente considerazione : se 60 sono gli
ammalati su un totale di 150, pari al 40 %, allora gli ammalati maschi, su un totale di 30 maschi,
saranno 0.40 x 30 , cioè 12 . Cosi' via per gli altri valori . Si trovano insomma le frequenze
teoriche (attese) dei sottogruppi che rispettando le proporzioni generali rendono indifferenti le
percentuali di ciascun gruppo, maschi e femmine.
Si può anche verificare che il rapporto tra sani e ammalati (12/18 e 48/72 nei due sessi calcolato
sulla tabellina delle frequenze attese è infatti identico.
Oltre ad usare la formula di definizione, con frequenze attese ed osservate sopra riportata, per il
calcolo del ℵ2 in tabelline di varia ampiezza, è noto anche il metodo di Skory che ha il vantaggio
di non richiedere il calcolo delle frequenze attese, secondo la definizione.
Nel caso di una tabellina generica m x n (cioè ad m righe ed n colonne) in cui le frequenze di
ogni riga siano annotate con generici a,b,c,d, il ℵ 2 (chi-quadro) secondo Skory si ottiene con i
seguenti passaggi :
50
-
-
calcolo per ogni riga della somma dei quadrati delle frequenze, divise per il rispettivo totale di
colonna (che chiameremo genericamente m1, m2 ... ), per dare un certo numero di risultati
che indicheremo con N1, N2 , ecc. , per ogni riga .
N1 =
a2/m1 + b2/m2 + c2/m3 +..... + ecc.
N2 =
g2/m1 + h2/m2 + i2/m3 +..... + ecc.
tutti questi totali N1, N1 ecc (tanti quanti sono le righe) sono divisi, ciascuno per il rispettivo
totale di riga, chiamato genericamente n1, n2, ,ecc ed infine sommati per dare un numero A
ossia :
A = N1 / n1 +
N2/n2 + N3 / n3 + .........+
ecc.
c) Il ℵ 2, indicato con N il totale dei casi di entrambi i gruppi è dato da :
ℵ 2 = (A -1) x N
Dopo aver fatto più chiarezza sul significato del ℵ2 possiamo ritornare al calcolo di tale indice
riprendendo l'esempio del confronto tra medicinali per i quali avevamo composto la tabellina di
contingenza 2 x 2 cosiffatta :
MEDICINALI
A
B
Migliorati
Non migliorati
TOTALI
colonna
12
13
25
11
19
30
TOTALI
riga
33
32
55
Ne verranno allora i seguenti calcoli, seguendo la regola di Skory :
N1 = 122 / 25 + 112 / 30
=
144 / 25 +
121 / 30
=
5.76 + 4.03
N2 = 132 / 25 + 192 / 30
=
169 / 25 + 361 / 30
=
6.76 + 12.033 = 18.79
=
9.79
da cui :
A=
9.79 / 33
+
18.79 / 32 = 0.29 + 0.59
=
0.88
perciò :
ℵ 2 = ( 0.88 - 1 ) x 55
=
- 0.12 x 55
= - 6.6 (trascurando il segno)
= 6.6
51
Per la valutazione del risultato si ricorre alle tavole dei valori limite del ℵ2 , secondo quanto già
fatto per il 't di Student'. Si prenda nota soprattutto della modalità di calcolo dei cosiddetti ‘gradi
di libertà’ (in sigla: gdl; inglese: dof -degrees of freedom-). Anche in una tabella costituita da m x
n celle, contenenti le frequenze rilevate nell’esperimento, oltre ai totali marginali di ciascuna riga
e colonna, si verifica la ‘libertà’ di modificare un certo gruppo di elementi mentre alcuni altri
elementi saranno implicitamente determinati dalla variazione degli altri al fine di conservare, ad.
es., i totali marginali . Si deve cioè determinare il numero dei gradi di libertà del sistema ‘tavoladi-contingenza’ . Una tabella 3 x 4 ha (3-1) x (4-1) = 6 gdl . Una tabella 2 x 2 ha grado di liberta
(gdl) 1 con valori di soglia di significatività al 5% ed all’ 1% di 3.84 e 6.64, rispettivamente.
Questo significa che se il ℵ 2 calcolato risulta superiore, p.es. al valore 3.84 possiamo affermare,
con possibilità di sbagliare 5 volte su 100 ipotetiche, valide campionature, che tra le due categorie
in esame (es.: maschi e femmine) c’è una ripartizione significativamente diversa dei casi rispetto
alla situazione studiata (es.: ammalarsi/non ammalarsi).
Non ci sono test specifici, in analogia con i ‘post-hoc test’ delle analisi di varianza, che possano
identificare tra le varie celle di una tabella m x n quelle che sostengano di fatto la significatività
globale espressa dal ℵ 2 . Una tecnica valida consiste nel sommare tra loro i conteggi così da
semplificare la tabella accorpando due o più righe e/o colonne ma mantenendo il totale globale,
così da individuare meglio le sorgenti di variabilità .
Diamo di seguito un esempio di tabella ℵ2 redatta per due livelli di significatività :
Tabella dei valori di ℵ 2
---------------------------------------------------------------------------Gradi di
--- Livelli di probabilità --- *
Libertà * *
P 5%
P 1%
---------------------------------------------------------------------------1
3.84
6.64
2
5.99
9.21
3
7.82
11.35
4
9.49
13.28
5
11.07
15.09
6
12.59
16.81
7
14.07
18.48
8
15.51
20.09
9
16.92
21.67
10
18.31
23.21
.....
......
......
.....
......
......
15
24.00
30.58
17
27.59
33.41
.....
......
......
20
31.41
37.57
.....
......
......
25
37.66
44.31
.....
......
......
30
43.77
50.89
.....
......
......
--------------------------------------------------------------
52
•
•
•
* I valori di ℵ2 sono arrotondati al 2° decimale
* * In una tabella di contingenza m x n i gradi di libertà si ottengono dal
prodotto : (m-1) x (n -1) . Una tabella 2 x 2 avrà 1 solo grado di libertà.
E’ significativo quel valore calcolato di ℵ2 che risulta superiore a quello
tabulato nella colonna del prescelto livello di significatività
Consultando le apposite tavole dei valori limite di significatività del ℵ 2 , vediamo che per un grado
di libertà il valore tabulato, al 5% è 3.84 mentre quello all'1% è 6.64. Dato che il valore calcolato
per la nostra tabella supera quello riportato per il 5% ma non supera quello dell'1% siamo
autorizzati ad affermare che i miglioramenti sono ripartiti in modo significativamente diverso a
seconda che si prenda il farmaco A o B, ossia A e B agiscono sulle situazioni in modo realmente
diverso. L'affermazione è soggetta ad un errore sotto il 5%, ma non sotto l'1% (... e vale finché il
campione sia stato correttamente selezionato...! )
Per il corretto utilizzo dell'indice ℵ 2 va detto tale metodica deve subire una correzione
(correzione di Yates, detta anche di ‘continuità’ ) se il totale dei casi in tabella di contingenza è
inferiore ai 50 casi e addirittura, per le tabelle 2 x 2, si cambia metodo di calcolo se una delle
quattro frequenze è minore di 5. Viene usato allora il cosiddetto 'metodo esatto di Fisher ' per il
quale non si ricava più un indice da testare sulle tavole di probabilità di una qualche sottostante
distribuzione ma si ottiene direttamente la probabilità che le due entrate in tabella siano
statisticamente legate. Supponendo, p.es., che siano a, b, c, d le quattro frequenze di una tavola
2 x 2 , per un totale di N casi, ed r1, r2 e c1, c2 i totali marginali di riga e colonna,
rispettivamente, la probabilità secondo Fisher è data dalla formula sottostante :
Alle complessità che sembrano sorgere in
continuazione quando si affronta una analisi concreta
ovviano in parte i moderni pacchetti statistici per
elaboratore che mentre annullano il tempo di calcolo
riescono spesso a scegliere la metodica migliore.
Così, ad esempio, correzione di Yat es o metodo esatto di Fisher sono selezionati
automaticamente al presentarsi delle opportune numerosità.
53
Analisi di ‘sopravvivenza’
Vanno sotto questo nome un gruppo di tecniche tese a inferire sul verificarsi nel tempo di un certo
evento in uno o più gruppi di soggetti in studio e, normalmente, di poter anche verificare se
l’andamento con cui l’evento si diffonde nel tempo, sul campione, è significativamente diverso tra
i gruppi in esame . Esistono tecniche non parametriche, semi-parametriche e parametriche .
La più nota in assoluto tra le tecniche parametriche e non parametriche è la cosiddetta ‘KaplanMeier’ (non parametrica e spesso citata come K-M), presentata nel 1958 dagli omonimi autori.
Viene ancora chiamata ‘attuariale’ in quanto collegata a metodi precedenti (Berkson e Gage,
1950) nei quali era
essenziale
raccogliere i dati
suddivisi in periodi di
tempo
prestabiliti
controllando
il
numero
di
casi
all’inizio del periodo,
la
mortalità
nel
periodo ed i casi
eventualmente
perduti al controllo. I
moderni metodi di
calcolo
operano
direttamente
sui
tempi
di
sopravvivenza dei singoli casi senza alcun riferimento a periodi fissi predeterminati. L’aspetto
della curva di Kaplan-Maier, la non dipendenza da speciali distribuzioni teoriche dei dati ed altre
analogie collegano ancora questo metodo a quelli ‘attuariali’ precedenti.
Con ‘K-M’ si giunge ad una o più ‘curve’ e ad una o più tabelle, quanti sono i gruppi in esame,
che evidenziano i casi che si presentano all’inizio di ogni tempo di controllo e quanti di questi
‘sopravvivono’, ossia non si verifica ancora per loro l’evento. Poiché all’inizio tali tecniche erano
sorte per controllare l’andamento della mortalità nel corso di ‘follow-up’ di pazienti, si è
mantenuto il nome ed il riferimento a ‘sopravvivenze’ che possono non aver niente a che fare con
il fenomeno in studio.
Nella figura soprastante, un tipico andamento della ‘sopravvivenza’ secondo K-M, per due
gruppi di pazienti che presentano un diverso complesso di sintomi : A e B .
54
Si vede chiaramente un diverso andamento della sopravvivenza, tanto che a 4 anni la percentuale
di sopravvivenza del gruppo B scende sotto il 50% mentre il gruppo A non scende sotto tale
quota neppure dopo 15 anni. Appositi test statistici, come il log-rank test (o di Mantel-Haenszel),
forniscono la probabilità che due o più andamenti siano statisticamente diversi. Tali test forniscono
però una risposta globale che nel caso di una indagine a più curve può richiedere opportuni
approfondimenti : innanzitutto la possibile riduzione del numero di curve in gioco, l’uso di test
diversi che essendo più sensibili alle sezioni dei tempi di indagine, iniziale o media o finale, aiuti ad
individuare le effettive sorgenti di differenza. Altri metodi come quello di Cox, semiparametrico,
offrono la possibilità di indagare quali variabili con cui sono stati descritti i casi influenzino il
fenomeno in studio ed il verificarsi dell’evento atteso. Gli ‘output’ del metodo assomigliano a
quelli di una regressione lineare multipla con l’assegnazione di una probabilità significativa o meno
ad ogni singola variabile. Uno degli assunti del metodo di Cox è infatti quello di una modifica
proporzionale del rischio, nel tempo, secondo un tasso lineare.
Avvio Software Statistica per esercitazione
55
Analisi R.O.C. (Relative Operating Characteristic)
Come possiamo misurare la qualità di una informazione diagnostica e stabilire che un sistema è
significativamente migliore rispetto ad un'altro? Una risposta a tale interrogativo si è resa
necessaria sia per ridurre i rischi sia per giustificare i costi delle procedure diagnostiche, che negli
ultimi anni hanno conosciuto un continuo incremento: la teoria delle curve R.O.C. nasce appunto,
in campo medico, con questa funzione.
La sigla R.O.C. deriva da «receiver operating characteristic curve»; la teoria era infatti
inizialmente utilizzata nel campo dell'elettronica per misurare la capacità di un radar di riconoscere
un segnale in presenza di un rumore di fondo.
In medicina le curve R.O.C. sono state utilizzate negli ultimi cinquant'anni soprattutto nel settore
della diagnostica. In particolare il fisico e psicologo Gustav Fecner (1801-1887) sviluppò le basi
della moderna metodologia di analisi psicofisica studiando la relazione tra stimolo e risposta,
misurando la differenza tra due stimoli e il valore di soglia. Egli riuscì ad ottenere una
rappresentazione della funzione psicometrica (graf.1) ponendo in grafico la proporzione di
risposte positive rispetto alla misura dell'entità dello stimolo.
Graf.1 Curva di risposta psicometrica.
Louis Thurstone (1887-1955) successivamente, nel corso dell'analisi della discriminazione, fece
ulteriori passi avanti adottando un modello basato sull'assunzione della parziale sovrapposizione
delle distribuzioni dei valori psicometrici di stimoli simili. In tale situazione l'espressione di un
giudizio viene definita in termini di criterio decisionale, ovvero di una soglia di discriminazione,
che corrisponde ad un punto sull'asse degli effetti sensoriali tale che i valori superiori ad essa
producano una risposta, e quelli inferiori la risposta contraria.
56
Nel 1940, Richard Blackwell considerò il caso in cui uno dei due stimoli considerati è nullo, ossia
costituito dal solo rumore di fondo. Egli assunse, l'ampiezza dello stimolo corrispondente ad una
proporzione di veri positivi pari a 0,50 sul grafico della funzione psicometrica come soglia di
stimolo.
L'applicazione della teoria delle decisioni statistiche alla capacità di rivelazione dei radar costituì
un notevole passo avanti; nell'applicazione del test statistico l'ipotesi nulla H0 venne identificata
nel rumore di fondo, mentre l'ipotesi alternativa H1 venne associata al rumore più il segnale (graf.
2).
Graf. 2 Distribuzione dello spettro delle ampiezze del rumore di fondo
(Ho) e del segnale (H1)
A livello ufficiale, l'unificazione di diverse regole riferite alla costruzione delle curve R.O.C. fu
realizzata nel 1954 in occasione della presentazione di due lavori al Simposio sulla Teoria delle
informazioni da parte di studiosi delle Università di Harvard e del Michigan (15).
CAPACITÀ DI DISCRIMINAZIONE DI UN TEST DIAGNOSTICO
Questo metodo permette di studiare la capacità di discriminazione di un sistema, ossia quanto
quest'ultimo è in grado di riconoscere correttamente i segnali che esprimono una patologia
(positivi), in presenza di elementi di normalità (negativi) e in funzione dell'ampiezza della variabile
in studio (segnale) e del livello di giudizio utilizzato per la classificazione (soglia di giudizio
diagnostico).
Supponiamo che un campione di pazienti venga sottoposto ad un test «A» e che in seguito,
attraverso un secondo test (gold standard), già ampiamente utilizzato (ad esempio un esame
istologico), si riesca a stabilire con certezza la loro positività o negatività nei confronti di una certa
patologia; con queste informazioni è possibile costruire la seguente tabella:
57
risultato al test diagnostico
VP=veri positivi
stato reale
+
FP=falsi positivi
-------------------------------------------FN=falsi negativi
+
VP
FN
VN=veri negativi
FP
VN
-------------------------------------------Per valutare le potenzialità informative di un sistema
sono disponibili i seguenti indicatori:
1) SENSIBILITA'= VP/(VP+FN) (in simboli FVP: frazione dei veri positivi) indica la probabilità
che un soggetto affetto dalla malattia venga giudicato tale.
2) SPECIFICITA' = VN/(VN+FP) (in simboli FVN: frazione dei veri negativi), è la probabilità
che un individuo sano risulti negativo al test diagnostico.
3) INCIDENZA DEI FALSI POSITIVI = FP/(FP+VN) = (1 - Specificità) (in simboli FFP:
frazione di falsi positivi); indica la probabilità di commettere un errore di secondo tipo (Beta),
ossia di accettare un'ipotesi falsa.
4) INCIDENZA DEI FALSI NEGATIVI = FN/(FN+VP) = (1 - Sensibilità) (in simboli FFN:
frazione di falsi negativi); indica la probabilità di commettere un errore di primo tipo (Alfa) cioè di
rifiutare un'ipotesi vera.
5) VALORE PREDITTIVO POSITIVO = VP/(VP+FP) probabilità che il test indichi la presenza
di malattia di un soggetto effettivamente malato.
6) VALORE PREDITTIVO NEGATIVO = VN/(VN+FN) probabilità che il test classifichi
negativo un individuo che lo è effettivamente.
7) INCIDENZA DI CORRETTA CLASSIFICAZIONE = (VP+VN)/P+N corrisponde al numero
di decisioni corrette sul totale dei casi, chiamata anche Accuratezza.
8) INDICE DI YOUDEN
J = 1-(FFP+FFN) questo indice tiene conto dei due tipi di errore,
ossia FFN e FFP; nel caso di un test assolutamente non discriminante si avrà J=0 al contrario se
J=1 il test sarà perfettamente iscriminante1.
Le frazioni 1,2,3,4,5,6 sono probabilità condizionate: ognuna di esse rappresenta la stima della
probabilità di un tipo di decisione, condizionata al fatto che il soggetto sia sano o malato. Ad
esempio la FFP indica la probabilità di ottenere un risultato positivo dal test quando venga
effettuato su un individuo sano.
1
In alcuni casi si potrebbe verificare che -1<=j<=0, ciò è dovuto ad una correlazione
negativa con la diagnosi, anche se è raro che si presenti tale situazione (Armitage 1987).
58
SOGLIA DI GIUDIZIO DIAGNOSTICO
Per valutare un sistema diagnostico non è sufficiente osservare questi indicatori separatamente,
perchè il loro valore è strttamente correlato con quello assunto come soglia per la classificazione
diagnostica. E' infatti evidente che, ad esempio, abbassando la soglia di giudizio per la
classificazione dei positivi di un test si otterrà un miglioramento in termini di sensibilità, ma ciò
avverrà a scapito della specificità. Pertanto volendo esprimere un giudizio complessivo della
metodica diagnostica in studio è necessario valutare il comportamento di queste due variabili
antagoniste (sensibilità e specificità) al variare della soglia di giudizio, ovvero attraverso la
costruzione della cosidetta curva R.O.C.
Ci sono due possibili tipi di approccio per la costruzione delle curve R.O.C., il primo è quello che
parte direttamente dalla conoscenza delle distribuzioni di frequenza in un campione di veri positivi
e veri negativi dei valori di una variabile ottenuti, ad esempio, attraverso l'applicazione di un test
di laboratorio; il secondo è quello basato su una classificazione diretta dei singoli reperti
diagnostici eseguita da uno o più operatori, come ad esempio avviene per le immagini
radiografiche. In questo lavoro viene esaminata la prima delle due metodiche.
SOGLIA DISCRIMINANTE
Date le curve di distribuzione delle frequenze di una variabile misurata in un campione di positivi e
in uno di negativi, supponendo che la media nei primi stia a destra rispetto all'altra, una soglia di
discriminazione va intesa come un punto dell'asse delle ascisse tale che i soggetti che si trovano a
destra vengono classificati come positivi e quelli a sinistra come negativi. Chiaramente quei
negativi che cadranno al di là della soglia (a destra) verranno classificati come falsi positivi, al
contrario, i positivi che cadranno a sinistra della soglia si chiameranno falsi positivi (graf. 3a).
Supponendo che le distribuzioni dei positivi e dei negativi siano gaussiane, la capacità di
discriminazione di un sistema dipenderà dal grado di sovrapposizione delle due distribuzioni. Più
le curve sono sovrapposte, maggiore sarà la probabilità di commettere degli errori di primo e di
secondo tipo (FFN, FFP) ovvero maggiore sara' l'errore di classificazione associato alla soglia
(potere discriminante). E' evidente dai grafici seguenti come si riducano le frazioni di falsi positivi
e di falsi negativi quando le curve sono più distanti e le medie delle distribuzioni sono più lontane
(graf. 3b).
59
a
b
Graf. 3: Sovrapposizione di distribuzioni di frequenze della variabile in
studio nei campioni dei "positivi" e dei "negativi". fp: falsi positivi, fn:
falsi negativi.
Nel confronto di due tecniche diagnostiche lo studio della sensibilità e della specificità calcolate
rispetto ad un solo valore di soglia può essere fuorviante, in quanto, come è stato puntualizzato in
precedenza, un basso valore di soglia di giudizio diagnostico comporta un'alta sensibilità ed una
bassa specificità del test in esame, e viceversa.
a
b
c
Graf.4: effetto della variazione della soglia sulla classificazione di falsi
negativi e falsi positivi.
LA CURVA R.O.C.
Dalla figura 4 si può notare come al variare del valore di soglia si ottengano un numero di falsi
positivi e falsi negativi differenti. Mettendo in grafico le frazioni di falsi positivi e di veri positivi
ottenute con le tre soglie rappresentate in figura si ottengono tre punti della curva R.O.C.
60
sottoriportata. E' da notare che, all'aumentare del valore di soglia, ossia passando da (a) a (c)
diminuisce la frazione dei falsi positivi e la Sensibilità, mentre aumenta la Specificità.
Graf. 5: curva R.O.C.
Una curva ROC per definizione è una rappresentazione grafica del complementare ad 1 della
probabilità di compiere un errore di secondo tipo (falso negativo) rispetto alla probabilità di
compiere un errore di primo tipo (falso positivo), al variare del livello di soglia decisionale.
Una curva R.O.C. è quindi una rappresentazione grafica che esprime la «covariazione» dei due
tipi di errore.
Fermo restando il sistema diagnostico in studio sarà possibile ottenere una famiglia di curve al
variare del parametro dato dalla differenza tra le medie delle due distribuzioni, cioè tra l'ampiezza
media del segnale e quella del rumore (graf. 6).
a
b
Graf 6: distribuzioni delle ampiezze e rapporti segnale/rumore.
c
61
Il grafico 7 mostra come all'aumentare della distanza tra le medie dei positivi e dei negativi la
curva R.O.C. tenda a spostarsi più in alto e più a sinistra.
Graf. 7: Effetto del rapporto segnale/rumore sulle curve R.O.C.
COSTRUZIONE DELLA CURVA
Date due distribuzioni di frequenza una di positivi e una di negativi, la costruzione di una curva
ROC è basata sull'utilizzazione di cinque livelli di giudizio:
1 - sicuramente negativo
2 - probabilmente negativo
3 - possibilmente positivo
4 - probabilmente positivo
5 sicuramente positivo
Queste soglie possono essere considerate coincidenti, sulla curva dei positivi, ai valori
della variabile corrispondenti rispettivamente ai percentili 30, 250, 500, 750, e 970.
(graf. 8).
62
Graf. 8: individuazione delle soglie di giudizio sulla distribuzione dei "positivi"
Per ogni livello decisionale si calcolano due frazioni, quella dei veri positivi (sensibilità) e quella
dei falsi positivi (FFP); le coppie di punti ricavate vengono assunte come coordinate dei punti che,
opportunamente interpolati, danno origine alla curva ROC. (graf. 9)
Utilizzando i percentili siamo in grado di avere punti ben distribuiti; i valori delle frazioni di veri
positivi e di falsi positivi, essendo probabilità variano tra 0 e 1.
Graf. 9: costruzione della curva R.O.C. sulla base dei 5 livelli di giudizio.
63
CONFRONTO DI DUE CURVE
Nel caso in cui si volessero confrontare due sistemi diagnostici, si possono porre le curve sullo
stesso grafico: in generale, quella delle due che si trova più in alto e più a sinistra dovrebbe
indicare il sistema migliore.
Graf. 10: confronto fra curve R.O.C. relative a due metodologie diagnostiche
Nel caso delle due curve rappresentate nel grafico 10, la curva (b) è quella che intuitivamente
rappresenta il sistema diagnostico migliore tra i due, infatti per un dato valore della frazione dei
falsi positivi, il test (b) è quello che presenta un valore più alto della frazione dei veri positivi.
E' necessario a questo punto valutare la significatività statistica della separazione tra due curve
R.O.C.; per fare questo esistono diverse possibilità (8 e 12): nel nostro caso si è ritenuto
opportuno utilizzare il metodo di A.Hanley e B.McNeil che studia la differenza tra le aree (9 e
10).
L'area sottesa alla curva, che chiameremo Ai, misura la probabilità che reperti diagnostici, di
malati e di sani, possano essere classificati correttamente; questo metodo di stima dell'area utilizza
il test di Wilcoxon il quale ci permette di calcolare la suddetta probabilità anche quando le
distribuzioni dei negativi e dei positivi non siano gaussiane2. Se un metodo diagnostico è un buon
discriminatore, allora la misura dell'area, ossia la probabilità, sarà molto vicina a 1 (graf. 11a), in
caso contrario sarà vicina a 0 (graf. 11b).
2
In campo medico spesso si è costretti ad utilizzare piccoli campioni, in questi casi infatti ci si trova di fronte a
distribuzioni non gaussiane.
64
a
b
Graf. 11: tecnica diagnostica discriminante (a) e scarsamente discriminante (b)
Per il confronto statistico delle aree viene utilizzato un test Z, che verifica l'ipotesi nulla H0 di
uguaglianza delle aree; la descrizione dettagliata del metodo per il calcolo delle aree e il confronto
statistico è riportata nell'appendice.
In questo tipo di analisi insorgono a volte alcuni problemi, ad esempio può verificarsi che due
curve abbiano aree simili ma forme differenti: potrebbe quindi verificarsi che il test Z ci porti ad
accettare un'ipotesi quando questa è falsa. (graf. 12).
Graf 12: curve R.O.C.- con area equivalente ma con andamento differenziato
65
E' quindi utile, nell'affrontare una analisi di questo tipo, prima di considerare i risultati, tenere
conto delle forma delle due curve3. Nonostante questo, l'analisi eseguita attraverso le curve
R.O.C. risulta essere un importante strumento per confrontare test diagnostici per immagine e
non, evitando gli errori dovuti alla scelta della soglia decisionale. Inoltre, una volta costruita una
curva, è possibile risalire al livello di giudizio diagnostico che assicuri la massima accuratezza
percentuale, dal momento che la capacità diagnostica di un test è legata al miglior compromesso
tra sensibilità e specificità.
Avvio Software Statistica per esercitazione
3 Se
le aree delle due curve R.O.C sono uguali ma la forma è differente è consigliabile ricorrere al test statistico
descritto da Metz e Kronman (7).
66
Metanalisi
Il contributo che ciascun autore o gruppo di autori fornisce alla conoscenza di una problematica,
indipendentemente dalla quantità di effetti rilevati nei singoli lavori, può essere raccolto a
comporre un ‘mosaico di conoscenza’ tramite speciali tecniche note come ‘metanalisi’ che, prima
selezionando i lavori metodologicamente più affidabili, poi attribuendo un peso alle conclusioni
raggiunte in base alla ‘potenza’ che i test applicati potevano attingere, riescono a rinforzare certe
linee di tendenza e ad eliminare opinioni in realtà infondate. Il nome stesso di tali tecniche tramite
il prefisso ‘meta’ ( dal greco: sopra) sottolinea l’obiettivo di indagare i problemi da un punto di
vista più elevato. Uno dei punti di forza di tali metodi è la capacità di far valere l’insieme delle
numerosità dei casi dei singoli lavori non di rado troppo basse per consentire di trarre conclusioni
a elevati livelli di potenza e che quindi devono lasciare in ombra tutta una serie di possibili effetti.
Patologie meno diffuse o rare, infatti, non danno quasi mai luogo a numerosità statisticamente
consistenti se raccolte in un solo centro oppure la necessità di selezionare i casi in base a fattori di
disturbo finisce ugualmente per abbassare la numerosità dei campioni.
Il contributo di diversi ricercatori (Woolf, Peto, Cochran) ha permesso fin dagli anni ’50 la messa
a punto di test specifici quali il metodo Mantel-Haentzel-Peto e più tardi del metodo CochranDersimonian-Laird . Particolari problemi sorgono nel controllo delle omogeneità di selezione dei
casi da parte degli autori e perfino nella selezione dei lavori che sono giunti alla pubblicazione
stante la tendenza delle riviste a non pubblicare, e degli autori a non presentare quei lavori che
non portino alla rivelazione di effetti.
Conclusione
Nonostante la brevità di questa panoramica dovrebbe essere apparsa tutta la complessità di
applicare praticamente calcoli e test che nel concreto richiederebbero correzioni, verifiche oltre
che una grande attenzione nella scelta della metodica stessa . Ciò, tanto più in quanto abbiamo
ristretto gli esempi a poche, limitate situazioni. Tenuto conto però della potenza di calcolo resa
disponibile oggi dall’ 'hardware’ e dal ‘software’ statistico in circolazione e ...del consiglio di
qualche esperto... è ragionevole pensare che anche operatori meno navigati, col minimo di
retroterra che ci siamo sforzati di proporre, possano iniziare a muoversi nel settore con prudenza
e buona disposizione ad approfondire.
In rapida progressione si svelerà loro la ricchezza di informazione insita nei dati che passano
sotto il loro controllo.
f i n e
67
BIBLIOGRAFIA
1. Murray R. Spiegel -Teoria ed applicazioni della Statistica- collana Schaum - 1973.
2. Peter Armitage - Statistica Medica - Feltrinelli - 1987.
3. Alder/Roessler - Introduction to probability and statistics - W.H. Freeman and Company 1975.
4. R.F. Mould -Introductory Medical Statistics - Pitman Medical - 1976
5. Roy N. Barnett - Clinical Laboratory Statistics - Little, Brown and Company - 1979.
6. L.Spandrio - Manuale di Laboratorio - Cap.2 - B.Bagni,G.C.Candini - Statistica e Laboratorio
- PICCIN -1985
7- Cochran W.G., Sampling tecnique, New York, Johon Wiley & Sons,1977.
8- Dorfman D.D. - Alf E., Maximum-Likelihood Estimation of Parameters of Signal-Detection
Theory and Determination of Confidence Intervals--Rating Method Data, «Journal of
Mathematical Psychology» 6, (1969), pp.487-496.
9- Hanley J.A. - McNeil B.J., The Meaning and Use of the Area under a Receiver Operating
Characteristic (ROC) Curve, «Radiology», 143, (aprile 1982), pp.29-36.
10- Hanley J.A. - McNeil B.J., A Method of Comparing the Areas under Receiver Operating
Characteristic Curves Derived from the Same Cases, «Radiology», 148, (settembre1983),
pp.839-943.
11- Metz C.E., Basic Principles of ROC Analysis, «Seminars in Nuclear Medicine», 8, (1978),
pp.283-298.
12- Metz C.E. - Kronman HB., Statistical Significance Tests for Binormal ROC Curves,
«Journal of Mathematical Psychology», 22, (1980), pp.218-243.
13- Metz C.E., ROC Metodology in Radiologic Imaging, «Investigative Radiology», 21, (1986),
pp.720-733.
14- Metz C.E., Some Pratical Issues of Experimental Design and Data Analysis in Radiological
ROC Studies (in corso di stampa) 1988.
15- Swets J.A., The Relative Operating Characteristic in Psycology, «Science», December,
Vol.182, n.4116.
16- Swets J.A. - Pickett R.M., Evaluation of diagnostic system: methods from signal detection
theory, New York,Academic Press, 1982.
68
RICHIAMI MATEMATICI
Le note qui riportate intendono fornire un aiuto alla corretta interpretazione di formule ed
espressioni numeriche e/o letterali che si incontrano nel trattamento matematico-statistico dei dati,
fatto manualmente o con l'aiuto di mezzi automatici (calcolatrici, calcolatori, ecc. ). Le citazioni
fatte nel manualetto di statistica medica, normalmente allegato, presuppongono la conoscenza di
diversi operatori matematici che si cerca in questa sede di richiamare o spiegare meglio. In ogni
caso i cenni rimangono rapidi e concisi. Trattazioni rigorose e dimostrazioni potranno trovarsi in
testi adeguati. Sono qui richiamate solo alcune fondamentali definizioni di importanti operatori
matematici e geometrici.
Espressioni
Diciamo espressioni le sequenze di numeri e operazioni che li legano o per essere più precisi : le
sequenze di operandi e di operatori . Operandi sono infatti le entità su cui si opera (numeri o
lettere ) mentre gli operatori sono le regole con cui saranno trattati quegli operandi (p.es. le
quattro operazioni aritmetiche di somma, sottrazione, moltiplicazione e divisione che operano su
numeri di diverse tipologie .
es. :
12 + 7 - 2
è una espressione che indica come tratteremo i numeri 12, 7, e 2 .
Le espressioni assumono forma parzialmente o totalmente letterale quando si immagina di
lavorare su numeri generici che potranno essere specificati in un secondo tempo .
es.: 6· a + 4 + 3· b - 4· a è una espressione letterale in cui le quantità 'a' e 'b' non
sono date esplicitamente, al momento, il che ci consente solo di mettere insieme tutti i gruppi che
hanno le stesse parti letterali, sommandoli algebricamente . Ossia, se abbiamo 6 volte la quantità
'a' e poi altre 4 volte la quantità 'a' (da sottrarre) possiamo dire avere in tutto 2 volte la quantità
'a' mentre 4 e 3 volte 'b' dovranno rimanere separati dato che non sappiamo quanto vale
l'imprecisato 'b' . Risulta dunque : 2· a + 3· b + 4
Nella notazione matematica è comune sostituire il segno di moltiplicazione 'x' con un semplice
punto o addirittura con niente, quando ciò non dia luogo a confusione come capita avendo a che
fare con espressioni dove i numeri non sono precisati e sono invece sostituiti da lettere. A volte,
quando si ha a che fare con procedure informatizzate e/o con linguaggi di programmazione si
vede spesso indicare l’operazione di prodotto con l’asterisco ‘*’
Risultano quindi
matematicamente equivalenti le espressioni:
10 x 5 x 2
;
10 · 5 · 2
;
10 * 5 * 2
10 x a x b
;
10 · a · b
;
10ab
;
10 * a * b
69
E' evidente che mentre l'espressione 10ab (indicante un prodotto fra i tre fattori 10, a, b ) può
essere scritta senza interpunzioni sottintendendo il relativo prodotto, l'espressione di soli numeri
10 x 5 x 2 non potrebbe essere scritta come 1052 senza evidente confusione . Questo vale
soprattutto quando le espressioni fossero scritte per, o su calcolatori dove la grafia è codificata in
un preciso modo e le diverse quantità devono avere interposto esplicitamente il relativo operatore.
Nell'eseguire calcoli di più numeri e con più operazioni si deve tenere conto della gerarchia delle
operazioni cioè del 'rango' delle operazioni stesse e della presenza di eventuali parentesi che
modificano l'ordine prestabilito ‘per default’, cioè l’ordine standard in assenza di altre specifiche
istruzioni.
Tale ordine prevede che siano eseguite prioritariamente, in sequenza, le operazioni :
1) Moltiplicazione 'di segno' ( 'unary operation')
2) Elevazione a potenza
3) Moltiplicazioni e divisioni
4) Somme e sottrazioni
- unary operation : operazione con cui il segno proprio di un numero determina l'effettiva
operazione che il numero subirà nella espressione
es.: 3 + (-2)
=
3-2 = 1
il numero negativo -2 sommato a 3 , per la sua natura negativa
dà luogo, di fatto, ad una operazione di differenza .
E’ lo stesso principio per cui una somma algebrica tra due, o più di due,
termini significa di fatto un mix di somme e sottrazioni secondo la natura
algebricamente positiva o negativa di ciascun numero
-
-
-
elevazione a potenza :
- operazione di moltiplicazione di n-fattori uguali. Si distingue una
base indicante il fattore comune e un esponente cioè un numero
indicante quante volte il fattore va moltiplicato per se stesso. Diamo
più sotto alcune definizioni ed esempi sulle potenze .
moltiplicazione e divisione :
- operazione tra due numeri detti fattori (per la moltiplicazione) e
dividendo e divisore (per la divisione) producenti un risultato detto,
rispettivamente, prodotto e quoziente .
somma e sottrazione :
operazione tra due numeri detti addendi (per la somma) e minuendo
e sottraendo (per la differenza) implicanti la formazione di risultati detti
somma o differenza, rispettivamente .
Le potenze
70
In molti calcoli è possibile trovare prodotti (cioè moltiplicazioni ) in cui più fattori sono identici,
p.es . 15 x 10 x 5 x 4 x 5 x 2 x 5 x 10 = 750.000 . La notazione si semplifica se, notando che il
fattore 5 è presente 3 volte e che il fattore 10 è presente 2 volte, scriviamo come segue :
15 x 10 2 x 4 x 5 3
= 750.000
Ciò equivale a dire che il fattore 10 entra nel prodotto due volte, come se fosse 10 x 10 mentre il
5 entra nel prodotto 3 volte, come se fosse 5 x 5 x 5 .
La potenza è formata, allora, di due parti : la base indicante qual è il fattore da moltiplicare e
l'esponente indicante quante volte il fattore è moltiplicato per se stesso .
es. :
33
=
3x3x3
;
25
=
2x2x2x2x2
Regole importanti, utilissime nel calcolo con potenze sono :
1) Qualunque numero può essere considerato come una potenza ad esponente 1 . Infatti se
l'esponente indica quanti sono i fattori , tutti uguali, da moltiplicare tra loro, l'esponente 1
indica che c'è un solo fattore , ossia il numero stesso che rimarrà invariato. E' normale
comunque NON mettere l'esponente 1 .
es. : 5 1 = 5 ;
12 1 = 12
2) Per convenzione, qualunque numero elevato ad esponente zero dà 1 .
es. : 3 0 = 1
23 0 = 1
3) Un numero elevato ad esponente negativo equivale al reciproco di quel numero elevato al
medesimo esponente, reso positivo.
es. : 3-2
= 1/ 3 2
4)
Nota : Per ragioni tipografiche occorre talvolta abbreviare la scrittura di numeri frazionari
ed esponenziali introducendo la barra trasversale diritta '/' al posto del segno di frazione e/o,
eventualmente, l'accento circonflesso '^' ad indicare un esponente . Ciò consente di scrivere
espressioni complesse sulla medesima riga. Alla luce di quanto detto la frazione sopra
scritta può divenire : 1 / 3^2
Si noti come l'espressione non possa essere soggetta ad
ambiguità quando si tenga conto che la gerarchia delle operazioni prevede che venga eseguita
prima l'elevazione a potenza 3^2 e solo dopo il rapporto in quanto questo è di rango inferiore
alla potenza. Solo l'uso di parentesi può modificare la sequenza delle operazioni come
avverrebbe se fosse scritto : (1/3) ^2 qui è obbligatorio fare prima il rapporto 1/3 e solo
dopo elevare a potenza due.
5) Il prodotto di potenze di stessa base è una potenza avente per base la stessa base e per
esponente la somma algebrica degli esponenti:
es.:
2 2 x 2 -3 x 2 4
=
23
=
8
perché la somma degli esponenti (di stessa base..) è : 2 -3 + 4 = + 3
71
Estrazioni di radice
Può essere pensata come l'operazione contraria o inversa alla elevazione a potenza. Si tratta
infatti, dato un numero, di trovare un altro numero che elevato ad un certo esponente restituisca il
primo numero .
es. :
poiché
32 = 9
possiamo dire che 2 9 = 3 (in parole :radice quadrata di 9 è 3)
Infatti se moltiplicando il 3 per se stesso si ottiene 9 , fornito il numero 9 ,
l'unico numero moltiplicabile due volte per se stesso che possa dare 9 è il 3 .
Dunque, 3 è la radice (..è alla radice...) seconda (o quadrata) del numero 9 .
Così come esistono le potenze di due ( p.es.: 3 2 4 2 ecc. ) esistono anche le potenze con
tutti i numeri possibili. Così esistono le radici terze (o cubiche) , quarte, quinte .....,decime, ecc.
di un numero .
3
Infatti
come
22 = 8
cosi'
8
= 2
''
34
= 81
''
4
81
= 3
72
I logaritmi
Si definisce come logaritmo di un numero quell'esponente che elevato ad una qualche base dà il
numero in questione .
es. : data la potenza 2 3 = 8 , definiamo essere 3 il logaritmo del numero 8 , nella
base 2, proprio
perché elevando la base 2 all'esponente 3 risulta il numero 8
Se e vero che la estrazione di radice è l'operazione inversa della elevazione a potenza di un
numero in quanto si ricava quella base che elevata a un certo esponente dà quel numero ( es. :
2 3 = 8 perciò la radice terza, o cubica, di 8 è 2, in quanto 2 è alla radice di 8 se viene
elevato a potenza) similmente possiamo pensare che il logaritmo è anch'esso una operazione
inversa della potenza salvo che invece di porre l'accento sulla ricerca del numero alla base della
potenza si cerca il numero che di quella potenza fa da esponente. Nell'esempio 2 3 = 8 : del
numero 8, il 2 è radice in quanto visto come base della potenza. Invece 3 è logaritmo in
quanto esponente da dare ad una base (qui 2) per avere 8.
Riassumendo e precisando : dato un numero esiste sempre un altro numero, che chiamiamo
logaritmo, che posto quale esponente di una opportuna base fornisce il numero di partenza.
Pertanto per ogni numero si hanno infinite combinazioni base-esponente per ottenere qualunque
numero. Nella pratica tecnico-matematica sono state redatte ampie tavole che danno i logaritmi
di migliaia di numeri (spesso dei primi diecimila numeri da 1 a 10.000 ) nella base 10 : sono i
logaritmi decimali (o ‘volgari’, o di Briggs) , indicati per lo più con le sigle Log , Lg cioè
quasi sempre con l'iniziale maiuscola e l'uso della lettera 'g' .
Avremo cosi' che Log 8 = 0.9038..
Log 123 = 2.089905
poiché
''
10.9038
=8
(..circa)
10 2.089905 = 123
ecc.
Per ragioni matematiche su cui non ci soffermiamo è possibile usare anche i logaritmi in base e :
una speciale costante matematica frazionaria di cui si usano solo le prime cifre e che vale circa
2.71182818... i puntini stanno ad indicare la presenza di un numero indefinito di decimali il che
qualifica tale numero e quelli come lui, quali irrazionali. Tali logaritmi sono detti anche 'naturali'
(o 'in base e’ , o neperiani , dal nome del matematico Neper) e sono segnalati con la sigla 'ln'
per lo più minuscola. Anche per loro sono state redatte tavole appropriate .
Avremo così che ln 8 = 2.0794..
poiché
2.711 82 2.0794
= 8
(..circa)
4.812184
ln 123 = 4.812184
''
2.71182
= 123 (..circa)
dove le potenze , a destra, sarebbero meglio scritte nel modo :
e 2.0794 = 8
ed
e 4.812184 = 123
Anche le macchine calcolatrici cosiddette scientifiche riportano i comandi per calcolare i logaritmi
decimali e/o naturali nonché le rispettive elevazioni a potenza.
73
Bisogna dire che con opportune formule, trovato il logaritmo di un numero in una certa base
(decimale, naturale, o una delle infinite altre ) è sempre possibile trovare il logaritmo dello stesso
numero in una qualunque altra base. Osserviamo la seguente formula :
log mb =
loga m
loga b
equivalente alla notazione :
log mb =· loga m / loga b
Correttamente enunciando, si dirà :
' Il logaritmo di un numero m in una certa base b è uguale al logaritmo dello stesso numero, ma
nella nuova base a , diviso per il logaritmo della vecchia base nella nuova base'
es. : log8 512
= log2 512 * 1 / log2 8
3
=
postulata è vera .
9
·
1/ 3
infatti calcolando si ha :
risultando quindi 3 = 3 , l'uguaglianza
Ottimo esempio è il passaggio tra i logaritmi naturali ( o neperiani ) che indicheremo con 'ln'
omettendo la base e (e = 2.71828....) e quelli decimali ( o comuni, o volgari) che indicheremo
con Log :
Log 1000 =
ln 1000

cioè
6.9077553
3 = 
da cui
3 = 3
c.v.d.
(*)
ln 10
2.302585
(*) la sigla c.v.d indica l’espressione ‘come volevasi dimostrare’ usata in matematica a chiusura
convenzionale dopo la dimostrazione della verità della tesi posta alla partenza
Ci si può chiedere per quale motivo, oltre che per il solo amor di simmetria matematica si sia
cercata una seconda strada inversa alle potenze. Il motivo pratico è che con i logaritmi si
semplificano enormemente molti calcoli che risulterebbero impraticabili. Per capire come, si
osservino prima le seguenti regole del calcolo logaritmico dove i logaritmi (indicati con 'log' in
lettere minuscole) indicano logaritmi in una qualunque non specificata base :
1) Il logaritmo di un prodotto è uguale alla somma dei logaritmi dei fattori . Così :
log ( 3 * 5 * 7 ) = log 3 + log 5 + log 7
2) Il logaritmo di un quoziente è uguale alla differenza dei logaritmi tra dividendo
e divisore . Così :
log ( 3 / 7 ) = log 3 - log 7
3) Il logaritmo di un radicale è uguale al logaritmo del radicando diviso per l’indice
74
della radice . Così :
3
log
log 5
5 = 
3
5
Si immagini ora di dover calcolare :
12,4
Si tratta di una calcolo per il quale non esiste una metodica rifinita come quella per il calcolo della
radice quadrata . Quand'anche ci fosse ne occorrerebbe un'altra quando volessimo calcolare la
radice sesta o settima o … decima dello stesso numero. Applicando le regole suddette
calcoleremo prima di tutto il logaritmo (in una qualche base della quale siano disponibili i
logaritmi pre-calcolati, eventualmente su calcolatrice, come p.es. è per le basi naturale e decimale)
del radicale dato, poi ritorneremo dal logaritmo al numero ‘normale’. Ossia (usando i logaritmi
naturali o ‘neperiani’ indicati con 'ln' ) ed applicando le regole sopra descritte :
ln ( 5 12,4 )
=
1/5 ln 12.4
=
1/5 * 2.5176965
=
0.5035393
Il risultato ottenuto è un logaritmo: il logaritmo (naturale) del radicale dato. Se vogliamo in realtà
il risultato non in forma logaritmica ma in numero ‘normale’, ricordando che, per definizione
stessa di logaritmo, abbiamo ottenuto un esponente a cui va elevata una certa base (..noi abbiamo
usato quella naturale 'e’ = 2.7182818...) per avere il risultato in numero semplice calcoleremo
semplicemente la potenza :
e 0.5035393
=
1,654....
risultato del radicale dato in numeri ‘normali’.
Consideriamo ora il calcolo di una espressione più complessa :
3 1,14 /
(
12
321 / ( 12 + 5 0,5 ) 3 ) 2,5
Facendo il logaritmo (naturale) della espressione data ed applicando le regole di calcolo
dei logaritmi avremo :
=
ln ( 3 1,14 /
= ln 3 1,14
-
(
12
321 / ( 12 + 5 0,5 ) 3 ) 2,5
ln (
12
)
321 / ( 12 + 5 0,5 ) 3 ) 2,5
= ln 31,14
- 2.5 * ln (
= ln 31,14
-
12
=
)
321 / ( 12 + 5 0,5 ) 3 )
2.5 / 12 * ln ( 321 / ( 12 + 5 0.5 ) 3 )
=
=
=
75
= ln 31,14
-
2.5 / 12 *· ( ln 321 - ln ( 12 + 5 0.5 ) 3 )
=
= 1.14 * ln 3 - 2.080333 * ( ln 321 - 3 *· ln ( 12 + 5 0.5 ) )
=
1.14 * 1.0986 -
=
2.080333 · ( 5.77144 - 3 ln ( 12 + 2.236068) )
=
= 1.252
-
2.080333 · ( 5.77144 - 3 · ln 14.236068 )
= 1.252
-
2.080333 · ( 5.77144 - 3 * 2.6557787 )
=
= 1.252
-
2.080333 · ( - 2.195896 )
=
= 1.252
+
4.5681949
=
( ..che è un logaritmo, …un esponente ! )
5.8201949
=
=
perciò ricavando l'antilogaritmo (ovvero tornando ai numeri ‘normali’ ) si otterrà :
=
e 5.8201949
=
337.0377
Risultato finale
L'unico vero, non trascurabile problema, nel calcolare ‘logaritmicamente’ è che si dovrebbe
cercare di conservare il massimo numero possibile di decimali poiché trattandosi di numeri che
hanno il significato di esponenti ogni loro piccola variazione o arrotondamento causa ampie
variazioni al numero finale cioè alla potenza di cui quei numeri sono gli esponenti.
Ancora sulle espressioni
Fissato il concetto di gerarchia di operazioni, di potenza, ecc. possiamo valutare meglio la
notazione corrente in una qualunque espressione :
Per es. l’espressione :
4 + 62 * 3 + (-3) * 3 = 103
è correttamente eseguita se il 6 è elevato al quadrato (cioè moltiplicato per se stesso per dare 36)
prima di venire moltiplicato per 3 (a dare 108). Solo dopo, lo si somma a 4. Così pure il + ( 3) viene ridotto a -3 (unary operation) nel senso che l'aggiunta, ad una espressione, di un
numero di per se negativo (-3) equivale a togliere (differenza) anziché aggiungere il 3. È come
se avessimo di fronte l'espressione +1 *( -3) = -3 in quanto il prodotto tra numeri di segno
opposto dà risultato negativo . Si veda più sotto il richiamo alle espressioni algebriche .
Come già detto l'ordine naturale di esecuzione delle operazioni può essere modificato dalla
presenza di parentesi. L'espressione precedente darebbe un risultato diverso se fosse scritta nel
modo seguente :
76
(4 + 6 ) 2 * 3 + (-3) * 3 = 291
Infatti le parentesi richiedono che prima di elevare al quadrato si esegua il calcolo 4+ 6 e solo
dopo si elevi al quadrato il risultato.
Se poi una espressione avesse una sezione tra parentesi, posta a sua volta entro parentesi, ciò
significherebbe che si dovrebbero valutare prima le parentesi più interne, poi quelle via via più
esterne.
Se l'espressione precedente si presentasse come :
(4 + (2 * 4 - 2) ) 2
* 3 + (-3) * 3 = 291
significherebbe che il 4 può essere sommato solo dopo aver valutato la sezione (2 * 4 -2) che
dà ancora 6 .
77
L'algebra
La parola è derivata dall'arabo e nella matematica odierna indica genericamente un insieme di
procedure di calcolo su numeri che possono essere anche negativi . L'algebra quindi estende il
campo dei numeri interi e frazionari che sono oggetto della sola 'aritmetica' ai numeri negativi .
La necessità di lavorare con numeri negativi viene come naturale conseguenza nel trattare certi
fenomeni come la registrazione di temperature sopra e sotto zero di cui fare poi le medie, calcoli
attinenti guadagni e perdite nelle diverse operazioni economiche, ecc .
In algebra come in aritmetica si lavora con le quattro operazioni fondamentali : somma,
differenza, moltiplicazione (o prodotto), divisione (o quoziente) sulle sequenze di numeri dette
espressioni algebriche su cui si operano i calcoli .
Poiché ci si può trovare ad usare le quattro operazioni su numeri postivi e/o negativi valgono le
seguenti regole
a) la somma di due numeri di stesso segno dà come risultato un numero che è la
somma dei due numeri e con segno lo stesso segno dei medesimi
es. : 10 + 5 = 15 ; -5 + (-4) = -9
b) la somma di due numeri di diverso segno dà come risultato un numero che è la
differenza dei due numeri e col segno del numero più grande in assoluto
es. : 10 + (- 6 ) = 4 ; 10 + (-12) = -2
;
-14 + 3 = -11
c) il prodotto (o la divisione o quoziente) tra due numeri di qualunque segno dà come
risultato un numero che è il prodotto (o il quoziente ) tra i due numeri ed ha il segno
segno quale risulta dalla seguente tabellina :
+
+
-
moltiplicato +
''
''
+
''
-
=+
===+
Si ricordi l'uso delle parentesi, comune in algebra, che stacca un pezzo di espressione per isolarla
dal contesto e valutarne a parte il contenuto prima di reimmetterlo nel corpo della espressione
data .
78
Le equazioni
Ogni volta che stabiliamo delle uguaglianze tra quantità numeriche poniamo, anche senza
accorgercene, delle equazioni. Per esempio tutti riusciamo a risolvere mentalmente equazioni che
corrispondono a domande del tipo :
' qual è quel numero che aggiunto a 6 dà 10 ? ' ( X + 6 = 10 dunque X --> 4 )
' qual è quel numero che diviso per 2 dà 8 ? ' ( X /2 = 8
dunque X --> 16 )
(... indichiamo con 'X' il valore incognito da trovare)
Poiché all'aumentare della complessità della uguaglianza la risoluzione mentale diventa sempre
più laboriosa se non impossibile ne deriva la necessità di mettere per iscritto tali uguaglianze
complesse e di chiarirne bene le regole di manipolazione per giungere con sicurezza alla sua
soluzione cioè alla determinazione del numero incognito che la risolve, detto per l'appunto
'incognita' o 'radice della equazione' .
es: Si abbia l'equazione
(A)
operando…si avrà
‘
‘
‘
‘
‘
‘
e finalmente ..
X + 5
= - [ (+10 - 66 / 3) ] / 2
X + 5
X + 5
X + 5
X
X
= - [ 10 - 22
] /2
= - [ - 12
] /2
=
+ 6
=
+ 6 - 5
=
1
Con l’espressione (A) è stata impostata l’ equazione le cui condizioni di partenza ci impongono
di trovare quel valore di X che soddisfa (o verifica o risolve ) le condizioni imposte dalla
equazione stessa. I vari passaggi si svolgono al fine di isolare l'incognita nel membro sinistro della
equazione mentre tutti i termini noti (tutto ciò che non è incognito) passa nel membro di destra .
Poiché i termini noti possono essere sommati (anche quando sono letterali, entro certi limiti) si
finirà per determinare calcolo dopo calcolo il valore incognito.
Riassumendo :
- Parliamo di equazione uando si imposta una eguaglianza con uno ( o più) valori
incogniti
- L’equazione ha due membri: membro di sinistra e membro di destra separati dal segno di '='
- Il 'trasporto' dei valori da un membro all'altro avviene seguendo le due seguenti regole
pratiche fondamentali:
- a) ogni elemento che cambia di membro cambia anche di segno 2 + X -3 = 15
può diventare
X = 15 - 2 + 3
da cui
X = 16
- b) ogni divisore di tutto un membro può passare a moltiplicare, al numeratore tutto
l'altro membro e ogni fattore moltiplicante un intero membro può diventare divisore di
tutto l’altro membro ( si ricordi che la barra '/' è usata come segno di rapporto o divisione)
:
- es.: 3· X = 15
può diventare
X = 15 / 3
X / 12 = (12 -2 ) / 3
''
''
X = 12· (12 · 2) / 3
79
Queste regole sono una trasposizione operativa, solo regole pratiche, delle due vere e proprie
leggi applicando le quali avviene come se si operasse secondo a) o b). Infatti in realtà non c’è
alcuno spostamento da un membro all'altro né scambi tra divisori e dividendi ma solo
l'applicazione delle due leggi seguenti :
-
Sommando o sottraendo ad entrambi i membri una stessa quantità la relazione di
uguaglianza viene mantenuta
Moltiplicando o dividendo entrambi i membri per una stessa quantità la relazione ( con
l'unico vincolo che l'eventuale divisore non sia zero) viene mantenuta .
-
Che questa sia la realtà lo possiamo vedere anche dal seguente esempio :
es:
(15 - 6 ) / 3 +2
=
5
(B)
ma l'uguaglianza regge anche se si sottrae da entrambi i membri, p.es., 3
-3
+
risulta infatti
:
(15 - 6 ) / 3 +2
2 =
2
=
-3
+
5
c.v.d.
La stessa cosa può dirsi moltiplicando o dividendo per una stessa quantità
i due membri della precedente uguaglianza :
es:
6 *
(15 - 6 ) / 3 +2
=
5 * 6
oppure, dividendo la (B) per 3
es:
( (15 - 6 ) / 3 +2 ) / 3
=
5 / 3
(
9 / 3 +2 )
/3
=
5 / 3
(
3 + 2
/3
=
5 / 3
=
5 / 3
5 / 3
)
c.v.d.
80
La geometria analitica
( Coordinates Geometry )
Quando trattiamo le proprietà di una figura geometrica si fa astrazione dalle misure reali e dai
rapporti che quella figura ha con altri enti nel piano o nello spazio circostante. La geometria
analitica invece mira a descrivere gli oggetti matematici nei loro rapporti piano-spaziali
giungendo ad algoritmi che fissano in modo completo quelle figure e le loro interrelazioni. Il
primo passo consiste nel fissare un riferimento dal quale misurare con adatta scala le distanze.
Riferendoci ad una situazione piana fisseremo dunque due assi coordinati cioè due rette
intersecantesi ortogonalmente in un punto ‘O’, detto origine e dal quale si misureranno le distanze
su scale collegate con ciascun asse . Per convenzione , un asse viene tracciato orizzontalmente
davanti all'osservatore e l'altro in posizione verticale ed ortogonale al primo ( a 90 gradi). In
alternativa, dati gli assi ortogonali un osservatore può sempre situarsi in modo da avere di fronte
a sè un asse orizzontale e l'altro ortogonale al primo .
L'asse orizzontale è detto asse X o asse delle ascisse, l'asse verticale è detto asse Y o asse delle
ordinate ed ascisse e ordinate sono le ‘coordinate’ cioè le misure su ciascun asse di quanto un
qualunque punto, isolato o facente parte di un qualche ente geometrico (retta, cerchio , ecc. ), si
discosta dalla origine degli assi, per ciascun asse.
Il piano viene dunque suddiviso in quattro quadranti nei quali i punti avranno coordinate
rispettivamente :
ascissa ed ordinata positive
ascissa negativa ed ordinata positiva
ascissa negativa ed ordinata negativa
ascissa positiva ed ordinata negativa
I quadrante ( quadrante alto destro)
II
''
(
''
alto sinistro)
III
''
(
''
basso sinistro)
IV
''
(
''
basso destro )
Un piano così organizzato è detto piano cartesiano, le coordinate sono dette cartesiane, come gli
assi , in onore del matematico e filosofo francese Descartes che dette notevole impulso allo studio
di questa parte della matematica.
Fig. 1 : Assi e quadranti nel piano cartesiano
81
Quanto detto può estendersi allo spazio fisico tridimensionale con l'aggiunta di un terzo asse
(solitamente chiamato asse Z) ed a spazi virtuali a più di tre dimensioni non rappresentabili con
un normale disegno.
Quel che importa sottolineare è che si stabilisce una corrispondenza biunivoca tra i punti del
piano (o dello spazio) che avranno tutti una ed una sola coppia (o serie) di coordinate e viceversa
: ad ogni coppia (se si opera nel piano), o serie di coordinate (se si opera in spazi
multidimensionali) corrisponderà uno ed un solo punto del piano o di quello spazio. Ed è qui la
radice fecondissima del legame tra geometria ed algebra.
L'importanza della geometria analitica è enorme. Basti pensare che ogni genere di cartografia
(nautica, stradale, ecc.) ha per base la rappresentazione di punti tramite coordinate. Latitudine e
longitudine ( ossia la posizione, in gradi sessagesimali, di un punto sulla superficie terrestre,
misurata rispetto all'equatore fino al polo e la posizione, sempre in gradi misurata nella direzione
est-ovest a partire dalla località inglese di Greenwich ) sono un esempio di impiego delle
coordinate cartesiane.
Facciamo ora un passo avanti: non solo possiamo rappresentare dei punti generici sul piano
cartesiano ma possiamo rappresentare tutto un insieme di punti, ( rigorosamente si dice: un luogo
geometrico di punti) con un descrittore algebrico quale una equazione.
Ugualmente possiamo rappresentare ad es. tutti i punti di una circonferenza (immaginata come
disegnata su un piano cartesiano) tramite una opportuna equazione oppure tutti i punti di una
retta tramite un'altra opportuna equazione , ecc. Poiché una equazione può essere manipolata,
risolta, integrata in vari modi per via matematico-algebrica senza legarsi a complicati disegni
peraltro sempre imprecisi e necessitanti di attrezzature speciali (righe, squadre, compassi, tavoli
da disegno, carte millimetrate) e tenuto ugualmente conto che un problema, divenuto problema di
calcolo, può essere vantaggiosamente sottoposto ad un veloce elaboratore elettronico, si può
valutare l'importanza di impostare la soluzione dei problemi per via di equazioni. Non è
ovviamente in discussione l'utilità di un disegno e la sua potenza rappresentativa e didattica bensì
la difficoltà di risolvere, in via ordinaria, un problema matematico per via grafica.
Sia per limitare il nostro discorso alla parte più comprensibile, sia perché non occorrerà molto di
più alle nostre considerazioni statistiche, tratteremo proprio della equazione della retta.
Dimostreremo cioè che davvero tutti i punti di una generica retta sono rappresentabili con una
semplice equazione sfruttando allo scopo tutte le conoscenze matematiche fin qui perfezionate.
Consideriamo dunque un sistema di assi cartesiani ortogonali e tre punti allineati su una retta di
coordinate generiche :
P 1( x1,y1)
P2(x2,y2)
P(x,y)
in cui i punti P1 e P2 siano considerati fissi in due qualsivoglia posizioni sulla retta mentre il terzo
punto lo immaginiamo generico, cioè mobile sulla retta che collega P1 a P2.
I tre punti staccano sulla retta due segmenti P P1 , P P2 che danno sugli assi coordinati,
rispettivamente i segmenti: A A1 , A A2 sull'asse X e B B1 , B B2 sull'asse Y .
82
Fig. 2 : Punti su una retta e coordinate staccate sugli assi
E' intuitivo (e potrebbe essere dimostrato rigorosamente) che allo scorrere del punto P sulla retta
il modo di variare dei segmenti P P1 e P P2 è proporzionale alle conseguenti variazioni dei
segmenti A A1 e A A2 così come dei segmenti B B 1 e B B2 in quanto proiezioni dei suddetti
segmenti P P1 e P P2 sui due assi coordinati X e Y . Riassumiamo ciò scrivendo le proporzioni
seguenti :
A A1

A1 A2
=
P P1

P1 P2
B B1

B1 B2
P P1
= 
P1 P2
ossia, discorsivamente :
il rapporto esistente tra i due segmenti A A1 ed A1 A2 è numericamente identico al rapporto tra i
segmenti P P1 e P1 P2 così come avviene per il rapporto tra i segmenti B B 1 con B1 B2 che si
mantiene identico al rapporto tra P P1 con P1 P2 .
Poiché i due rapporti (A A1) / (A1 A2) e (B B1) / (B1 B2) sono entrambi identici allo stesso
rapporto (P P1) / (P1 P2) questo implica che siano tra loro uguali i rapporti :
A A1

=
B B1

(1)
A1 A2
B1 B2
Infatti si verifica la situazione in cui due quantità, essendo uguali entrambe ad una terza quantità,
debbono necessariamente essere uguali tra loro ( proprietà transitiva delle uguaglianze).
Possiamo adesso passare da considerazioni puramente geometriche a ragionare in termini di
geometria analitica cioè di segmenti le cui lunghezze siano espresse tramite le loro coordinate
cartesiane. Per far ciò è sufficiente esprimere i segmenti indicati da A A1 , A1 A2 , B B1 , B1 B2 ,
83
P P1 , P1 P2 con le rispettive coordinate cartesiane staccate sugli assi, riscrivendo la soprastante
uguaglianza (1) :
x - x1
y - y1
 = 
(2)
x2 - x1
y2 - y1
E' chiaro infatti che se il punto A dista dall'origine O una lunghezza pari ad x, ed il punto A1 dista
da O di una lunghezza pari ad x1, allora la lunghezza del segmento A A1 sarà data dalla differenza
x -x1 . Analogamente si farà per gli altri segmenti .
La relazione (2) è una equazione che cercheremo di risolvere applicando le già note leggi delle
equazioni. Pertanto cominceremo a moltiplicare ambo i membri per la quantità : (x2 - x1) · (y2 y1) con l'intento di liberare l'uguaglianza dai denominatori :
(x2 - x1) · (y2 - y1) . ( x - x1)
 =
x2 - x1
(y - y1) . (x2 - x1) ·

y2 - y1
(y2 - y1)
Il risultato è che (x2 - x1) del 1° membro si semplificherà con l'identico denominatore dello stesso
1° membro ed analogamente farà la quantità (y2 - y1) al 2° membro . Il risultato sarà :
(y2 - y1) ·
(x - x1)
=
(y - y1) ·
(x2 - x1)
Il prodotto tra le due parentesi a 1° membro si effettua moltiplicando ciascun elemento della prima
parentesi per ciascun elemento della seconda parentesi ( ed analogamente per il 2° membro). A
noi fa comodo lasciare indicato il prodotto di x con (y2 - y1) e fare i restanti due prodotti (così
anche per il 2° membro con y ed (x2 - x1)). Otteniamo :
x · ( y2 - y1) - x1 · y2 + x1 · y1 =
y (x2 - x1) -
y1 · x2 +
x1 · y1
Applicando la prima legge delle equazioni sottraiamo ad entrambi i membri la quantità x1· y1 ( o ,
secondo la regola pratica, portiamo a primo membro la quantità x1· y1 che si trova nel 2°
membro, previo cambiamento del segno ) . Risulterà :
x · ( y2 - y1) - x1 · y2 =
y (x2 - x1) - y1 · x2
Portiamo ora (..regola pratica ...) al 1° membro (cambiando il segno) tutto il contenuto del 2°
membro che rimarrà evidentemente ‘vuoto’, cioè a zero :
x ( y2 - y1) - x1 · y2
ed ordinando meglio si avrà :
-
y· (x2 - x1) +
y1 · x2
=
0
84
x ( y2 - y1) - y (x2 - x1) +
y1 · x2
- x1 · y2
=
0
(3)
Se per comodità decidiamo di chiamare la quantità y2 - y1 come 'a’, la quantità - (x2 - x1)
come 'b', la quantità y1· x2 - x1· y2 come 'c' allora l'uguaglianza (3) diventa :
ax +
by +
c
=
0
(4)
La (4) è la forma più generale della equazione di una retta e contiene implicitamente tutti i punti di
ogni possibile retta nel piano cartesiano in dipendenza di ogni possibile tripletta di numeri
assegnabili ai coefficienti 'a' 'b' 'c' . Per esempio, scegliendo una combinazione a caso quale a =
-1 b = 2 c = 1/2 avremo la retta di equazione :
- 1· x + 2· y + 1/2 = 0
(5)
Constateremo ora, con un procedimento detto 'studio di funzione', che dando valori qualunque
ad x (piuttosto piccoli per amor di semplicità) e risolvendo l'equazione rimanente nella incognita y,
risulteranno in definitiva delle coppie di valori x , y che messe in grafico, appariranno tutte
giacenti su una certa retta: quella determinata dagli a, b , c, di cui le coppie di coordinate x , y
rappresentano specifici punti .
Supponiamo dunque di attribuire ad x, in successione, i valori 0 , 1, 2 , 3 , 4… e per ognuno di
essi risolviamo l'equazione rispetto ad y. Raccogliamo poi in uno specchietto ' a croce ' le coppie
di risultati x, y trovate. Pertanto :
Per
Per
Per
Per
Per
x=0
x=1
x=2
x=3
x=4
l'equaz.
l'equaz.
l'equaz.
l'equaz.
l'equaz.
(5)
(5)
(5)
(5)
(5)
diventa
diventa
diventa
diventa
diventa
-1 +
-2 +
-3 +
-4 +
2y
2y
2y
2y
2y
=
=
=
=
=
- 1/2
- 1/2
- 1/2
- 1/2
- 1/2
da cui
da cui
da cui
da cui
da cui
y=
y=
y=
y=
y=
- 1
+ 1/4
+ 3/4
+ 5/4
+ 7/4
Mettendo in grafico le soluzioni trovate riportate nello specchietto ‘a croce’ vediamo come i
punti determinati dalle coppie di coordinate x,y stanno effettivamente su quella particolare retta
calcolata :
85
Fig. 3 : Equazione di una retta e suo grafico nel piano
Oltre alla presentazione della retta nella forma analitica ax + by + c = 0 esiste anche un altro
modo di rappresentazione matematica nella quale si mette in risalto il fatto che i valori di y sono
ricavabili dopo aver fissato gli x ossia, con termine tecnico : in funzione di x . E' proprio ciò che
abbiamo visto poco fa quando, data l'equazione fissavamo un valore di x e ricavavamo la relativa
y risolvendo l'equazione proprio nell’incognita y .
Consideriamo allora la generica retta :
ax + by + c = 0
(6)
Risolviamo per y, applicando le consuete leggi delle equazioni :
by = -ax - c
Se poniamo -a/b = m
e
da cui
-c/b = q
y = -a/b · x - c/b
l'equazione (6) si presenta come :
y = mx + q
Questa forma in cui si mette in risalto la y come funzione di x (cioè ricavabile per il tramite
della x) è detta forma esplicita e consente di osservare diverse cose interessanti :
•
l’equazione esplicita definisce x come 'variabile indipendente' mentre y diviene 'variabile
dipendente' anche noi, infatti, abbiamo ricavato diversi valori di y in dipendenza dei valori
assegnati ad x
86
•
•
•
•
il coefficiente m della variabile indipendente è detto 'coefficiente angolare' della retta infatti
misura l'inclinazione della retta rispetto all'asse cartesiano X, in termini di rapporto tra l'ascissa
e l'ordinata di un qualunque punto sulla retta (abbiamo definito infatti m = - a/b)
misurare un angolo, una inclinazione in termini di rapporto delle coordinate equivale a ciò che
in 'trigonometria' (una branca delle matematiche) è detto 'tangente di un angolo’
quando m è positivo si parla di proporzionalità diretta tra le coordinate, ossia al crescere di x
cresce anche y . Quando m è negativo si parla proporzionalità inversa tra le coordinate, ossia
al crescere di x il valore della coordinata y cala.
il termine 'q' ( o termine noto, o intercetta sull'asse Y ) esprime la misura del segmento
staccato sull'asse Y delle ordinate, dalla retta .
Per esempio consideriamo la retta già trovata sopra : -x +2y -1/2 = 0
Mettiamola in forma esplicita risolvendo l'equazione rispetto ad y :
2y = x + 1/2 = 0
y = 1/2x +1
cioè
perciò
y = (x + 1/2 ) / 2
m = 1/2
da cui :
q = 1
L'esplicitazione ci dà direttamente il coefficiente angolare (la pendenza della retta ) ossia
l'inclinazione misurata come tangente trigonometrica dal rapporto tra le coordinate x e y di un
qualunque punto di quella retta. Essa è inclinata quanto occorre perché l'ascissa di un qualunque
suo punto stia in rapporto di due a uno, proprio come espresso dal coefficiente angolare m =
1/2, con ogni corrispondente ordinata. Esistono infinite rette, nel piano cartesiano, inclinate m =
1/2 ma solo una ne esiste (la nostra) che stacchi anche un segmento lungo 1 sull'asse Y .
Con la retta espressa in forma esplicita basta un'occhiata ad m e q per capire come sia disposta la
retta in studio prima di volerla eventualmente ‘plottare’, cioè rappresentare rigorosamente su
figura.
Esempi :
Data la retta y = 3x -1/3 essa stacca un segmento negativo lungo 1/3 sull'asse Y mentre è
inclinata in modo tale che l'ascissa di un qualunque punto è sempre un terzo della corrispondente
ordinata, oppure, che ad ogni variazione di una unità lungo X, c'è una corrispondente variazione
di tre unità su Y (cfr. a) .
Data la retta y = -2x +2
essa stacca un segmento negativo lungo 2 sull'asse Y mentre è
inclinata in modo tale che l'ascissa di un qualunque punto è sempre la metà della corrispondente
ordinata, oppure, il che è lo stesso, che ad ogni variazione di una unità lungo X c'è una
corrispondente variazione di due unità negative su Y . La retta dunque sta calando ovvero al
crescere di X va calando il valore della Y (cfr. b) .
Data la retta y = 4x essa stacca un segmento lungo zero ossia passa per l'origine degli assi
(infatti non esiste il termine q) sull'asse Y mentre è inclinata in modo tale che l'ascissa di un
qualunque punto è sempre la quarta parte della corrispondente ordinata, oppure, il che è lo stesso
che ad ogni variazione di una unità lungo X c'è una corrispondente variazione di quattro unità su
Y . La retta dunque sta salendo rapidamente uscendo dalla origine degli assi (cfr c) .
87
Data la retta y = x essa stacca un segmento lungo zero ossia passa per l'origine degli assi
(infatti non esiste il termine q) sull'asse Y mentre è inclinata in modo tale che l'ascissa di un
qualunque punto è sempre identica alla corrispondente ordinata, oppure, il che è lo stesso che ad
ogni variazione di una unità lungo X c'è una corrispondente variazione di una unità su Y . La
retta dunque sta crescendo lungo Y con la stessa rapidità con cui cresce lungo X.
La retta
appare dividere in due parti uguali il I quadrante cioè funge da bisettrice del quadrante (cfr. d) .
Fig. 4: Quattro equazioni di retta e loro andamento grafico approssimato
Insomma con uno sguardo al coefficiente angolare si capisce subito se la retta cresce o cala, in
fretta o lentamente, e dove attraversa l'asse y, con un giudizio più preciso di quanto non sia uno
sguardo ad un grafico.. Infatti l'inclinazione alta o bassa di una retta sul grafico può essere del
tutto apparente e perciò fuorviante, se dovuta semplicemente alle diverse scale con cui le due
variabili sono rappresentate sugli assi.
Considerando un grafico in cui la retta appaia inclinata come una bisettrice del I quadrante, si
potrebbe essere indotti a pensare che la sua equazione sia del tipo y = x (cfr. d) . Ma se
notassimo che il fondo scala dei due assi fosse 10 per l'asse Y e 100 per l'asse X avremmo che,
per ogni punto del grafico, l'ascissa sarebbe sempre 10 volte il valore della corrispondente
ordinata, per cui il coefficiente angolare vero sarebbe m = 1/10 con equazione della retta pari a :
y= 1/10 x (cfr. c). Solo nel caso di scale identiche sui due assi si può prendere l'inclinazione
apparente come reale andamento del fenomeno.
Abbiamo detto che l'equazione esplicita y = mx + q esprime y, variabile dipendente, in funzione,
cioè per il tramite, della relazione lineare ( così definita in quanto non ci sono incognite elevate ad
esponente superiore ad 1 e perché il tasso di variazione delle y al variare delle x è costante, ossia,
varia linearmente)… posta a secondo membro (mx+q). Tale funzione si è dimostrata essere una
retta di cui m rappresenta l'inclinazione e q l'intercetta sull'asse Y .
Allargando brevemente il discorso si può pensare che a secondo membro potrebbe esserci una
relazione diversa da quella rappresentata da una retta e che y sia quindi una funzione di un'altra
relazione non lineare , p.es. una parabola, un cerchio, una ellisse, ecc. In molti ragionamenti è
88
comodo riferirsi ad y, variabile indipendente come funzione di una o più altre variabili con una
relazione non specificata . Si esprime ciò scrivendo :
y = f(x)
per dire che y è funzione di.., si ricava da.., varia con.., dipende da una imprecisata
espressione contenente una sola variabile indipendente x
z = f(x,y)
per dire che z è funzione, si ricava, dipende, da una imprecisata espressione
contenente due variabili indipendenti x,y . In questo caso, in presenza di tre variabili in gioco,
una eventuale rappresentazione grafica implicherà per forza una visualizzazione tridimensionale.
Per esempio, l'equazione cartesiana di una circonferenza generica di raggio unitario passante per il
centro degli assi cartesiani è data dalla relazione generica :
x 2 + y2
= r
che esplicitata, ovvero risolvendo per y , dà :
y =
X2
Analogamente l'equazione cartesiana di una generica ellisse (*) è :
x2
y2
- +  = 1
a2
b2
dove ‘a’ e ' la semisomma delle distanze tra
un qualunque punto della ellisse dai due 'fuochi'.
‘b’ equivale a
a2 − c2
di uno dei fuochi .
in cui ‘c’ è ascissa
(*) L’ellisse è definita come l’insieme dei punti (‘luogo’ dei punti) per i quali si mantiene costante
la somma delle distanze di ciascun punto dell’ellisse da due punti interni all’ellisse, detti ‘fuochi’.
Il disegno di una ellisse è intuitivo ed in linea di principio, facile. Se tra due chiodi infissi su una
tavola di legno si lega uno spago più lungo della distanza tra i chiodi stessi e si immagina di
muovere perpendicolarmente alla tavola una matita che tenga in tensione lo spago si ottiene la
figura dell’ellisse. E’ evidente in questa procedura che lo spago rappresenta quella distanza fissa
che è la somma delle distanze tra la punta della matita ed i due chiodi (i fuochi). Il cerchio è un
caso particolare di ellisse in cui i due fuochi coincidono in un unico punto detto centro.
L’iperbole è invece definita come l’insieme dei punti (‘luogo’ dei punti) per i quali si mantiene
costante la differenza delle distanze di ciascun punto dell’ellisse da due punti detti, ‘fuochi’. Ha
un aspetto particolare in quanto la curva si presenta con due rami separati e simmetrici rispetto
all’uno o all’altro dei due assi cartesiani. Il disegno di una iperbole poi è molto più complesso da
realizzare.
La parabola dalla caratteristica forma ‘a scodella’ ha pure in teoria due fuochi ma uno di questi
è posto all’infinito. La forma parabolica ha grande importanza nell’ottica poiché gli specchi
realizzati con tale profilo (specchio detto ‘obiettivo’) concentrano i raggi paralleli provenienti
‘dall’infinito’ (p.es. quelli di un astro) nell’unico fuoco effettivo, in prossimità del quale si ottiene
una immagine reale che può essere osservata e ingrandita tramite le lenti in funzione di ‘oculari’.
Con tale tecnica e fin dai tempi di Newton sono stati realizzati strumenti astronomici anche
giganteschi come quello di Monte Palomar, in California, il cui specchio parabolico (obiettivo) ha
un diametro di 5 metri.
L’equazione di una ellisse può essere così esplicitata :
89
b
y =

a
a2 − x2
Fig. 5 : Le curve dette coniche ottenute da un piano secante un cono
Le curve (e le relative equazioni, tutte di ‘secondo grado’ ossia contenenti, al massimo, termini
elevati al quadrato) sono spesso chiamate ‘coniche’ in quanto, geometricamente, tali profili sono
ricavabili dalla sezione di una figura conica tramite un piano : perpendicolare all’asse del cono per
ottenere un cerchio, variamente inclinato per ottenere un’ellisse ( moderata inclinazione del piano
secante), o una parabola (piano secante ad inclinazione parallela ad uno dei lati del cono),
un’iperbole (piano secante passante per l’asse del cono).
90
Sistemi di equazioni
Come abbiamo visto una equazione consiste in una relazione vera che ci consente di ricavare
(tramite la ripetuta applicazione delle due leggi delle equazioni) il valore di una quantità incognita,
spesso chiamata X ( .. ma anche Y o Z o altra notazione..) che sostituita nella equazione la
verifica, cioè rende effettivamente uguali i due membri .
Per es., nella semplice equazione impostata trascrivendo l'enunciato : " trovare quel numero
che moltiplicato per due e addizionato a 5 dà 23 " , ossia x· 2 + 5 = 23 , abbiamo definito
una equazione nella variabile x come si deduce dall'enunciato. Grazie alla relazione scritta ,
manipolando i membri della equazione possiamo trovare quel valore di x che risolve (.. soddisfa,
verifica..) l'equazione. Infatti trovato il valore di x possiamo sostituirlo nella relazione originale
ed avremo la prova che il valore trovato è esatto perché con quel valore constateremo che i due
membri sono uguali.
Infatti risolvendo l'equazione abbiamo i seguenti passaggi :
2 x + 5 = 23
2 x = 23 - 5
x = ( 23 - 5)/ 2
x = 18/2
x= 9
Se è vero che la soluzione è 9 , tale valore messo nella relazione di partenza deve ‘soddisfarla’.
Infatti data la :
x· 2 + 5 = 23
se x = 9
sarà che
9 * 2 + 5 = 23
ossia 18 + 5 = 23
da cui 23 = 23
come è ovvio e ‘c.v.d’ (‘come volevasi dimostrare’).
Orbene, può essere che le condizioni di un enunciato siano più complesse e indichino più di una
relazione cioè più di un vincolo da rispettare: in altri termini si dovranno scrivere più equazioni
ricavate dall'enunciato ma tutte relative al medesimo problema . Si ottengono cioè più equazioni
'simultanee' in più incognite (tante incognite quante sono le relazioni deducibili dall'enunciato del
problema). Per indicare tale simultaneità si scrivono le equazioni una sotto l’altra, in righe
successive, raccogliendole con una parentesi graffa a sinistra delle equazioni.
Per es. nell'enunciato : " trovare i lati del rettangolo che danno per perimetro 18 ed area 20
"
riusciamo a distinguere due vincoli, due relazioni, che chiamando x e y i lati ignoti del
rettangolo scriveremo come :
 2 * ( x + y) = 18

= 20
 x*y
essendo il perimetro il doppio dei due lati adiacenti
essendo l'area il prodotto tra i due lati adiacenti
Risolviamo per x la prima relazione e mettiamo l'espressione risultante (che contiene la incognita
y , nella seconda equazione .
 x+ y = 9

 x · y = 20
 x= 9–y

 x · y = 20
 x= 9–y

 ( 9 - y ) · y = 20
In tal modo la seconda equazione si semplifica apparendo come una equazione nella sola
variabile y ( benché non più lineare bensì di secondo grado perché l'incognita è elevata al
91
quadrato ). La soluzione di quest'ultima dà un numero che messo nella prima espressione risolve
completamente il sistema :
 x= 9-y

 9y - y 2 = 20
 x= 9-y

 y 2 - 9y + 20 = 0
La seconda equazione nella incognita y, di secondo grado in quanto l'incognita è elevata al
quadrato, si risolve con una apposita formula che nella sua espressione simbolica, generale,
appare come segue :
- b ± b 2 - 4a c
y = 
2a
e risolve, ossia trova le radici, di una generica equazione a x 2 + bx + c = 0 da cui
deduciamo che nel nostro caso : ‘a’ (coefficiente del termine al quadrato ) vale 1, mentre ‘b’
(coefficiente del termine lineare, o alla prima potenza) vale 9. Inoltre il termine noto ‘c’, non
legato all'incognita, vale 20 .
Non deve apparire strano che nella formula compaia un ± (che origina due risultati : l'uno
calcolando con b + .... e l'altro usando b - ..... ) . Infatti ciò capita ogni volta che si deve
risolvere una radice quadrata. La ragione di questo sta nel fatto che l'elevazione al quadrato di un
numero, positivo o negativo che sia, origina un risultato sempre positivo per cui, nel
procedimento inverso, dovendo ricavare la radice di un tale numero non si può sapere se questo
proveniva da una base positiva o negativa .
P. es.
-2 2 = 4
ma anche
+2 2 = 4
per cui sarà che
4
= ± 2
Si comprenderà che anche con tutte le radici risultanti da una potenza multipla del 2 come 4, 8 ,
16 ecc. si ha lo stesso effetto poiché il prodotto di un numero pari di fattori annulla rende il
risultato sempre positivo.
.
4
4
P. es . -2 = 16 ma anche +2 = 16
per cui sarà che 4 16 = ± 2
Tornando al nostro sistema ed applicando la formula al nostro caso, tenuto conto che si è già
detto del significato dei termini a, b, c della formula ossia dei coefficienti, rispettivamente, del
termine al quadrato, del termine lineare di grado 1 e del termine noto, e tenuto pure conto che
l'equazione che stiamo risolvendo è nella incognita y, per noi sarà : a = 1 b = -4.5 c = 20 .
Applicando la formula otterremo :
92
y=
9 ± 9 2 - 4 *1 * 20

2
e continuando a sviluppare i calcoli per questa seconda equazione del sistema, (tralasciando per il
momento la prima equazione), si ha :
y=
9 ± 81 - 80

2
y=
9± 1

2
y=
9 ± 1

2
y=
10

2
oppure
y=
y=
5
oppure
y=
8

2
da cui :
4
Ecco dunque che l'equazione quadratica nella incognita y ha dato le sue due soluzioni.
Analogamente, tutte le equazioni di grado generico 'n' avranno 'n' soluzioni .
Ora sostituendo ciascuno dei valori di y trovati, nella prima delle equazioni, finora trascurata, cioè
x = 9 - y si ha :
da cui
x =
9 - 5
oppure
x=
9 - 4
x =
4
oppure
x=
5
Riassumendo : il sistema risulta 'soddisfatto' dalle due seguenti coppie di valori :
 x= 4

 y= 5
oppure  x = 5

oppure  x = 4
Notiamo che la doppia soluzione di y trascina anche due valori per x e che , alla fine, le due
coppie di soluzioni sono tra loro scambiate. Infatti il nostro problema chiedeva le dimensioni di
93
un rettangolo di dato perimetro e data area ed effettivamente le soluzioni sono due perché se di un
rettangolo scambiamo le dimensioni non ci sono variazioni di perimetro o di area :
Fig. 6 : Lati di rettangolo di data area e perimetro: soluzioni analitiche intercambiabili
94
Regressione lineare
L'attenzione che prestiamo ai sistemi di equazioni ed in particolare ai sistemi lineari di due
equazioni in due incognite è dovuto al fatto che la procedura di regressione lineare ovvero di
determinazione dei coefficienti di una retta a partire da punti sperimentali richiede proprio la
soluzione di un tale sistema in cui i coefficienti ( m,q) della retta sono le incognite di un sistema in
due equazioni. Sarebbe troppo lungo e complesso trattare rigorosamente del come e perché si
arriva ad un sistema di due equazioni tuttavia possiamo dire quanto segue
1) la regressione lineare consiste nel far passare la migliore retta possibile tra i punti
sperimentali
2) la retta migliore è quella che rende il più possibile piccolo l'errore complessivo insito
nell'operazione, è cioè la retta che registra il minor valore dello scarto quadratico complessivo
tra punti sperimentali e retta teorica di regressione.
3) trattandosi di cercare un valore minimo, viene scritta una equazione che rappresenta tale
scarto quadratico medio e si interviene su tale funzione con operatori appositi chiamati
derivate della funzione che hanno la proprietà di trovare le condizioni che rendono minimo lo
scarto suddetto. Per questo motivo il metodo impiegato è noto come ‘metodo dei minimi
quadrati’.
4) In definitiva si arriva ad un sistema di due equazioni in due incognite le cui soluzioni sono
proprio i coefficienti m e q della miglior retta possibile che possa essere tracciata tra i
punti sperimentali.
Il sistema di due equazioni e due incognite ha la seguente forma generale :
I simboli x ed y indicano le coordinate cartesiane dei punti sperimentali pertanto l'impostazione
del sistema esige che si calcoli la sommatoria delle ascisse ‘quadratizzate’, la sommatoria delle
ascisse, la sommatoria dei prodotti tra ascisse ed ordinate, la sommatoria delle ordinate ed infine
che venga fornito il numero dei punti N. Il sistema va risolto nelle incognite a , b che sono
rispettivamente il coefficiente angolare già definito come 'm' e l'intercetta sull'asse delle ordinate
definita come 'q' quando si è parlato della forma esplicita della equazione di una retta .
Per completare con un breve esempio, supponiamo che si voglia studiare la modalità di
accrescimento in peso (espresso in kg con due decimali) di un gruppo di neonati, al passare del
tempo (espresso in settimane ) e ci si chieda in sostanza :
a) se c'è una variazione del peso in dipendenza del tempo
b) quale sia il tasso di variazione in peso per ogni settimana trascorsa
95
A queste domande risponde tipicamente una procedura di regressione la quale ha una parte
matematica, che è quella a cui facciamo riferimento in queste note, ma che ha, o può avere, anche
una parte statistica se, come spesso avviene, i punti sperimentali sono considerati come un
campione di tutti i possibili risultati deducibili dal fenomeno in esame. Anche noi riferendoci al
peso di alcuni neonati dobbiamo pensare di avere a che fare con un campione di tutti i possibili
neonati anche quando fossero ricavati da situazioni relativamente omogenee. Raramente ci si
trova in presenza di intere popolazioni o come si dice in statistica dell'intero universo, il che
avviene per lo più nel corso di studi di epidemiologia dove l’obiettivo è più spesso quello di voler
conoscere la totalità di un fenomeno.
Ciò premesso, si capirà perché il coefficiente angolare trovato vada testato statisticamente per
verificare che il valore fornito dalla procedura matematica e riferentesi al campione possa essere
validamente, ossia probabilmente, trasferito, a meno di un certo errore campionario, sulla
popolazione da cui lo si è estratto.
Si supponga dunque che di 10 bambini si sia rilevato il peso tra la prima e decima settimana dalla
nascita, per ogni settimana. Compilando una tabella che a partire dai dati sperimentali di tempo e
peso riporti anche i quadrati ed prodotti tra i dati, otterremo :
-------------------------------------------------------------------------------------------------------------peso peso 2
tempo
tempo 2
prodotto x.y
2
kg
kg
settimane
Y
Y2
X
X2
XY
-------------------------------------------------------------------------------------------------------------bambino
sigla
A
3,55
12,60
1
1
3,55
B
3,78
14,29
2
4
7,56
C
3,70
13,69
3
9
11,10
D
3,92
15,37
4
16
15,68
E
4,32
18,66
5
25
21,60
F
4,40
19,36
6
36
26,40
G
4,53
20,52
7
49
31,70
G
4,62
21,34
8
64
36,96
H
4,67
21,80
9
81
42,03
I
5,02
25,20
10
100
50,20
------------------------------------------------------------------------------------------------------------Totali ------->
42,51
182,83
55
385
246,.79
Le sommatorie forniscono quanto necessario alla impostazione del sistema risolvente la
regressione (nelle incognite A e B) e tenendo conto che abbiamo 10 dati :
 A 385

 A 55
+
B 55 = 246,79
+
B 10 =
42,51
96
Tra i vari metodi di risoluzione di un sistema sceglieremo ora quello di somma/differenza che
usiamo per la prima volta mentre in precedenza abbiamo optato per il più ovvio metodo di
sostituzione . Il metodo di somma/differenza si presta bene in tutti quei casi, come il presente, in
cui la opportuna trasformazione di una delle equazioni (sfruttando ovviamente i soliti due principi
delle equazioni) conduce alla rapida eliminazione di una incognita nella equazione che si deduce
sommando algebricamente (da cui la definizione di somma/differenza) i termini analoghi delle due
equazioni. Tale equazione dedotta, è poi accoppiata con l'equazione originale non manipolata
per procedere alla soluzione del sistema. L'esempio varrà più di molte parole .
Moltiplicando infatti ambo i membri della seconda equazione per -5,5 si ottiene :
 A 385
+ B 55
= 246,79

 A 55 (-5,5) + B 10 ( -5,5) = 42,51 (-5,5)
 A 385
+

 A (- 305,5) -
B 55
=
246,79
B 55
= -233,.81
Sommando algebricamente termine a termine tra le due equazioni se ne ricava una terza (priva del
termine B che va a zero) che accoppieremo alla prima equazione non manipolata:
+ B 55 = 246,79
 A 385

 A (- 305,5) B 55 = -233,81
 

A 79,5
//
= 12,98
 A 385

 A 79,5
+
B 55
= 246,79
=
12,98
da cui si ricava :
 A 385

 A
+
 A 385

 A
+
B 55
= 246,79
=
 0,16 x 385 +

B 55
12,98 / 79,5
= 246,79
=
0,16
B 55 = 246,79
97
 A
=
 B 55

 A
= 246,79 -
 B 55

 A
= 185,19
 B 55

 A
= 185,19 / 55
 B

 A
=
=
=
=
3,37
=
0,16
0,16
0,16 x 385
0,16
0,16
0,16
Per quanto detto sul significato di A (coefficiente angolare) e di B (intercetta sull'asse y)
l'equazione della retta di regressione (espressa nella consueta forma esplicita y = mx + q) che
evidenzia con quale legge la variabile dipendente - per noi il peso - dipenda dalla variabile
indipendente (il tempo) avremo :
Peso = 0,16 tempo +3,37
Se di questa funzione facciamo uno studio per vedere come si presenta il grafico della retta tra gli
assi cartesiani, quando ad X ( da noi, il tempo) si diano p.es. i valori 0, 1, 3, 5, 10 vedremo
la situazione seguente :
Fig. 7 : Regressione di punti sperimentali con relativo grafico
In conclusione possiamo rispondere al quesito b) più sopra formulato dicendo che la pendenza
(slope) della retta di regressione indica un tasso di crescita di 0,16 Kg per settimana, dopo la
nascita . Quanto al quesito a) la risposta deve completarsi sul piano statistico. Poiché i valori
98
sperimentali rilevati rappresentano un campione e per il suo tramite intendiamo trarre indicazioni
su un'intera popolazione di bambini, sottoporremo i dati ad una 'analisi di varianza' . Diciamo,
per inciso, che eseguendo una analisi di varianza, effettivamente i risultati della regressione
possono essere validamente estesi (posto che la campionatura sia stata effettuata secondo le
regole).
Correlazione
La regressione ha per scopo precipuo la valutazione del tasso di variazione della variabile
dipendente al variare unitario della variabile dipendente. E' consuetudine fornire una ulteriore
misura che testimoni l’esistenza o meno di un legame tra le variabili. Tale è l'indice di
correlazione ‘r’ così definito :
L'indice di correlazione può variare tra 0 ed 1 indicando rispettivamente assenza e massima
correlazione tra le variabili. Un alto valore di r, indicherà un forte legame nel variare delle due
variabili. Così p.es. uno 0.8 indica un'alta correlazione tra le variabili. Tuttavia se i dati sono
frutto di campionamento il significato del coefficiente ‘r’ , particolarmente per i risultati
intermedi, va testato statisticamente in base al numero di coppie di punti. Succede infatti, ad
esempio., che un indice di 0,25 con oltre 60 coppie di valori sia statisticamente significativo
mentre non lo sia un r di 0,6 avendo a disposizione meno di 10 coppie di valori.
Applicando la formula ai nostri dati otteniamo :
10 x 246,79 55 x 42,51
r = 
10 x 385 - 55 2
10 x 182.84 - 42.512
2467,9 2338,1
r = 
3850 - 3025
1828,4 - 1807,1
129,8
r = 
825
21,4
129,8
r = 
28,73 x 4,63
=
129,8

132,99
=
0,97
99
Il coefficiente risulta molto alto anche indipendentemente da ogni altra considerazione statistica.
Notiamo comunque che con dieci coppie di valori sarebbe sufficiente un r maggiore di 0.632
per raggiungere la consueta soglia minima di significatività ( P < 0.05). Va ribadito che l’indice ‘r’
attesta con più o meno sicurezza la sola esistenza di un legame e non la sua ‘forza’. Altri indici
sono deputati a ciò. Se dunque due calcoli di ‘r’ mostrano rispettivamente valori sotto l’1% e
sotto il 5% non siamo autorizzati a dire che il primo indice è più forte di cinque volte ma solo che
l’affermazione della esistenza di un legame tra le variabili messe in regressione relative al primo
‘r’ è meno incerta, cioè meno soggetta ad errore.
Conclusione
Il rapidissimo excursus su tanta parte di matematica, non sempre elementare, dovrebbe aver dato
un'idea della potenza degli operatori citati e reso familiari alcuni di questi che sono consueti nel
trattamento statistico dei dati. Soprattutto dovrebbe aver messo il lettore in grado di rendersi
conto di cosa sta dietro le più comuni procedure impiegate nel trattamento statistico dei dati.
fine
Scarica

NOTE INTRODUTTIVE ALLA STATISTICA MEDICA