Misurare la diversità
Alessandro Giuliani
La diversità può essere definita solo in riferimento ad
una popolazione e per quanto riguarda una misura
dotata di variabilità, che può cioè assumere diversi
valori in diversi individui
La quantificazione della diversità è quindi un problema statistico
• La statistica deriva dalla confluenza della sapienza
sviluppata dagli esseri umani in relazione a due
problemi differenti:
1. Lo sviluppo di numeri indice che riassumano le
caratteristiche rilevanti di una popolazione
(censimenti, statistica descrittiva).
2. Prendere decisioni in condizione di incertezza
calcolando delle probabilità per diversi esiti
(gioco d’azzardo, statistica inferenziale)
Ogni misura implica una scelta ben definita di prospettiva, solo alcune
caratteristiche dell’oggetto vengono prese in considerazione, oggetti, eventi
diversi, dopo l’atto della misura risultano indistinguibili.
mondo
misura
compressore
Una misura consiste in un insieme di regole che mi consente di assegnare univocamente, ad
un certo evento (campione di sangue, ratto, volume d’aria..) un valore
Questo valore deve essere tale da consentirmi di stabilire una metrica, cioè di dire se l’evento
A è più simile all’evento B o all’evento C.
D(a,b) = SQRT [ (X(a)-X(b))2 + (Y(a) – Y(b))2 ]
Matrici di dati
nome
Eta’
Abitazione
Reddito
Sesso
Lavoro
Mario
23
120
A
M
Lib. Prof.
Vanda
56
80
B
F
Cas.
Pietro
72
100
M
M
Pens.
Luca
38
130
M
M
Imp.
Pina
18
60
B
F
Stud
Lucia
25
75
M
F
Imp.
Tonino
42
62
B
M
Op.
Andrea
58
100
B
M
Contad.
Virginia
34
80
A
F
Lib. Prof.
Per la costruzione di una misura posso fare affidamento su un fenomeno fisico
Come ad esempio la dilatazione termica (termometri) o la forza di gravità (bilance).
..oppure posso immaginare un punteggio basato sulla risposta ad una serie di domande
(es. cartella delle tasse, test psicologici..).
In ogni caso le mie misure non saranno mai la cosa in sé, ma dei ‘proxy’ cioè qualcosa
che ha a che vedere con qualcosa di misterioso che ne garantisce il senso in modo a noi
ignoto.
Classi di misure
•
Scala intervallare : le differenze hanno significato quantitativo
•
•
Scala ordinale: l’ordinamento e’ affidabile, l’entita’ dei distacchi no
Scala qualitativa: dati di categoria, e’ affidabile solo l’assegnazione alle classi
Scala intervallare: temperature, pressioni, altezze, peso
Scala ordinale: voti scolastici, classifica campionato
Scala qualitativa: colore dei capelli, attivita’ lavorativa
E (X) =  (X(i))/N ) : Media, indice di locazione
SD (X) =   (X(i)) – E(X))2 / N: Deviazione standard, indice di diversità
ES = Std.Dev. /  N
(3)
Quanto differiscono tra loro le medie dei campioni ?
Tanto piu’ grandi i campioni, tanto
piu’ simili fra di loro (legge dei
grandi numeri)
Da non confondere con la
variabilita’ naturale tra
soggetti.
Il modello uniforme
Il modello normale
La quantita’ di informazione derivabile da una misura dipende dalla sua
distribuzione in frequenza
Entropia =  p(i)lg (p(i))
Una tabella di contingenza rappresenta una correlazione
A
B
******************* * * *
******************
*******************
***
Non B
Non A
******************
******************
*******************
Il calcolo dell’entropia (o indice di mutabilità) si basa
sulla divisione della popolazione in classi di cui si
calcola la frequenza relativa.
La massima diversità (entropia) corrisponde alla
distribuzione uniforme: tutte le classi sono equiprobabili,
la mia incertezza nel collocare un oggetto sconosciuto
nella sua classe di appartenenza è massima.
Massima è quindi l’informazione che posso
immagazzinare in una codifica dotata di elevata
entropia.
Codifica: scegliere una dimensione privilegiata di interpretazione
La distribuzione di idrofobicità della proteina P53, la mancanza di un ordine prestabilito nella
distribuzionespaziale di idrofobicità (elevata entropia), consente alla proteina di veicolare grandi
quantità di informazione
600
400
200
0
0
100
200
300
400
500
600
0
100
200
300
400
500
600
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
Il confronto del grado relativo di ‘diversità’ di due insiemi,
insomma la decisione se l’ambiente A ha un maggiore grado
di biodiversità dell’insieme B o se il paziente A ha un
maggiore grado di variabilità del paziente B relativo al
battito cardiaco, ci costringe a prendere delle decisioni
esplicite sullo stato delle cose.
Queste decisioni vanno sotto il nome generico di
STANDARDIZZAZIONE
Due insiemi A e B, chi è il più variabile ?
A: 10, 20, 30
B: 1, 2, 3
Due distribuzioni C e D, chi ha più entropia ?
c1
C: 0.33
c2
0.33
c3
0.33
d1
D: 0.25
d2
0.25
d3
0.25
d4
0.25
La scelta di una misura piuttosto di un’ altra,
di cosa diamo per ‘già dato’ e quindi irrilevante,
da normalizzare o da considerare esplicitamente,
influenza il nostro giudizio di diversità.
Non esistono misure neutre, esistono però misure
oneste.