Misurare la diversità Alessandro Giuliani La diversità può essere definita solo in riferimento ad una popolazione e per quanto riguarda una misura dotata di variabilità, che può cioè assumere diversi valori in diversi individui La quantificazione della diversità è quindi un problema statistico • La statistica deriva dalla confluenza della sapienza sviluppata dagli esseri umani in relazione a due problemi differenti: 1. Lo sviluppo di numeri indice che riassumano le caratteristiche rilevanti di una popolazione (censimenti, statistica descrittiva). 2. Prendere decisioni in condizione di incertezza calcolando delle probabilità per diversi esiti (gioco d’azzardo, statistica inferenziale) Ogni misura implica una scelta ben definita di prospettiva, solo alcune caratteristiche dell’oggetto vengono prese in considerazione, oggetti, eventi diversi, dopo l’atto della misura risultano indistinguibili. mondo misura compressore Una misura consiste in un insieme di regole che mi consente di assegnare univocamente, ad un certo evento (campione di sangue, ratto, volume d’aria..) un valore Questo valore deve essere tale da consentirmi di stabilire una metrica, cioè di dire se l’evento A è più simile all’evento B o all’evento C. D(a,b) = SQRT [ (X(a)-X(b))2 + (Y(a) – Y(b))2 ] Matrici di dati nome Eta’ Abitazione Reddito Sesso Lavoro Mario 23 120 A M Lib. Prof. Vanda 56 80 B F Cas. Pietro 72 100 M M Pens. Luca 38 130 M M Imp. Pina 18 60 B F Stud Lucia 25 75 M F Imp. Tonino 42 62 B M Op. Andrea 58 100 B M Contad. Virginia 34 80 A F Lib. Prof. Per la costruzione di una misura posso fare affidamento su un fenomeno fisico Come ad esempio la dilatazione termica (termometri) o la forza di gravità (bilance). ..oppure posso immaginare un punteggio basato sulla risposta ad una serie di domande (es. cartella delle tasse, test psicologici..). In ogni caso le mie misure non saranno mai la cosa in sé, ma dei ‘proxy’ cioè qualcosa che ha a che vedere con qualcosa di misterioso che ne garantisce il senso in modo a noi ignoto. Classi di misure • Scala intervallare : le differenze hanno significato quantitativo • • Scala ordinale: l’ordinamento e’ affidabile, l’entita’ dei distacchi no Scala qualitativa: dati di categoria, e’ affidabile solo l’assegnazione alle classi Scala intervallare: temperature, pressioni, altezze, peso Scala ordinale: voti scolastici, classifica campionato Scala qualitativa: colore dei capelli, attivita’ lavorativa E (X) = (X(i))/N ) : Media, indice di locazione SD (X) = (X(i)) – E(X))2 / N: Deviazione standard, indice di diversità ES = Std.Dev. / N (3) Quanto differiscono tra loro le medie dei campioni ? Tanto piu’ grandi i campioni, tanto piu’ simili fra di loro (legge dei grandi numeri) Da non confondere con la variabilita’ naturale tra soggetti. Il modello uniforme Il modello normale La quantita’ di informazione derivabile da una misura dipende dalla sua distribuzione in frequenza Entropia = p(i)lg (p(i)) Una tabella di contingenza rappresenta una correlazione A B ******************* * * * ****************** ******************* *** Non B Non A ****************** ****************** ******************* Il calcolo dell’entropia (o indice di mutabilità) si basa sulla divisione della popolazione in classi di cui si calcola la frequenza relativa. La massima diversità (entropia) corrisponde alla distribuzione uniforme: tutte le classi sono equiprobabili, la mia incertezza nel collocare un oggetto sconosciuto nella sua classe di appartenenza è massima. Massima è quindi l’informazione che posso immagazzinare in una codifica dotata di elevata entropia. Codifica: scegliere una dimensione privilegiata di interpretazione La distribuzione di idrofobicità della proteina P53, la mancanza di un ordine prestabilito nella distribuzionespaziale di idrofobicità (elevata entropia), consente alla proteina di veicolare grandi quantità di informazione 600 400 200 0 0 100 200 300 400 500 600 0 100 200 300 400 500 600 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 Il confronto del grado relativo di ‘diversità’ di due insiemi, insomma la decisione se l’ambiente A ha un maggiore grado di biodiversità dell’insieme B o se il paziente A ha un maggiore grado di variabilità del paziente B relativo al battito cardiaco, ci costringe a prendere delle decisioni esplicite sullo stato delle cose. Queste decisioni vanno sotto il nome generico di STANDARDIZZAZIONE Due insiemi A e B, chi è il più variabile ? A: 10, 20, 30 B: 1, 2, 3 Due distribuzioni C e D, chi ha più entropia ? c1 C: 0.33 c2 0.33 c3 0.33 d1 D: 0.25 d2 0.25 d3 0.25 d4 0.25 La scelta di una misura piuttosto di un’ altra, di cosa diamo per ‘già dato’ e quindi irrilevante, da normalizzare o da considerare esplicitamente, influenza il nostro giudizio di diversità. Non esistono misure neutre, esistono però misure oneste.