Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Introduzione Fenomeno, unità e popolazione La statistica è una disciplina che offre una metodologia scientifica con la quale trattare quantitativamente fenomeni che si presentano con una molteplicità di manifestazioni e che sono osservabili sia nelle scienze naturali che in quelle sociali. I fenomeni d’interesse per la Statistica sono detti fenomeni statistici. Esempi di fenomeni statistici che riguardano le scienze sociali possono essere: il “genere” delle persone di un collettivo di interesse; il “ numero di esami” registrati sul libretto degli studenti iscritti ad un certo anno di un dato corso di laurea; la “temperatura massima giornaliera registrata a Ferrara” nei giorni di un certo mese di un dato anno. Ogni fenomeno statistico , che indicheremo con le lettere X, Y, Z, si manifesta secondo diverse modalità che indicheremo con x, y, z, ad esempio per il fenomeno “genere” le modalità sono maschio e femmina; per il fenomeno “numero di esami” le modalità possono essere 0,1,2.e così via,; per il fenomeno “temperatura massima” avremo 30°C, 35°C e così via. Le entità su cui è possibile osservare e registrare le diverse manifestazioni x del fenomeno X in esame sono chiamate unità statistiche. Negli esempi precedenti le unità statistiche sono individui mentre nell’esempio delle temperature sono i giorni del mese. Chiameremo popolazione statistica o universo U l’insieme delle unità statistiche sulle quali interessa studiare il fenomeno. Relativamente agli esempi precedenti, possiamo quindi esprimerli velocemente come Fenomeno statistico di interesse X: genere. Popolazione statistica U: collettivo di persone. x, modalità di manifestazione del fenomeno X, osservabili su ogni unità statistica che compone U x: maschio o femmina: Fenomeno statistico di interesse Y: numero di esami. U: studenti del terzo anno del corso di laurea in ortottica ed oftalmologia. y, Modalità di manifestazione del fenomeno Y: 0, 1, 2, 3… Fenomeno statistico di interesse Z: temperatura massima a Ferrara. U: giorni del mese di giugno 2015 Z, modalità di manifestazione del fenomeno Z: 30°C, 29°C, 32°C ….. Il numero di unità statistiche che compongono la popolazione statistica è chiamato dimensione di U useremo la lettera N. I fenomeni di interesse si manifestano in genere su popolazioni finite ma anche su popolazioni infinite cioè composte da un 1 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 numero infinito di unità statistiche. Talvolta la dimensione N di U pur essendo finita è talmente elevata che ai fini dell’analisi statistica è conveniente pensarla infinita. In base alle definizioni di unità e di popolazione statistica, possiamo dire che un fenomeno statistico X è una caratteristica della popolazione statistica che si presenta con modalità diverse a seconda della natura del fenomeno. Possono essere: un numero nullo o intero positivo come nell’esempio del numero di esami, un numero reale e dotato di unità di misura come nell’esempio della temperatura o altro ancora come vedremo più avanti. Dunque i fenomeni collettivi non sono tutti uguali e bisogna individuarne la natura ossia bisogna imparare a classificare i fenomeni statistici Analisi statistica di un fenomeno Una volta stabilito: Il fenomeno che interessa studiare La popolazione su cui interessa studiarlo Le unità statistiche sulle quali sono reperibili le sue diverse manifestazioni, bisogna trattare quantitativamente il fenomeno statistico, ossia bisogna: registrare le diverse manifestazioni del fenomeno. In questo modo si creano i dati. Organizzare il risultato delle manifestazioni. Quando la popolazione è numerosa, occorre organizzare i dati in tabelle e grafici in modo da renderlo più leggibile. In questa fase si introducono le variabili statistiche e le distribuzioni di frequenza. Elaborare i dati. L’obiettivo è di far emergere dai dati le informazioni che interessano. Si tratta di sintetizzare i dati attraverso la costruzione di valori sintetici e studiarne le eventuali relazioni statistiche con altri fenomeni Comunicare i risultati. E’ il momento conclusivo dell’analisi statistica. Anche il risultato più interessante e più elegantemente elaborato è perfettamente inutile se non è ben comunicato. Le due funzioni della Statistica: Statistica descrittiva e Statistica inferenziale Una volta registrati i dati relativi al fenomeno X, la Statistica ha la funzione di descriverli. Gli strumenti di analisi statistica adeguati a questo scopo formano la Statistica descrittiva La Statistica descrittiva si classifica in: 2 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Mono-variata o anche uni-variata che ha per oggetto la descrizione sintetica di un solo fenomeno singolarmente rilevato. Bi-variata quando l’oggetto è una coppia di fenomeni congiuntamente rilevata sulla stessa popolazione statistica, sulla stessa U. Multivariata se i fenomeni rilevati sulla stessa U sono più di due e l’obiettivo e descriverne il comportamento congiunto, studiarne le relazioni. L’analisi statistica mono- bi e multivariata, avendo scopi sensibilmente diversi, necessita di strumenti matematici e statistici diversi. Le tre tipologie vanno quindi trattate separatamente. Abbiamo detto che le popolazioni statistiche sono formate da un numero molto grande, di solito infinitamente grande di elementi diversi fra loro e quindi, se vogliamo studiarla, dobbiamo valutare tutti gli individui componenti. Per motivi di tempo e di costi non potendo esaminare l’intera popolazione eseguiamo le misurazioni della caratteristica in esame su un numero limitato di individui, su un campione. Tuttavia il valore ottenuto dai dati campionari è soggettivo perché dipende dagli elementi inclusi e quindi varia da campione a campione e non rappresenta il valore vero della caratteristica oggetto di studio. Ad esempio se vogliamo esaminare l’effetto di un nuovo farmaco sulla pressione arteriosa non possiamo esaminare tutti i pazienti ipertesi nel mondo, ma valuteremo gli effetti del farmaco su un campione estratto dalla popolazione di riferimento e quindi le nostre considerazioni sono necessariamente relative al campione esaminato e non all’intera popolazione. Se i dati sperimentali sono campionari, la statistica continua ad avere sempre la descrizione e la comprensione del comportamento del fenomeno, ma la sua funzione ora è più ardita: vuole estendere i risultati dell’elaborazione dai dati campionari all’intera popolazione e quindi anche alla parte della popolazione U non osservata. Si tratta di un’induzione dal particolare (campione) al generale (U) chiamata inferenza statistica. La statistica inferenziale offre metodologie che arrivano a conclusioni la cui validità è relativa non solo al campione estratto ma anche all’intera popolazione. I dati disponibili per l’inferenza sono scelti a caso fra la totalità dei dati che esaurirebbero l’osservazione di U e la validità delle conclusioni è espressa in termini probabilistici. Ecco perché alla base della statistica inferenziale vi sono elementi della teoria di probabilità. Per capire quindi le generalizzazioni statistiche ed i limiti di validità di tali generalizzazioni dobbiamo dapprima esaminare le principali modalità utilizzate per rappresentare, visualizzare e sintetizzare i dati campionari (statistica descrittiva), introdurre alcuni elementi della teoria della probabilità ed infine discutere la verifica di ipotesi (inferenza statistica) Classificazione dei fenomeni statistici 3 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Abbiamo detto che i fenomeni statistici possono avere una natura diversa e che quindi occorre classificarli. La prima fondamentale distinzione è fra nomi e numeri, tra fenomeni qualitativi e quantitativi. Fenomeni qualitativi. Si manifestano nella popolazione osservata attraverso attributi o categorie. Esempi X: genere Y: squadra di calcio tifata Z: titolo di studio Fenomeni quantitativi. Si manifestano nella popolazione attraverso numeri, quantità. Esempi: X: temperatura massima giornaliera a Ferrara nel mese di giugno 2015; Y: numero di accessi a un certo sito di Internet in un dato giorno. In certe situazioni è necessario che le manifestazioni del fenomeno in esame possano essere ordinate, per esempio dalla più piccola alla più grande. Le manifestazioni dei fenomeni quantitativi possono essere sempre ordinate perché tra i numeri esiste una relazione d’ordine naturale. Per i fenomeni qualitativi è importante la sotto-classificazione che li distingue in base alla possibilità di ordinarne le manifestazioni. Fenomeni qualitativi ordinali. Sono fenomeni che pur essendo qualitativi si manifestano con attributi e categorie che si possono ordinare secondo un qualche criterio oggettivo e convenzionalmente accettato. Esempio. Fenomeno X: titolo di studio. Le sue modalità sono ovviamente categorie ma che tutti ordiniamo allo stesso modo: scuola dell’obbligo < diploma < laurea triennale< titolo post-laurea. Fenomeni qualitativi nominali o categoriali. Sono tutti quei fenomeni qualitativi per i quali non abbiamo un criterio oggettivo per ordinare le categorie con cui si manifesta. Esempi. X: gruppo sanguigno, Y: sesso, Z: lingua parlata Fra i fenomeni quantitativi invece, una sotto-classificazione importante ai fini dell’analisi statistica è tra fenomeni discreti e continui. Fenomeni quantitativi discreti. Sono fenomeni quantitativi che possiamo enumerare. Esempi. X: numero di esami registrati sul libretto al termine del primo anno. Y: numero di furti di motorini denunciati a Ferrara nel 2014. 4 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Fenomeni quantitativi continui. Sono fenomeni quantitativi che si possono misurare una volta scelta una opportuna unità di misura e con la disponibilità del corretto strumento di misura. Esempi. X: peso corporeo alle ore 8:00 e a digiuno. Y: temperatura massima giornaliera a Ferrara nel mese di giugno 2015. Il punto importante da capire è che le manifestazioni di un fenomeno quantitativo continuo sono intervalli e che la caratteristica della numerabilità tipica dei fenomeni discreti scompare a favore della caratteristica della continuità. Osservazione. Abbiamo visto che un fenomeno statistico X si manifesta con modalità x diverse a seconda della natura del fenomeno qualitativo o quantitativo. Indicheremo tali modalità con gli stessi simboli x1, x2,….xn per tutti i fenomeni, siano essi qualitativi o quantitativi. Ad esempio per rilevare il fenomeno X: genere, useremo la scala x1 =femmina e x2=maschio. Esercizi Esercizio 1 Vero o falso? a) Una popolazione statistica è l’insieme delle unità statistiche b) Un fenomeno statistico è una caratteristica della popolazione c) L’unità statistica è un numero d) Un fenomeno statistico si manifesta con la stessa modalità su ciascuna unità e) La popolazione statistica è necessariamente finita f) La statistica è un insieme di metodologie per il trattamento scientifico dei dati a)Vero b) Vero c) Falso d) Falso e) Falso f) Vero Esercizio 2 Si identifichi se le seguenti variabili sono quantitative o qualitative. Se sono quantitative si stabilisca se la variabile è discreta o continua. Se sono qualitative, si stabilisca se la variabile è nominale oppure ordinale. a. I voti scolastici espressi in lettere (sistema anglosassone) b. Il numero di lesioni subite in una caduta c. La marca degli antidepressivi. d. L’indice di massa corporeo (sottopeso, normale sovrappeso, obeso) e. Il numero di crimini commesso f. Il sesso g. Lo stadio di maturazione dei frutti (acerbo, maturo, molto maturo) h. Il peso alla nascita 5 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Risposte a) qualitativa ordinale; b) quantitativa discreta; c) qualitativa nominale; d) qualitativa ordinale e) quantitativa discreta; f) qualitativa nominale g) qualitativa ordinale; h) quantitativa continua. Esercizio 3 Quali delle sottoelencate variabili sono qualitative e quali sono quantitative e nel secondo caso specificare se continue o discrete.? a) sesso b) pressione sanguigna c) diagnosi d) altezza. e) Concentrazione di glucosio nel sangue f) Dimensione del nucleo familiare. Sesso e diagnosi sono variabili qualitative; l’altezza, la pressione sanguigna, la concentrazione di glucosio nel sangue sono variabili quantitative continue; la dimensione del nucleo familiare è qualitativa discreta. Esercizio 4 Scegliere la risposta più corretta. 1. l’insieme dei metodi statistici per la raccolta, l’organizzazione, la sintesi e la presentazione dei dati osservati su una popolazione è statistica descrittiva un esempio di statistica inferenza statistica lo studio della statistica 2. Un fenomeno statistico è Una misura Un insieme di unità statistiche Un insieme di modalità osservabili Un’osservazione 3. La modalità di un fenomeno è: Un campione statistico La manifestazione del fenomeno su una singola unità statistica Una caratteristica della popolazione di riferimento. 1. l’insieme dei metodi statistici per la raccolta, l’organizzazione, la sintesi e la presentazione dei dati osservati su una popolazione è 6 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 la statistica descrittiva 2. Un fenomeno statistico è un insieme di modalità osservabili 3. La modalità di un fenomeno è: la manifestazione del fenomeno su una singola unità statistica 7 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Parte I Statistica descrittiva monovariata Vogliamo descrivere un solo fenomeno statistico X ossia una sola caratteristica di una popolazione statistica. Il risultato di rilevazione del fenomeno X sulla popolazione di riferimento U è un insieme di osservazioni formato dalle modalità xi con cui si presenta il fenomeno e prende il nome di dati grezzi . Poiché i dati non sono ordinati, tale insieme non aiuta o aiuta pochissimo al raggiungimento della descrizione del fenomeno X. La prima basilare sintesi consiste nel dare una struttura ai dati grezzi organizzandoli in tabelle e grafici Parleremo quindi di distribuzioni di frequenze e variabili statistiche. Distribuzioni di frequenze. Effettuando una semplice operazione di conteggio delle modalità di X che si ripetono, i dati grezzi vengono organizzati in una tabella. La caratteristica in esame la chiamiamo variabile statistica e le modalità con cui si presenta tale caratteristica sono i valori 𝑥1 , 𝑥2 , … . 𝑥𝑛 della variabile statistica. Il numero delle volte con cui si presenta una data modalità della caratteristica è detto frequenza assoluta di quella modalità. Indicheremo la generica frequenza assoluta con 𝑓𝑖 . L’insieme delle frequenze (assolute) è detta distribuzione di frequenze assolute del fenomeno X su U. In senso generale una distribuzione di frequenza si presenta mediante una tabella di questo tipo: 𝑥1 𝑥2 𝑥3 ………….. 𝑥𝑛 𝑓1 𝑓2 𝑓3 𝑓𝑛 8 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 In questo modo i dati sono più organizzati e meglio leggibili. La prima riga è relativa alle modalità 𝑥𝑖 ed ha a che fare con il fenomeno X e quindi a seconda della natura del fenomeno può contenere attributi, categorie, numeri, intervalli. La seconda riga è relativa alle frequenze (assolute) ha invece a che fare con le unità statistiche e dunque con la popolazione U. Costituisce la distribuzione di frequenze. Frequenze relative e percentuali. Le frequenze assolute sono direttamente influenzate dalla numerosità della popolazione: più è grande la numerosità , più grandi sono le frequenze assolute., Se l’obiettivo è confrontare le distribuzioni di frequenze di X in due o più popolazioni con numerosità diversa occorre togliere le frequenze assolute dall’influenza della numerosità. Si deve costruire la distribuzione delle frequenze relative. La frequenza relativa associata alla modalità 𝑥𝑖 è il rapporto tra la frequenza assoluta di 𝑥𝑖 e la numerosità dei dati. Le percentuali sono le frequenze relative moltiplicate per 100. Le percentuali sono sempre comprese tra 1 e 100 e la loro somma è 100. Frequenze assolute, frequenze relative e percentuali sono costruibili per qualunque tipo di fenomeno X. Quando il fenomeno è almeno ordinale (cioè qualitativo ordinale oppure quantitativo) possiamo aumentare il livello di analisi e costruire un ulteriore tipo di distribuzione di frequenze. Frequenze cumulate Quando X è almeno ordinale è buona pratica costruire la v.s. ordinando in senso crescente le modalità osservate partendo dal minimo e arrivando al massimo. La possibilità di stabilire un ordine oggettivo e universale fra le modalità di X è utile all’analisi statistica e consente di porsi domande come: quante sono le unità statistiche fra tutte quelle osservate che che manifestano una modalità non più grande ( cioè al più pari a) una certa 𝑥𝑖 ? Si tratta di sommare, cioè cumulare, le frequenze associate alle modalità inferiori ad 𝑥𝑖 , costruendo le frequenze cumulate. Possiamo avere la distribuzione delle frequenze cumulate assolute o relative. Densità di frequenza Limitiamo ora la nostra attenzione ai fenomeni quantitativi continui. Se la X è continua le modalità 𝑥𝑖 sono intervalli. In questo caso la v.s. ci informa che al generico intervallo 𝑥𝑖 : 𝑥𝑙 − 𝑥𝐿 appartengono 𝑓𝑖 unità statistiche. Questo è tutto ciò che sappiamo. Non sappiamo esattamente in quale degli infiniti punti che appartengono all’intervallo si posiziona ciascuna delle 𝑓𝑖 . Ogni volta che ci si trova in situazioni di questo tipo, per superare l’ostacolo si formulano delle ipotesi. Due sono le ipotesi comunemente fatte: 9 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 1) Ipotesi del valore centrale. Le 𝑓𝑖 unità statistiche che cadono nell’intervallo 𝑥𝑖 vengono associate tutte nel punto centrale dell’intervallo. Il valore centrale è la semisomma dei suoi estremi 𝑥𝑙 + 𝑥𝐿 𝑥𝑖∗ = 2 2) Ipotesi di distribuzione uniforme. Se non conosciamo dove sono posizionate le 𝑓𝑖 unità statistiche all’interno dell’intervallo, le distribuiamo in modo uniforme ed equidistante lungo tutto l’intervallo. Un secondo aspetto su cui bisogna soffermarsi quando si ha a che fare con fenomeni continui riguarda il fatto che gli intervalli possono avere ampiezza diversa. (L’ampiezza dell’intervallo è la differenza tra l’estremo superiore e l’estremo inferiore.) Intuiamo tutti che tanto più un intervallo è ampio quanto più conterrà più casi di un intervallo meno ampio. Per togliere questa dipendenza introduciamo la densità di frequenza (assoluta) che è il rapporto tra la frequenza (assoluta/relativa) e l’ampiezza dell’intervallo: 𝑓𝑖 𝜑𝑖 = 𝑥𝐿 − 𝑥𝑙 oppure, se abbiamo N dati le densità di frequenza relativa è 𝜑𝑖 𝑁 Esempi Supponiamo che i dati siano puramente qualitativi, ossia nominali e ordinali. Il modo più semplice di trattarli è contare il numero dei casi che cadono in un particolare gruppo. Per esempio, nell’analisi del censimento di una popolazione di un ospedale psichiatrico una delle variabili di interesse è la diagnosi principale relativa al paziente. Le classi (categorie) di questa variabile qualitativa nominale sono: schizofrenia, disordini affettivi, sindrome mentale, subnormalità, alcolismo, altro. Per riassumere i dati si conta il numero di pazienti per ciascun tipo di diagnosi. I risultati vengono raccolti in una tabella detta tabella statistica, simile a questa: Tabella 1. Diagnosi Numero di pazienti Schizofrenia 474 Disordini affettivi 277 Sindrome mentale 405 Subnormalità 58 Alcolismo 57 Altro 196 TOTALE 1467 10 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Il numero di pazienti sta ad indicare la frequenza assoluta della classe. Così la frequenza assoluta della schizofrenia è 474. L’insieme delle frequenze di tutte le possibili caratteristiche è detta distribuzione di frequenze della variabile. Nella tabella successiva viene mostrata la distribuzione di frequenze di una variabile quantitativa: la parità ovvero il numero di gravidanze precedentemente condotte a termine per un campione di donne che si prenotano per il parto ad un dato ospedale. In questo caso sono ammessi soltanto determinati valori della variabile, dal momento che il numero di gravidanze deve necessariamente essere intero. Quindi la variabile è quantitativa discreta Tabella 2. Parità Frequenza 0 59 1 44 2 14 3 3 4 4 5 1 TOTALE 125 Per ottenere la distribuzione di frequenza di una variabile quantitativa continua è necessario scomporre i valori delle osservazioni in una serie di intervalli distinti non sovrapposti. Sebbene non sia necessario, conviene scegliere gli intervalli con la stessa ampiezza per facilitare il confronto fra le classi. Una volta selezionati i limiti superiore ed inferiore di ciascun intervallo, si calcola il numero dei dati grezzi della variabile continua i cui valori rientrano in ciascuna coppia di limiti e si ottiene la tabella distribuzione di frequenza. La tabella 3 mostra i dati grezzi di una variabile quantitativa continua: il volume espiratorio forzato (FEV1) in litri, in un campione di 57 studenti di medicina di sesso maschile. 2.85 2.85 2.98 3.04 3.10 3.19 3.20 3.30 3.39 3.42 3.50 3.54 3.54 3.57 3.60 3.69 3.70 3.70 3.75 3.78 Tabella 3. 3.90 4.14 3.96 4.16 4.05 4.20 4.08 4.20 4.10 4.30 4.32 4.44 4.47 4.47 4.47 4.50 4.56 4.68 4.70 4.71 4.80 5.20 4.80 5.30 4.90 5.43 5.00 5.10 11 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 3.10 3.48 3.60 3.83 4.14 4.30 4.50 4.78 5.10 Per ottenere una distribuzione di frequenze assolute utilizzabile è necessario dividere la scala dei possibili volumi espiratori in intervalli, ciascuno dei quali verrà identificato con una classe (ad esempio da 3.0 a 3.5, da 3.5 a 4.0, e così via) e contare il numero di individui il cui valore di FEV1 appartiene ad ogni classe. E’ necessario che le classi non si sovrappongano, pertanto bisogna decidere quale tra due intervalli contigui, debba contenere il valore soglia, al fine di evitare conteggi duplici. Per convenzione si è soliti includere l’estremo inferiore nell’intervallo , e attribuire invece l’estremo superiore all’intervallo successivo. Quindi l’intervallo che va da 3.0 a 3.5 include 3.0 ma non 3.5. Con riferimento alla tabella 3, se scegliamo di partire da 2.5 con intervalli di ampiezza 0.5 otteniamo la distribuzione di frequenze mostrata in tabella 4. Si noti che la distribuzione di frequenze non è unica. Se infatti anziché partire da 2.5 scegliamo come valore di partenza 2.4 con intervalli di ampiezza 0.2, la distribuzione di frequenze risultante sarà diversa. Tabella 4. FEV1 Frequenza Frequenza Relativa % 2.0 - 2.5 0 0.0 2.5 – 3.0 3 5.3 3.0 – 3.5 9 15.8 3.5 – 4.0 14 24.6 4.0 – 4.5 15 26.3 4.5 – 5.0 10 17.5 5.0 – 5.5 6 10.5 5.5 - 6.0 0 0.0 TOTALE 57 100.0 E’ evidente che quest’ultima tabella permette una migliore comprensione dei dati rispetto alla tabella dei dati grezzi. Nella tabella vengono calcolate anche le frequenze relative. Per capirne l’utilità consideriamo il seguente esempio. In tabella 5 vengono mostrati come si distribuiscono i valori di colesterolo sierico di 1067 soggetti della popolazione maschile degli Stati Uniti di età compresa tra 25 e 34 anni nei rispettivi intervalli Tabella 5. Livello di colesterolo Numero di soggetti (mg/100mL) 80-119 13 120-159 150 160 -199 442 200-239 299 12 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 240-279 280-319 320-359 360-399 TOTALE 115 34 9 5 1067 In una distribuzione di frequenza è utile, a volte, conoscere non tanto il numero assoluto dei valori che rientrano in un dato intervallo (frequenza assoluta) quanto la proporzione dei valori (frequenza relativa). La frequenza relativa per un intervallo è calcolata dividendo il numero di osservazioni all’interno di un intervallo per il numero totale di osservazioni della tabella. La frequenza relativa può essere espressa anche in valori percentuali (%). Ad esempio nella tabella 5 la frequenza relativa nella classe 80-119 mg/100mL è (13⁄1067) = 0.012 = 1.2%; allo stesso modo, la frequenza relativa nella classe 120-159 mg/mL è (150⁄1067) = 0.141 = 14.1%. Le frequenze relative per tutti gli intervalli di una tabella si sommano al 100%. Le frequenze relative sono utili per confrontare serie di dati con numero diverso di osservazioni. La tabella 6 mostra le frequenze assolute e relative del livello di colesterolo sierico per i 1067 soggetti della popolazione maschile di età compresa tra 25 e 34 anni già illustrata in tabella 5 e per un gruppo di 1227 maschi di età compresa tra 55 e 64 anni. Poiché i soggetti anziani sono più numerosi non è corretto confrontare le colonne delle frequenze assolute dei due gruppi. Invece il confronto delle frequenze relative ha un significato. Possiamo notare che, in generale, i soggetti anziani presentano livelli di colesterolo sierico più elevati rispetto ai giovani; i soggetti giovani hanno una proporzione più elevata di valori al di sotto di 200mg/100mL, mentre gli anziani presentano una proporzione più elevata al di sopra di questo valore. Tabella 6. Livello di colesterolo (mg/100mL) 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 Età 25-34 Numero di soggetti 13 150 442 299 115 34 9 5 Frequenza relativa (%) 1.2 14.1 41.4 28.0 10.8 3.2 0.8 0.5 Età 55-64 Numero di soggetti 5 48 265 458 281 128 35 7 Frequenza relativa (%) 0.4 3.9 21.6 37.3 22.9 10.4 2.9 0.6 13 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Totale 1067 100.0 1227 100.0 La frequenza relativa cumulativa per un intervallo è la percentuale del numero totale di osservazioni che hanno un valore inferiore o uguale al limite superiore dell’intervallo stesso. La frequenza relativa cumulativa è calcolata sommando le frequenze relative per l’intervallo specificato assieme a quelle per tutti gli intervalli precedenti. Così per il gruppo di età compresa tra 25 e 35 anni la frequenza relativa cumulativa del secondo intervallo è 1.2+14.1=15.3%; allo stesso modo, la frequenza relativa cumulativa del terzo intervallo è 1.2+14.1+41.4=56.7%. Come le frequenze relative, le frequenze relative cumulative sono utili per confrontare serie di dati che contengono numeri diversi di osservazioni. La tabella 7 riporta le frequenze relative cumulative dei livelli di colesterolo sierico dei due gruppi di maschi illustrati nella tabella 6. Tabella 7. Età 25-34 Livello di colesterolo (mg/100mL) Frequenza relativa(%) 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 1.2 14.1 41.4 28.0 10.8 3.2 0.8 0.5 Frequenza relativa cumulativa (%) 1.2 15.3 56.7 84.7 95.5 98.7 99.5 100 Età 55-64 Frequenza relativa (%) 0.4 3.9 21.6 37.3 22.9 10.4 2.9 0.6 Frequenza relativa cumulativa (%) 0.4 4.3 25.9 63.2 86.1 96.5 99.4 100 In accordo con la tabella precedente, i soggetti anziani tendono ad avere livelli di colesterolo sierico più elevati dei giovani. Ciò è più evidente nella tabella 7 che in tabella 6. Ad esempio il 56.7% dei soggetti di età compresa tra 24 e 34 anni ha un livello di colesterolo sierico inferiore o uguale a 199 mg/100 mL, mentre solo il 25.9 % dei soggetti di età compresa tra 55 e 64 anni rientra in questa categoria. 14 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Rappresentazione grafiche Con le distribuzioni di frequenze (assolute, relative o percentuali, e cumulate) possiamo costruire grafici. La rappresentazione grafica delle distribuzioni di frequenze è alternativa alla forma tabellare. Non si tratta di effettuare una sintesi , ma di presentare i dati in diversa forma. Sono disponibili molti metodi per visualizzare graficamente le distribuzioni di frequenza, a seconda che la variabile sia qualitativa o quantitativa discreta o continua Come è stato detto la frequenza di un valore di una variabile in un campione è il numero di volte con cui è stato osservato quel particolare valore e la distribuzione di frequenze di una variabile visualizza le frequenze di tutti i suoi valori. Per visualizzare graficamente le distribuzioni di frequenza di una variabile qualitativa si utilizza un diagramma a barre. In tale rappresentazione si impiegano barre rettangolari aventi uguale larghezza ed altezza uguale alla frequenza In figura 1 vengono rappresentati i dati della variabile qualitativa nominale “diagnosi principali in un ospedale psichiatrico” già tabulati in tabella 1. Diagnosi principali in un ospedale psichiatrico altro alcolismo subnormalità Sindrome mentale disordini affettivi Schizofrenia 0 100 200 300 400 500 Figura 1. Diagramma a barre che mostra le diagnosi principali in un ospedale psichiatrico. Se la distribuzione si presenta secondo un carattere quantitativo discreto, questa può essere rappresentata ponendo sull’asse delle ascisse le modalità, ossia i valori della variabile, e sull’asse delle ordinate le frequenze in modo tale che l’insieme dei punti d’incontro tra le modalità e le relative frequenze, individuati dalle coordinate cartesiane, rappresenti la distribuzione. Si ottiene così il diagramma cartesiano. La figura 2 rappresenta i dati della variabile quantitativa discreta tabulata in tabella 2. 15 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 70 F r e q a u e n z 60 50 40 30 20 10 0 0 1 2 3 4 5 6 Parità Figura 2. Parità di donne prenotatesi per il parto in un ospedale (vedi testo) Istogrammi Il modo più comune per rappresentare una distribuzione di frequenze per una variabile continua è l’istogramma. Un istogramma utilizza l’area di barre rettangolari per visualizzare la distribuzione di frequenza. E’ un diagramma che vede indicati sull’asse orizzontale gli estremi degli intervalli che rappresentano le classi di suddivisione della variabile quantitativa continua. In corrispondenza di ciascun intervallo è costruito un rettangolo la cui base è uguale all’ampiezza dell’intervallo e la cui altezza si può calcolare tenendo presente che l’area 𝐴 di ogni rettangolo deve essere proporzionale alla frequenza corrispondente all’intervallo stesso, ossia, se la frequenza è 𝑓 e la costante di proporzionalità è 𝑘, si ha 𝐴 = 𝑘𝑓 Per semplificare il problema si pone k=1 e quindi l’area di ogni rettangolo ha un significato preciso: è interpretabile come frequenza. 𝐴=𝑓 Tuttavia, essendo l’area del rettangolo uguale alla base 𝑏 per l’altezza ℎ, quest’ultima risulta 𝑓 ℎ= 𝑏 ossia l’altezza risulta uguale alla densità di frequenza. Concludendo in un istogramma sulle ascisse si mettono gli intervalli della variabile statistica, sulle ordinate la densità di frequenza. Si tenga sempre presente che il termine istogramma va riservato solo a diagrammi la cui area è interpretabile come frequenza (assoluta o relativa). Per chiarire ulteriormente le idee consideriamo il seguente esempio. 16 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Supponiamo di avere una variabile quantitativa che ha la seguente distribuzione di frequenza X 26-30 30-34 34-42 42-52 52-57 57-65 f 40 72 120 20 20 10 Se rappresentassimo sulle ordinate le frequenze e sulle ascisse gli intervalli, si otterrebbe la seguente rappresentazione: 140 F r e z q a u e n 120 100 80 60 40 20 0 26-30 30-34 34-42 42-52 52-57 57-65 Questa rappresentazione falsa completamente la percezione del fenomeno. Due classi hanno la stessa frequenza ma una ha ampiezza doppia dell’altra e quindi le stesse frequenze sono distribuite diversamente nelle rispettive classi. Questo non risulta dal grafico. Bisogna tenere conto di questo aspetto. La funzione densità di frequenza si ottiene dividendo le frequenze per l’ampiezza dell’intervallo. Si ha quindi la seguente tabella: X 26-30 30-34 34-42 42-52 52-57 57-65 Densità 10 18 15 2 4 1.25 e il suo istogramma è il seguente: 17 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 20 D f e r e n d q s i u i e t à … 18 16 14 12 10 8 6 4 2 0 26-30 30-34 34-42 42-52 52-57 57-65 Età Figura 3. Riprendendo la tabella 4 e tenendo conto dell’ampiezza dell’intervallo si ha Tabella 8. Distribuzione della densità frequenze di FEV1 FEV1 Frequenza Densità di frequenza 2.0 - 2.5 0 0.0 2.5 – 3.0 3 6.0 3.0 – 3.5 9 18 3.5 – 4.0 14 28 4.0 – 4.5 15 30 4.5 – 5.0 10 20 5.0 – 5.5 6 12 5.5 - 6.0 0 0.0 E l’istogramma corrispondente è rappresentato in figura 3 . Figura 4. Rappresentazione della densità di frequenze per i dati FEV 18 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 35 D e n s i t à f30 r25 e q20 u15 e 10 n z5 d e0 i 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 FEV1 (litri) Possiamo anche rappresentare la densità di frequenze cumulative di questa variabile quantitativa. Si ha la seguente tabella: Tabella 8. Distribuzione della densità frequenze cumulative di FEV1 FEV1 Frequenza Frequenze cumulative 2.0 - 2.5 0 0.0 2.5 – 3.0 3 3 3.0 – 3.5 9 12 3.5 – 4.0 14 26 4.0 – 4.5 15 41 4.5 – 5.0 10 51 5.0 – 5.5 6 57 5.5 - 6.0 0 57 e la corrispondente rappresentazione è 19 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 70 F r e q u e n z e c u m u l e a t i v 60 50 40 30 20 10 0 0 2 4 6 8 10 FEV1(Litri) Figura 4 Rappresentazione del poligono delle frequenze cumulative dei dati FEV1. Abbiamo esaminato le distribuzioni di frequenza e le distribuzioni di frequenza cumulative. Abbiamo già detto che quando si vogliono confrontare due o più serie di dati, queste ultime sono più adatte rispetto alle distribuzioni di frequenza perché si possono facilmente sovrapporre. Nella figura sottostante vengono confrontate le frequenze cumulative relative ai livelli di colesterolo sierico per soggetti della popolazione maschile di età compresa tra 25 e 34 anni e età compresa tra 55 e 64 anni (vedi tabella 7) 120 F r e q u e n z a c u m u l a t i v a 100 80 60 40 20 0 79.5 119.5 159.5 199.5 239.5 279.5 319.5 359.5 399.5 Livelli colesterolo (mg/100mL) Le distribuzioni di frequenza cumulativa possono essere utilizzate anche per ottenere i percentili o i quartili di una serie di dati. Sono quei valori del carattere osservato 20 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 che dividono la distribuzione in 100 parti oppure in 4 parti uguali. Sono rispettivamente 3 e 99 valori. Ad esempio il 95-esimo percentile è il valore che è maggiore o uguale al 95% delle osservazioni e minore o uguale al restante 5%. Nella figura il cinquantesimo percentile (oppure il secondo quartile) dei livelli di colesterolo sierico per il gruppo di età compresa tra 25 e 34 anni- cioè il valore maggiore o uguale alla metà delle osservazioni e minore o uguale all’altra metà- è approssimativamente 193 𝑚𝑔⁄100 𝑚𝐿; il 50-esimo percentile per il gruppo di età compresa tra 55 e 64 anni è circa 226𝑚𝑔⁄100𝑚𝐿. Aerogrammi o diagrammi circolari L’aerogramma è una rappresentazione equivalente a un diagramma a barre adatta a fenomeni qualitativi. In un aerogramma le frequenze relative ad ogni categoria sono rappresentate dividendo un cerchio in settori, in modo che ogni settore sottenda un angolo proporzionale alla frequenza relativa alla categoria corrispondente. Se l’ampiezza dell’angolo giro è di 360° , l’ampiezza dell’angolo 𝛼 relativo ad ogni singola frequenza misurata in gradi , si ricava da una elementare proporzione 𝛼: 360 = 𝑓𝑖 : 𝐹 ove 𝐹 è la frequenza totale e 𝑓𝑖 è la frequenza assoluta della i-esima categoria. Risolvendo rispetto ad 𝛼 si ottiene 𝑓𝑖 𝛼 = 360 = 360𝑓𝑟 𝐹 ove 𝑓𝑟 è la frequenza relativa dell’ì-esima categoria. Per ottenere l’angolo in gradi di ogni singola categoria è sufficiente moltiplicare la frequenza relativa per 360. La tabella 9 mostra una parte dei dati relativi ai decessi femminili suddivisi per causa in Inghilterra e Galles ed i calcoli necessari per costruire il corrispondente aerogramma. Tabella 9 Cause di morte Frequenza Frequenza relativa Malattie del sistema circolatorio 137165 0.46619 Neoplasie 69948 0.23773 Malattie del sistema respiratorio 33223 0.11292 Lesioni ed avvelenamenti 6427 0.02184 Malattie del sistema digerente 10779 0.03663 Malattie del sistema nervoso 5990 0.02936 Altro 30695 0.10432 Angolo (gradi) 168 86 40 8 13 7 38 21 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 TOTALE 294227 1.00000 360 1 2 3 4 5 6 7 Figura 5 Principali cause di morte in Inghilterra e Galles nel 1983. Esercizi Esercizio 1 I seguenti tre fenomeni sono stati rilevati su 16 famiglie residenti nel nord Italia X: regione di provenienza (F=Friuli, L=Lombardia, P=Piemonte, V=Veneto) L V V L P F F L V F F P L F L V Y: titolo di studio del/la capofamiglia (N=nessuno, E=licenza elementare, M=licenza media, D=diploma, L=laurea, A=titolo post laurea) D E M L A M M L D D D E D N E D Z: numero di immobili di proprietà 0 1 2 1 1 0 0 0 1 3 2 0 1 0 0 2 Per ciascun fenomeno organizzare il risultato della rilevazione in forma tabellare costruendo la variabile statistica con le distribuzioni di frequenze assolute e relative e 22 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 indicare quale rappresentazione grafica mette il evidenza l’importanza relativa fra le modalità. Variabile statistica X: Regione di provenienza 𝑥𝑖 𝑓𝑖 𝑓𝑖 ⁄𝑁 Friuli 5 5⁄16 =0.3125 Lombardia 5 5⁄16 =0.3125 Piemonte 2 2⁄16 = 0.125 Veneto 4 4⁄16 = 0.25 16 1 Variabile statistica Y: titolo di studio del/la capofamiglia 𝑦𝑖 𝑓𝑖 𝑓𝑖 ⁄𝑁 Nessuno 1 1⁄16 =0.0625 Elementari 3 3⁄16 =0.1875 Medie 3 3⁄16 =0.1875 Diploma 6 6⁄16 =0.375 Laurea 2 2⁄16 =0.125 Post -laurea 1 1⁄16 =0.0625 16 1 Variabile statistica Z: numero di immobili di proprietà 𝑧𝑖 𝑓𝑖 𝑓𝑖 ⁄𝑁 0 7 7⁄16 =0.4375 1 5 5⁄16 =0.3125 2 3 3⁄16 = 0.1875 3 1 1⁄16 = 0.0625 16 1 La rappresentazione grafica che mette in evidenza l’importanza relativa fra le modalità è il grafico a torta. Esercizio 2. Vero o falso? a) La variabile statistica è l’insieme delle modalità osservate con le corrispondenti frequenze. b) Per i fenomeni categoriali non è possibile la costruzione delle frequenze relative 23 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 c) Le frequenze assolute sono numeri interi la cui somma riproduce la numerosità della popolazione d) Le frequenze relative sono sempre comprese tra 0 e 1 e la loro somma è unitaria. e) Per effettuare confronti sono sempre necessarie le frequenze relative (o percentuali) f) Un grafico a barre e un istogramma sono la stessa cosa g) Per rappresentare graficamente un fenomeno quantitativo continuo (rilevato in intervalli di diversa ampiezza) si devono utilizzare le densità e non le frequenze. h) Le frequenze cumulate sono calcolabili per qualunque fenomeno a)V b) F c)V d)V e) F f) F g)V h) F Esercizio 3 1. La somma delle frequenze relative è: Dipende dal tipo di fenomeno qualitativo o quantitativo La numerosità della popolazione 1 100 2. Il grafico più corretto per rappresentare la distribuzione di frequenze di un fenomeno quantitativo continuo è: Un diagramma a bastoncini con le modalità sulle ascisse e le frequenze sulle ordinate Un istogramma con gli intervalli sulle ascisse e le densità sulle ordinate Un istogramma con gli intervalli sulle ascisse e le frequenze sulle ordinate. Un diagramma a torta 3. La definizione di frequenza relativa è: Il rapporto tra la frequenza assoluta e la numerosità della popolazione Il rapporto tra due frequenze assolute consecutive La somma delle frequenze assolute associate alle modalità più piccole. 4. La definizione di frequenze cumulate assolute è La somma di due frequenze assolute consecutive 24 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La somma delle frequenze assolute associate alle modalità inferiori nell’ordinamento La somma delle frequenze assolute associate alle modalità superiori nell’ordinamento 1. La somma delle frequenze relative è: 1 2. Il grafico più corretto per rappresentare la distribuzione di frequenze di un fenomeno quantitativo continuo è: Un istogramma con gli intervalli sulle ascisse e le densità sulle ordinate 3. La definizione di frequenza relativa è: Il rapporto tra la frequenza assoluta e la numerosità della popolazione 4. La definizione di frequenze cumulate assolute è La somma delle frequenze assolute associate alle modalità inferiori nell’ordinamento Esercizio 4 Si consideri la variabile “dimissione di pazienti in un ospedale” e supponiamo di avere la seguente tabella: Possibilità di dimissione per i pazienti di un ospedale Dimissione Frequenza Impossibile 871 Possibile 339 Prossima 257 TOTALE 1467 Si identifichi il tipo di variabile e si calcoli la frequenza relativa, la frequenza cumulata e la frequenza relativa cumulata. La variabile “dimissione” è una variabile qualitativa e le sue categorie possono essere ordinate. Si tratta quindi di una variabile qualitativa ordinale. La frequenza relativa di ogni classe si ottiene facendo il rapporto tra la frequenza assoluta della classe e il totale delle frequenze. Così per la classe “impossibile” la frequenza relativa è 871⁄1467 = 0.594 Poiché le categorie di questa classe possono essere ordinate possiamo considerare le frequenze cumulate. La frequenza cumulata per un valore di una variabile è il numero di individui il cui valore è minore o uguale a quello preso in considerazione. Quindi, se ordiniamo in maniera crescente la dismissione come “impossibile”, “possibile”, “prossima”, le frequenze cumulate sono rispettivamente 871, 1210 (=871+339) e 25 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 1467 (1210+257). Analogamente a quanto visto prima, la frequenza relativa cumulata per un dato valore è la proporzione di individui nel campione il cui valore è minore o uguale a quello preso in considerazione. Nell’esempio considerato tali valori sono 0.59 0.82 (0.59+0.23) e 1.00. Si ha quindi la seguente tabella. Dimissione Frequenza Frequenza Frequenza Frequenza relativa Relativa cumulata cumulata Impossibile 871 0.59 871 0.59 Possibile 339 0.23 1210 0.82 Prossima 257 0.18 1467 1.00 TOTALE 1467 1.00 1467 1.00 Da questa tabella possiamo dedurre che la proporzione di pazienti non in procinto di essere dimessi, cioè la cui dimissione non è prossima, è 0.82 cioè 82%. Esercizio 5 La tabella seguente illustra le cause di morte per infortunio di 100 bambini di età compresa tra 5 e 9 anni. I dati sono nominali: 1 rappresenta incidente stradale, 2 annegamento, 3 incendio in ambiente domestico, 4 omicidio 5 altre cause. Con questi dati che cosa possiamo concludere? 1 2 4 5 2 1 1 3 1 5 5 1 1 1 3 2 1 3 1 1 3 1 3 1 1 5 2 1 2 1 1 2 4 1 3 1 5 5 3 1 2 1 4 1 1 5 1 2 1 1 2 5 15 3 1 1 2 1 1 2 1 5 1 5 1 1 1 1 3 4 1 1 1 1 2 1 1 2 3 5 2 3 5 1 3 4 4 5 4 1 5 1 5 5 1 1 5 1 1 5 I dati grezzi non ci dicono nulla sulle cause di morte. Per arrivare ad una qualche conclusione dobbiamo costruire una distribuzione di frequenza. Per i dati nominali ed ordinali, una distribuzione di frequenza è una tabella formata da una serie di classi/categorie con le conte numeriche che corrispondono a ciascuna di esse. Per costruire una distribuzione di frequenza occorre elencare le diverse cause di morte e poi contare il numero di bambini deceduti per ciascuna causa. Si ottiene la tabella seguente: 26 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Causa Numero di decessi Incidente stradale 48 Annegamento 14 Incendio Domestico 12 Omicidio 7 Altro 19 TOTALE 100 Usando la tabella è possibile osservare che 48 dei 100 decessi per infortunio è per incidenti stradali, 14 per annegamento, 12 per incendio in ambiente domestico, 7 per omicidio e 19 per altre cause. Oltre alla tabella possiamo utilizzare anche un grafico per visualizzare questa serie di dati. In questo caso utilizzeremo un diagramma a barre posizionando lungo l’asse orizzontale le classi in cui rientrano le osservazioni. Le barre verticali rappresentano le frequenze di osservazioni in ciascuna classe. Il grafico evidenzia che un’ elevata proporzione di decessi infantili è il risultato di incidenti stradali. Si osservi che sia la tabella che il diagramma a barre forniscono maggiori informazioni sulle cause di morte per infortunio di 100 bambini rispetto ad un elenco di 100 osservazioni. Altro Omicidio Incendio domestico Annegamento Incidente stradale 0 10 20 30 40 50 60 Esercizio 6 Nel costruire una tabella, quando può essere utile utilizzare frequenze relative anziché assolute? Quando vogliamo confrontare serie di dati con un numero diverso di osservazioni non è corretto confrontare le frequenze assolute, ma bisogna normalizzarle al totale delle osservazioni, ossia considerare le frequenze relative. Esercizio 7 27 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Quali grafici possono essere utilizzati per illustrare osservazioni nominali o ordinali? Quali sono adatte per osservazioni discrete o continue? Il diagramma a barre e l’ aerogramma sono grafici utilizzati per distribuzioni di frequenza per dati nominali o ordinali; mentre l’ istogramma e il diagramma cartesiano sono utili per rappresentare distribuzioni di frequenze per dati quantitativi rispettivamente continui e discreti. e. Esercizio 8 Che cosa sono i percentili di una serie di dati? Quanti sono? Sono quei valori del carattere osservato che dividono la distribuzione in 100 parti uguali. Sono 99 valori Esercizio 10 Si è visto che la parità -ovvero il numero di gravidanze precedentemente condotte a termine per un campione di donne che si prenotano per il parto ad un dato ospedale- è una variabile quantitativa discreta e si è visto anche le sue osservazioni in un dato ospedale sono le seguenti: Parità Frequenza 0 59 1 44 2 14 3 3 4 4 5 1 TOTALE 125 Si calcoli la frequenza relativa , la frequenza cumulativa e la frequenza relativa cumulativa. Tenendo presente la definizione di frequenza relativa, di frequenza cumulativa e di frequenza relativa cumulativa si ha la seguente tabella Parità 0 1 2 3 4 5 Frequenza Frequenza Frequenza Frequenza relativa Relativa% cumulativa Cumulativa % 59 47.2 59 47.2 44 35.2 103 82.4 14 11.2 117 93.6 3 2.4 120 96.0 4 3.2 124 99.2 1 0.8 125 100.0 28 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 TOTALE 125 100.0 125 100.0 Esercizio 11 Su un collettivo di 10 ragazze impiegate in un gruppo editoriale sono stati rilevati i seguenti fenomeni: X: numero di scarpe possedute 8 8 5 7 7 8 8 6 7 6 Y: colore dei capelli ( B=biondo, R =rosso, C=castano) C B B R C B B B C C Z: titolo di studio (M=scuola media, S=scuole superiori, U=università) M S M U U S U S S S Per ciascun fenomeno costruire la variabile statistica e fornire una distribuzione a piacere tra frequenze relative e percentuali. Costruire ove sensato, la distribuzione di frequenze cumulate. Variabile statistica X: numero di scarpe. La variabile è quantitativa discreta: ha senso costruire le frequenze cumulate. 𝑥𝑖 𝑓𝑖 Frequenze relative Frequenze cumulate 1 5 1 1 = 0.1 10 6 2 0.2 3 7 3 0.3 6 8 4 0.4 10 10 1 Variabile statica Y: colore dei capelli. La variabile è qualitativa nominale: non ha senso costruire le frequenze cumulate. 𝑦𝑖 𝑓𝑖 Frequenze relative percentuali Biondo 5 50% Castano 4 40% Rosso 1 10% 10 100% Variabile statistica Z: titolo di studio La variabile è qualitativa ordinale: ha senso costruire le frequenze cumulate. 29 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑧𝑖 𝑓𝑖 Frequenze relative Frequenze cumulate medie 2 0.20 2 superiori 5 0.5 7 università 3 0.3 10 10 1 Valori medi Introduzione Le tabelle e la rappresentazione grafica di un fenomeno costituiscono un notevole strumento di illustrazione e di divulgazione ma non di sintesi dell’informazione. Praticamente si ha l’esigenza di stabilire metodiche utili a sintetizzare le informazioni contenute nei dati sperimentali anche se tale sintesi comporta naturalmente una perdita di informazione. I valori medi operano delle sintesi che facilitano l’interpretazione dei fenomeni che altrimenti si renderebbe difficoltosa se non impossibile. Infatti si parte da una massa di dati, difficilmente interpretabile, e si perviene ad un solo dato di facile intuizione e comprensione. Si distinguono due tipi di valori medi: medie che si ottengono da concorso di tutti i termini della distribuzione (medie analitiche) e medie che si ottengono da un solo termine scelto in base ad una caratteristica (medie di posizione). Alle medie analitiche appartengono: la media aritmetica, la media geometrica e la media armonica. Alle medie di posizione appartengono: la mediana o valore mediano, la moda o il valore modale e i quantili. La scelta dell’una o dell’altra di queste medie dipende dalle caratteristiche della distribuzione e dall’interesse del ricercatore. Media aritmetica Se 𝑥1 , 𝑥2 , 𝑥3 , … . . , 𝑥𝑛 sono gli 𝑁 valori della variabile 𝑥, la media 𝑥̅ è definita dal rapporto tra l’ammontare totale del carattere e il numero delle unità in cui è stato rilevato, ossia 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛1 𝑥𝑖 𝑥̅ = = 𝑛 𝑛 Ad esempio se si ha 𝑥1 = 4, 𝑥2 = 7, 𝑥3 = 9, 𝑥4 = 10, 𝑥5 = 12, la media sarà 𝑥̅ = 4 + 7 + 9 + 10 + 12 42 = = 8.4 5 5 30 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La media può essere utilizzata come misura di sintesi per misurazioni discrete e continue. In genere comunque non è adatta per dati nominali o ordinali. Si ricordi che per questi tipi di dati i numeri sono semplici etichette; così se scegliamo di indicare i gruppi sanguigni 0, A, B, AB con i numeri 1,2,3,4, un gruppo sanguigno medio di 1.8 non ha alcun significato. Un’eccezione a questa regola si applica ai dicotomici ed i due possibili risultati sono rappresentati con 0 e 1. In questo caso la media delle osservazioni è uguale alla proporzione di 1 nella serie di dati. Esempio. Supponiamo di avere un gruppo di 13 persone con una data patologia e voler conoscere la proporzione di maschi. I valore 1 rappresenta il maschio, lo 0 la femmina. Supponiamo di avere la seguente tabella: Soggetto Sesso 1 0 2 1 3 1 4 0 5 0 6 1 7 1 8 1 9 0 10 1 11 1 12 1 12 0 Risulta 8 = 0.615 13 Pertanto il 61.5 dei soggetti nello studio, sono maschi 𝑥̅ = Media di dati raggruppati (Media ponderata) Prendiamo ora in considerazione una serie osservazioni, per esempio, i punteggi riportati a un test attitudinale da un gruppo di 10 soggetti. Punteggi: 4, 6, 8, 8, 7, 6, 7, 8, 8, 6 la media darà 𝑥̅ = 4+6+8+8+7+6+7+8+8+6 = 6.8 10 31 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Come si può osservare l’operazione è diventata più laboriosa della precedente e lo sarebbe ancora di più se si dovesse calcolare la media dei punteggi ottenuti per un numero molto più grande di soggetti. Ma osservando attentamente la distribuzione notiamo che alcuni soggetti hanno ottenuto lo stesso punteggio e quindi possono essere raggruppati e successivamente passare al calcolo della media aritmetica che in questo caso si chiama media aritmetica ponderata per distinguerla da quella precedente che viene definita media aritmetica semplice. Tenendo presente che il punteggio 6 ha frequenza 3, il punteggio 7 ha frequenza 2, ed il punteggio 8 ha frequenza 4, il calcolo può essere così semplificato 4+6∙3+7∙2+8∙4 = 6.8 10 In termini generali, se la variabile 𝑥 ha valori 𝑥1 , 𝑥2 ,…. 𝑥𝑘 con frequenza 𝑓1 , 𝑓2 ……. 𝑓𝑘 , rispettivamente, la media aritmetica ponderata è calcolabile mediante 𝑥̅ = 𝑥̅ = 𝑥1 ∙ 𝑓1 + 𝑥2 ∙ 𝑓2 + ⋯ . . 𝑥𝑘 ∙ 𝑓𝑘 𝑓1 + 𝑓2 + ⋯ . 𝑓𝑘 Pertanto, la media aritmetica ponderata di una distribuzione è data dal rapporto tra la somma dei prodotti delle modalità per la propria frequenza, diviso la somma delle frequenze. Indicato con 𝐹 la somma di tutte le frequenze, cioè 𝐹 = 𝑓1 + 𝑓2 + ⋯ +𝑓𝑘 La media ponderata è calcolabile con 𝑓1 𝑓2 𝑓𝑘 𝑥̅ = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑘 = 𝑥1 𝑓𝑟1 + 𝑥2 𝑓𝑟2 + ⋯ + 𝑥𝑘 𝑓𝑟𝑘 𝐹 𝐹 𝐹 𝑓𝑖 ove 𝑓𝑟𝑖 = è la frequenza relativa del generici i-esimo termine. 𝐹 In conclusione, per calcolare la media ponderata di una variabile 𝑥 con valori 𝑥1 , 𝑥2 ,…. 𝑥𝑘 e frequenza relativa 𝑓𝑟1 , 𝑓𝑟2 ……. 𝑓𝑟𝑘 , occorre fare la somma dei prodotti di ogni valore della variabile per la corrispondente frequenza relativa. La tecnica di raggruppare le misurazioni che hanno uguali valori prima di calcolarne la media offre un particolare vantaggio rispetto al metodo standard: essa può essere applicata a dati che sono stati rappresentati sotto forma di distribuzioni di frequenza. Per calcolare la media di una distribuzione già suddivisa per intervalli, si deve fare l’ipotesi che la variabile sia concentrata nel valore centrale dell’intervallo. Pertanto è necessario determinare i punti centrali delle classi come semisomma degli estremi dell’intervallo, sostituendo i valori trovati alle classi e procedendo come è stato fatto per le altre medie. Esempio: si calcoli la media dell’età di un gruppo di pazienti. 32 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Distribuzione per età di un gruppo di pazienti Anni (𝑥𝑖 ) 𝑓𝑖 Valore centrale 𝑥𝑖′ 𝑓𝑖 Risultato (𝑥𝑖′ ) 10 – 20 5 15 75 15× 5 20 – 30 7 25 175 25× 7 30 – 40 5 35 175 35× 5 40 – 50 2 45 90 45× 2 50 – 60 3 55 165 55× 3 60 – 70 4 65 260 65× 4 Totale 26 940 In simboli: ∑𝑘1 𝑥𝑖′ 𝑓𝑖 𝑥̅ = 𝑘 ∑1 𝑓𝑖 Nel caso dell’esempio precedente si ha: 15 × 5 + 25 × 7 + 35 × 5 + 45 × 2 + 55 × 3 + 65 × 4 940 𝑥̅ = = = 36.15 26 26 Quindi la media ponderata è ottenuta pesando ciascun punto medio dell’intervallo per la frequenza delle osservazioni all’interno dell’intervallo. Alcune proprietà della media aritmetica. 1. La somma algebrica degli scarti di tutti i termini della media è nulla. (Si definisce scarto o scostamento la differenza tra ogni termine 𝑥𝑖 della distribuzione e un qualsiasi valore costante). Questa proprietà può essere verificata in termini generali. Infatti si ha 𝑛 ∑(𝑥𝑖 − 𝑥̅ ) = (𝑥1 − 𝑥̅ ) + (𝑥2 − 𝑥̅ ) + ⋯ + (𝑥𝑁 − 𝑥̅ ) 1 = (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) − 𝑛𝑥̅ (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) = (𝑥1 + 𝑥2 + ⋯ 𝑥𝑁 ) − 𝑛 =0 𝑛 Si abbia ad esempio una variabile che assume i seguenti valori 2, 3, 5, 10. La media aritmetica vale 5, 𝑥̅ = 5. La somma algebrica degli scarti di tali valori dal valor medio è: (2 − 5) + (3 − 5) + (5 − 5) + (10 − 5) = −3 − 2 + 5 = 0 33 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 2. La somma dei quadrati degli scarti dalla media aritmetica è un minimo rispetto alla somma dei quadrati degli scarti da un qualsiasi altro valore diverso dalla media 𝑥̅ . Infatti partendo dai dati dell’esempio precedente, la somma dei quadrati degli scarti dal valor medio risulta (2 − 5)2 + (3 − 5)2 + (5 − 5)2 + (10 − 5)2 = 38 mentre se prendiamo un valore qualsiasi ad esempio 6 si ha: (2 − 6)2 + (3 − 6)2 + (5 − 6)2 + (10 − 6)2 = 41 Analogamente se prendiamo il valore 3 si ha: (2 − 3)2 + (3 − 3)2 + (5 − 3)2 + (10 − 3)2 = 54 Abbiamo verificato questa proprietà per due numeri particolari ma è del tutto generale. Questa proprietà e molto importante perché mediante i quadrati degli scarti si definisce una nuova grandezza statistica: la varianza e quindi la media aritmetica rende minima la varianza. 3. La media aritmetica è associativa. Se una variabile statistica è divisa in 𝑘 gruppi di cui si conoscono le relative medie ̅̅̅, 𝑥1 ̅̅̅, 𝑥2 … . ̅̅̅ 𝑥𝑘 e le rispettive frequenze 𝑓1 , 𝑓2 , … . 𝑓𝑘 , si può ottenere la media della variabile statistica facendo la media ponderata delle medie dei gruppi ∑𝑘1 𝑥̅𝑖 𝑓𝑖 𝑥̅ = 𝑘 ∑1 𝑓𝑖 Ad esempio se l’età media di un gruppo di 15 donne ricoverate in clinica medica è di 45 anni e quella di 25 maschi ricoverati nella stessa clinica è di 55 anni, l’età media di tutti i ricoverati del reparto è 45 × 15 + 55 × 25 𝑥̅ = = 51.25 40 Esistono in statistica altri tipi di medie: la media geometrica e la media armonica La media geometrica Se 𝑥1 , 𝑥2 , 𝑥3 , … . . , 𝑥𝑁 sono gli 𝑛 valori di una variabile, la media geometrica 𝑀𝑔 di tali valori è definita dalla radice n-esima del prodotto degli N termini della distribuzione, ossia in termini matematici: 34 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑛 𝑛 𝑛 𝑀𝑔 = √𝑥1 ∙ 𝑥2 … . 𝑥𝑛 = √∏ 𝑥𝑖 1 ove il simbolo∏𝑛1 𝑥𝑖 indica il prodotto dei termini 𝑥𝑖 quando l’indice 𝑖 varia da 1 a n. Per le proprietà dei logaritmi diventa 𝑛 1 log 𝑀𝑔 = ∑ log 𝑥𝑖 𝑛 1 cioè il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini. Il calcolo della media geometrica si può fare anche con questa formula. La media geometrica trova applicazione in quei fenomeni che seguono una legge di tipo esponenziale, ovvero le cui manifestazioni si verificano in progressione geometrica. Ad esempio quando si vuol conoscere il tasso di incremento di una popolazione di batteri la media adeguata è quella geometrica. Esempio Il numero di batteri presenti in una popolazione costituita inizialmente da 100 elementi, viene rilevato in periodi successivi: al primo conteggio risultano 112 elementi, al secondo 196 e al terzo 369. Si trovi il tasso d’incremento medio della popolazione. Gli incrementi osservati nei tre periodi sono: 112 196 369 = 1.12 = 1.75 = 1.88 100 112 196 Abbiamo quindi questi tre numeri. Per trovare il tasso d’incremento medio, poiché il fenomeno segue una legge di tipo esponenziale, dobbiamo fare una media geometrica ossia calcolare 3 𝑀𝑔 = √1.12 × 1.75 × 1.88 Svolgendo tale calcolo si ottiene 𝑀𝑔 = 1.54456 La popolazione ha subito un tasso di incremento medio del 54% ossia la popolazione ha subito in ogni intervallo un incremento del 54%. Verifica: 100 × (1.54456)3 = 368 Se avessimo calcolato la media aritmetica dei tre numeri precedenti avremmo trovato 1.12 + 1.75 + 1.88 = 1.58333 3 ed è un risultato non corretto. Infatti con questo valore medio il numero di elementi attesi alla fine dei tre periodi sarebbe stato 100 × (1.58333)3 = 397 La media armonica 35 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La media armonica 𝑀𝑎 è il reciproco della media aritmetica dei reciproci dei singoli termini. Se 𝑥1 , 𝑥2 , 𝑥3 , … . . , 𝑥𝑛 sono gli 𝑛 valori di una variabile, la media armonica si calcola mediante 𝑀𝑎 = 1 1 1 1 + + ⋯.+ 𝑥1 𝑥2 𝑥𝑛 𝑛 = 𝑛 ∑𝑛1 1 𝑥𝑖 La media armonica trova applicazione in medicina relativamente a quei fenomeni in cui occorre ad esempio tenere conto dei tempi di osservazione. Esempio Una proteina viene studiata mediante elettroforesi. La proteina viene fatta correre su gel in un campo elettrico per 20 mm e viene misurato il tempo necessario a percorrere questa distanza in 5 prove successive. Si vuole conoscere la velocità di migrazione media. Si ha Prova Tempo(s) Velocità(mm/s) 1 40 20/40=0.50 2 60 20/60=0.33 3 30 20/30=0.66 4 50 20/50=0.40 5 70 20/70=0.29 Totale 250 2.186 Abbiamo 5 numeri per trovare il valore medio non dobbiamo fare la media aritmetica; ossia la velocità media non è la media delle velocità cioè non è 0.5 + 0.33 + 0.66 + 0.40 + 0.29 = 0.4372𝑚𝑚/𝑠 5 Infatti se la velocità media fosse questa, il totale del cammino percorso nelle 5 prove risulterebbe 0.4372 × 250 = 109.3 𝑚𝑚 mentre il cammino reale nelle 5 prove è 20 × 5 = 100𝑚𝑚. Per calcolare la media corretta dei 5 numeri dati bisogna tenere presente che si tratta di una velocità e quindi la velocità media si ottiene dividendo la distanza percorsa complessivamente per il tempo impiegato a percorrere tale distanza. La distanza percorsa è 5 volte la stessa distanza 𝑑 (che nel caso in esame vale 20 mm), ed i tempo totale è la somma dei 5 tempi ossia 𝑡1 + 𝑡2 + ⋯ + 𝑡5 . 36 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 5𝑑 5 =𝑡 𝑡 𝑡 𝑡 𝑡 𝑡1 + 𝑡2 + 𝑡3 + 𝑡4 + 𝑡5 1 + 2+ 3+ 4+ 5 𝑑 𝑑 𝑑 𝑑 𝑑 5 = = 𝑀𝑎 1 1 1 1 1 + + + + 𝑣1 𝑣2 𝑣3 𝑣4 𝑣5 Quindi il valore medio dei 5 numeri è la media armonica ossia: 5 𝑀𝑎 = = 0.40 1 1 1 1 + + + 05 0.33 0.4 0.29 e infatti risulta0.4 × 0.250 = 100𝑚𝑚 𝑉𝑒𝑙𝑜𝑐𝑖𝑡à 𝑚𝑒𝑑𝑖𝑎 = In conclusione quando si ha una serie di valori 𝑥1 , 𝑥2 , 𝑥3 , … . . , 𝑥𝑁 di una variabile, prima di decidere quale media fare bisogna tenere presente la natura della variabile. Tra le tre medie appena esaminate esiste la relazione 𝑀𝑎 ≤ 𝑀𝑔 ≤ 𝑥̅ Il segno di uguale vale quando tutti i valori della variabile statistica sono uguali. Esaminiamo ora le medie di posizione: la mediana, la moda e i quantili. Mediana La mediana è un valore di posizione utilizzabile sia per le variabili quantitative che per quelle qualitative ordinabili. La mediana 𝑀𝑒 è un valore medio di posizione ed è il termine che, in una distribuzione ordinata in ordine crescente o decrescente, occupa il posto centrale ossia è quel valore/modalità che bipartisce la distribuzione in modo tale da lasciare al di sotto lo stesso numero di termini che lascia al di sopra. Se n è dispari, la mediana è esattamente il termine il posto centrale 𝑀𝑒 = 𝑥𝑛+1 2 Esempio. Data la distribuzione 6, 2, 5, 8, 9, si procede a ordinare la distribuzione in modo ad esempio crescente così da ottenere le seguente graduatoria 2, 5, 6, 8, 9. Essendo 𝑁 = 5 dispari, applichiamo la formula precedente: 𝑀𝑒 = 𝑥5+1 = 𝑥3 = 6 2 Questo valore è posto proprio nella parte centrale avendo sia a destra che a sinistra un ugual numero di valori. Se invece il numero dei termini è pari, la mediana è data per convenzione dalla media aritmetica dei due termini centrali: 𝑥𝑛 𝑥𝑛+1 . In questo caso si ha 2 2 37 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑀𝑒 = 𝑥𝑛 + 𝑥𝑛+1 2 2 2 Esempio. Data la distribuzione 5, 6, 2, 10, 8, 12 si procede a ordinare i valori in ordine supponiamo decrescente 12, 10, 8, 6, 5, 2. Essendo 𝑛 = 6 pari, applicando la formula precedente si ha 𝑥3 + 𝑥4 8 + 6 𝑀𝑒 = = =7 2 2 Mediana per dati raccolti in classi Se si ha una distribuzione con modalità continue divisa in classi, per calcolare la mediana si individua innanzi tutto la classe mediana con l’aiuto delle frequenze cumulate e poi si applica l’espressione seguente 𝑛 𝑛 𝑥𝐿 − 𝑥𝑙 𝑐 𝑐 𝑀𝑒 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) /𝜑𝑖 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) 2 2 𝑓𝑖 ove 𝑥𝑙 è l’estremo inferiore della classe che contiene la mediana: 𝑛⁄2 è la posizione centrale della distribuzione 𝑐 𝐹𝑖−1 è il numero che esprime le frequenze cumulate nella classe antecedente quella che contiene la mediana 𝑓 𝜑𝑖 = 𝑖 è la densità di frequenza della classe in cui è contenuta la mediana. 𝑥𝐿 −𝑥𝑙 𝑛 𝑐 Per comprendere questa espressione si tenga presente che ( − 𝐹𝑖−1 )rappresenta 2 l’area della porzione di rettangolo di estremi 𝑥𝑙 ed 𝑀𝑒 (diciamo di un sotto-rettangolo di estremi 𝑥𝑙 ; 𝑥𝐿 ) perché 𝑛 è l’area sotto l’istogramma e quindi 𝑛⁄2 è l’area della 𝑐 parte di istogramma che si trova a sinistra della mediana mentre 𝐹𝑖−1 è l’area della parte di istogramma che si trova a sinistra dell’intervallo in cui la mediana. 𝜑𝑖 = 𝑓𝑖 𝑛 𝑐 rappresenta l’altezza del rettangolo di base 𝑀𝑒 − 𝑥𝑙 e quindi ( − 𝐹𝑖−1 ) /𝜑𝑖 è il 𝑥𝐿 −𝑥𝑙 2 rapporto tra l’area di un rettangolo e la sua altezza ossia è la base Esempio. Il perimetro toracico di un gruppo di individui di sesso maschile ha le misure espresse nella tabella sottostante. Perimetro toracico frequenza Frequenze cumulate 80 - 86 2 2 86 - 92 10 12 92- 98 20 32 98 – 104 4 36 104 - 110 3 39 Totale 39 38 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La posizione centrale è 𝑛 39 = = 19.5 2 2 e di conseguenza le frequenze cumulate in precedenza sono 12 ossia 𝑐 𝐹𝑖−1 = 12 La posizione centrale cade nella frequenza cumulata 32 corrispondente alla classe 92 – 98. Quindi 𝑥𝑙 = 92 Infine l’ampiezza della classe che contiene la mediana è 6 e le frequenze in essa contenute sono 20 𝑥𝐿 − 𝑥𝑙 = 6 𝑓𝑖 = 20 La mediana risulta quindi: 𝑀𝑒 = 92 + (19.5 − 12) 6 = 92 + 2.25 = 94.25 20 Alcune proprietà della mediana. a) la mediana, al contrario della media, non è sensibile ai valori estremi; b) oltre ai dati quantitativi discreti e continui, può essere usata anche per dati qualitativi ordinali. c) La mediana rende minima la somma dei valori assoluti degli scarti dei valori della v.s. dalla mediana:∑|𝑥𝑖 − 𝑀𝑒 | ≤ ∑|𝑥𝑖 − 𝑐| qualunque sia c Relazioni e confronto tra media e mediana. La mediana e la media misurano differenti aspetti della posizione di una distribuzione di frequenze. La mediana è pari all’osservazione centrale di una distribuzione, mentre la media è il “baricentro”. Possiamo pensare la media come il punto in cui la distribuzione sarebbe in equilibrio se le osservazioni avessero un peso. La figura successiva illustra il confronto tra la media e la mediana. 39 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La relazione tra media e mediana può fornire utili informazioni sulla forma della distribuzione di frequenza. Se 𝑚𝑒𝑑𝑖𝑎 = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 la distribuzione è simmetrica. Le osservazioni equidistanti dalla media (che in questo caso coincide con la mediana) presentano la stessa frequenza relativa. Quando non si ha simmetria, cioè la distribuzione è asimmetrica, la media non indica più dove è localizzata la maggior parte delle osservazioni. In caso di dati asimmetrici la mediana è spesso la migliore misura di tendenza centrale. Se 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 < 𝑚𝑒𝑑𝑖𝑎 (ossia la media è a destra della mediana) la distribuzione di frequenza è asimmetrica (asimmetria positiva) e presenta una coda più lunga a destra rispetto al massimo centrale. Si dice che la distribuzione è asimmetrica a destra. Quindi in una distribuzione di frequenze asimmetrica a destra, la media si trova a destra della mediana Se 𝑚𝑒𝑑𝑖𝑎 < 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 la distribuzione di frequenza è asimmetrica e, in questo caso, si parla di asimmetria negativa. La distribuzione presenta una coda più lunga a sinistra rispetto al massimo centrale. Quindi in una distribuzione di frequenze asimmetrica a sinistra, la media si trova a sinistra della mediana. La figura precedente mostra una distribuzione di frequenze asimmetrica a sinistra. Moda. 40 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La moda è un altro valore medio di posizione. La moda di una distribuzione è la modalità della variabile che presenta la massima frequenza. Può essere utilizzata come misura di sintesi per tutti i tipi di dati, sia quantitativi che qualitativi. Se i dati sono qualitativi, la modalità con cui si presenta la variabile è formata da classi/categorie e quindi la moda è la classe che si presenta con maggior frequenza. Se i dati sono quantitativi, la moda è il valore della variabile che si presenta con maggior frequenza. Una distribuzione può avere più di una moda. In tal caso anziché di una distribuzione unimodale, si parlerà di distribuzione bimodale, trimodale etc. Esempio1: i valori della variabile quantitativa siano 58,55, 67,55, 59, 53. La moda della distribuzione è il valore 55 Esempio 2: i valori della variabile siano 57, 58, 59, 62, 63. In questo caso la moda non esiste Esempio 3: i valori della variabile siano 56, 55, 58, 58, 63, 68, 67, 68 In questa distribuzione ci sono due valori che si presentano con la frequenza maggiore 58 e 68 e quindi la distribuzione è bimodale. Quantili. I quantili sono quei valori della variabile statistica che dividono la distribuzione di frequenze in q parti, ognuno delle quali contiene la q –esima parte della distribuzione complessiva. Possiamo avere i quartili, i decili e i percentili. I quartili sono quei 3 valori che dividono la distribuzione di frequenza in 4 parti . Il primo quartile divide la distribuzione in due parti: la prima comprende il 25% delle frequenze totali, la seconda il 75%. Il secondo quartile è la mediana. Il terzo quartile divide la distribuzione di frequenza in 2 parti: la prima comprende il 75% delle frequenze totali, la secondo il 25%. Stesso discorso per i decili e i percentili. Sono valori della variabile statistica che dividono la distribuzione di frequenza in 10 o in 100 parti e sono rispettivamente 9 o 99. Naturalmente il quinto decile e il 50-esimo percentile coincidono con la mediana. Per calcolare, ad esempio, i percentili, bisogna disporre le misurazioni in ordine crescente. Se il numero delle misurazioni è 𝑛, il 25-esimo o il 75- esimo percentile si ottengono calcolando dapprima 𝑛 × 25 𝑛 × 75 100 100 Tuttavia questi calcoli sono approssimativi, non sono esatti, perché si ottengono numeri reali e quindi per diminuire questa approssimazione si fa la media fra l’osservazione corrispondente all’intero e l’osservazione corrispondente all’intero successivo. Ad esempio supponiamo di avere le seguenti misurazioni 41 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 2.30 2.15 3.50 2.60 2.75 2.82 4.05 2.25 2.68 3.0 4.02 2.85 3.38 che, messe in ordine crescente, diventano: 2.15 2.25 2.30 2.60 2.68 2.75 2.82 2.85 3.0 3.38 3.50 4.02 4.05 Essendo n=13 si ha 13 × 25 = 3.25 100 che non è intero. L’intero successivo è 4. Quindi il 25 esimo percentile è la media tra la terza (2.30) e la quarta misurazione (2.60) ossia 2.45. Analogamente per il 75-esimo percentile si ha 13 × 75 = 9.75 100 che non è intero e quindi il 75-esimo percentile è la media tra la nona e la decima misurazione ossia 3.19. Ricapitolando, per i caratteri da noi esaminati possiamo usare i seguenti indici di posizione: Carattere Qualitat. nominale Qualitat. ordinale Quantitativo media NO NO SI mediana NO SI SI moda SI SI SI quartili NO SI SI Esercizi Esercizio 1 Calcolare media mediana e moda della variabile statistica: 1 3 11 𝑥𝑖 0 𝑓𝑟 0.10 0.35 0.30 0.25 ove 𝑓𝑟 indica la frequenza relativa. Si ha 𝑥̅ = 0 × 0.10 + 1 × 0.35 + 3 × 0.30 + 11 × 0.25 = 4 La mediana risulta uguale a 3, e la moda è il valore della variabile che ha frequenza maggiore ossia 1. Esercizio 2 42 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Su 50 studenti iscritti al primo anno di una Università italiana nel 2014 sono stati rilevati i seguenti dati. X: provenienza territoriale (S=sud, C= centro, N=nord) Provenienza territoriale N. Iscritti N 15 C 17 S 18 Z: voto di maturità Voto di maturità N. Iscritti 60-70 16 70-80 11 80-85 9 85-90 7 90-95 5 95-100 2 W: genere (0=maschio, 1=femmina) Genere N. iscritti 0 23 1 27 Sintetizzare le variabili statistiche mediante la moda e quando è possibile , la mediana. Confrontare e commentare i risultati. Variabile statistica X: provenienza territoriale. 𝑥𝑖 𝑓𝑖 Nord 17 Centro 15 Sud 18 50 𝑓𝑟 0.34 0.30 0.36 1 La modalità più frequente è Sud che raccoglie il 36% della popolazione: tale modalità non è molto rappresentativa dell’intera popolazione. La variabile è di tipo qualitativo nominale non ha senso calcolare le frequenze cumulate e di conseguenza la mediana. 43 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Variabile statistica Y: voto all’esame di maturità. 𝑦𝑙 − 𝑦𝐿 𝑓𝑖 𝐹𝑖𝑐 𝑦𝐿 − 𝑦𝑙 60 − 70 16 16 70 − 80 11 27 80 − 85 9 36 85 − 90 7 43 90 − 95 5 48 95 − 100 2 50 50 10 10 5 5 5 5 𝜑𝑖 = 𝑓𝑖 𝑦𝐿 − 𝑦𝑙 1.6 1.1 1.8 1.4 1 0.4 La variabile si presenta raggruppata in intervalli di ampiezze differenti per cui è necessario utilizzare le densità di frequenza per individuare la classe modale. Dalla tabella la classe modale risulta essere (80-85)e ad essa possiamo associare il valore centrale dell’intervallo e dire che la moda è 𝑦𝑖∗ = 82.5. La moda anche in questo caso non è molto rappresentativa dell’intera distribuzione. Essendo la variabile di tipo quantitativo continuo è possibile calcolare la mediana. Dopo aver individuato l’intervallo (70-80) in cui ricade la mediana, utilizziamo l’espressione: 𝑛 𝑛 𝑥𝐿 − 𝑥𝑙 𝑐 𝑐 𝑀𝑒 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) /𝜑𝑖 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) 2 2 𝑓𝑖 Sostituendo i valori numerici si ha: (25 − 16) 𝑀𝑒 = 70 + = 78.18 1.1 E’ possibile quindi affermare che almeno il 50% della popolazione assume modalità minore o uguale a 78.18. La mediana ci dà questa informazione sul fenomeno statistico X: metà della popolazione ha manifestato un voto non inferiore a 78.18, un’altra metà un voto non inferiore a 78.18. Variabile statistica W: genere Genere 𝑤𝑖 𝑓𝑖 𝑓𝑟 0 maschio 23 0.46 1 femmina 27 0.54 50 La modalità modale in questo caso è Femmina e non è rappresentativa di tutta la distribuzione in quanto la restante modalità maschio non ha una frequenza molto dissimile. La variabile W è qualitativa nominale a due modalità (dicotomica) anche 44 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 se è presentata con modalità numeriche, non è possibile attribuirle una mediana in quanto non esiste un ordinamento fra la modalità maschio e femmina. Esercizio 3 Il responsabile delle risorse umane di un’azienda deve analizzare 21 candidature per il posto di assistente del direttore marketing. Dispone delle seguenti tabelle in cui ha registrato alcuni dati fondamentali dei candidati. W: titolo di studio (D=Diploma, LT=Laurea Triennale, LM=Laurea Magistrale) Titolo di studio N. candidati D 5 LT 10 LM 6 X: età in anni compiuti Età N. candidati 23 2 24 1 25 3 26 4 27 2 28 3 29 1 30 5 Y: voto di laurea in 110-esimi Voto di laurea N. candidati 66-90 4 90-95 8 95-100 5 100-105 2 105-110 2 Z: principale lingua straniera (F=francese, I= inglese, S=spagnolo, T=tedesco) Lingua straniera N. candidati F 3 I 9 S 4 T 5 45 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Calcolarne la moda, la media e la mediana, quando è possibile. Variabile statistica W: titolo di studio 𝑤𝑖 Diploma Laurea Triennale Laurea Magistrale 𝑓𝑖 5 10 6 21 𝑓𝑟 0.24 0.47 0.29 1 𝐹𝑖𝑐 5 15 21 Si ha Titolo di studio Moda Laurea Triennale Mediana Laurea triennale Si può affermare che la modalità Laurea triennale è la più frequente e che almeno il 50% della popolazione possiede titoli di studio inferiori o pari ad esso. Per quanto riguarda la media non è possibile effettuare il calcolo perché W è una variabile qualitativa. Variabile statistica X: Età in anni compiuti 𝑥𝑖 23 24 25 26 27 28 29 30 𝑓𝑖 2 1 3 4 2 3 1 5 21 𝑓𝑟 0.10 0.05 0.14 0.19 0.10 0.14 0.05 0.23 𝐹𝑖𝑐 2 3 6 10 12 15 16 21 Si ha: Età Moda 30 Media 27 Mediana 27 46 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La modalità più frequente di X è 30, ma essa non è molto rappresentativa in quanto raccoglie solo il 23% della popolazione. IN media o candidati hanno 27 anni e almeno il 50% di essi al massimo uguaglia questa età. Variabile statistica Y: voto di laurea in 110-esimi. 𝑦𝑙 − 𝑦𝐿 𝑦𝑖∗ 𝑓𝑖 𝐹𝑖𝑐 𝑦𝐿 − 𝑦𝑙 66-90 78 90-95 92.5 95-100 97.5 100-105 102.5 105-110 107.5 4 8 5 2 2 21 4 12 17 19 21 21 24 5 5 5 5 𝑓𝑖 𝑦𝐿 − 𝑦𝑙 0.167 1.6 1 0.4 0.4 𝜑𝑖 = Per il calcolo della moda bisogna fare riferimento alla densità di frequenze: la classe con maggiore densità è (90-95) per cui la moda è pari alla modalità centrale 92.5. Calcolo mediana La classe in cui cade la mediana è ancora (90-95) per cui, utilizzando l’espressione 𝑛 𝑛 𝑥𝐿 − 𝑥𝑙 𝑐 𝑐 𝑀𝑒 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) /𝜑𝑖 = 𝑥𝑙 + ( − 𝐹𝑖−1 ) 2 2 𝑓𝑖 e sostituendo i valori numerici si ha: (10.5 − 4) 𝑀𝑒 = 90 + = 94.06 1.6 Calcolo media Poiché i dati sono raggruppati per classi il valore medio è 1 𝑦̅ = ∑ 𝑦𝑖∗ 𝑓𝑖 = ∑ 𝑦𝑖∗ 𝑓𝑟 = 78 × 0.19 + ⋯ + 107.5 × 0.10 = 94.08 𝑛 Poiché i valori ottenuti sono molto prossimi, possiamo affermare che la distribuzione non presente grandi asimmetrie, ovvero non privilegia né le modalità più basse ne quelle più alte. Variabile statistica Z: principale lingua straniera 𝑧𝑖 𝑓𝑖 Francese 3 Inglese 9 Spagnolo 4 Tedesco 5 21 𝑓𝑟 0.14 0.43 0.19 0.24 1 47 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Tutto ciò che è possibile fare su questi dati è trovare la modalità modale, che in questo caso è inglese e notare che raggruppa il 43% della popolazione, che non è un valore molto rappresentativo. Essendo una variabile nominale non è possibile calcolarne la mediana o la media. Esercizio 4 Vero o falso? a) Sintetizzare una variabile statistica con un valore medio non produce alcuna perdita d’informazione b) Qualunque variabile statistica può essere sintetizzata mediante la moda c) La mediana ha significato solo per fenomeni almeno ordinali d) E’ sempre indifferente usare moda mediana e media perché forniscono la stessa informazione sintetica del fenomeno e) Se un fenomeno categoriale è codificato in valori numerici (per esempio 0=maschio, 1= femmina) allora è sintetizzabile con la mediana. f) La media è sempre il miglior valore e quindi è preferibile utilizzarlo in ogni occasione. a) F b) V c) V d) F e) F f) F Esercizio 5 Scegliere la risposta più corretta. 1. La moda di una variabile statistica è: La modalità più elevata più elevata o l’intervallo più ampio nel caso di fenomeni continui. Il valore più vicino alla media aritmetica La frequenza o la percentuale più elevata La modalità a cui è associata la frequenza più elevata o la densità più elevata nel caso di intervalli. 2. La mediana di una variabile statistica è La modalità tale che il 50% delle osservazioni risulta minore di tale modalità e l’altro 50% risulta maggiore. L’osservazione che occupa la posizione centrale della tabella dei dati grezzi La modalità che nell’ordinamento si trova tra la media e la moda. La frequenza cumulata relativa pari a 0.5. 3. Per calcolare la media di un fenomeno rilevato in intervalli è necessario 1 Sostituire le frequenze con le densità 𝑥̅ = ∑ 𝑥𝑖 𝜑𝑖 𝑛 Sostituire le modalità con il valore centrale degli intervalli 𝑥̅ = ∑ 𝑥𝑖∗ 𝑓𝑖 48 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 1 Utilizzare l’espressione 𝑥̅ = ∑ 𝑥𝑖 𝑓𝑟 𝑛 4. L’unità di misura in cui è espressa la media è Uguale a quella del fenomeno oggetto di studio Diversa da quella del fenomeno oggetto di studio Quella della mediana elevata al quadrato La media non ha unità di misura. Le risposte corrette sono 1 La moda di una variabile statistica è: La modalità a cui è associata la frequenza più elevata o la densità più elevata nel caso di intervalli. 2 La mediana di una variabile statistica è La modalità tale che il 50% delle osservazioni risulta minore di tale modalità e l’altro 50% risulta maggiore. 3 Per calcolare la media di un fenomeno rilevato in intervalli è necessario Sostituire le modalità con il valore centrale degli intervalli 𝑥̅ = ∑ 𝑥𝑖∗ 𝑓𝑖 4 L’unità di misura in cui è espressa la media è Uguale a quella del fenomeno oggetto di studio 49 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Variabilità Esamineremo solo fenomeni quantitativi, sia discreti che continui. Si è visto che le medie servono per sintetizzare in un solo numero la distribuzione di una data variabile statistica. Tuttavia nell’analisi di una qualsiasi caratteristica relativa ad un fenomeno, i valori medi forniscono una sintesi delle osservazioni, ma non consentono di evidenziare e di valutare eventuali differenze che esistono tra i valori assunti dalle diverse modalità. Le distribuzioni dei dati possono presentare lo stesso valore medio ma essere disperse in intervalli di valori molto diversi. Ad esempio tre individui possono avere i seguenti valori di glicemia. 𝑥1 : 96 98 105 97 95 𝑥2 : 86 100 108 99 98 𝑥3 : 86 125 95 76 109 In tutti e tre i soggetti la glicemia media è 98.2, ma i valori sono dispersi su intervalli diversi. Il valore medio quindi non fornisce alcuna indicazione sulle variazioni dei dati e pertanto non è sufficiente a caratterizzare una distribuzione di frequenze. Come ulteriore esempio, si considerino le due diverse distribuzioni illustrate nella figura successiva. 50 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Hanno la stessa media, la stessa mediana, la stessa moda. Per sapere di più sulla distribuzione di frequenze, dobbiamo avere un’idea della variabilità tra i valori dei dati. Tutte le osservazioni tendono ad essere simili e perciò a situarsi vicino al centro, o sono distribuite su un ampio intervallo di valori? Definiamo quindi come “variabilità della distribuzione di frequenze di un fenomeno quantitativo” l’attitudine del fenomeno quantitativo a manifestarsi con modalità tra loro diverse e distanti. Così se l’intensità del carattere osservato è la medesima in tutte le osservazioni effettuate, si dirà che la variabilità è nulla; se, al contrario, sono molto diverse tra loro , si dirà che la distribuzione presenta una grande variabilità. Si pone allora il problema di misurare la variabilità. Ciò avviene mediante gli indici di variabilità. Gli indici di variabilità si distinguono in indici assoluti e indici relativi. I primi sono espressi nelle stesse unità di misura usate per i valori del carattere osservato. Sono indici assoluti il campo di variazione, la differenza interquartile e lo scarto quadratico medio. Gli indici relativi seno espressi come rapporti fra gli indici assoluti e altre grandezze omogenee ad essi e perciò sono indipendenti dalle unità di misura e quindi possono essere utilizzati per confrontare la variabilità di fenomeni diversi anche quando le intensità dei loro caratteri sono misurate con unità di misura differenti e quindi non direttamente confrontabili. Un indice di variabilità relativo è il coefficiente di variazione. Variabilità assoluta Campo di variazione (range) Il campo di variazione di un insieme di 𝑛 termini di una distribuzione è la differenza tra il valore maggiore e quello minore. 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 E’ una misura descrittiva grossolana perché è basata solo su due delle n modalità osservate, quelle estreme mentre i rimanenti valori della v.s. sono ignorati. 51 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Differenza interquartile La differenza interquartile (range interquartile) è la differenza tra il terzo quartile (settantacinquesimo percentile) e il primo quartile (venticinquesimo percentile) e comprende pertanto il 50% delle osservazioni centrali. 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄3 − 𝑄1 oppure 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑃75 − 𝑃25 Questo indice di variabilità è meno influenzato dai valori estremi rispetto al campo di variazione. Quando abbiamo definito i percentili ,abbiamo calcolato il 25 esimo e il 75-esimo percentile per una data distribuzione di 13 osservazioni ottenendo i valori 2.45 per il 25–esimo e 3.19 per il 75-esimo percentile. Pertanto il campo di variazione interquartile è 3.19 − 2.45 = 0.74 Lo scarto quadratico medio, la varianza e la devianza. Se 𝑥1 , 𝑥2 , … . 𝑥𝑛 sono gli 𝑛 valori di una variabile statistica di valor medio 𝑥̅ , lo scarto quadratico medio, 𝑠, (detto anche deviazione standard) è la radice quadrata della media aritmetica dei quadrati degli scarti dei termini dalla loro media. In termini matematici ∑𝑛1(𝑥𝑖 − 𝑥̅ )2 𝑠=√ 𝑛 Il quadrato dello scarto quadratico medio si chiama varianza della distribuzione e il suo numeratore è la devianza. Pertanto la varianza è 𝑛 (𝑥𝑖 − 𝑥̅ )2 2 𝑠 =∑ 𝑛 1 Mentre la devianza si calcola mediante l’espressione 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 1 Esempio: Si supponga di avere una variabile statistica che assume i seguenti 5 valori 128, 130, 134, 132, 140 Determinare gli scostamenti semplice e quadratico dalla loro media aritmetica e la varianza. Cominciamo a calcolare la media aritmetica. 52 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 128 + 130 + 134 + 132 + 140 = 132.8 5 Per calcolare gli scostamenti semplice e quadratico utilizziamo la seguente tabella 𝑥̅ = 𝑥𝑖 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2 128 −4.8 23.04 130 −2.8 7.84 134 1.2 1.44 132 −0.8 0.64 140 7.2 51.84 Totali 0 84.8 Servendosi di questi risultati si ha: 84.8 𝑠2 = = 16.96 (𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎) 5 𝑠 = √16.96 ≅ 4.12 (𝑠𝑐𝑎𝑟𝑡𝑜 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐𝑜 𝑚𝑒𝑑𝑖𝑜) Lo scarto quadratico medio è l’indice di dispersione relativo alla media aritmetica. Occorre tuttavia notare che in letteratura e in molti pacchetti informatici si considera al denominatore non n ma (𝑛 − 1). Ci sono argomenti teorici per giustificare questo cambiamento. C’è comunque da notare che per 𝑛 grande la differenza è irrilevante. La definizione con 𝑛 al denominatore è chiamata “deviazione standard della popolazione” mentre quella con 𝑛 − 1 è detta “deviazione standard del campione”. Se i valori della variabile statistica hanno frequenza 𝑓1 , 𝑓2 , … . 𝑓𝑁 lo scarto quadratico medio diventa ∑𝑛1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑠=√ ∑𝑛1 𝑓𝑖 Variabilità relativa Considereremo solo il coefficiente di variazione dato dal rapporto fra lo scarto quadratico medio e la media aritmetica. 𝑠 𝐶𝑉 = 𝑥̅ Il coefficiente di variazione è un numero puro in quanto rapporto di due grandezze omogenee e quindi consente il confronto fra variabili di caratteri eterogenei. Generalmente viene espressa in percentuale. In pratica si ha: 𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑖 𝑣𝑎𝑟𝑖𝑎𝑧𝑖𝑜𝑛𝑒 = 𝑠𝑐𝑎𝑟𝑡𝑜 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐𝑜 𝑚𝑒𝑑𝑖𝑜 × 100 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚𝑒𝑡𝑖𝑐𝑎 53 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 L’uso di tale indice è necessario quando si vogliono mettere a confronto misure di variabilità relative a distribuzioni le cui modalità sono espresse in unità di misura diverse (ad esempio confronto fra aumento di peso e aumento di statura) oppure sono espresse nella stessa unità di misura ma il loro valore medio risulta molto diverso (ad esempio spesa per assistito nel 1930 in confronto con la spesa per assistito oggi) Esempio. Si vuole confrontare la variabilità della diuresi nelle 24 ore e della pressione in 5 soggetti. Si ha la seguente tabella: Pressione Sistolica Urine nelle 24 ore (mm Hg) (mL) 120 1250 140 1200 160 900 180 850 130 1080 146 1056 𝑥̅ 21.5 158.5 𝑠 147.2 150.1 𝑠⁄𝑥̅ Come appare evidente dalla tabella, se ci fossimo fermati ad esaminare il differente scarto quadratico medio delle due distribuzioni, avremmo affermato una forte variabilità nelle urine rispetto a quella della pressione perché avremmo commesso il grande errore di confrontare due fenomeni espressi con due unità di misure diverse (mm Hg, mL). Viceversa omogeneizzando le due misure a confronto mediante il calcolo del coefficiente di variazione, risulta che la variabilità dei due fenomeni è circa uguale. Esercizi Esercizio 1 Vero o falso? a) Il coefficiente di variazione è indispensabile per i confronti di variabilità b) La devianza è la radice quadrata della varianza. c) La deviazione standard si chiama così perché è la media di quanto ogni modalità devia dalla media. a) V b) F c) V Esercizio 2 54 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Il range è una misura di variabilità dei valori di una distribuzione, che prende in considerazione - solo i valori centrali - solo i valori estremi - solo i valori con frequenza maggiore Il range considera solo i valori estremi Esercizio 3 Si calcoli la media , la mediana e la differenza interquartile dei seguenti dati. Si stabilisca infine il tipo di asimmetria della distribuzione. 1.25 1.64 1.91 2.31 2.37 2.38 2.84 2.87 2.93 2.94 2.98 3.00 3.09 3.22 3.41 3.55 Facendo la somma dei 16 dati e dividendo per il loro numero si ottiene 𝑥̅ = 2.605 La mediana si ottiene facendo la media fra l’ottava e la nona osservazione 2.87 + 2.93 𝑀𝑒 = = 2.90 2 I quartili sono valori che ripartiscono i dati in quattro parti uguali. Il primo quartile (il 25-esimo percentile) è il valore centrale delle misure minori della mediana. Il secondo quartile è la mediana. Il terzo quartile( il 75-esimo percentile) è il valore centrale delle misure maggiori della mediana. La differenza interquartile è la differenza tra il terzo ed il primo interquartile. 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄3 − 𝑄1 Tenendo presente che i dati sono 16, il primo interquartile si ottiene con 1 × 16 𝑝𝑟𝑖𝑚𝑜 𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = =4 4 Facciamo la media tra il quarto e il quinto valore, ossia 2.31 + 2.37 𝑄1 = = 2.34 2 Analogamente per il terzo quartile 3 × 16 𝑡𝑒𝑟𝑧𝑜 𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = = 12 4 Facciamo la media tra il 12-esimo e il 13-esimo valore ,ossia 3.00 + 3.09 𝑄3 = = 3.045 2 In conclusione si ha 𝑄3 − 𝑄1 = 3.045 − 2.34 = 0.705 Per determinare il tipo si asimmetria della distribuzione, osserviamo che si è trovato 𝑥̅ = 2.605 e 𝑀𝑒 = 2.90 55 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 ossia 𝑥̅ < 𝑀𝑒 𝑚𝑒𝑑𝑖𝑎 < 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 la distribuzione di frequenza presenta quindi una asimmetria negativa ossia ha una coda più lunga a sinistra rispetto al massimo centrale. Esercizio 4 In uno studio che esamina le cause di morte in soggetti affetti da asma grave, sono stati raccolti dati su 10 pazienti arrivati in ospedale con arresto respiratorio; la respirazione era assente ed i soggetti erano in stato di incoscienza. La tabella seguente riporta la frequenza cardiaca dei dieci pazienti al momento dell’ammissione in ospedale. Si calcoli la media, la mediana, la moda, la differenza interquartile e la deviazione standard. Paziente Frequenza cardiaca (battiti al minuto) 1 167 2 150 3 125 4 120 5 150 6 150 7 40 8 136 9 120 10 150 𝑥̅ = 167 + 150 + 125 + 120 + 150 + 150 + 40 + 136 + 120 + 150 10 = 130.8 𝐵𝑎𝑡𝑡𝑖𝑡𝑖 𝑎𝑙 𝑚𝑖𝑛𝑢𝑡𝑜 Per calcolare la mediana (o 50-esimo percentile) di una serie di dati bisogna ordinare le osservazioni dalla più piccola alla più grande. Si ha: 40 120 120 125 136 150 150 150 150 167 56 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Poiché c’è un numero pari di osservazioni, la mediana è data dalla media dei due valori centrali ossia dalla media fra la quinta e la sesta osservazione. Pertanto la mediana è 136 + 150 𝑀𝑒 = = 143 𝑏𝑎𝑡𝑡𝑖𝑡𝑖 𝑎𝑙 𝑚𝑖𝑛𝑢𝑡𝑜 2 La moda di una serie di dati è l’osservazione che si verifica più frequentemente. Il valore 150 si verifica 4 volte; pertanto è 𝑚𝑜𝑑𝑎 = 150 La differenza interquartile di una serie di dati è la differenza tra il 75-esimo percentile e il 25-esimo percentile. Essendo 10 le osservazioni si ha 25 × 10 𝑃25 = = 2.5 100 75 × 10 𝑃75 = = 7.5 100 Il 25-esimo percentile è la media tra la seconda e la terza misurazione ossia 120 battiti al minuto, mentre il 75-esimo percentile è la media tra la settima e l’ottava misurazione ossia 150 battiti al minuto. 𝑃75 − 𝑃25 = 150 − 120 = 30 𝑏𝑎𝑡𝑡𝑖𝑡𝑖 𝑎𝑙 𝑚𝑖𝑛𝑢𝑡𝑜 Calcoliamo ora la deviazione standard. Si ha 10 1 𝑠 = ∑(𝑥𝑖 − 130.8)2 = 1258.2 (𝑏𝑎𝑡𝑡𝑖𝑡𝑖 𝑎𝑙 𝑚𝑖𝑛𝑢𝑡𝑜)2 9 2 1 la deviazione standard e la radice quadrata della varianza. Pertanto 𝑠 = √1258.2 = 35.5 𝑏𝑎𝑡𝑡𝑖𝑡𝑖 𝑎𝑙 𝑚𝑖𝑛𝑢𝑡𝑜 La deviazione standard è la misura di dispersione più frequentemente utilizzata. In genere viene utilizzata con la media per descrivere una serie di valori. Esercizio 5 Si definisca il coefficiente di variazione, la sua unità di misura e la sua utilità. Il coefficiente di variazione è definito come il rapporto fra lo scarto quadratico medio e la media aritmetica. 𝑠 𝐶𝑉 = 𝑥̅ Il coefficiente di variazione è un numero puro in quanto rapporto di due grandezze omogenee. E’ un parametro utile in quanto consente il confronto fra variabili di caratteri eterogenei. Esercizio 6. Un campione di maschi ha una altezza media di 175.2 cm con una deviazione standard di 4 cm ed una peso medio di 76 kg con una deviazione standard di 3 kg. 57 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Quale delle due variabili statistiche è più variabile? Il coefficiente di variazione della prima variabile (la statura) è 𝑠𝑠𝑡𝑎𝑡𝑢𝑟𝑎 4 𝐶𝑉𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = = × 100 = 2.28% 𝑥̅𝑠𝑡𝑎𝑡𝑢𝑟𝑎 175.2 Per la seconda variabile, il peso, si ha 𝐶𝑉𝑝𝑒𝑠𝑜 = 𝑠𝑝𝑒𝑠𝑜 3 = × 100 = 3.9% 𝑥̅𝑝𝑒𝑠𝑜 76 Conclusione: il peso è più variabile. Esercizio 7 Esempio di calcolo di media e varianza per dati raggruppati. Calcolo della media e della deviazione standard dei livelli di colesterolo sierico in soggetti della popolazione maschile degli Stati Uniti di età compresa tra 25 e 34 anni. I dati sono già stati esaminati e vengono ora riproposti per semplificare il calcolo. Livello di colesterolo Numero di soggetti (mg/100mL) 80-119 13 120-159 150 160 -199 442 200-239 299 240-279 115 280-319 34 320-359 9 360-399 5 TOTALE 1067 Per calcolare la media di una serie di dati raggruppati sotto forma di distribuzione di frequenza, assumiamo che tutti i valori che rientrano in un determinato intervallo siano uguali al punto medio di quell’intervallo. Così, assumiamo che i 13 valori all’interno del primo intervallo siano uguali al valore di 99.5 mg/100 mL; tutte le 150 osservazioni comprese nel secondo intervallo – 120-159 mg/100 mL- siano tutte uguali al valore 139.5 mg/100 mL e così via per tutti gli altri intervalli. Poiché facciamo queste assunzioni il nostro calcolo è approssimativo. Si ha 𝑥̅ = 99.5 × 13 + 139.5 × 150 + ⋯ + 339.5 × 9 + 379.5 × 5 = 198.8 𝑚𝑔⁄100 𝑚𝐿 1067 58 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Per calcolare la deviazione standard di dati raggruppati, assumiamo, di nuovo, che tutte le osservazioni che rientrano in un determinato intervallo siano uguali al punto medio di quell’intervallo. La varianza raggruppata risulta quindi 𝑠2 (99.5 − 198.8)2 × 13 + (139.5 − 198.8)2 × 150 + ⋯ + (279.5 − 198.8)2 × 5 = 1067 = 1929(𝑚𝑔⁄100 𝑚𝐿)2 e quindi la deviazione standard risulta 𝑠 = √1930 = 43.9 𝑚𝑔⁄100 𝑚𝐿 Parte II Statistica descrittiva bivariata 59 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Tabelle a doppia entrata In questa parte analizzeremo la rilevazione congiunta di una coppia di fenomeni sulla stessa popolazione. Il nostro obiettivo diventa la descrizione del comportamento congiunto dei due fenomeni e l’analisi dell’ eventuale relazione statistica esistente tra i due fenomeni. La strumentazione statistica che utilizzeremo sarà utile per far emergere dai dati a disposizione se e come i due fenomeni co-variano e si influenzano. I due fenomeni X ed Y sono osservati congiuntamente (insieme) su ciascuna delle unità statistiche che formano la popolazione di interesse. Quindi il risultato della rilevazione è adesso un insieme di coppie (x,y) che prende il nome di matrice dei dati grezzi. Unità statistiche Rilevazione di X Rilevazione di Y 1 … … 2 … … …. x y n … .. Esempio. Un collettivo di 15 bambini frequentanti una scuola dell’infanzia è stato sottoposto ad un test per misurare l’attitudine musicale e l’attitudine al disegno. Il test classifica le due attitudini secondo la scala sufficiente (S), buona (B), ottima (O). I due fenomeni sono il risultato del test circa l’attitudine alla musica ( chiamiamolo X) e il risultato circa l’attitudine al disegno (chiamiamolo Y). Entrambi i fenomeni sono qualitativi ordinali. I risultati della rilevazione congiunta sono i seguenti: Bambino Attitudine alla musica Attitudine al disegno 1 O O 2 O B 3 S B 4 B B 5 S S 6 O S 7 B O 8 B O 9 S B 10 B B 11 O O 12 B S 13 B B 14 O S 15 S B 60 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Per cominciare l’analisi statistica bivariata, il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata composta da righe e colonne. Y 𝑦1 𝑦𝑗 𝑦ℎ X 𝑥1 𝑥𝑖 𝑥𝑘 Useremo l’indice i con riferimento al fenomeno X e l’indice j con riferimento al fenomeno Y. Indicheremo con k ed h il numero di differenti modalità con cui si manifesta X ed Y rispettivamente. Poniamo sulle righe le k modalità 𝑥𝑖 di X e sulle colonne le h modalità 𝑦𝑖 di Y. L’interno della tabella si compila contando il numero dei casi che manifestano la medesima coppia di modalità (𝑥𝑖 , 𝑦𝑖 ). Ai margini della tbella si pongono le somme dei casi per riga e per colonna. Infine in basso a destra nell’incrocio, si pone la somma dell’intera tabella. Ad esempio per i dati grezzi precedenti si ha, contando il numero di bambini che manifesta le 9 coppie di modalità (S,S), (S, B)…, (O,O) si ha la seguente tabella composta da k=3 righe e h=3 colonne. Ai margini si hanno le somme dei casi per riga e per colonna e in basso a destra la somma generale. Y S B O X S B O 1 1 2 4 3 3 1 7 0 2 2 4 4 6 5 15 In conclusione la tabella a doppia entrata struttura i dati grezzi bivariati, organizza i casi osservati. Frequenze congiunte e marginali All’interno della tabella si trova la frequenza con cui si manifesta ciascuna coppia di modalità (𝑥𝑖 , 𝑦𝑖 ). Queste frequenze riguardano entrambi i fenomeni e sono dette frequenze congiunte che indicheremo con 𝑓𝑖𝑗 cioè utilizzando entrambi gli indici. Ai margini della tabella si trovano le frequenze che riguardano i fenomeni X ed Y considerati singolarmente e separatamente. Queste frequenze sono chiamate 61 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 frequenze marginali. Indicheremo con 𝑓𝑖 frequenza marginale di X e con 𝑓𝑗 la frequenza marginale di Y Indipendenza statistica. Si è detto che è di studiare il comportamento congiunto dei due fenomeni, rilevando l’eventuale relazione fra i due fenomeni. Occorre puntualizzare che considereremo fenomeni statistici di qualunque natura, cioè sia qualitativi che quantitativi perché lavoreremo sulle frequenze. Se fra X ed Y non esiste alcuna relazione statistica allora X ed Y sono statisticamente indipendenti. Un metodo per stabilire l’esistenza di indipendenza statistica consiste nel confrontare la tabella osservata con la tabella teorica di indipendenza statistica. Questa tabella si compila mantenendo fisse le frequenze marginali (che parlano del comportamento dei singoli fenomeni indipendentemente l’uno dall’altro) e sostituendo le frequenze congiunte osservate con le frequenze teoriche ( o attese) di indipendenza statistica 𝑓𝑖𝑗∗ ottenibile con le seguente espressione generale: 𝑓𝑖 𝑓𝑗 𝑓𝑖𝑗∗ = 𝑛 Ad esempio se si ha la seguente tabella osservata riporta dati relativi alle 7058 scuole secondarie statali e non classificate in base alla tipologia e zona geografica relativamente all’anno 2013. Quindi X: tipologia; Y: zona geografica. Y Nord Centro Mezzogiorno X Licei Tecnici Professionali 𝑓𝑗 1257 909 508 2674 674 376 246 1297 1513 926 648 3087 𝑓𝑖 3444 2211 1403 7058 La tabella delle frequenze attese è quindi Y X Licei Tecnici Professionali 𝑓𝑗 Nord Centro Mezzogiorno 𝑓𝑖 3444 × 2674 7058 = 1304.7 837.8 531.5 2674 3444 × 1297 7058 = 632.9 406.4 257.8 1297 1506.3 3444 967.2 613.5 3087 2211 1403 7058 62 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Le due tabelle non coincidono cioè le frequenze congiunte osservate non sono tutte uguali alle frequenze attese . La condizione di indipendenza statistica non è verificata e quindi X ed Y non sono statisticamente indipendenti: fra tipologia e zona geografica nelle scuole secondarie superiori italiane c’è qualche relazione statisticamente rilevabile. Connessione Se X ed Y non sono statisticamente indipendenti allora fra i due fenomeni esiste una relazione statistica. Diremo che X ed Y sono connessi e indicheremo con connessione una generica relazione statisticamente rilevabile in una coppia di fenomeni osservati sulla popolazione. La misura di connessione più nota (indice di connessione) ha un simbolo standard: la lettera greca 𝜒 elevata al quadrato per ricordare che si utilizzano i quadrati per eliminare l’influenza del segno. Si calcola mediante l’espressione 2 𝑘 ℎ ((𝑓𝑖𝑗 − 𝑓𝑖𝑗∗ ) ) 𝜒2 = ∑ ∑ 𝑓𝑖𝑗∗ 𝑖=1 𝑗=1 Praticamente l’indice di connessione misura quanto la tabella osservata è distante da quella teorica di indipendenza. Nell’esercizio precedente avevamo visto che X ed Y non erano indipendenti e quindi erano connesse. Ora siamo in grado di misurare il grado di connessione. Applicando la definizione si ha (1257 − 1304.7)2 (674 − 632.9)2 (648 − 613.5)2 2 𝜒 = + +⋯+ = 18.09 1304.7 632.9 613.5 Indice di connessione normalizzato Ci chiediamo: il valore ottenuto è tanto o è poco? La connessione fra X ed Y è forte o debole? Il valore assoluto dell’indice, cioè quello ottenuto mediante l’espressione precedente, non consente la valutazione, cioè non è interpretabile. Infatti il valore di 𝜒 2 cresce al crescere di n, della numerosità dei dati ottenuti, perciò in una “grande” popolazione, il valore di 𝜒 2 è più elevato senza che necessariamente sia più elevata la connessione. Per rispondere alla nostra domanda serve un altro accorgimento: serve la normalizzazione. Normalizzare un indice significa trasformarlo in un numero compreso nell’intervallo (0,1) in modo che , moltiplicato per 100, diventi una percentuale e quindi facilmente interpretabile. Il valore minimo di 𝜒 2 è 0, mentre il valore massimo si ottiene moltiplicando la numerosità 𝑛 della popolazione per il più piccolo tra il numero delle righe (k) e il numero h delle colonne meno 1, ossia 𝑛 × min(𝑘 − 1, ℎ − 1) La percentuale di connessione permette la valutazione della connessione (tanta o poca) compatibilmente agli obiettivi di ricerca. 63 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Nel nostro caso: 7058 × min(3 − 1,3 − 1) = 7058 × 2 = 14116 18 = 0.00128 = 0.128% 14116 Associazione (locale) fra coppie di modalità Consideriamo coppie di fenomeni dicotomici, cioè che assumono ciascuno due sole modalità. In questo caso la tabella osservata sarà composta da k=2 righe e h=2 colonne ed è chiamata tabella 2x2. Ad esempio su un insieme di studenti ambosessi vogliamo studiare la propensione al fumo e al consumo di alcol. E si vuol vedere se statisticamente i fumatori tendono ad essere consumatori di alcol e se i non fumatori tendono ad essere astemi (o viceversa). In questo caso X: attitudine al fumo, rilevato con k=2 modalità: famatore/trice (F), non fumatore/trice (NF); Y: consumo di alcol , rilevato con h=2 modalità consumatore/trice (C), astemio (A) Tabella osservata Y C A X F NF 88 72 160 10 70 80 98 142 240 Ci interessa verificare se esiste un’associazione tra la modalità F di X e C di Y. Lavoriamo all’interno della tabella lasciando fisse le distribuzioni marginali (che ci parlano del comportamento monovariato dei due fenomeni, indipendentemente l’uno dall’altro). Una misura di associazione è l’indice di Yule, definito dall’espressione 𝑓11 𝑓22 − 𝑓12 𝑓21 𝑌𝑢𝑙𝑒 = 𝑓11 𝑓22 + 𝑓12 𝑓21 L’indice Yule può assumere valori che vanno da +1 a −1. Se vale +1 si ha la massima associazione, −1 si ha la massima repulsione. Nel caso in esame si ha 88 × 70 − 72 × 10 𝑌𝑢𝑙𝑒 = = 0.79 88 × 70 + 72 × 10 Questo ci dice che le modalità fumatore/trici e consumatore/trici di alcol tendono ad associarsi al 79%. Se X ed Y sono statisticamente indipendenti non esiste associazione in nessuna coppia di modalità. In caso di indipendenza statistica l’indice di Yule vale 0 qualunque sia la coppia di modalità che mettiamo in posizione (1,1). 64 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Dicotomizzazione della tabella osservata Per dicotomizzare una tabella kxh, ossia ridurla a dimensione 2x2, si pone in posizione (1,1) la coppia che interessa e si aggregano le rimanenti modalità in una unica modalità contraria. Esempio. La seguente tabella è tratta da un recente studio riguardo l’atteggiamento di acquisto di cereali pronti per la colazione. X: prezzo comparato con la media della categoria rilevato con k=3 modalità inferiore, uguale o superiore al prezzo medio di categoria. Y: tipo di regalo /gadget associato al prodotto, rilevato con h=4 modalità. N=1200 acquirenti di cereali pronti per la colazione presso una catena di supermercati Tabella osservata Y Gadged Raccolta punti Concorso Nessuna X ≤prezzo medio = prezzo medio ≥prezzo medio 4 88 280 372 12 113 221 346 2 93 144 239 162 6 75 243 180 300 720 1200 Ci domandiamo se l’assenza di regalo/gadged determina un prezzo inferiore alla media della categoria. Misuriamo l’associazione nella coppia di modalità”inferiore al prezzo medio di categoria” di X e “nessun regalo/gadged” di Y. Mettiamo la coppia che ci interessa in posizione (1,1)e aggreghiamo tutte le altre in un’unica modalità contraria. Tabella dicotomizzata Y Nessuno Regalo/gadget/Concorso X ≤prezzo medio ≥prezzo medio 𝑌𝑢𝑙𝑒 = 162 81 243 18 939 957 180 1020 1200 162 × 939 − 18 × 81 = 0.981 162 × 939 + 18 × 81 Otteniamo un valore positivo molto vicino a 1 che indica una situazione prossima alla massima associazione. 65 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Diagramma a dispersione (scatter plot) Supponiamo di voler descrivere la relazione tra due variabili quantitative continue. come ad esempio la capacità vitale ( massimo volume di aria che l’organismo può espirare in seguito ad una inspirazione forzata) e l’altezza. (vedi tabella sottostante) Altezza CV Altezza CV Altezza CV Altezza CV (cm) (Litri) (cm) (Litri) (cm) (Litri) (cm) (Litri) 155.0 2.20 161.2 3.39 166.0 3.66 170.0 3.88 155.0 2.65 162.0 2.88 166.0 3.69 171.0 3.38 155.4 3.06 162.0 2.96 166.6 3.06 171.0 3.75 158.0 2.40 162.0 3.12 167.0 3.48 171.5 2.99 160.0 2.30 163.0 2.72 167.0 3.72 172.0 2.83 160.2 2.63 163.0 2.82 167.0 3.80 172.0 4.47 161.0 2.56 163.0 3.40 167.6 3.06 174.0 4.02 161.0 2.60 164.0 2.90 167.8 3.70 174.2 4.27 161.0 2.80 165.0 3.07 168.0 2.78 176.0 3.77 161.0 2.90 166.0 3.03 168.0 3.63 177.0 3.81 161.0 3.40 166.0 3.50 169.4 2.80 180.6 4.74 Nel caso in cui siano due i caratteri quantitativi si riporta ciascun carattere su ognuno degli assi ( in genere si pone la variabile dipendente sulle ordinate e la variabile indipendente sulle ascisse). A questo punto ciascuna unità statistica sul piano è caratterizzata da una coppia di valori: uno relativo alla modalità del primo carattere, l’altro alla modalità del secondo carattere. Capacità vitale (Litri) 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 150 155 160 165 170 175 180 185 Altezza (cm) 66 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Diagramma a dispersione tra capacità vitale ed altezza L’insieme dei punti apparirà in questi casi come una “nuvola” più o meno addensata che prende il nome di diagramma a punti o diagramma a dispersione o scatter plot. Questa rappresentazione viene effettuata al fine di cogliere eventuali proprietà o legami tra i dati ossia tra le due variabili. Se i punti tendono a distribuirsi nel diagramma dal basso a sinistra verso l’alto a destra significa che esiste una associazione positiva tra le due variabili; se viceversa i punti tendono a decorrere dall’alto a sinistra verso il basso a destra , l’associazione tra le due variabili è negativa; se è indistinguibile significa che non c’è nessuna associazione tra le due variabili. Il diagramma a dispersione riesce anche a rivelare se la relazione tra due variabili possa essere rappresentata da una retta o da una curva più articolata. Esercizi Esercizio1 In un’indagine sulla prevenzione del fumo, 20 soggetti sono stati intervistati riguardo al luogo di residenza in Italia ( Sud=S, Centro=C, Nord=N) e alla propensione al fumo (Si, No) ottenendo i seguenti risultati: Fumo Si No No Si No No Si Si Si Si Residenza N C C N S S S S N S Fumo Si No No Si No No Si Si Si Si Residenza N C C N S S S S N S Organizzare i dati in una tabella a doppia entrata. Utilizzando gli stessi dati grezzi, costruire le due variabili statistiche per i due fenomeni separatamente e verificare che coincidono con le due distribuzioni marginali della tabella. La tabella a doppia entrata è la seguente: Y Centro Nord Sud 𝑓𝑖 X No Si 𝑓𝑗 4 0 4 0 6 6 4 6 10 8 12 20 Le due variabili statistiche sono le seguenti: X 𝑓𝑖 No 8 Si 12 67 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 20 Y 𝑓𝑗 Centro 4 Nord 6 Sud 10 20 Esercizio 2 Vero o falso? a) In una rilevazione congiunta, due fenomeni vengono osservati su soggetti diversi e poi riuniti in un’unica tabella di frequenze. b) La rilevazione congiunta di due fenomeni sulla medesima popolazione fornisce, come dati grezzi, un elenco di coppie. c) E’ possibile ricavare le frequenze congiunte dalle frequenze marginali d) Considerando le sole frequenze marginali si possono costruire variabili statistiche monovariate. e) In una tabella a doppia entrata le frequenze congiunte sono bivariate mentre le frequenze marginali sono monovariate. a) F b) V c) F d) V e) V Esercizio 3 Scegliere la risposta più corretta. 1. Una volta organizzati i dati grezzi in una tabella a doppia entrata: Non è più possibile analizzare il comportamento di un fenomeno indipendentemente dall’altro. È possibile individuare e studiare l’eventuale relazione statistica esistente fra i due fenomeni. Diventa più difficoltoso analizzare le relazioni statistiche esistenti fra i due fenomeni Non sono più applicabili gli strumenti di statistica descrittiva monovariata. 2. La variabile statistica doppia È costruita dalla somma delle frequenze di due v.s. semplici E data dall’accostamento delle frequenze di due v.s. semplici Si legge all’interno della tabella a doppia entrata È costituita dal prodotto di due v.s. 68 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Le risposte corrette sono: Una volta organizzati i dati grezzi in una tabella a doppia entrata: È possibile individuare e studiare l’eventuale relazione statistica esistente fra i due fenomeni. La variabile statistica doppia Si legge all’interno della tabella a doppia entrata Esercizio 4 Il proprietario di un negozio ritiene che sia possibile mettere in relazione il fenomeno “taccheggio” con l’”età dei propri clienti” e che la propensione al taccheggio aumenti con l’età. Per un’intera settimana intensifica i controlli e classifica i propri clienti secondo l’età (≤30 anni, fra 30 e 60 anni, ≥60 anni) e a seconda che siano sorpresi o meno a taccheggiare (Si,No) ottenendo ≤ 30 30 − 60 ≥ 60 Si 10 1 3 14 No 65 36 23 124 75 37 26 138 Valutare il grado di connessione (globale) fra i due fenomeni nel collettivo osservato. Per valutare il grado di connessione esistente è necessario introdurre un indicatore appropriato. L’indice che segnala la presenza di un generico legame tra due variabili è l’indice di connessione 𝜒 2 . La tabella teorica di indipendenza è: ≤ 30 30 − 60 ≥ 60 14 × 75 Si 3.75 2.64 14 = 7.61 138 No 67.39 33.25 23.36 124 75 37 26 138 E, utilizzando la definizione: 2 𝑘 ℎ ((𝑓𝑖𝑗 − 𝑓𝑖𝑗∗ ) ) 𝜒2 = ∑ ∑ 𝑓𝑖𝑗∗ 𝑖=1 𝑗=1 si ottiene: (10 − 7.61)2 (23 − 23.36)2 𝜒 = + ⋯+ = 3.13 7.61 23.36 2 𝜒 2 diverso da zero indica che fra i due fenomeni esiste un generico legame, ma questo indice non permette di valutare il grado di connessione tra i due fenomeni. Bisogna calcolare il 𝜒 2 normalizzato che vale: 69 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝜒2 3.13 = = 0.02 𝑛 × min(𝑘 − 1, ℎ − 1) 138 × min(2 − 1,3 − 1) Questo valore indica che vi è il 2% della connessione massima ossia un bassissimo grado di connessione. Esercizio 5 Vero o falso? a) Quando la relazione tra due fenomeni è molto debole, si dice che i due fenomeni sono statisticamente indipendenti. b) La connessione è una generica relazione tra due fenomeni c) La normalizzazione dell’indice 𝜒 2 è necessaria per la valutazione del grado di connessione. d) L’indice di Yule misura in percentuale il grado di associazione o repulsione fra due modalità. e) L’analisi di associazione (locale) è effettuabile solo su tabelle dicotomiche o dicotomizzate. a) V b) V c) V d) V e) V 70 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Parte III Statistica inferenziale Finora l’obiettivo era la descrizione del comportamento del fenomeno X o della coppia di fenomeni X e Y su dati rilevati. In ogni caso si dispone sempre di dati parziali cioè relativi a una parte dell’intera popolazione ossia ad un campione di numerosità 𝑛 perché il collettivo è infinito o molto grande. L’obiettivo ora è di estendere l’analisi del comportamento di X all’intera popolazione. Si tratta di inferire dal campione all’intera popolazione. I metodi statistici adeguati a questo scopo costituiscono la statistica inferenziale. Passeremo dunque dalla descrizione all’inferenza. Per fare buona inferenza è strategico che il campione abbia la caratteristica della rappresentatività cioè sia un’immagine su scala ridotta della popolazione da cui è stato estratto. L’inferenza statistica si basa su campioni casuali. Un campione è casuale quando è scelto a caso dalla popolazione, ossia selezionato senza criteri o sistematicità. La casualità di un campione è garanzia della sua rappresentatività. Lo strumento scientifico per trattare il caso e i suoi effetti è la teoria della probabilità. L’inferenza statistica avviene su base probabilistica. Per introdurre gli strumenti di inferenza statistica abbiamo bisogno di imparare qualche elemento della teoria della probabilità. Elementi di calcolo delle probabilità Probabilità di un evento aleatorio Un evento aleatorio è un avvenimento che può verificarsi secondo diverse modalità che chiameremo eventi elementari e non possiamo prevedere a priori quale modalità, quale evento elementare si verificherà perché il verificarsi di un qualunque evento elementare è soggetto solo alla legge del caso. Esempi sono il lancio di un dado o di una moneta. Tuttavia, per quanto il verificarsi di un evento aleatorio non possa essere previsto con certezza, possiamo valutarne la probabilità. Si definisce 71 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 probabilità di un evento aleatorio il rapporto tra il numero dei casi favorevoli (numero dei casi in cui si manifesta l’evento elementare) e il numero dei casi possibili cioè il numero totale degli eventi elementari. Ad esempio se consideriamo l’evento lancio di una moneta allora la probabilità che si verifichi, ad esempio, testa è 1⁄2 perché abbiamo un caso favorevole (l’evento elementare testa) e due casi possibili (gli eventi elementari testa e croce). Se l’evento è il lancio di un dado allora la probabilità che si verifichi un punteggio qualunque, ad esempio 5, è 1⁄6 perché gli eventi elementari complessivi sono 6 e l’evento elementare favorevole è 1. La probabilità così definita viene chiamata probabilità matematica. Possiamo calcolarla solo se si conoscono a priori i casi favorevoli e quelli possibili. In molti casi pratici questa situazione non si verifica. Ad esempio per la medicina è il calcolo della probabilità che un individuo contragga una certa malattia. In queste situazioni si dà la definizione di probabilità statistica. Si effettua un grande numero 𝑛 di osservazioni e si rivela il numero 𝑚 di volte (ossia la frequenza) in cui la modalità dell’evento si verifica. Si considera quindi la frequenza relativa dell’evento 𝑚 𝑓𝑟 = 𝑛 L’esperienza mostra che tali valori al crescere delle osservazioni tendono a un valore che viene chiamato probabilità statistica dell’evento. Si è visto che nei casi in cui è possibile determinare tanto la probabilità matematica che quella statistica di uno stesso evento, i due valori sono uguali e quindi ammettiamo la legge empirica del caso: il valore della frequenza relativa di un evento rilevato su un grande numero di prove effettuate nelle stesse condizioni, tende a quello della probabilità matematica e l’approssimazione cresce al crescere delle prove. Principi fondamentali del calcolo delle probabilità Principio delle probabilità totali. Per probabilità totale di due eventi casuali A e B s’intende la probabilità che si verifichi l’evento A oppure l’evento B. Tale probabilità si calcola in modo diverso a seconda che i due eventi siano compatibili o incompatibili. Due eventi casuali A e B sono incompatibili quando non possono verificarsi contemporaneamente ossia quando gli eventi elementari che compongono l’evento casuale A non hanno nessun elemento comune agli eventi elementari dell’evento B. Se indichiamo con P(A) e P(B) le rispettive probabilità, la probabilità totale P(A+B) degli eventi A e B è data dalla somma delle probabilità di ciascuno dei due eventi: (regola della somma) 𝑃(𝐴 + 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) Se due eventi sono incompatibili e vogliamo conoscere la probabilità che si verifichi l’uno oppure l’altro, dobbiamo usare la regola della somma. 72 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Esempio. Si abbia un’urna contenente 100 palline, tutte uguali nella forma ma di colore differente; 10 sono bianche, 40 rosse e le rimanenti 50 nere. Vogliamo calcolare la probabilità che facendo una sola estrazione si ottenga una pallina bianca (evento A) oppure una pallina nera (evento B). I due eventi sono incompatibili, si escludono a vicenda. La probabilità di estrarre una pallina bianca è P(A)=10/100 mentre la probabilità di estrarre una pallina nera è P(B)=50/100; dunque la probabilità totale è 10 50 60 𝑃(𝐴 + 𝐵) = + = = 0.6 100 100 100 La regola della somma può essere estesa a più di due eventi purché siano tutti incompatibili. Per esempio supponiamo di voler conoscere la probabilità di ottenere il punteggio 3 o più di 3 con un singolo lancio di un dado. 3 o più di 3 comprende i seguenti quattro risultati 3 (evento A) oppure 4 (evento B)oppure 5 (evento C) oppure 6 (evento D). Questi quattro possibili risultati sono incompatibili fra loro perché non possiamo ottenere ad esempio 4 e 5 contemporaneamente con lo stesso dado. Possiamo dunque calcolare la probabilità di ottenere 3 o un punteggio maggiore di 3 usando la regola della somma 1 1 1 1 4 2 𝑃(𝐴 + 𝐵 + 𝐶 + 𝐷) = 𝑃(3) + 𝑃(4) + 𝑃(5) + 𝑃(6) = + + + = = 6 6 6 6 6 3 Se gli eventi A e B sono compatibili, ossia si possono verificare contemporaneamente, o, se si preferisce, gli eventi elementari di A hanno elementi comuni agli eventi elementari dell’evento B, per calcolare la probabilità totale si applica la seguente regola detta regola della somma generalizzata : 𝑃(𝐴 + 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵) ove 𝑃(𝐴𝐵) sta ad indicare la probabilità che l’evento A e l’evento B si verifichino contemporaneamente ovvero la probabilità che si verifichino gli eventi elementari comuni ai due eventi. Se non si fa questa sottrazione, i risultati in cui gli eventi A e B si verificano contemporaneamente vengono contati due volte. Naturalmente, se A e B sono incompatibili, non hanno elementi comuni e quindi 𝑃(𝐴𝐵) = 0 Esempio. Calcolare la probabilità che facendo una sola estrazione da un mazzo di 40 carte si ottenga una carta di picche oppure una figura. Si ha 10 12 𝑃(𝐴) = 𝑃(𝐵) = 40 40 perché le picche sono 10 e le figure sono 12. Tuttavia in questo modo le 3 figure di picche vengono contate due volte. La probabilità di estrarre una figura di picche da un mazzo di 40 carte è 3 𝑃(𝐴𝐵) = 40 In conclusione per gli eventi compatibili 10 12 3 19 𝑃(𝐴 + 𝐵) = + − = 40 40 40 40 73 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Allo stesso risultato si perviene applicando per il calcolo di 𝑃(𝐴𝐵)il principio delle probabilità composte che verrà analizzato successivamente. Altro esempio. Si consideri un’urna contenente 6 palline uguali fra loro e numerate da 1 a 6. Vogliamo calcolare la probabilità che eseguendo una sola estrazione si abbia una pallina che sia dispari oppure che abbia un numero non superiore a 4 Indichiamo con A l’evento aleatorio “estrazione di una pallina con numero dispari”. L’evento A comprende quindi i seguenti tre eventi elementari “estrazione di una pallina con numero 1”, estrazione di una pallina con numero 3” infine “estrazione di una pallina con numero 5”. A(1,3,5) Indichiamo con B l’evento estrazione di una pallina con numeri compresi da 1 a 4 L’evento B comprende gli eventi elementari “estrazione di una pallina con numero 1”……..”estrazione di una pallina con numero 4” : B(1,2,3,4). E’: 3 1 4 2 𝑃(𝐴) = = 𝑃(𝐵) = = 6 2 6 3 Gli eventi A e B hanno comuni i seguenti due eventi elementari: “estrazione di una pallina con numero 1” “estrazione di una pallina con numero 3”, e, di conseguenza 2 1 𝑃(𝐴𝐵) = = 6 3 Applicando la formula generale si ha 𝑃(𝐴 + 𝐵) = 1 2 1 5 + − = 2 3 3 6 Probabilità condizionata e principio della probabilità composta Si abbiano due eventi casuali A e B e si voglia determinare la probabilità 𝑃(𝐴𝐵) che si verifichino entrambi gli eventi. Il verificarsi del primo evento a volte modifica la probabilità del verificarsi dell’altro evento ed a volte la lascia inalterata. Nel primo caso i due eventi sono dipendenti nel secondo sono indipendenti. Si abbia, ad esempio, un’urna contenente 7 palline bianche e 3 palline nere. La prova consiste nell’estrarre due palline, una di seguito all’altra senza rimettere la prima pallina nell’urna. In questo caso il verificarsi del primo evento modifica la probabilità del secondo evento e quindi gli eventi sono dipendenti. Calcoliamo la probabilità P(AB) che la prima pallina estratta sia bianca e la seconda sia nera; è importante l’ordine. Sia A l’evento “la prima pallina estratta è bianca”. Si ha 7 𝑃(𝐴) = 10 Indichiamo con B l’evento “la seconda pallina estratta è nera” e con 𝑃(𝐵/𝐴) la probabilità di estrarre una pallina nera senza aver rimesso la pallina estratta nell’urna. 𝑃(𝐵/𝐴) è la probabilità di B condizionata ad A, ossia è la probabilità del verificarsi di B nell’ipotesi che A si sia verificato. Tale probabilità sarà 74 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 3 1 = 9 3 Il principio dell’evento composto afferma che la probabilità che accadano due eventi è uguale al prodotto delle probabilità di un evento per la probabilità del verificarsi dell’altro condizionata al verificarsi del primo. In termini matematici possiamo scrivere 𝑃(𝐵/𝐴) = 𝑃(𝐴𝐵) = 𝑃(𝐴) × 𝑃(𝐵⁄𝐴) Nel caso appena esaminato si ha quindi: 7 1 7 𝑃(𝐴𝐵) = × = = 0.233 10 3 30 Vogliamo ora trovare la probabilità che estraendo due palline la prima sia bianca e la seconda nera ma nell’ipotesi che dopo aver estratto la prima pallina questa venga rimessa nell’urna in modo da ricreare le condizioni di partenza. Indichiamo sempre con A l’evento “la prima pallina è bianca” e con B l’evento “la seconda pallina è nera”. In questo caso gli eventi sono indipendenti e la probabilità di B condizionata ad A è la probabilità che si verifichi l’evento B; ossia si ha 3 𝑃(𝐵/𝐴) = 𝑃(𝐵) = 10 Il principio della probabilità composta nel caso di eventi indipendenti diventa 𝑃(𝐴𝐵) = 𝑃(𝐴) × 𝑃(𝐵) ossia è uguale al prodotto delle probabilità. Nel caso in esame si ha quindi: 7 3 21 𝑃(𝐴𝐵) = × = = 0.210 10 10 100 Distribuzioni teoriche di probabilità La variabile aleatoria (casuale) Qualsiasi caratteristica che può essere misurata o categorizzata è detta variabile. Se una variabile può assumere numerosi valori tali che qualsiasi risultato è determinato dal caso, essa è nota come variabile casuale. Si sono già visti esempi di variabili casuali. Le variabili casuali sono di solito rappresentate da lettere maiuscole quali X, Y e Z. Una variabile casuale discreta può assumere solo un numero finito o numerabile di risultati. Una variabile casuale continua può assumere qualsiasi valore 75 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 nell’ambito di uno specifico intervallo. Nella teoria della probabilità le variabili casuali sono chiamate variabili aleatorie perché stanno ad indicare un rischio calcolato, ma i due termini casuale ed aleatorio vengono usati indifferentemente. Distribuzioni di probabilità discrete Una variabile aleatoria (v.a.) X discreta è una quantità variabile che può assumere i valori 𝑥1 , 𝑥2 , … 𝑥𝑛 al verificarsi degli eventi 𝐸1 , 𝐸2 … 𝐸3 con probabilità rispettivamente 𝑝1 , 𝑝2 , … . 𝑝𝑛 tali che la loro somma sia 1, cioè 𝑛 ∑ 𝑝𝑖 = 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑛 = 1 1 L’insieme dei valori di una v.a. X con le rispettive probabilità p(X) viene chiamato distribuzione di probabilità discreta. Valore medio e varianza di una variabile statistica discreta Data una qualunque v.a. X che assume i valori 𝑥1 , 𝑥2 , … 𝑥𝑛 con probabilità rispettivamente 𝑝1 , 𝑝2 , … . 𝑝𝑛 si dice valore medio 𝜇, la somma dei valori 𝑥1 , 𝑥2 , … 𝑥𝑛 moltiplicati per le rispettive probabilità 𝑝1 , 𝑝2 , … . 𝑝𝑛 ; ossia 𝜇 = 𝑥1 𝑝1 + 𝑥2 𝑝2 + ⋯ . . +𝑥𝑛 𝑝𝑛 Il valore medio è quindi una media pesata sulle probabilità. La varianza di una qualunque v.a. discreta X che assume i valori 𝑥1 , 𝑥2 , … 𝑥𝑛 con probabilità rispettivamente 𝑝1 , 𝑝2 , … . 𝑝𝑛 e avente valore medio 𝜇, è definita come 𝜎 2 = ∑(𝑥𝑖 − 𝜇)2 𝑝𝑖 = (𝑥1 − 𝜇)2 𝑝1 + (𝑥2 − 𝜇)2 𝑝2 + ⋯ + (𝑥𝑛 − 𝜇)2 𝑝𝑛 Esempi di distribuzioni di probabilità discrete Esempi di variabili aleatorie discrete sono: il risultato del lancio di un dado oppure lancio di una moneta. Nel caso dell’evento “lancio di un dado” la distribuzione di probabilità è: X 1 2 3 4 5 6 p(X) 1/6 1/6 1/6 1/6 1/6 1/6 perché l’ evento può presentarsi con modalità 1, 2, 3, 4, 5, 6 ciascuna delle quali ha probabilità 1⁄6; mentre nel caso dell’evento “lancio di una moneta” la distribuzione di probabilità è X T C p(X) 1/2 1/2 perché l’evento può presentarsi secondo due modalità T e C ciascuna con probabilità 1⁄2. 76 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Per ogni distribuzione di probabilità la somma di tutte le probabilità dà la certezza cioè 1. Così: 1 1 1 1 1 1 𝑝= + + + + + =1 6 6 6 6 6 6 Utilizzando i principi fondamentali del calcolo delle probabilità si possono calcolare le distribuzioni di probabilità di un qualunque evento aleatorio. Calcoliamo come esempio la distribuzione di probabilità della variabile aleatoria “somma del punteggio di due dadi”. Per ottenere il punteggio 2 deve verificarsi il seguente evento composto “ punteggio 1 sul primo dado e punteggio 1 sul secondo” (lo chiameremo evento A). Ciascuno dei due eventi elementari ha probabilità 1⁄6; inoltre sono indipendenti perché il verificarsi del primo evento non altera la probabilità di verificarsi del secondo. Di conseguenza la probabilità che si verifichi l’evento A è il prodotto delle due probabilità ossia 1⁄36. 1 𝑃(𝐴) = 36 Il punteggio 3 può essere ottenuto mediante il seguente evento composto: “punteggio 2 sul primo dado e punteggio 1 sul secondo” ( lo chiameremo evento B). Ripetendo il ragionamento precedente si ottiene che la probabilità che si verifichi l’evento B è 1⁄36. 1 𝑃(𝐵) = 36 Il punteggio 3 può essere ottenuto anche mediante un altro evento composto: “punteggio 1 sul primo dado e punteggio 2 sul secondo dado” (lo chiameremo evento C). L’evento B e l’evento C sono incompatibili perché non possono verificarsi simultaneamente, quindi la probabilità che si verifichi o l’uno o l’altro è la somma delle due probabilità 2 𝑃(2) = 𝑃(𝐴) + 𝑃(𝐵) = 36 Ripetendo simili ragionamenti per tutti gli altri punteggi si ottiene la seguente distribuzione di probabilità X 2 3 4 5 6 7 8 9 10 11 12 p(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Distribuzione binomiale E’ la più importante distribuzione teorica di probabilità discreta. 77 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Supponiamo di lanciare una moneta due volte e di voler determinare la distribuzione di probabilità del numero di teste. I casi possibili sono in tutto 22 = 4 e sono i seguenti TT; TC; CT; CC Quindi la distribuzione di probabilità dell’evento X “numero di teste in due lanci” è la seguente: X 0 1 2 p(X) 1/4 1/2 1/4 Supponiamo ora di lanciare la moneta 3 volte. Il numero di combinazioni possibili per gli esiti generati dai 3 lanci sono 23 = 8 così distribuiti TTT; TTC; TCT; CTT; CCT; CTC; TCC, CCC La distribuzione di probabilità dell’evento X “numero di teste in tre lanci” è la seguente: X 0 1 2 3 p(X) 1/8 3/8 3/8 1/8 Siamo quindi in grado di calcolare la distribuzione di probabilità per un numero qualunque di lanci ma diventerebbe molto complicato elencare tutti gli esiti possibili per esempio per 10 lanci (210 = 1024). Seguire questa strada non è molto conveniente. Esiste invece un’espressione che ci permette di determinare la distribuzione di probabilità in tutte quelle situazioni in cui un evento può presentarsi secondo due modalità. Proprio perché le possibilità sono due, tale distribuzione viene chiamata distribuzione binomiale E’ la più importante distribuzione di probabilità per una variabile discreta. Descrive la seguente situazione generale. Consideriamo un evento che può presentarsi secondo due modalità: una la chiameremo successo, l’altra insuccesso. Supponiamo di fare 𝑛 prove indipendenti ognuna delle quali dà luogo ad uno dei due eventi mutuamente esclusivi, e in ogni prova l’evento abbia una probabilità costante 𝑝 di verificarsi. I valori del numero delle prove 𝑛 e della probabilità 𝑝 costante di verificarsi dell’evento caratterizzano la distribuzione binomiale nel senso che noti questi due valori è completamente determinata la distribuzione di probabilità binomiale. Vogliamo calcolare la probabilità che l’evento considerato si verifichi 𝑘 volte nelle 𝑛 prove considerate ossia si verifichino 𝑘 successi. Si può dimostrare che tale probabilità si calcola mediante la seguente espressione 𝑛! 𝑃(𝑛, 𝑘) = 𝑝𝑘 𝑞 𝑛−𝑘 𝑘! (𝑛 − 𝑘)! ove 𝑞 = 1 − 𝑝 è la probabilità di insuccesso. Esempio 1. 78 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Supponiamo di lanciare 4 volte una moneta. Calcoliamo la distribuzione di probabilità del numero di teste, ossia la probabilità di ottenere 𝑘 = 0,1,2,3,4 volte testa. Si ha 4! 1 0 1 4 1 4 𝑘=0 𝑃(4,0) = ( ) ( ) = ( ) = 0.063 = 6.3% 0! 4! 2 2 2 𝑘=1 4! 1 1 1 3 1 4 𝑃(4,1) = ( ) ( ) = 4 ( ) = 0.25 = 25% 1! 3! 2 2 2 𝑘=2 4! 1 2 1 2 1 4 𝑃(4,2) = ( ) ( ) = 6 ( ) = 0.38 = 38% 2! 2! 2 2 2 𝑘=3 4! 1 3 1 1 1 4 𝑃(4,3) = ( ) ( ) = 4 ( ) = 0.25 = 25% 3! 1! 2 2 2 𝑘=4 4! 1 4 1 0 1 4 𝑃(4,4) = ( ) ( ) = ( ) = 0.063 = 6.3% 4! 0! 2 2 2 Esempio 2. Calcolare la distribuzione di probabilità relativa all’evento “numero di volte in cui si presenta il punteggio 3 lanciando un dado 4 volte”. Anche in questo caso siamo di fronte ad una variabile discreta che si presenta con due modalità: punteggio 3 (successo) punteggio diverso da 3 (insuccesso). La probabilità 𝑝 (successo) di ottenere il punteggio 3 è 1⁄6 mentre la probabilità di insuccesso 𝑞 = 1 − 𝑝 è 5⁄6. 4! 1 0 5 4 𝑘=0 𝑃(4,0) = ( ) ( ) = 0.4822 0! 4! 6 6 𝑘=1 4! 1 1 5 3 𝑃(4,1) = ( ) ( ) = 0.3858 1! 3! 6 6 𝑘=2 4! 1 2 5 2 𝑃(4,2) = ( ) ( ) = 0.1157 2! 2! 6 6 𝑘=3 4! 1 3 5 1 𝑃(4,3) = ( ) ( ) = 0.0154 3! 1! 6 6 𝑘=4 4! 1 4 5 0 𝑃(4,4) = ( ) ( ) = 0.0008 4! 0! 6 6 79 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Valore medio e varianza Per ottenere il valor medio di successi 𝜇 in 𝑛 prove, se 𝑝 è la probabilità di successo costante in ogni prova, dobbiamo sommare i possibili valori che la variabile aleatoria può assumere - ossia il numero di successi attesi in una serie di 𝑛 prove - per le rispettive probabilità. Indicato con 𝑘𝑖 il numero di successi nella i-esima prova (ossia i valori 0,1,2,…𝑛 che la variabile casuale può assumere) e con 𝑃(𝑛, 𝑘𝑖 ) la probabilità che in 𝑛 prove si verifichino 𝑘𝑖 successi, il valor medio 𝜇 di una variabile che segue la distribuzione binomiale è 𝑛 𝜇 = ∑ 𝑘𝑖 ∙ 𝑃(𝑛, 𝑘𝑖 ) = 𝑘1 ∙ 𝑃(𝑛, 1) + 𝑘2 ∙ 𝑃(𝑛, 2) + ⋯ + 𝑘𝑛 ∙ 𝑃(𝑛, 𝑛) 𝑖=1 Si può dimostrare che tale espressione è uguale al prodotto delle prove 𝑛 per la probabilità di successo in ogni prova, ossia 𝑛 𝜇 = ∑ 𝑘𝑖 ∙ 𝑃(𝑛, 𝑘𝑖 ) = 𝑛𝑝 𝐾=1 Non dimostreremo questa espressione ma la verificheremo nel caso particolare del lancio di una moneta per 4 volte ossia calcoliamo il numero medio di teste atteso lanciando una moneta 4 volte. Tenendo presente i calcoli precedentemente svolti si ha 4 1 4 1 4 1 4 1 4 1 4 𝜇 = ∑ 𝑘𝑖 ∙ 𝑃(𝑛, 𝑘𝑖 ) = 0 ∙ ( ) + 1 ∙ 4 ( ) + 2 ∙ 6 ( ) + 3 ∙ 4 ( ) + 4 ∙ ( ) 2 2 2 2 2 𝑖=1 1 4 = 32 ( ) = 2 2 D’altra parte, se si calcola il valore medio mediante il prodotto delle prove 𝑛 per la probabilità di successo in ogni prova si ha: 1 𝜇 = 𝑛𝑝 = 4 = 2 2 Il valore medio rappresenta il valore atteso perché ci si aspetta che in 4 lanci di una moneta il valore medio dei successi sia 2. La distribuzione binomiale, come tutte le distribuzioni, oltre ad un valore medio ha una deviazione standard. Applicando la definizione di varianza di una qualunque distribuzione discreta alla generica distribuzione binomiale relativa ad 𝑛 prove con probabilità di successo 𝑝 costante in ogni prova risulta si ha 80 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝜎 2 = ∑(𝑘𝑖 − 𝜇)2 𝑃(𝑛, 𝑘𝑖 ) = (𝑘1 − 𝜇)2 𝑃(𝑛, 𝑘1 ) + (𝑘2 − 𝜇)2 𝑃(𝑛, 𝑘2 ) + ⋯ + (𝑘𝑛 − 𝜇)2 𝑃(𝑛, 𝑘𝑛 ) Si può dimostrare che questa espressione è equivalente a 𝜎 2 = 𝑛𝑝𝑞 ossia la deviazione standard è calcolabile mediante l’espressione 𝜎 = √𝑛𝑝𝑞 Non dimostreremo questa espressione ma la verificheremo nel caso particolare del lancio di una moneta per 4 volte ossia calcoliamo la deviazione standard di questa distribuzione tenendo presente che il valore medio è 𝜇 = 2 e i calcoli precedentemente svolti. Risulta 1 4 1 4 1 4 2 2 2 2 𝜎 = (0 − 2) ∙ ( ) + (1 − 2) ∙ 4 ∙ ( ) + (1 − 2) ∙ 4 ∙ ( ) + (2 − 2)2 ∙ 6 2 2 2 4 4 1 4 1 1 16 ∙ ( ) + (3 − 2)2 ∙ 4 ∙ ( ) + (4 − 2)2 ∙ ( ) = =1 2 2 2 16 Se utilizziamo l’espressione equivalente si ottiene 1 1 𝜎 2 = 𝑛𝑝𝑞 = 4 ∙ ∙ = 1 2 2 Distribuzioni di probabilità continue Una variabile aleatoria X, quando segue una distribuzione binomiale può assumere solo valori interi. In circostanze diverse però i risultati di una variabile casuale possono non essere limitati a valori interi, ossia la variabile aleatoria può essere continua. A differenza delle variabili discrete, le variabili continue possono assumere qualsiasi valore entro un certo intervallo e tra due qualsiasi valori esiste un numero infinito di altri valori. La distribuzione di probabilità continua viene descritta con una curva continua e la funzione che la descrive è chiamata densità di probabilità. A differenza delle distribuzioni di probabilità discrete, l’altezza della curva in corrispondenza di un certo valore della variabile casuale, non fornisce la probabilità di ottenere proprio quel valore, ma indica la probabilità di ottenere quel valore entro un certo intervallo della variabile casuale. Questa probabilità è data dall’area della regione sottesa dalla curva tra gli estremi dell’intervallo. Per esempio la probabilità che un singolo valore della variabile casuale, scelto casualmente sia compreso tra due numeri a e b è uguale all’area della regione sottesa dalla curva tra a e b. Nel caso di distribuzioni di probabilità continue, le aree sottese da queste distribuzioni sono quindi rilevanti, non le altezze. ( Questo concetto è già stato visto durante la trattazione degli istogrammi.) L’area della regione sottesa dalla curva tra a e b si calcola integrando la funzione densità di probabilità tra i valori a e b. L’integrazione 81 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 è l’analogo per le variabili continue della somma, quindi integrare la funzione di densità di probabilità tra i valori della variabile casuale compresi tra a e b analogo a sommare la probabilità della variabile aleatoria per tutti i valori compresi tra a e b. ( Attenzione non ci pensiamo a calcolare gli integrali. Il simbolo di integrale viene usato solo per correttezza formale, ma come si vedrà non useremo mai un integrale) Per ogni distribuzione di probabilità, l’area della regione sottesa dall’intera curva di una qualunque funzione di densità di probabilità continua è sempre uguale a 1 perché dà la certezza che l’evento considerato si verifichi. Se 𝑓(𝑥) e una generica funzione densità di probabilità, si ha quindi +∞ ∫ 𝑓(𝑥)𝑑𝑥 = 1 −∞ Valore medio e varianza di una variabile statistica continua Data una variabile continua con funzione di densità di probabilità 𝑓(𝑥), si definisce valor medio 𝜇 di tale variabile è +∞ 𝜇=∫ 𝑥𝑓(𝑥)𝑑𝑥 −∞ E’ la stessa definizione data per la variabile discreta ove al posto della somma si è sostituito un integrale e al posto della probabilità si è sostituito la densità di probabilità. In analogia con quanto visto per la variabile casuale discreta, si definisce varianza di una variabile continua con densità di probabilità 𝑓(𝑥) e valor medio 𝜇 il seguente numero: 2 +∞ 𝜎 =∫ (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥 −∞ La distribuzione normale La distribuzione continua più comune è la distribuzione normale nota anche come distribuzione di Gauss. E’ una distribuzione teorica di notevole interesse pratico per le sue proprietà matematiche verranno utilizzate nei problemi d’inferenza statistica. La distribuzione normale è specificata dalla seguente funzione di densità di probabilità: 1 𝑥−𝜇 2 1 − ( ) 𝑓(𝑥) = 𝑒 2 𝜎 𝜎√2𝜋 ove 𝜋 ed 𝑒 sono costanti i cui valori approssimati sono rispettivamente 3.14159 e 2.71828, 𝜎 e 𝜇 sono due parametri che rappresentano la deviazione standard e il valore medio della distribuzione continua. L’equazione particolare di una determinata curva normale può quindi essere ottenuta in base ai valori della media e della 82 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 deviazione standard; questo significa che è possibile ottenere diverse curve normali a seconda dei valori di 𝜇 e 𝜎. Ogni curva normale possiede le seguenti caratteristiche: - è simmetrica rispetto al punto di ascissa 𝜇 in corrispondenza del quale si trovano la media aritmetica, la moda e la mediana della distribuzione; - è asintotica rispetto all’asse delle ascisse (cioè si avvicina all’asse delle ascisse senza mai toccarlo) e quindi i valori delle ascisse variano da −∞ a +∞; - è crescente da −∞ a 𝜇 e decrescente da 𝜇 a +∞; - l’area racchiusa dall’intera curva è uguale a 1. In base a queste proprietà possiamo dire che la distribuzione normale ha il suo valore massimo in corrispondenza della media e la media, la mediana e la moda coincidono. E’ possibile definire alcune regole pratiche relative alle aree delle regioni sottese dalla curva normale. Circa i 2/3 (più precisamente il 68.3%) dell’area sottesa dalla curva normale corrispondono ad un intervallo individuato da una deviazione standard dalla media. In altre parole la probabilità che un valore della variabile aleatoria sia compreso nell’intervallo tra 𝜇 − 𝜎 e 𝜇 + 𝜎 è 0.683. In termini matematici se 𝑓(𝑥) e la generica funzione densità di probabilità con media 𝜇 e deviazione standard 𝜎, si ha quindi 𝜇+𝜎 ∫ 𝑓(𝑥)𝑑𝑥 = 0.683 𝜇−𝜎 Il 95% della probabilità di una distribuzione normale è compreso in un intervallo individuato dal doppio della deviazione standard dalla media (più precisamente da 1.96 deviazioni standard. In altre parole, la probabilità che un valore della variabile aleatoria sia compresa tra 𝜇 − 1.96𝜎 e 𝜇 + 1.96𝜎 è 0.95. 𝜇+1.96𝜎 ∫ 𝑓(𝑥)𝑑𝑥 = 0.95 𝜇−1.96𝜎 Molte variabili casuali (ad esempio statura, peso) sono distribuite normalmente e se si conoscono la media e la deviazione standard delle loro distribuzioni siamo in grado di stabilire la percentuale dei casi compresi in un determinato intervallo. Questo fatto è particolarmente importante nell’ambito delle rilevazioni campionarie. 83 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Distribuzione normale standardizzata E’ difficile calcolare la probabilità che una variabile aleatoria che segue una distribuzione normale assuma un particolare valore perché richiede il calcolo di un’area ossia l’integrazione di una funzione complicata. D’altra parte è impossibile tabulare l’area associata ad ogni singola distribuzione normale perché abbiamo un numero infinito di distribuzioni normali, una per ogni coppia di 𝜇 e 𝜎. Vediamo come risolvere il problema del calcolo delle aree. Supponiamo che X sia una variabile casuale normale con media 2 e deviazione standard 0.5. Sottraendo 2 da X otterremo una variabile casuale normale con media 0 e l’intera distribuzione risulterebbe spostata a sinistra di due unità. Dividendo poi per 0.5 l’ampiezza della distribuzione è alterata e si ha una variabile casuale normale con deviazione standard 1. 84 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Pertanto se X è una variabile casuale normale con media 2 e deviazione standard 0.5, allora 𝑋−2 𝑍= 0.5 è una variabile casuale con medio 0 e deviazione standard 1. Generalizzando: per standardizzare una qualunque variabile aleatoria X con media 𝜇 e deviazione standard 𝜎, occorre sottrarre a X la sua media e dividere poi per la sua deviazione standard. In termini matematici 𝑋−𝜇 𝑍= 𝜎 e questa nuova variabile ha media 0 e scarto quadratico medio 1 cioè 𝜇𝑧 = 0 𝜎𝑧 = 1 qualunque sia la funzione di densità di probabilità. E’ chiamata variabile normale (o casule) standardizzata. Questa trasformazione permette di riportare una qualunque distribuzione normale con media 𝜇 e deviazione standard 𝜎 ad una distribuzione avente media 0 e deviazione standard 1. Tale distribuzione è chiamata distribuzione normale standardizzata e per questa distribuzione sono state compilate delle tavole che ci permettono di determinare la probabilità che interessano ciascun caso concreto.(quindi non calcoleremo nessun integrale) Come si leggono le tavole della normale standard La prima colonna a sinistra della tavola riporta i valori z della variabile Z (avente media 0 e deviazione standard 1) con la prima cifra decimale dei valori z; all’interno della tavola all’incrocio della riga e della colonna che identificano un particolare valore z con due cifre decimali, si legge la probabilità (area) che Z assuma valori 85 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 inferiori o uguali a quel valore z. Le caratteristiche di Z, in particolare la simmetria della curva rispetto ad 0 e il fatto che l’area totale sotto la curva vale 1, fanno si che questi valori sono sufficienti per calcolare la probabilità di qualunque intervallo. Esempi di calcolo di probabilità di un qualunque intervallo di una qualunque normale Supponiamo per esempio che da dati ufficiali rilevati sulla popolazione normale, risulti che il valore medio dell’HDL-colesterolo è 𝜇 = 57𝑚𝑔/100𝑚𝐿 con una deviazione standard 𝜎 = 5 𝑚𝑔/100 𝑚𝐿. Sapendo che la distribuzione è di tipo normale, vogliamo detrminare: - la percentuale di valori HDL-colesterolo superiori a 60mg /100mL; - la percentuale di valori HDL-colesterolo compresi tra 40 e 45 mg/100 mL; - la percentuale di valori HDL-colesterolo compresi tra 55 e 58mg /100 mL. Calcoliamo il valore della variabile Z quando la variabile X ha un valore pari a 60mg /100mL. Si ha 𝑚𝑔 60 − 57 𝑥 = 60 𝑧= = 0.60 100mL 5 Quindi calcolare la percentuale dei valori di che sono maggiori di 60 mg/100 mL (ossia l’area sottesa dalla distribuzione normale avente 𝜇 = 57𝑚𝑔/100𝑚𝐿 e 𝜎 = 5 𝑚𝑔/100 𝑚𝐿 per valori della 𝑥 ≥ 60 𝑚𝑔⁄100𝑚𝐿) è equivalente a calcolare la percentuale dei valori della distribuzione normale standardizzata per valori della variabile z maggiori di 0.6 (ossia l’area sottesa dalla distribuzione di densità di probabilità avente 𝜇 = 0 e 𝜎 = 1 per valori della variabile 𝑧 ≥ 0.6). Dalla tabella si ottiene che quest’ultima area è 0.2743 ossia è il 27.43% del totale. Tale percentuale è anche quella dei valori HDL-colesterolo superiori a 60mg/100 mL. Analogamente per calcolare il valore della percentuale dei valori della curva normale compresi tra 40 e 45 mg/mL, dobbiamo calcolare i valori corrispondenti della variabile normale standardizzata e, successivamente, utilizzando i valori tabulati di tale distribuzione, calcolare l’area compresa tra gli estremi calcolati. Calcoliamo i valori della variabile normale standardizzata corrispondenti ai valori della variabile normale dati dal problema. Si ha: 40 − 57 𝑥1 = 40 𝑚𝑔⁄100𝑚𝐿 𝑧1 = = −3.4 5 45 − 57 𝑥2 = 45 𝑚𝑔⁄100𝑚𝐿 𝑧2 = = −2.4 5 La tabella fornisce l’ area 𝐴1 da 2.4 all’infinito e l’area 𝐴2 da 3.4 all’infinito. Risulta 𝐴1 = 0.0082 𝐴2 = 0.0003 86 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 e, di conseguenza l’area cercata ossia la percentuale tra 2.4 e 3.4 è 𝐴 = 𝐴1 − 𝐴2 = 0.0082 − 0.0003 = 0.0079 Tale area dà la percentuale dei valori della variabile normale standardizzata compresi tra 𝑧1 e 𝑧2 e quindi anche quella tra 𝑥1 e 𝑥2 . Calcoliamo infine i valori della distribuzione normale compresi tra 𝑥1 = 55 𝑚𝑔⁄100𝑚𝐿 e 𝑥2 = 58 𝑚𝑔⁄100𝑚𝐿. I valori corrispondenti della variabile normale standardizzata sono 55 − 57 𝑥1 = 55 𝑚𝑔⁄100𝑚𝐿 𝑧1 = = −0.40 5 58 − 57 𝑥2 = 58 𝑚𝑔⁄100𝑚𝐿 𝑧1 = = 0.20 5 L’area 𝐴1 compresa tra 𝑧1 e l’infinito è 0.0446 e quindi l’area 𝐴2 compresa tra 𝑧0 = 0 e 𝑧1 = −0.40 è 𝐴2 = 0.5 − 0.3446 = 0.1554 L’area 𝐴3 compresa tra 𝑧2 e l’infinito è 0.4207 e quindi l’area 𝐴4 compresa tra 𝑧0 = 0 e 𝑧2 = 0.20 è 𝐴4 = 0.5 − 0.4207 = 0.0793. Di conseguenza l’area compresa tra 𝑧1 e 𝑧2 è 𝐴 = 𝐴3 + 𝐴4 = 0.1554 + 0.0793 = 0.2347 Tale area è equivalente a quella compresa tra 𝑥 e 𝑥2 e quindi fornisce la percentuale dei valori cercati relativi alla variabile normale. Alcuni intervalli tipici Molto interessante per l’ inferenza statistica e per la teoria della stima è il problema opposto. Vogliamo calcolare per quali valori della variabile normale standardizzata l’area su entrambe le code di tale distribuzione è il 5% o 1% del totale. Poiché la percentuale dei valori su entrambe le code deve essere 0.05 ed essendo la distribuzione normale simmetrica, l’area staccata su ogni coda deve essere 0.025. Tale area si ottiene integrando la funzione di distribuzione normale standardizzata tra 1.96 e l’infinito 2 +∞ −𝑧 2 ∫1.96 𝑒 𝑑𝑧 = 0.025 √2𝜋 Possiamo quindi affermare che i valori della variabile normale standardizzata che staccano il 5% dell’area totale sono 𝑧1 = −1.96 𝑧2 = 1.96 Naturalmente l’area della normale standardizzata per −1.96 ≤ 𝑧 ≤ 1.96 è 0.95 ossia è il 95% dell’area totale. Questo procedimento è generale e quindi applicandolo nel caso dell’1% si ha che i valori di z sono ±2.58 ossia i valori della variabile normale standardizzata che staccano l’ 1% dell’area totale sono 𝑧1 = −2.58 𝑧2 = 2.58 87 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Naturalmente l’area della normale standardizzata per −2.58 ≤ 𝑧 ≤ 2.58 è 0.99 ossia è il 99% dell’area totale. Il valore di z che stacca, ad esempio, l’1% su una coda soltanto è diverso da valori precedenti. Infatti, applicando lo stesso procedimento si ottiene 𝑧 = 2.32 Questo per la variabile normale standardizzata. I valori della variabile X avente media 𝜇 e deviazione standard 𝜎 che staccano il 5% dell’area totale sono, di conseguenza, 𝑋−𝜇 −1.96 ≤ ≤ 1.96 𝜎 e quindi 𝜇 − 1.96𝜎 ≤ 𝑋 ≤ 𝜇 + 1.96𝜎 Analogamente nel caso dell’1%, si ha 𝜇 − 2.58𝜎 ≤ 𝑋 ≤ 𝜇 + 2.58 Esercizi Esercizio 1 Si spieghi la differenza fra eventi mutuamente esclusivi ed eventi indipendenti Due eventi A e B che non possono verificarsi contemporaneamente sono definiti mutuamente esclusivi. Due eventi A e B sono indipendenti quando il verificarsi di A non ha alcuna influenza sul verificarsi o non verificarsi di B Esercizio 2 Quali sono i parametri che definiscono una distribuzione binomiale. I parametri che definiscono una distribuzione binomiale sono il numero delle prove 𝑛 e la probabilità di successo 𝑝 (costante) in ogni prova. Esercizio 3 Quali sono le tre assunzioni associate alla distribuzione binomiale? Si ha un numero fisso 𝑛 di prove ognuna delle quali dà luogo a due risultati mutuamente esclusivi, il successo e l’insuccesso In ogni prova la probabilità di successo (insuccesso) è costante. I risultati delle 𝑛 prove sono mutuamente esclusivi. 88 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Esercizio 4 Molte coppie preferirebbero avere un figlio di ciascun sesso. La probabilità di avere un maschio è 0.512, mentre la probabilità di avere una femmina è 0.488.Se la coppia decide di avere soltanto due figli, qual è la probabilità di avere un figlio di ciascun sesso? Qual è la probabilità che nasca almeno una femmina? Calcoliamo la probabilità di avere un figlio di ciascun sesso in una famiglia con due figli. Indichiamo con M l’evento “nascita di un maschio” e con F l’evento “nascita di una femmina”. I due eventi sono incompatibili e le sequenze alternative che determinano la nascita di un maschio e di una femmina sono 𝑀𝐹 𝐹𝑀 Vogliamo determinare la probabilità che si verifichi la prima oppure la seconda sequenza perché entrambe producono un maschio e una femmina. La probabilità 𝑃1 della prima sequenza è il prodotto delle probabilità di ogni evento, perché gli eventi sono indipendenti. Quindi 𝑃1 = 0.512 × 0.488 = 0.250 In modo analogo si procede per il calcolo della probabilità della seconda sequenza e si ottiene 𝑃2 = 0.488 × 0.512 = 0.250 La probabilità che si verifichi la prima oppure la seconda sequenza è la somma delle probabilità delle due sequenze alternative e si ha 𝑃 = 𝑃1 + 𝑃2 = 0.250 + 0.250 = 0.500 Calcoliamo ora la probabilità che nasca almeno una femmina in una famiglia con due figli. Le sequenze alternative sono: 𝑀𝐹 𝐹𝑀 𝐹𝐹 e le rispettive probabilità sono: 𝑃1 = 0.512 × 0.488 = 0.250 𝑃2 = 0.488 × 0.512 = 0.250 𝑃3 = 0.488 × 0.488 = 0.238 La probabilità che in una famiglia con due figli ci sia almeno una femmina è 𝑃(𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑓𝑒𝑚𝑚𝑖𝑛𝑎) = 0.250 + 0.250 + 0.238 = 0.738 Alternativamente si poteva utilizzare la distribuzione binomiale per calcolare la probabilità che ad esempio in una famiglia con due figli ci sia almeno una figlia. Dobbiamo trovare il numero delle prove 𝑛 e la probabilità costante in ogni prova. Abbiamo un evento che può verificarsi secondo due modalità e indichiamo l’evento “nascita di una femmina” come evento successo e quindi la sua probabilità è 0.488. La famiglia ha due figli e quindi il numero delle prove è 2. La probabilità di avere almeno un successo su due prove è la somma delle probabilità di avere un successo con la probabilità di avere due successi ossia 2! 2! 𝑃(𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑓𝑒𝑚𝑚𝑖𝑛𝑎) = 0.488 × 0.512 + 0.4882 × 0.5120 1! × 1! 2! × 0! = 0.738 89 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Esercizio 5 Quali delle seguenti caratteristiche possiamo associare alla distribuzione normale? 1) simmetria; 2) la media è uguale alla mediana; 3) La media è uguale alla moda 4) asimmetria positiva. a) solo 1, 2 e 3 b) solo 1 e 2 c) solo 2 e 4 d) solo 4 e) tutte le 4 caratteristiche. La distribuzione normale è simmetrica e la media, la mediana e la moda coincidono. Di conseguenza la risposta corretta è la a) Esercizio 6 Una distribuzione normale ha media 15 e deviazione standard 3. Quale intervallo include circa il 95% di probabilità? a) 12-18 b) 9-21 c) 6-34 d) 3-27 e) nessuna delle precedenti risposte. L’intervallo che comprende circa il 95% dei valori è quelle compreso tra il valore medio e ±2𝜎. Nel nostro caso l’intervallo ha come estremi 15 − 2 ∙ 3 = 9 e 15 + 2 ∙ 3 = 21. Quindi la risposta corretta è la b). Per ottenere l’intervallo esatto bisogna sostituire 1.96 al posto di 2 e quindi si avrebbe 15 − 1.96 ∙ 3 = 9.12 e 15 + 1.96 ∙ 3 = 20.88. 90 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 91 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Teoria elementare del campionamento La teoria dei campioni è lo studio delle relazioni esistenti tra una popolazione ed i campioni estratti dalla popolazione stessa Tale teoria è di grande importanza perché permette di inferire le proprietà di una popolazione quali la media, la varianza, la deviazione standard e così via (che chiameremo genericamente parametri) sulla base di osservazioni relative ad un campione (teoria della stima) oppure permette di estendere, in termini probabilistici, a tutta la popolazione le conclusioni relative al campione stesso (verifica di ipotesi). Distribuzione campionaria delle medie Effettuare un campionamento di un parametro di una popolazione, per esempio effettuare il campionamento della media, significa estrarre da una data popolazione avente media 𝜇 e deviazione standard 𝜎, un campione casuale di 𝑛 osservazioni e calcolare la media di questo campione. Indichiamo tale media con ̅̅̅. 𝑥1 Selezioniamo poi un secondo campione casuale di 𝑛 osservazioni e calcoliamo la media del nuovo campione. Indichiamo tale media con ̅̅̅. 𝑥2 Se eseguiamo questa procedura all’infinitoselezionando tutti i possibili campioni di dimensione 𝑛 e calcolando le loro medieotterremo una serie di valori costituiti da medie campionarie. Ciascuna media della serie è considerata una singola osservazione e la distribuzione di queste medie è denominata la distribuzione campionaria delle medie di campioni di dimensione 𝑛. Dunque la variabile statistica campionata è la media. La distribuzione campionaria delle media calcolata per campioni di dimensione 𝑛, ha tre importanti proprietà: 1) la media della distribuzione campionaria è uguale alla media 𝜇 della popolazione. 𝜇𝑥̅ = 𝜇 2) La deviazione standard della distribuzione delle medie campionarie è chiamata errore standard della media è uguale a 𝜎 𝜎𝑥̅ = √𝑛 3) La forma della distribuzione campionaria è approssimativamente normale, posto che 𝑛 sia sufficientemente grande, ossia la variabile statistica “media” ha una distribuzione campionaria normale se l’ampiezza del campione è sufficientemente grande. 92 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Dimostrare le prime due proprietà per una popolazione infinitamente grande è molto complesso. Le dimostreremo nel caso di una popolazione finita. Supponiamo dunque di avere una variabile statistica che può assumere soltanto i seguenti cinque valori: 15 20 25 30 35 Su questa popolazione calcoliamo la media e la varianza. Si ha: ∑51 𝑥𝑖 15 + 20 + 25 + 30 + 35 𝜇= = = 25 5 5 ∑51(𝑥𝑖 − 𝜇)2 102 + 52 + 52 + 102 𝜎 = = = 50 5 5 2 Da questa popolazione finita, fissata la dimensione del campione , potremo ottenere un certo numero di campioni. Su ciascun campione possono essere calcolati diversi parametri; ci limiteremo ai parametri più significativi: la media e la varianza. L’insieme delle medie di tutti i possibili campioni costituisce la distribuzione campionaria delle medie, così come l’insieme delle varianze rappresenta la distribuzione campionaria delle varianze. Supponiamo di mettere ogni singolo valore della variabile casuale all’interno di una pallina e mettere le cinque palline in un’urna. Estraiamo una pallina alla volta , osserviamo il numero, la rimettiamo nell’urna e procediamo all’estrazione di un’altra pallina. (estrazione bernoulliana) Immaginiamo di estrarre da questa popolazione campioni di ampiezza 𝑛 = 2. Nella tabella successiva viene rappresentata la distribuzione campionaria della media e della varianza. N 1 2 3 4 5 6 7 8 9 10 11 Campioni estratti media varianza 15−15 15−20 15− 25 15−30 15 −35 20 −15 20− 20 20 −25 20 −30 20−35 25 −15 15 17.5 20 22.5 25 17.5 20 22.5 25 27.5 20 0.00 6.25 25.00 56.25 100.00 6.25 0.00 6.25 25.00 56.25 6.25 93 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 12 13 14 15 16 17 18 19 20 21 22 23 24 25 25− 20 25− 25 25− 30 25− 35 30 −15 30−20 30−25 30−30 30−35 35−15 35−20 35−25 35−30 35−35 22.5 25 27.5 30 22.5 25 27.5 30 32.5 25 27.5 30 32.5 35 6.25 0.00 6.25 25.00 56.25 25.00 6.25 0.00 6.25 100.00 56.25 25.00 6.25 0.00 La distribuzione delle frequenze è la seguente Media Frequenze assolute Frequenze relative 15 1 0.04 17.5 2 0.08 20 3 0.12 22.5 4 0.16 25 5 0.20 27.5 4 0.16 30 3 0.12 32.5 2 0.08 35 1 0.04 Su questa distribuzione calcoliamo la media e la varianza campionaria Si ha 𝜇𝑥̅ 15 + 17.5 × 2 + 20 × 3 + 22.5 × 4 + 25 × 5 + 27.5 × 4 + 30 × 3 + 32.5 × 2 + 35 = 25 = 25 𝜎𝑥̅2 102 + 7.52 × 2 + 52 × 3 + 2.52 × 4 + 02 × 5 + 2.52 × 4 + 52 × 3 + 7.52 × 2 + 102 = 25 = 25 94 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Se ora confrontiamo i valori della popolazione con quelli della distribuzione campionaria otteniamo le seguenti relazioni: 𝜇𝑥̅ = 𝜇 ossia la media della popolazione è uguale alla media della distribuzione campionaria; e 𝜎2 2 𝜎𝑥̅ = 𝑛 cioè la varianza della distribuzione campionaria è uguale alla varianza della popolazione diviso l’ampiezza del campione. L’enunciato della terza proprietà è noto come teorema del limite centrale. Questo risultato si applica ad ogni popolazione con una deviazione standard finita, indipendentemente dalla forma della distribuzione originaria. Se la distribuzione originaria è normale, anche la distribuzione della media campionaria avrà una distribuzione normale. Più la popolazione originaria si allontana da una distribuzione normale , però, maggiore sarà il valore di 𝑛 necessario ad assicurarsi la normalità della distribuzione campionaria. Nel caso in cui la popolazione è bimodale o notevolmente asimmetrica, è spesso sufficiente un campione di dimensione uguale a 30. Il teorema del limite centrale è molto potente e si applica non solo alle variabili casuali continue ma anche alle discrete. In conclusione per ampiezze del campione sufficientemente elevate, la distribuzione campionaria delle medie è bene approssimata da una distribuzione normale con media e varianza date dalle espressioni viste precedentemente. Di conseguenza la quantità 𝑥̅ − 𝜇 𝑧= 𝜎 √𝑛 definisce una variabile casuale normale standardizzata ossia con media 1 e deviazione standard 0. Distribuzione campionaria delle proporzioni Supponiamo ora di avere una popolazione relativa a un carattere nominale binomiale (successo/insuccesso). Per esempio la popolazione può essere costituita da pazienti ai quali è stato diagnosticato un cancro al polmone, e indichiamo la sopravvivenza a 5 anni con 1 e la morte con 0. Poiché la popolazione è di tipo binomiale, tenendo presente le proprietà di tale distribuzione teorica, si ha che i parametri che la definiscono sono 𝜇=𝑝 𝜎 2 = 𝑝𝑞 Supponiamo di selezionare dalla popolazione un campione casuale di dimensione 𝑛 e indichiamo la proporzione di successi nel campione con ̂. 𝑝1 Allo stesso modo, 95 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 possiamo selezionare un secondo campione di dimensione 𝑛 e indicare la proporzione di successi con 𝑝 ̂. 2 Se trattassimo ogni proporzione come una unica osservazione, la loro distribuzione collettiva è una distribuzione campionaria delle proporzioni per campioni di dimensione 𝑛. La distribuzione campionaria delle proporzioni ha le seguenti tre proprietà: 1) la media 𝜇 della distribuzione campionaria è la media 𝑝 della popolazione 𝜇=𝑝 2) la deviazione standard della distribuzione campionaria delle proporzioni 𝜎𝑝̂ è detta errore standard di una proporzione ed è uguale a 𝑝𝑞 𝜎𝑝̂ = √ 𝑛 3) La forma della distribuzione campionaria è approssimativamente normale posto che 𝑛 sia sufficientemente grande. Poiché la distribuzione campionaria delle proporzioni è approssimativamente normale con media 𝑝 e deviazione standard √𝑝𝑞⁄𝑛, sappiamo che 𝑍= 𝑝̂ − 𝑝 𝑝𝑞 𝑛 è normalmente distribuita con media 0 e deviazione standard 1. Pertanto possiamo utilizzare la tabella della distribuzione normale standardizzata per fare delle inferenze sul valore della proporzione di una popolazione. √ Intervalli di confidenza Abbiamo esaminato le proprietà teoriche della distribuzione campionaria delle medie e della distribuzione campionaria delle proporzioni. Applichiamo ora questi risultati al processo dell’inferenza statistica. Il nostro primo obiettivo è la stima di alcune caratteristiche di una variabile casuale continua – come la sua media o la varianzautilizzando le osservazioni contenute in un campione. Stima puntuale e stima intervallare Di solito si utilizzano due metodi di stima. Il primo è denominato stima puntuale ed implica il calcolo di un singolo numero per stimare il parametro in esame. Supponiamo di avere estratto un campione bernoulliano di ampiezza 𝑛, per fare una 96 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 stima puntuale della media 𝜇 della popolazione si utilizza la media 𝑥̅ del campione, mentre per fare una stima puntuale della varianza si utilizza la varianza campionaria corretta. 1 Media campionaria (stima) 𝑥̅ = ∑𝑛𝑖 𝑥𝑖 𝑛 Varianza campionaria corretta 𝑠2 = 1 𝑛−1 ∑𝑛1(𝑥𝑖 − 𝑥̅ )2 Inoltre in ambito biomedico sono interessanti i fenomeni categoriali in special modo quelli dicotomici cioè quelli che si manifestano con due sole modalità contrarie ed esaustive: si/no, favorevole/contrario, sopravvissuto/non sopravvissuto. L’oggetto della stima in questi casi è la percentuale di casi che è classificabile in una data categoria. Oggetto dell’inferenza in questi casi è la percentuale di una data categoria.. Si sceglie l’ampiezza del campione, si estrae il campione e il risultato sarà un insieme di unità statistiche classificabili o non classificabili nella categoria che ci interessa. La stima per l’ignota frequenza relativa p di soggetti classificabili nella categoria di interesse è la corrispondente frequenza relativa nel campione cioè è la frequenza relativa campionaria che indicheremo con 𝑝̂ (pi cappello). Stima della percentuale p 1 𝑝̂ = ∑𝑛𝑖 𝑥𝑖 𝑛 ove la somma dei dati campionari ∑𝑛𝑖 𝑥𝑖 ci da il numero di soggetti campionati che, fra gli n estratti, sono classificabili nella categoria che ci interessa. Dividendo tale somma per l’ampiezza del campione si ottiene la stima cercata. In formule la stima 𝑝̂ ha allora la stessa forma della media campionaria. Tuttavia una stima puntuale non fornisce alcuna informazione sulla vicinanza della stima al valore vero della popolazione. Pertanto, spesso, si preferisce un secondo metodo, denominato stima intervallare. Questa tecnica fornisce un range di possibili valori entro i quali si ritiene sia compreso il valore del parametro in esame ( in questo caso la media della popolazione) con una certa probabilità, con un certo grado di confidenza. Questo range di valori è denominato intervallo di confidenza. Intervallo di confidenza per la media 𝜇 con popolazione normale e varianza nota Per calcolare un intervallo di confidenza per 𝜇 ci basiamo sulla distribuzione campionaria della media. Data una variabile casuale X con media 𝜇 e deviazione standard 𝜎, il teorema del limite centrale afferma che 97 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑋̅ − 𝜇 𝜎 √𝑛 ha una distribuzione normale standardizzata se X è normalmente distribuita e una distribuzione normale standardizzata approssimativa se non lo è, ma 𝑛 è sufficientemente grande. Per una variabile casuale normale standardizzata, il 95% delle osservazioni è compreso tra −1.96 e 1.96. In altre parole, la probabilità che Z assuma un valore compreso tra −1.96 e 1.96 è il 95% cioè 𝑍= 𝑃(−1.96 ≤ 𝑍 ≤ 1.96) = 0.95 Allo stesso modo, possiamo sostituire a Z la sua espressione e scrivere: 𝑥̅ − 𝜇 𝜎 ≤ 1.96) = 0.95 √𝑛 Moltiplicando i tre termini della disuguaglianza per l’errore standard 𝜎⁄√𝑛 e sottraendo poi 𝑥̅ da ciascun termine, si ha 𝜎 𝜎 𝑃 (−1.96 − 𝑥̅ ≤ −𝜇 ≤ 1.96 − 𝑥̅ ) = 0.95 √𝑛 √𝑛 Infine moltiplichiamo per −1, tenendo presente che quando si moltiplica una disuguaglianza per un numero negativo si inverte la direzione della disuguaglianza, e si ottiene 𝜎 𝜎 𝑃 (𝑥̅ − 1.96 ≤ 𝜇 ≤ 𝑥̅ + 1.96 ) = 0.95 √𝑛 √𝑛 𝑃 (−1.96 ≤ Le quantità 𝑥̅ − 1.96 𝜎 √𝑛 e 𝑥̅ + 1.96 𝜎 √𝑛 sono i limiti dell’intervallo di confidenza al 95% per la media 𝜇 della popolazione. I valori −1.96 𝑒 1.96 sono chiamati “valori critici al 5%” , il 95% e chiamato “livello di fiducia” e il 5% “livello di significatività”. In conclusione l’intervallo (𝑥̅ − 1.96 𝜎 , 𝑥̅ + 1.96 𝜎 ) √𝑛 √𝑛 ha una probabilità del 95% di comprendere la media reale 𝜇 della popolazione. Si faccia attenzione che la probabilità riguarda l’intervallo non la media vera, cioè non diciamo che esiste una probabilità del 95% che la media vera sia compresa tra i sopraddetti limiti - questa affermazione è sbagliata perché la media della popolazione è un valore fisso, non è una variabile aleatoria, e non può essere associato ad una probabilità- ma diciamo che siamo fiduciosi al 95% che la media vera sia compresa tra i limiti precedentemente specificati. 98 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Sebbene l’intervallo di confidenza più applicato sia quello al 95% esso non è l’unico utilizzabile. Potremmo preferire un maggior grado di confidenza relativamente al valore della media della popolazione; in questo caso potremmo scegliere di calcolare un intervallo di confidenza al 99%. Poiché il 99% delle osservazioni in una distribuzione normale standardizzata è compreso tra −2.58 e 2.58 , un intervallo di confidenza al 99% per 𝜇 è (𝑥̅ − 2.58 𝜎 , 𝑥̅ + 2.58 𝜎 ) √𝑛 √𝑛 e −2.58 𝑒 2.58 sono detti “valori critici al 1%” e il 99% è detto “livello di fiducia” Come atteso, l’intervallo di confidenza al 99% è più ampio dell’intervallo al 95%. Se vogliamo restringere un intervallo senza ridurre il livello di confidenza, abbiamo bisogno di maggiori informazioni sulla media della popolazione; dobbiamo quindi selezionare un campione più ampio. All’aumentare della dimensione 𝑛 del campione, l’errore standard 𝜎⁄√𝑛 diminuisce; ciò determina un intervallo di confidenza più ristretto. Si considerino, ad esempio, i limiti dell’intervallo di confidenza al 95%. Se selezioniamo un campione di dimensione uguale a 10 i limiti di confidenza sono 𝑥̅ ± 1.96(𝜎⁄√10) e quindi l’ampiezza dell’intervallo è 0.620𝜎 + 0.620𝜎 = 1.240𝜎. Se il campione selezionato è di dimensione uguale a 100 i limiti di confidenza sono 𝑥̅ ± 1.96(𝜎⁄√100) e quindi l’ampiezza dell’intervallo è 0.196𝜎 + 0.196𝜎 = 0.392𝜎. Quanto detto è valido per popolazioni distribuite normalmente con 𝜎 noto o comunque per campioni abbastanza numerosi (𝑛 > 50) per i quali la distribuzione campionaria della media è normale. 99 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Esempio1 Si consideri la distribuzione dei livelli di colesterolo sierico della popolazione maschile negli Stati Uniti di ipertesi e fumatori. Questa distribuzione è approssimativamente normale con media 𝜇 non nota e una deviazione standard 𝜎 = 46 𝑚𝑔⁄100𝑚𝑙. (Assumiamo che 𝜎 sia uguale a quella della popolazione generale di maschi adulti negli Stati Uniti, anche se la media può essere diversa). Vogliamo stimare il livello medio di colesterolo sierico di questa popolazione. Per fare ciò dobbiamo estrarre un campione e valutare da esso 𝑥̅ . Supponiamo di selezionare un campione di dimensione uguale a 12 dalla popolazione di ipertesi fumatori e che questi soggetti abbiano un livello medio di colesterolo sierico 𝑥̅ = 217 𝑚𝑔⁄100𝑚𝐿. In base a questo campione, l’intervallo di confidenza al 95% per la media 𝜇 della popolazione è: 46 46 ; 217 + 1.96 (217 − 1.96 ) √12 √12 ossia (191; 243) La nostra miglior stima per il livello medio di colesterolo sierico della popolazione maschile di ipertesi fumatori è 217 𝑚𝑔⁄100𝑚𝐿; tuttavia l’intervallo da 191 a 243 ci fornisce un range di valori accettabili per 𝜇. (Si noti che questo valore comprende il valore 211 𝑚𝑔⁄100 𝑚𝐿 che è il livello medio di colesterolo sierico per tutti i maschi di età compresa tra 20 e 74 anni negli Stati Uniti, indipendentemente dall’ipertensione o dall’atteggiamento dei confronti del fumo) Siamo confidenti al 95% che i limiti 191 e 243 comprendano la media reale 𝜇. Invece di calcolare un intervallo di confidenza al 95% per il livello di colesterolo sierico, potremmo calcolare un intervallo di confidenza al 99% per il parametro 𝜇. Utilizzando lo stesso campione di 12 ipertesi fumatori, troviamo che i limito sono 46 46 ; 217 + 2.58 (217 − 2.58 ) √12 √12 ossia (183; 251) come già osservato, questo intervallo è più ampio dell’intervallo di confidenza al 95%. L’intervallo di confidenza al 99% ha ampiezza 251 − 183 = 68 𝑚𝑔⁄100 𝑚𝐿 mentre l’intervallo di confidenza al 95% ha ampiezza 243 − 191 = 52 𝑚𝑔⁄100 𝑚𝐿. Ci chiediamo ora quanto dovrebbe essere grande un campione per ridurre l’ampiezza dell’intervallo a 20 𝑚𝑔⁄100 𝑚𝐿 a livello del 99%? L’ampiezza dell’intervallo è data dalla semidifferenza tra il valore superiore e quello inferiore ossia da 46 2.58 = 10 √𝑛 Risolvendo si ha 2.58 46 √𝑛 = 10 100 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑛 = 140.8 √𝑛 = 11.87 Per ridurre l’ampiezza dell’intervallo di confidenza al 99% a 20 𝑚𝑔⁄100 𝑚𝐿 dobbiamo selezionare un campione di 141 soggetti. Si osservi che l’ampiezza dell’intervallo non dipende dalla media ma solo da 𝜎, 𝑛 e dal livello di confidenza. Intervallo di confidenza per la media 𝜇 con popolazione normale e varianza incognita Distribuzione t di Student. Nel calcolare gli intervalli di confidenza per una media 𝜇 non nota, abbiamo sempre assunto che 𝜎, la deviazione standard della popolazione, sia nota. In realtà ciò è improbabile; generalmente anche 𝜎 non è nota. In questo caso invece di utilizzare la distribuzione normale standardizzata, si utilizza una nuova distribuzione di probabilità nota come distribuzione t di Student. (pseudonimo usato dallo statistico che ha scoperto questa distribuzione) e gli intervalli di confidenza sono calcolati in modo simile. Per calcolare un intervallo di confidenza per la media 𝜇 della popolazione, notiamo prima di tutto che: 𝑋̅ − 𝜇 𝑍= 𝜎 √𝑛 ha una approssimata distribuzione normale standardizzata se 𝑛 è sufficientemente grande. Quando la deviazione standard della popolazione non è nota e si hanno piccoli campioni, anziché utilizzare l’errore standard 𝜎 𝜎𝑥̅ = √𝑛 utilizziamo una sua stima 𝑠 √𝑛 Il numeratore di questa espressione è la deviazione standard campionaria corretta (𝑠) che è una stima puntuale della deviazione standard vera (𝜎) ossia è: 𝑛 1 𝑠2 = ∑(𝑥𝑖 − 𝑥̅ )2 𝑛−1 1 Ma il rapporto 𝑋̅ − 𝜇 𝑍= 𝑠 √𝑛 101 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 non ha una distribuzione normale standardizzata perché 𝑠 varia da campione a campione per effetto del caso e quindi 𝑠⁄√𝑛 non è costante come 𝜎𝑥̅ . Se X è normalmente distribuita ed un campione casuale di dimensione 𝑛 è selezionata da questa popolazione originaria, la distribuzione di probabilità della variabile casuale 𝑋̅ − 𝜇 𝑡= 𝑠 √𝑛 è nota come distribuzione t di Student con 𝑛 − 1 gradi di libertà. Il numero dei gradi di libertà (gl) è un ulteriore parametro di questa distribuzione. E’ data dalla dimensione campionaria meno 1: 𝑔𝑙 = 𝑛 − 1 Utilizzeremo in questo caso la notazione 𝑡𝑛−1 . Dunque prima di calcolare il valore critico di t dobbiamo calcolare i gradi di libertà. Come la distribuzione normale standardizzata, la distribuzione t è unimodale e simmetrica intorno alla sua media che è 0 e l’area totale sotto la curva è uguale a 1. Per ogni possibile valore dei gradi di libertà, c’è una diversa distribuzione di t. Le distribuzioni con pochi gradi di libertà hanno una maggiore dispersione, all’aumentare dei gradi di libertà, la distribuzione t si avvicina alla normale standardizzata. Ciò si verifica perché, all’aumentare della dimensione del campione, 𝑠 diventa una stima più affidabile di 𝜎; se 𝑛 è molto grande , conoscere il valore di 𝑠 equivale a conoscere il valore di 𝜎(come visto nell’esempio precedente). Poiché c’è una diversa distribuzione t per ogni grado di libertà, sarebbe alquanto complesso avere una tabella completa delle aree corrispondenti a ciascun possibile 102 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 valore. Pertanto per un determinato valore dei gl, si sono tabulati solo i valori critici. La tabulazione è avvenuta nel modo seguente. Per esempio si consideri una distribuzione t corrispondente ad un certo grado di libertà ad esempio 10; in corrispondenza al livello di significatività del 5% il valore 𝑡10 = 2.228 delimita il 2.5% superiore dell’area sotto la curva. Poiché la distribuzione è simmetrica, 𝑡10 = −2.228 delimita il 2.5% inferiore. Si osservi che per la curva normale standardizzata, 𝑧 = 1.96 delimita il 2.5% superiore della distribuzione e quindi all’aumentare di n, la t di Student si avvicina a questo valore. In realtà quando abbiamo più di 30 gradi di libertà, possiamo sostituire la distribuzione normale standardizzata alla t ( in questo caso l’imprecisione sarà minore del 5%). Esempio. Siano 100 120 100 90 110 120 80 160 le pressioni arteriose, espresse in mm Hg, di 8 soggetti; si calcoli l’intervallo di confidenza della media al 99%. Si ha ∑(𝑥𝑖 − 𝑥̅ )2 2 𝑥̅ = 110 𝑠 = = 600 𝑠 = 24.5 𝑛−1 Il valore di t con 7 g.l. per 0.005 su entrambe le code è 𝑡0.01,7 = 3.499. Di conseguenza gli estremi dell’intervallo di confidenza della media a livello di fiducia del 99% sono 24.5 24.5 110 − 3.499 110 + 3.499 √8 √8 quindi l’intervallo avente valori estremi80 e 140 mm di Hg ha una probabilità del 99% di contenere il vero valore della pressione media di tutti i soggetti omogenei (cioè con uguali caratteristiche) a quelli osservati. Intervallo di confidenza per una proporzione. Per calcolare un intervallo di confidenza per la proporzione di una popolazione, seguiamo la stessa procedura adottata per la media di una popolazione. Prima di tutto selezioniamo un campione di dimensione 𝑛 e usiamo queste osservazioni per calcolare la proporzione del campione 𝑝̂ ; questo valore è una stima puntuale di 𝑝. Come già detto 𝑝̂ − 𝑝 𝑍= √𝑝(1 − 𝑝) 𝑛 103 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 è una variabile normale standardizzata con media 0 e varianza 1, se 𝑛 è sufficientemente grande. Sappiamo che per una distribuzione normale standardizzata il 95% dei possibili risultati giace tra −1.96 e 1.96. Quindi 𝑃 (−1.96 ≤ 𝑝̂ − 𝑝 √𝑝(1 − 𝑝)⁄𝑛 ≤ 1.96) = 0.95 e, di conseguenza 𝑝(1 − 𝑝) 𝑝(1 − 𝑝) 𝑃 (𝑝̂ − 1.96√ ≤ 𝑝 ≤ 𝑝̂ + 1.96√ ) = 0.95 𝑛 𝑛 I termini 𝑝̂ − 1.96√𝑝(1 − 𝑝)⁄𝑛 e 𝑝̂ + 1.96√𝑝(1 − 𝑝)⁄𝑛 sono i limiti dell’intervallo di confidenza al 95% per la proporzione 𝑝 della popolazione. Tuttavia queste quantità dipendono dal valore di 𝑝. Poiché 𝑝 non è nota, dobbiamo stimarla utilizzando la proporzione campionaria 𝑝̂ . Pertanto l’intervallo di confidenza approssimato al 95% per 𝑝 è 𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ ) ; 𝑝̂ + 1.96√ (𝑝̂ − 1.96√ ) 𝑛 𝑛 Esempio. Si consideri la distribuzione della sopravvivenza a cinque anni dei pazienti al di sotto di 40 anni ai quali è stato diagnosticato un cancro del polmone. Questa distribuzione ha una media della popolazione 𝑝 non nota. In un campione casuale di 52 pazienti, solo 6 sopravvivono 5 anni. Quindi 𝑥 6 𝑝̂ = = = 0.115 𝑛 52 è una stima puntuale di 𝑝. Si può dimostrare (infatti risulta 𝑛𝑝̂ = 6 e 𝑛(1 − 𝑝̂ ) = 52 ∙ (1 − 0.115) = 46.0)che la dimensione del campione è sufficientemente grande per giustificare l’uso dell’approssimazione alla normale e quindi un intervallo di confidenza approssimato al 95% per 𝑝 è 0.115(1 − 0.115) 0.115(1 − 0.115) (0.115 − 1.96√ ; 0.115 + 1.96√ 52 52 oppure (0.028; 0.202) In conclusione: 0.115 è la nostra miglior stima per la proporzione della popolazione e siamo confidenti al 95% che l’intervallo precedente comprenda la proporzione reale di pazienti al di sotto di 40 anni che sopravvivono a 5 anni. 104 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La variabile associata alla proporzione è distribuita come una binomiale, e quando 𝑛 è piccolo non può essere approssimata a una normale. In questo caso il calcolo degli estremi dell’intervallo è molto laborioso e non lo considereremo Esercizi Esercizio 1 Come si interpreta l’intervallo di confidenza al 95% per la media 𝜇 di una popolazione? L’intervallo di confidenza al 95% è l’intervallo che ha una probabilità del 95% di comprendere la media reale 𝜇 della popolazione. Esercizio 2 L’errore standard della media di un campione a) misura la variabilità delle osservazioni; b) è l’accuratezza con cui ogni osservazione viene misurata; c) è la misura di quanto, verosimilmente, la media campionaria è distante dalla media della popolazione; d) è proporzionale al numero delle osservazioni; e) è più grande della deviazione standard stimata della popolazione. Si tenga presente che la variabilità delle osservazioni è misurata dalla deviazione standard, 𝑠. L’errore standard della media è 𝑠⁄√𝑛. Di conseguenza la sola risposta corretta è la c) Esercizio 3 I limiti di confidenza al 95% per la media stimati da un insieme di osservazioni a) sono i limiti all’interno dei quali, sul lungo periodo, cadono il 95% delle osservazioni; b) sono i limiti all’interno dei quali la media campionaria cade con una probabilità del 95%; c) sono un modo per misurare la variabilità dell’insieme di osservazioni; d) sono i limiti che dovrebbero contenere la media della popolazione nel 95% di tutti i possibili campioni. La risposta corretta è la d). I limiti di confidenza sono i valori estremi dell’intervallo di confidenza. Non è corretto dire che la media della popolazione cadrà entro l’intervallo di confidenza con una probabilità del 95%. La media di una popolazione è un numero non è una variabile aleatoria e in quanto tale non possiede una distribuzione di probabilità. E’ la probabilità che i limiti calcolati a partire da un campione casuale contengano la media della popolazione ad essere pari al 95%. 105 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Esercizio 4 In un periodo di epidemia influenzale, su 100 soggetti 70 sono affetti da influenza. Si vuole calcolare l’intervallo di confidenza relativo alla proporzione 𝑝 della popolazione al 95%. In un campione casuale di 100 soggetti, 70 sono affetti da influenza. Quindi 𝑥 70 𝑝̂ = = = 0.70 𝑛 100 è una stima puntuale di 𝑝. Risultando 𝑛𝑝̂ = 70 e 𝑛(1 − 𝑝̂ ) = 100 ∙ (1 − 0.70) = 30 la dimensione del campione è sufficientemente grande per giustificare l’uso dell’approssimazione alla normale e quindi un intervallo di confidenza approssimato al 95% per 𝑝 è 0.70(1 − 0.70) 0.70(1 − 0.70) (0.70 − 1.96√ ; 0.70 + 1.96√ 100 100 oppure (0.610; 0.790) 106 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Test statistici Ipotesi statistica Passiamo alla seconda grande classe di metodi di inferenza: la verifica di ipotesi mediante test statistici. Si è già detto che non sempre è possibile compiere rilevazioni di una determinata caratteristica direttamente sull’universo perché, ad esempio, il collettivo è infinito. Pertanto spesso si compiono rilevazioni parziali e si generalizzano le conclusioni, raggiunte relativamente al campione, alla totalità della popolazione. In tale ottica ci si domanda come è possibile estendere le conclusioni ricavate dalle unità osservate a tutto il collettivo, ricercando e possibilmente massimizzando, i limiti di validità e di attendibilità di tali generalizzazioni. Per fare questa inferenza si formula una ipotesi sulla caratteristica della popolazione in esame e successivamente si verifica la validità di tale ipotesi mediante un test statistico. L’ipotesi formulata, viene indicata comunemente con 𝐻0 e viene chiamata ipotesi nulla. Può riguardare il valore di un parametro della popolazione, per esempio la media, la varianza, la frequenza relativa, la mediana e così via. In questi casi si parla di ipotesi parametrica. Altrimenti si parla di ipotesi non parametrica, per esempio l’ipotesi di esistenza o meno di una relazione statistica in una coppia di fenomeni congiuntamente osservati sulla stessa popolazione, oppure sulle frequenze cumulate ecc. La verifica di ipotesi è la metodologia inferenziale che , a partire dei dati campionari, porta a decidere se accettare o rifiutare l’ipotesi nulla 𝐻0 , controllando probabilisticamente l’errore campionario. Il test statistico è la regola pratica che porta a questa decisione. Errore campionario e livello di significatività Un test statistico, cioè la regola che porta ad accettare o rifiutare 𝐻0 è basato su dati campionari, cioè su un’osservazione parziale dell’intera popolazione. E’ quindi condotto in condizioni d’incertezza, quando il test porta ad un rifiuto di 𝐻0 non 107 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 significa necessariamente “𝐻0 falsa” ma solo che “ i dati campionari non suffragano sufficientemente 𝐻0 ”. Quando invece il test porta all’accettazione di 𝐻0 , questo non significa necessariamente “𝐻0 vera” ma solo che “ i dati campionari supportano 𝐻0 ". Accettare o rifiutare 𝐻0 sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. Possiamo avere: Errore di I specie. L’errato rifiuto, cioè sbagliare rifiutando 𝐻0 vera Errore di II specie. Errore che si commette accettando 𝐻0 falsa Per tenere conto di entrambi gli errori è necessaria una teoria più avanzata che richiede più matematica e quindi va oltre i nostri scopi. Ci limiteremo a controllare probabilisticamente l’errore di I specie. Con il test statistico si scegli a priori (quindi si tiene sotto controllo) la probabilità di commettere un errore di I specie. Possiamo sceglierla piccola quanto ci pare e quanto ci conviene ma non zero, perché il rischio di errore esiste sempre ed è ineliminabile. Poiché questa probabilità è del tipo probabilità di sbagliare, la indicheremo con il simbolo 𝛼 Verifica di ipotesi Vediamo le fasi con cui si svolge la verifica di un’ipotesi. 1. Formulazione delle ipotesi . La prima fase consiste nell’enunciazione dell’ipotesi statistica che si vuole sottoporre a verifica (ipotesi nulla 𝐻0 ). Si chiama invece ipotesi alternativa o di ricerca , e si indica con 𝐻𝐴 l’ipotesi contraria ad 𝐻0 . In genere l’ipotesi nulla pone l’assenza di relazioni significative tra variabili a differenza di quella alternativa che ipotizza l’esistenza di una relazione. 2. Distribuzione campionaria. La seconda fase riguarda l’individuazione della distribuzione teorica di probabilità. Sappiamo infatti che la distribuzione campionaria di una statistica ci consente di conoscere, dati certi requisiti, la probabilità associata ai possibili valori che quella data statistica può assumere. I requisiti richiesti variano a seconda del tipo di test adottato e riguardano fondamentalmente la forma della distribuzione; un requisito però è comune a tutti i test di cui ci occuperemo: quello riguardante la casualità e l’indipendenza dei campioni. Le distribuzioni campionarie costituiscono i modelli di riferimento ed è possibile utilizzare le loro caratteristiche e le loro proprietà matematiche. La scelta di una particolare distribuzione piuttosto che di un’altra dipende da parametri quali ad esempio il tipo di dati, la numerosità del campione. La statistica campionaria ci fornisce le probabilità associate a tutti i valori assumibili da una data variabile statistica, ma, nella verifica di una determinata ipotesi siamo interessati alla probabilità di un solo risultato: quello relativo al nostro campione. Prima di passare al calcolo del test e individuare la sua possibilità di verificarsi, è necessario scegliere il livello di significatività. 108 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 3. Livelli di significatività. Tale livello con indicheremo come detto con la lettera 𝛼, si pone in genere uguale a 0.05, a 0.01 e più di rado a 0.001. Esso divide il campo di esistenza della funzione test in due subaree, quella di rigetto e quella di accettazione, delimitate dai valori critici. La prima è costituita da tutti quei valori che hanno una bassissima probabilità di verificarsi se 𝐻0 è vera, la seconda invece comprende quei valori che hanno una bassissima probabilità di verificarsi se è vera l’ipotesi alternativa. Se il valore della statistica del nostro campione sarà compreso nell’area di accettazione, si deciderà di accettare l’ipotesi nulla, altrimenti si propenderà per l’accettazione di quella alternativa. Un livello di significatività dello 0.01 ci indica, ad esempio, che la probabilità di accettare l’ipotesi quando statisticamente è vera è dell’1% il che equivale a dire che ci sono 99 probabilità su 100 di respingere 𝐻0 quando è falsa. Scegliere un livello di significatività significa dunque stabilire il rischio di commettere un errore rifiutando una ipotesi statisticamente vera. Quello che occorre stabilire è il tipo di test che si vuole adottare: unidirezionale o bidirezionale. Nel primo caso si otterrà una zona di rigetto in corrispondenza di una coda della distribuzione e una zona di accettazione costituita dalla rimanente porzione di area; nel secondo caso si otterranno invece due zone di rifiuto in corrispondenza delle due code, e una di accettazione. 4. Calcolo del test e verifica delle ipotesi. In questa fase si procede al calcolo della statistica nel campione e si decide se accettare o rigettare l’ipotesi nulla. Se il valore del nostro campione cade nella regione di rifiuto significa che, se è vera l’ipotesi nulla, la probabilità di ottenere i dati osservati è minore del livello di significatività prefissato e possiamo sostenere- con una probabilità stabilita dal livello di significatività 𝛼 di commettere un errore- che l’ipotesi nulla è falsa e quindi rifiutarla. La probabilità di ottenere i dati osservati o dati aventi una differenza ancora maggiore rispetto al valore previsto dall’ipotesi nulla (nell’ipotesi che 𝐻0 sia vera) è detto valore 𝑃 del test o semplicemente valore 𝑃. In conclusione per accettare o rifiutare l’ipotesi nulla si confrontano due probabilità: il livello di significatività e il valore 𝑃. Se il valore 𝑃 del test è minore o uguale al livello di significatività , l’ipotesi nulla viene rifiutata; se viceversa è maggiore l’ipotesi nulla non può essere rifiutata. Vediamo alcuni esempi Esempio 1 Z test per la verifica di ipotesi sulla media per popolazione normale con varianza nota. 109 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Consideriamo la distribuzione dei livello di colesterolo sierico della popolazione maschile di ipertesi e fumatori e assumiamo che la deviazione standard della popolazione sia 𝜎 = 46 𝑚𝑔⁄100𝑚𝐿. Vogliamo verificare l’ipotesi che il livello medio 𝜇 di colesterolo di questa popolazione sia uguale a quello dei soggetti maschi di età compresa tra 20 e 74 anni. Abbiamo già visto che quest’ultima popolazione ha un livello medio di colesterolo sierico pari a 𝜇0 = 211 𝑚𝑔⁄100𝑚𝐿. L’ipotesi nulla da testare è quindi 𝐻0 : 𝜇 = 𝜇0 = 211 𝑚𝑔⁄100𝑚𝐿 Poiché la media della popolazione di ipertesi fumatori può essere minore o maggiore di 𝜇0 , siamo interessati alle deviazioni che si verificano in entrambe le direzioni. Quindi eseguiremo un test bilaterale. L’ipotesi alternativa per il test bilaterale è 𝐻𝐴 : 𝜇 ≠ 211 𝑚𝑔⁄100𝑚𝐿 Fissiamo il livello di significatività. Ad esempio sia 𝛼 = 0.05 Utilizziamo il campione casuale già indicato in precedenza costituito da 12 ipertesi fumatori con livello medio di colesterolo sierico 𝑥̅ = 217 𝑚𝑔⁄100𝑚𝐿. E’ verosimile che questo campione derivi da una popolazione con media 211𝑚𝑔⁄100𝑚𝐿? Per rispondere a questa domanda eseguiamo il test statistico. In accordo con le già viste proprietà della distribuzione campionaria della media possiamo dire che 𝑋̅ − 𝜇0 𝑍= 𝜎 √𝑛 ha una distribuzione approssimativamente normale standardizzata. Poiché questo test si basa su questa distribuzione, viene denominato test z. Fatte queste premesse eseguiamo il test statistico. Si ha 217 − 211 𝑧= = 0.45 46 √12 Per rifiutare o non rifiutare l’ipotesi nulla, dobbiamo confrontare il valore sperimentale del test con i valori critici. Non si accetta 𝐻0 se 𝑧 ≤ −1.96 𝑜𝑝𝑝𝑢𝑟𝑒 𝑧 ≥ 1.96 Nel caso in esame 𝑧 ≤ 1.96 e di conseguenza accettiamo o meglio non rifiutiamo l’ipotesi 𝐻0 . In base a questo campione non abbiamo sufficiente evidenza per concludere che il livello medio di colesterolo sierico della popolazione di ipertesi fumatori sia diverso da 211𝑚𝑔⁄100𝑚𝐿. Esempio 2 t- test per la verifica di ipotesi sulla media per popolazione normale con varianza ignota 110 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Si consideri un campione casuale di 10 bambini selezionata dalla popolazione di neonati che assumono antiacidi contenenti alluminio. La distribuzione dei livelli di alluminio plasmatico di questa popolazione è approssimativamente normale con media 𝜇 e deviazione standard 𝜎 non note. Il livello medio 𝑥̅ di alluminio plasmatico del campione di 10 neonati e la sua deviazione standard 𝑠 sono rispettivamente 𝑥̅ = 37.20 𝜇𝑔⁄𝐿 𝑠 = 7.13 𝜇𝑔⁄𝐿 Sappiamo inoltre che il livello medio di alluminio plasmatico della popolazione di neonati che non assumono antiacidi è 𝜇0 = 4.13 𝜇𝑔⁄𝐿. E’ verosimile che i dati del nostro campione provengano da una popolazione con media 𝜇0 ? Per rispondere a questa domanda eseguiamo un test di ipotesi. L’ipotesi nulla è 𝐻0 : 𝜇 = 𝜇0 = 4.13 𝜇𝑔⁄𝐿 e l’ipotesi alternativa è 𝐻𝐴 : 𝜇 ≠ 4.13 𝜇𝑔⁄𝐿 Siamo interessati alle deviazioni dalla media in entrambe le direzioni e vogliamo sapere se 𝜇 è maggiore o minore di 4.13. Pertanto eseguiamo un test bilaterale. Ad un livello di significatività 𝛼 = 0.05. Poiché non conosciamo la deviazione standard 𝜎 della popolazione, utilizziamo la variabile casuale t ossia eseguiamo un test t. Il test statistico è quindi 𝑥̅ − 𝜇0 𝑡= 𝑠 √𝑛 ossia 37.20 − 4.13 = 14.67 7.13 √10 Se l’ipotesi nulla è vera, questo risultato ha una distribuzione t con 10 − 1 = 9 gradi li libertà. 𝑡= Dobbiamo ora calcolare i valori critici Guardando la tabella allegata individuiamo prima la colonna corrispondente al livello di significatività d’interesse (nel nostro caso 𝛼 = 5% complessivamente su entrambe le code ossia 0.025 su ogni code) e successivamente troviamo la riga corrispondente al numero di gradi di libertà (nel nostro caso 𝑔𝑙 = 9). Il numero della cella corrispondente è il valore critico. Nel nostro caso 𝑡𝑐 = 2.2622 che è minore del valore sperimentale e quindi rifiutiamo l’ipotesi nulla. Questo campione di neonati fornisce sufficiente evidenza che il livello medio di alluminio plasmatico dei bambini che assumono antiacidi non è uguale a quello dei bambini che non ne assumono. Esempio 3 Z test per grandi campioni per la verifica di ipotesi sulla frequenza relativa p 111 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 La distribuzione della sopravvivenza a 5 anni dei pazienti al di sotto di 40 anni ai quali è stato diagnosticato un cancro al polmone ha una proporzione della popolazione p non nota. Sappiamo tuttavia che la proporzione di pazienti che sopravvive a 5 anni tra quelli oltre i 40 anni al momento della diagnosi è dell’8.2%. E’ possibile che anche nella popolazione di pazienti al di sotto di 40 anni la proporzione di sopravvivenza sia 0.082? Per verificarlo facciamo un test statistico. Formuliamo un’ipotesi sul valore p della proporzione della popolazione. Poiché il nostro obiettivo è di verificare se la proporzione di pazienti con cancro del polmone che sopravvive almeno 5 anni dopo la diagnosi è la stessa tra i pazienti al di sotto e oltre i 40 anni , l’ipotesi nulla è: 𝐻0 : 𝑝 = 𝑝0 = 0.082 Facciamo un test bilaterale e quindi l’ipotesi alternativa è: 𝐻𝐴 : 𝑝 ≠ 0.082 Scegliamo come livello di significatività un valore 𝛼 = 5%. Selezioniamo poi un campione casuale di osservazioni dicotomiche dalla popolazione originaria e calcoliamo la probabilità di osservare una proporzione campionaria pari o più estrema di 𝑝̂ , nell’ipotesi che la proporzione della popolazione sia p. In altre parole calcoliamo il test statistico 𝑝̂ − 𝑝 𝑧= √𝑝(1 − 𝑝) 𝑛 Se 𝑛 è sufficientemente grande e l’ipotesi nulla è vera, questo rapporto è distribuito normalmente con media 0 e deviazione standard 1. Per un campione casuale di 52 pazienti al di sotto di 40 anni ai quali è stato diagnosticato un cancro al polmone, si è trovato 𝑝̂ = 0.115. Pertanto il test statistico è. 𝑝̂ − 𝑝 0.115 − 0.082 𝑧= = = 0.87 0.082(1 − 0.082) 𝑝(1 − 𝑝) √ √ 𝑛 52 Non si accetta 𝐻0 se 𝑧 ≤ −1.96 𝑜𝑝𝑝𝑢𝑟𝑒 𝑧 ≥ 1.96 Nel caso in esame 𝑧 = 0.87 ≤ 1.96 e quindi non rifiutiamo l’ipotesi nulla. Test a una coda Le ipotesi fatte finora erano tutte bilaterali. Un test statistico per la verifica di ipotesi bilaterale ha la regione critica formata da due zone sotto le due code della distribuzione campionaria, ciascuna con probabilità 𝛼⁄2. Chiameremo questo tipo di test, come si usa, a due code. Nella pratica sono anche utili ipotesi unilaterali, cioè l’ipotesi nulla del tipo : 𝐻0 : 𝜇 ≤ 𝜇0 oppure 𝐻0 : 𝜇 ≥ 𝜇0 112 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Per verificare ipotesi nulle unilaterali si pone la regione critica sotto un’unica coda e si esegue un test ad una coda. Per verificare l’ipotesi 𝐻0 : 𝜇 ≤ 𝜇0 si pone la regione critica tutta sotto una coda di destra mentre la coda di sinistra fa parte della zona di accettazione. Inoltre non sarà più necessario, come facevamo per il test a due code, dividere la probabilità di sbagliare in 𝛼⁄2 sotto una coda e 𝛼⁄2 sotto l’altra: in un test a una coda la regione critica è composta da una sola coda di probabilità 𝛼. Quando l’ipotesi unilaterale è del tipo 𝐻0 : 𝜇 ≥ 𝜇0 , si ribalta il ragionamento. Naturalmente il test ad una coda porta ad un cambiamento del valore critico rispetto ad un test a due code. Per esempio 𝛼 = 5% su una coda 𝑧𝑐 = ±1.96. Concetto di p-value Di solito le analisi statistiche si fanno con il computer il quale esegue il test producendo un unico numero con il quale possiamo decidere se accettare o rifiutare 𝐻0 , qualunque sia il livello di significatività che vogliamo fissare. Tale valore viene chiamato p-value o significatività empirica del test. Il p-value è una probabilità ed dunque un numero compreso tra 0 e 1. Rappresenta la probabilità di ottenere i dati osservati o di ottenere dati ancora meno in accordo con l’ipotesi nulla, supposta vera. Come si usa? Se il p-value risulta più piccolo del livello prescelto 𝛼 (per un test a una coda) o di 𝛼⁄2 per un test a due code, allora si rifiuta 𝐻0 . Il computer fornisce il p-value in sostituzione del valore critico. Il valore critico dipende sempre dall’ 𝛼 scelto ed è diverso per diversi livelli di significatività. Il pvalue invece di pende solo dal valore sperimentale del test, cioè dai dati campionari e dunque rimane sempre lo stesso a qualunque livello di significatività. Quando si esegue un test “a mano”, si decide se accettare o rifiutare 𝐻0 confrontando i due valori: quello sperimentale e quello critico. Viceversa quando si esegue il test al computer, si decide se accettare o rifiutare 𝐻0 confrontando due probabilità: il pvalue (fornito dal computer) e il livello 𝛼 o 𝛼⁄2 (scelto da noi). Le due procedure sono equivalenti cioè portano allo stesso risultato. Dati campionari qualitativi bivariati: tabelle di contingenza. Abbiamo già descritto una coppia di fenomeni congiuntamente rilevati sulla stessa popolazione. Ora abbiamo l’obiettivo di inferenziarli. Abbiamo già visto anche che si ha 𝜒 2 = 0 se e sole se X ed Y sono statisticamente indipendenti; se invece X ed Y sono connessi, l’indice 𝜒 2 risulterà maggiore di 0 e, una volta normalizzato, fornisce una misura dell’intensità di questa connessione. ̂2 calcolato sulla tabella di contingenza è Quando i dati sono campionari, l’indice 𝜒 allora una stima della reale ma ignota connessione esistente tra X e Y sull’intera popolazione (per questo motivo abbiamo messo il simbolo con il cappello). 113 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 ̂2 , per n Ora un teorema della teoria della probabilità garantisce che 𝜒 sufficientemente grande è approssimativamente una variabile casuale chiamata anche lei chi quadro con gradi di libertà (k-1)(h-1) (k, numero righe, h, numero colonne della tabella di contingenza con i dati campionari) e può essere utilizzata come statistica test nella verifica di ipotesi. Variabile casuale Chi quadro E’ una variabile casuale continua che assume valori positivi. Ha un solo parametro, ci gradi di libertà, e anche per tale variabile esistono le tavole. Test Chi quadro di indipendenza statistica L’ipotesi nulla che esprime in formule che X ed Y sono indipendenti è 𝐻0 : 𝜒 2 = 0 Per eseguire il test statistico eseguiamo la solita procedura. Bisogna osservare che si tratta di un test a una coda con la regione critica tutta sotto la coda di destra. Si tratta anche di un test approssimato per grandi campioni applicabile cioè se n è sufficientemente grande. L’unico valore critico si va a cercare sulle tavole del 𝜒 2 con (k-1)(h-1) gradi di libertà. Infine si rifiuta 𝐻0 : 𝜒 2 = 0 se il ̂2 ≥valore critico. valore sperimentale cade nella regione di rifiuto cioè se 𝜒 Esempio Consideriamo due variabili casuali dicotomiche. Si consideri ad esempio la tabella 2 × 2 che illustra i risultati di uno studio sull’efficacia dei caschi protettivi per bicicletta(variabile Y) nella prevenzione dei traumi cranici (variabile X). Casco protettivo Totale Trauma cranico SI NO SI 17 218 235 114 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 NO 130 428 558 Totale 147 646 793 Dei 793 soggetti coinvolti in incidenti con la bicicletta, 147 indossavano il casco protettivo al momento dell’incidente e 646 no. Tra coloro che indossavano il casco protettivo, 17 riportarono traumi cranici che richiesero assistenza sanitaria e 130 no. Tra coloro che non indossavano il casco , 218 soggetti riportarono traumi cranici e 428 no. I numeri all’interno della tabella – 17, 130, 218 e 428- sono le frequenze osservate in ciascuna combinazione delle due categorie. Ipotesi nulla 𝐻0 : la proporzione di soggetti che hanno riportato traumi cranici tra coloro che indossavano il casco protettivo al momento dell’incidente è uguale alla proporzione di soggetti che hanno riportato traumi cranici che non indossavano il casco (in altre parole non vi è nessuna associazione tra le variabili). 𝐻0 : 𝜒 2 = 0 L’ipotesi alternativa è: 𝐻𝐴 : la proporzione di soggetti che hanno riportato traumi cranici non sono uguali nelle due popolazioni (ossia tra le due variabili vi è un’associazione di un qualche tipo) Eseguiamo il test a livello di significatività del 5%. Calcoliamo le frequenze attese per ciascuna cella della tabella di contingenza nell’ipotesi che sia vera l’ipotesi nulla. In generale la frequenza attesa per una determinata cella della tabella è uguale al totale di riga moltiplicato per il totale di colonna diviso il totale della tabella Le frequenze attese sono quindi: Trauma cranico Casco protettivo Totale SI NO 235 × 147 SI 191.4 235 = 43.6 793 NO 103.6 454.6 558 Totale 147 646 793 Il test chi quadro confronta le frequenze osservate in ciascuna categoria della tabella di contingenza con le corrispondenti frequenze attese e viene utilizzato per stabilire se le differenze tra le frequenze osservate e quelle attese siano troppo grandi per essere attribuite al caso. Si calcola con la seguente somma (𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑡𝑜𝑖 − 𝑎𝑡𝑡𝑒𝑠𝑜𝑖 )2 2 ̂ 𝜒 =∑ 𝑎𝑡𝑡𝑒𝑠𝑜𝑖 𝑖 ove 𝑜𝑠𝑠𝑒𝑟𝑣𝑎𝑡𝑜𝑖 è la frequenza di individui osservata nella i-esima categoria e 𝑎𝑡𝑡𝑒𝑠𝑜𝑖 è la frequenza attesa in quella categoria sotto l’ipotesi nulla. Si osservi che la statistica 𝜒 2 utilizza le frequenza assolute osservate ed attese e non le proporzioni 115 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 (che sono le frequenze relative). Si osservi anche che se le frequenze osservate fossero esattamente uguali alle frequenze attese sotto l’ipotesi nulla, 𝜒 2 sarebbe 0. Maggiore è 𝜒 2 maggiore è la discrepanza tra le frequenze osservate e le frequenze attese sotto l’ipotesi nulla. Eseguiamo il test: (17 − 43.6)2 (130 − 103.6)2 (218 − 191.4)2 (428 − 454.6)2 2 ̂= 𝜒 + + + 43.6 103.4 191.4 454.6 Eseguendo i calcoli si ottiene 𝜒 2 = 16.228 + 6.843 + 3.697 + 1.556 = 28.324 La distribuzione teorica 𝜒 2 La distribuzione teorica 𝜒 2 è in realtà una famiglia di distribuzioni perché dipende dal numero di gradi di libertà come si vede dal grafico sottostante. Per questa distribuzione i gradi di libertà si calcolano in questo modo: 𝑔𝑙 = (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑟𝑖𝑔ℎ𝑒 − 1) × (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑜𝑙𝑜𝑛𝑛𝑒 − 1) Le sue caratteristiche essenziali sono state tabulate in tavole statistiche di semplice utilizzo. A questo punto dobbiamo calcolare il valore critico. Guardando la tabella allegata individuiamo prima la colonna corrispondente al livello di significatività d’interesse 116 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 (nel nostro caso 𝛼 = 5%) e successivamente troviamo la riga corrispondente al numero di gradi di libertà (nel nostro caso 𝑔𝑙 = (2 − 1) × (2 − 1) = 1). Il numero della cella corrispondente è il valore critico. Nel nostro caso 𝜒𝑐2 = 3.84 ̂2 (28.324) è maggiore di 3.83 rifiutiamo l’ipotesi nulla Poiché il valore osservato di 𝜒 e concludiamo che X ed Y non sono indipendenti. Esercizi Esercizio 1 E’ stata condotta una sperimentazione clinica per verificare se un nuovo trattamento influisca sul tasso di recupero di pazienti affetti da una malattia debilitante. L’ipotesi nulla 𝐻0 : il trattamento è inefficace è stata rifiutata con un valore di P pari a 0.04. I ricercatori hanno usato un livello di significatività del 5%. Dite se ciascuna delle seguenti conclusioni è corretta e se non lo è spiegate perché. a) il trattamento ha solo un piccolo effetto b) il trattamento ha qualche effetto c) la probabilità di commettere un errore di tipo I è 0.04 d) l’ipotesi nulla non sarebbe stata rifiutata se il livello di significatività fosse stato 0.01. Risposte a) non corretto. Il valore P non dà l’entità dell’effetto. b) corretto. 𝐻0 è stata rifiutata, quindi concludiamo che vi è stato realmente un effetto. c) non corretto. La probabilità di commettere un errore di tipo I è stabilità dal livello di significatività, 0.05, che è deciso anticipatamente. d) Corretto Esercizio 2 Una casa farmaceutica dichiara che una dose di un certo farmaco ha effetto dopo 25 minuti dall’assunzione e che tale tempo ha una distribuzione normale con varianza 49 min2. Su un campione casuale di 25 persone si è osservato un tempo medio fra l’assunzione e l’effetto di 30 minuti. Verificare se l’affermazione della casa farmaceutica è vera a livello di significatività del 5%. Supponiamo che la casa farmaceutica dichiari il vero. Di conseguenza il valor medio del tempo che intercorre tra l’assunzione e l’effetto è di 25 min e il campione in esame è stato estratto da questa popolazione. Quindi 𝐻0 : 𝜇 = 𝜇0 Come ipotesi alternativa poniamo 𝐻𝐴 : 𝜇 ≠ 𝜇0 Il test è quindi bilaterale. Essendo 𝛼 = 5% i valori critici sono 𝑧𝑐 = ±1.96. Eseguendo il test si ottiene: 117 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 𝑥̅ − 𝜇0 30 − 25 5 = = 5 × = 3.57 𝜎 7 √49 √𝑛 √25 Essendo 3.57 > 1.96 si rifiuta l’ipotesi nulla ossia il tempo che intercorre tra l’assunzione del farmaco e il suo effetto non è di 25 minuti. 𝑧= Esercizio 3 In occasione delle ultime elezioni amministrative il partito A ha ottenuto una percentuale di voti pari al 30%. In vista delle prossime elezioni, per stabilire se si è verificata una perdita nelle preferenze per il partito A, si estrae un campione bernoulliano di n=100 elettori ottenendo una percentuale di preferenze per A pari al 20%. Stabilire se, a livello di significatività del 5%, lo scarto osservato tra la percentuale delle ultime elezioni e quella del campione può essere considerata casuale o è invece una perdita di consensi. Supponiamo che lo scarto osservato tra la percentuale delle ultime elezioni e quella del campione sia casuale. In questo caso il campione di 100 elettori è stato estratto da una popolazione con frequenza attesa 𝑝0 = 0.30. Inoltre l’ipotesi alternativa sia che lo scarto sia solo una perdita di consensi ossia avvenga in una sola direzione. Di conseguenza si ha 𝐻0 : 𝑝 = 𝑝0 𝐻𝐴 : 𝑝 < 𝑝0 Il test è unilaterale e la statistica test è 𝑝 − 𝑝0 0.20 − 0.30 𝑧= = = −0.218 (1 ) 0.30 × 0.70 𝑝 − 𝑝 0 √ 0 √ 100 𝑛 Il valore critico per un test unilaterale con 𝛼 = 5% è 𝑧𝑐 = −1.65. Essendo −0.218 > −1.65 si accetta l’ipotesi nulla ossia si ritiene che la differenza osservata sia casuale e non da indicare una riduzione significativa dei consensi. Esercizio 4 Un istituto scolastico effettua un’indagine per analizzare l’eventuale relazione tra il genere X e il rendimento scolastico Y. Viene estratto un campione bernoulliano di 110 studenti e i dati sono sintetizzati nella seguente tabella Y: media dei voti 4-6 6-8 8-10 X: genere F 9 16 25 50 M 20 35 5 60 29 51 30 110 Verificare con un opportuno test a livello di significatività del 5% se nella popolazione d’interesse esiste una significativa relazione statistica tra i fenomeni. 118 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 Ipotesi nulla 𝐻0 : non vi è nessuna associazione tra le variabili. quindi 𝐻0 : 𝜒 2 = 0 L’ipotesi alternativa è: 𝐻𝐴 : tra le due variabili vi è un’associazione di un qualche tipo Eseguiamo il test a livello di significatività del 5%. Calcoliamo le frequenze attese per ciascuna cella della tabella di contingenza nell’ipotesi che sia vera l’ipotesi nulla. Y: media dei voti 4-6 X: genere F 6-8 8-10 50 × 29 23.18 13.64 50 = 13.18 110 15.82 27.82 16.36 60 29 51 30 110 M Dai dati forniti si ottiene il seguente valore sperimentale 3 2 ̂2 = ∑ ∑ 𝜒 𝑖=1 𝑗=1 (9 − 13.18)2 (16 − 23.18)2 (5 − 16.36)2 + +⋯+ = 23.87 13.18 23.18 16.36 Il valore critico si ricava dalle tavole tenendo presente che (h-1)(k-1)=2∙1=2 gradi di libertà ed 𝛼 = 0.05. Si ottiene 𝜒𝑐2 = 5.99. Essendo 23.87 > 5.99 si rifiuta l’ipotesi di indipendenza fra media dei voti e genere nella popolazione di interesse a livello di significatività del 5% ovvero esiste una relazione significativa tra i due fenomeni. 119 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 120 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 121 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 122 Appunti di “Metodologia Statistica Applicata in Ambito Biomedico e Clinico” Prof. Claudio Baraldi – A.A. 2015/16 123