ELEMENTI DI STATISTICA MEDICA Testi di approfondimento consigliati: “Statistica medica” di M.J. Campbell e D. Machin – Casa Editrice Wiley e CSE “Biostatistica” di W.W. Daniel – Casa Editrice EdiSES “Statistica Medica” di P. Armitage e G. Berry – Casa Editrice Mc Graw-Hill 1 Unità 1 Statistica e medicina Popolazione e campione Variabili casuali 2 La statistica, etimologicamente legata a status (inteso come stato delle cose, cioè status rerum) fu definita e proposta dal filosofo tedesco G. Achenwall nel XVIII secolo, come scienza deputata a raccogliere dati utili per meglio governare. Oggi tale scienza è ampiamente impiegata in campo biomedico, dove occorre procedere ad una raccolta ordinata dei dati al fine di: • scoprire eventuali leggi che regolano i dati stessi solo in apparenza disordinati, • operare il confronto fra dati ottenuti in condizioni sperimentali differenti. Entra nella ricerca clinica in due differenti momenti: • quello dell’impostazione della ricerca, • quello dell’analisi dei dati raccolti. 3 Se la metodologia statistica viene correttamente impiegata in entrambi questi momenti, è possibile sfruttare l’inferenza statistica, ossia il potere induttivo, per cui i risultati derivati dallo studio condotto su una casistica di numerosità limitata possono essere ragionevolmente ritenuti validi (generalizzati) per tutta una popolazione. In conclusione la statistica è un campo di studio che riguarda: la raccolta, l’organizzazione, la sintesi e l’analisi dei dati; l’operazione di inferenza su un insieme di dati, quando solo una parte di essi è stata osservata. 4 VARIABILI CASUALI Una variabile casuale (o aleatoria o stocastica o random) può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Esempio: la pressione arteriosa sistolica assume valori diversi al variare del paziente, del tempo di misurazione, dello strumento impiegato, del medico che effettua la misura, ecc. Essa è perciò un esempio di variabile casuale. 5 VARIABILI QUALITATIVE E QUANTITATIVE Alcune caratteristiche, come il colore degli occhi o la razza, assumono valori espressi in forma verbale. Altre, come il peso, l’altezza o la pressione arteriosa sistolica sono espresse in modo numerico. Le prime variabili vengono variabili qualitative, mentre le seconde sono chiamate variabili quantitative. 6 VARIABILI QUALITATIVE NOMINALI Le variabili qualitative che non ammettono alcun tipo di ordinamento sono dette nominali. Esempi di variabili qualitative nominali sono il colore degli occhi, la razza, il gruppo sanguigno, il sesso. Esempio: la variabile gruppo sanguigno, limitatamente al sistema AB0, essa può assumere i valori A, B, AB, 0. Ponendosi il problema di ordinare i valori che può assumere questa variabile (dal più piccolo al più grande oppure dal peggiore al migliore o simili) è possibile rendersi immediatamente conto che non esiste una risposta sensata. Le variabili nominali possono essere classificate in dicotomiche e non dicotomiche. Sono dicotomiche le variabili che possono assumere solo due valori (ad esempio: il sesso oppure sano-malato o vivo-deceduto). 7 VARIABILI QUALITATIVE ORDINALI Le variabili qualitative che ammettono un ordinamento sono dette ordinali. Esempio: la variabile presenza di sangue nelle urine può assumere i seguenti valori: assente, tracce, +, ++, +++. Nell’esempio l’ordine con cui sono stati elencati i valori assegnabili alla variabile segue una logica precisa, procedendo regolarmente dall’assenza di sangue alla presenza più massiccia. La posizione occupata nella scala ordinale consente non solo di stabilire se esiste una differenza fra due valori, ma permette di definire anche il segno di tale differenza. N.B. Nel caso di variabili ordinali, non è possibile definire quanto un valore della variabile sia maggiore o minore di un altro. 8 VARIABILI QUANTITATIVE DISCRETE E CONTINUE Le variabili i cui valori sono determinati attraverso operazioni di misura o di conta sono dette quantitative; i valori di queste variabili sono espressi in forma numerica. Tali valori numerici sono espressi in una determinata unità di misura ed è possibile operare su di essi con procedimenti aritmetici (ad esempio: somma o sottrazione). Le variabili quantitative possono essere discrete o continue. Una variabile quantitativa che può assumere un numero finito oppure un’infinità numerabile di valori è detta discreta, mentre una che può assumere un’infinità più che numerabile di valori è detta continua. N.B. Una variabile casuale che può assumere un valore qualsiasi all’interno di un determinato intervallo numerico è una variabile quantitativa continua. 9 Il numero di ricoveri giornalieri in un ospedale o il numero di figli presenti in una famiglia sono due esempi di variabile quantitativa discreta che può assumere i valori 0, 1, 2, 3, … Il peso di un individuo oppure la pressione arteriosa sistolica sono invece esempi di variabili quantitative continue in quanto possono assumere tutti i valori possibili all’interno di un determinato intervallo numerico. 10 MISURAZIONE La misurazione è definita come l’assegnazione di valori a osservazioni secondo un insieme di regole. Le varie scale di misurazione scaturiscono dal fatto che la misurazione può essere effettuata sotto insiemi diversi di regole. Il livello di misurazione più basso è ovviamente la scala nominale, che consiste solamente nel classificare le osservazioni in varie categorie mutuamente esclusive ed esaustive. Quando le osservazioni possono essere ordinate secondo qualche criterio, si dice che esse sono misurate su una scala ordinale. 11 Le variabili quantitative sono caratterizzate da una scala di misura ad intervalli oppure da una scala di misura di rapporti. La scala ad intervalli permette di quantificare la distanza fra due misure qualsiasi: la differenza fra 20°C e 30°C è uguale a quella fra 30°C e 40°C. Per fare ciò è necessario definire una distanza unitaria (unità di misura) ed un punto zero, entrambi arbitrari. Esempio: misura della temperatura in gradi Celsius o Fahrenheit in cui l’unità di misura è il grado e il punto zero sono scelti in modo arbitrario. La scala di rapporti (livello più alto di misurazione) è caratterizzata dal fatto che può essere determinata sia l’uguaglianza di intervalli che quella di rapporti. In questa scala esiste un punto zero vero. La statura e il peso di un individuo sono esempi di variabili misurabili con la scala di rapporti. 12 IL CONCETTO DI RANGO La posizione che una particolare osservazione occupa in una scala di misurazione si chiama rango dell’osservazione. Per attribuire i ranghi alle osservazioni, è necessario disporre in ordine crescente i valori che la variabile assume in ciascuna delle osservazioni fatte. Il valore più piccolo avrà rango uguale a 1, il secondo avrà rango 2 e così via. Valori uguali hanno rango uguale, pari alla media aritmetica dei loro ranghi naturali. 13 ESEMPIO. Si supponga di aver effettuato la misura del peso di 10 neonati e di aver ottenuto i seguenti valori, espressi in chilogrammi 3,50 2,75 4,15 2,90 2,45 3,75 3,35 3,50 3,80 3,25 Per attribuire i ranghi è necessario ordinare i dati in ordine crescente, associando a ciascuna osservazione la posizione occupata: 2,45 2,75 2,90 3,25 3,35 3,50 3,50 3,75 3,80 4,15 1 2 3 4 5 6 7 8 9 10 Nell’esempio considerato due osservazioni hanno identico valore (3,50 kg). A tali osservazioni si assegnerà rango pari a 6,5 (uguale alla media aritmetica fra 6 e 7). 2,45 2,75 2,90 3,25 3,35 3,50 3,50 3,75 3,80 4,15 1 2 3 4 5 6,5 6,5 8 9 10 14 POLOLAZIONI E CAMPIONI Popolazione: totalità di elementi a cui siamo interessati in un dato momento. Misurando una particolare variabile su ciascuno degli elementi di una popolazione, si genera una popolazione di quella variabile. Una popolazione di valori di una variabile casuale è la totalità dei valori che la variabile può assumere nell’intero gruppo di interesse. Esempio. Se siamo interessati all’altezza degli italiani di sesso maschile con età uguale a 20 anni, la popolazione è costituita dalla globalità di tutte queste altezze. Pertanto le popolazioni sono definite dalla sfera di interesse. Una popolazione può essere finita o infinita. 15 Campione: insieme ridotto di elementi estratto dalla popolazione e considerato rappresentativo della stessa. La scelta del campione (campionamento) deve essere operata mediante rigorosi criteri di casualità e di rappresentatività, impiegando specifiche metodologie statistiche di estrazione. Esistono diverse modalità di campionamento, tra le quali le più frequentemente impiegate sono: campionamento casuale semplice; campionamento sistematico; campionamento stratificato; campionamento su più stadi. 16 Il campionamento casuale semplice è la tecnica più semplice di selezione di un campione (simile allo schema di estrazione da un’urna). La metodologia che sta alla base della scelta del campione è la randomizzazione (scelta totalmente casuale degli elementi del campione). In un campione casuale semplice ogni individuo della popolazione ha la stessa probabilità di essere scelto ed inoltre campioni della stessa dimensione hanno tutti la stessa probabilità di essere selezionati. In pratica per scegliere il campione si può usare una tecnica basata sulle tavole dei numeri casuali. 17 Le altre tecniche di campionamento sopra riportate (sistematico, stratificato, su più stadi) sono più complesse. È possibile trovare una loro descrizione in molti libri di statistica (ad esempio, “Statistica medica” di Armitage e Berry). Conviene però soffermarsi in modo sintetico sul campionamento stratificato che è una delle tecniche più famose ed usate. Consiste nel dividere gli individui della popolazione in sottopopolazioni (strati) sulla base di una caratteristica comune, estrarre poi un campione casuale semplice da ogni strato in modo indipendente, riunire insieme i risultati dei singoli campionamenti per formare un unico campione dell’ampiezza richiesta. 18 Nota 1 Il campionamento stratificato è più efficace di quello casuale semplice perché assicura che gli individui della popolazione siano adeguatamente rappresentati nel campione. Nota 2 Il ricorso alla stratificazione presuppone che si abbiano conoscenze sulla popolazione, in modo da poterla suddividere in strati (ad esempio: classi di età, classi di reddito, ecc.) 19 RICERCHE CONCEPITE STATISTICAMENTE Si supponga che una ricerca sia intesa a valutare gli effetti di certe cause (ad esempio una terapia farmacologia). Programmare questa ricerca dal punto di vista statistico significa: fissarne lo scopo, scegliendo i caratteri (ad esempio sintomi) di cui ci si attende una variazione; scegliere i campioni su cui condurre lo studio. Lo scopo deve potersi esprimere mediante caratteri misurabili. Infatti, se lo scopo non è suscettibile di misura, la ricerca è inutile. Per una classificazione della ricerca in base al modello di studio applicato si rimanda ad uno dei testi di statistica medica consigliati. 20