Unità 3 Come ottenere stime da un campione Riassunti campionari 1 COME OTTENERE STIME DA UN CAMPIONE Nella pratica non si dispone comunemente dei dati relativi all’intera popolazione, ma solo dei dati raccolti su un campione di n elementi. Nel raccogliere questi dati un ricercatore si pone di solito come primo obiettivo quello di ottenere elementi informativi utili a descrivere l’intera popolazione (e quindi la relativa distribuzione di probabilità) dalla quale il campione è stato tratto. Il primo problema è quindi come riassumere i dati raccolti su un campione, relativamente ad una variabile casuale X, così da descrivere nel modo più idoneo la popolazione non osservata interamente. 2 Valore medio e deviazione standard campionari Se non si esamina tutta la popolazione non è possibile determinare né il valore medio né la deviazione standard della popolazione stessa. Tuttavia è possibile ottenere una stima di questi indici a partire dal campione raccolto. La stima del valore medio (detta media campionaria), indicata comunemente con la lettera latina m, è definita come n m i 1 xi n 3 La deviazione standard campionaria s ed è calcolata come: n s ( x i m )2 i 1 n 1 N.B. Nello stimare la deviazione standard di una popolazione da dati campionari, si divide la somma degli scarti dalla media al quadrato (detta devianza) per n–1 e non, come ci si poteva attendere, per n. La dimostrazione corretta di questo fatto richiederebbe solide argomentazioni matematiche, ma, in questa sede, possiamo limitarci alla seguente giustificazione intuitiva. 4 Giustificazione intuitiva La dispersione si misura in base alla distanza fra il valore delle osservazioni e il valore medio per la popolazione (µ). Il valore medio per la popolazione (µ) è ignoto. Si utilizza pertanto il valore medio del campione (m). Utilizzare m restringe la variabilità del campione. La variabilità del campione sarà quindi inferiore a quella dell’intera popolazione e dividere per n–1 invece che per n rappresenta una correzione per la tendenza a sottostimare la deviazione standard della popolazione. 5 Ulteriore considerazione: il concetto di gradi di libertà I gradi di libertà di una statistica esprimono il numero di dati effettivamente disponibili per valutare la quantità di informazione contenuta nella statistica. Quando un dato non è indipendente dagli altri, l'informazione che esso fornisce è già contenuta implicitamente negli altri. L'idea è quella di calcolare le statistiche utilizzando soltanto il numero di osservazioni indipendenti consentendo in questo modo di ottenere dei risultati più attendibili. I gradi di libertà possono essere ottenuti dalla differenza fra il numero di casi e le statistiche presenti nel calcolo. 6 Deviazione standard campionaria e gradi di libertà Nel calcolo della deviazione standard campionaria (s) è presente il valore medio (m) del campione. Perciò nel calcolo di s i gradi di libertà non sono n ma n-1. La somma dei quadrati degli scarti dalla media m è quindi divisa per i gradi di libertà, che in questo caso sono n-1. ESERCIZIO In un campione di 10 soggetti ipertesi sono stati misurati i seguenti valori di pressione arteriosa sistolica: 180 175 180 190 185 175 185 195 175 200 mmHg Si determini il valore medio e la deviazione standard campionaria. RISPOSTA m = 184 mmHg s = 8,756 mmHg 7 Mediana Dato un campione la mediana è il valore centrale dell’insieme dei dati ordinati dal valore più piccolo al più grande. Per trovare la posizione occupata dal valore mediano nella serie ordinata delle osservazioni si usa la seguente regola: Se l’ampiezza del campione è un numero dispari, la mediana coincide con il valore centrale, vale a dire con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. Se l’ampiezza del campione è un numero pari, la mediana allora coincide con la media dei valori corrispondenti alle due osservazioni centrali. 8 ESERCIZIO In un campione di 10 soggetti ipertesi sono stati misurati i seguenti valori di pressione arteriosa sistolica: 180 175 180 190 185 175 185 195 175 200 mmHg Si determini il valore medio m e la mediana. RISPOSTA m = 184 mmHg mediana = 182,5 mmHg 9 N.B. Si considerino i seguenti valori di VES (velocità di eritrosedimentazione, mm/ora) ottenuti in 7 pazienti: { 8, 5, 7, 6, 35, 5, 4 } Il valore medio è pari a 10 mm/ora e la mediana vale 6 mm/ora . In questo caso la media non esprime il valore intorno al quale le osservazioni tendono a posizionarsi: soltanto un unico valore su 7 è superiore alla media! La mediana è definita come il valore che divide a metà la distribuzione; pertanto metà dell’insieme dei valori è minore della mediana e metà è maggiore. Commento. La mediana non è influenzata dalle osservazioni estreme di un insieme di dati: nel caso di osservazioni estreme è quindi opportuno descrivere l’insieme di dati con la mediana piuttosto che con il valore medio. 10 Campo interquartile Dato un campione è possibile calcolare il primo ed il terzo quartile, usando una procedura del tutto analoga a quella prima definita per il calcolo della mediana. In particolare per un gruppo di n dati ordinati Q1 occupa la posizione (n + 1)/4; Q2 occupa la posizione (n + 1)/2; Q3 occupa la posizione 3(n + 1)/4. Il campo interquartile è dato dalla differenza fra il terzo ed il primo quartile così calcolati. N.B. Il campo interquartile contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma della distribuzione della variabile. 11 ESERCIZIO In un campione di 10 soggetti ipertesi sono stati misurati i seguenti valori di pressione arteriosa sistolica: 180 175 180 190 185 175 185 195 175 200 mmHg Si determini la mediana ed il campo interquartile. RISPOSTA Dati ordinati: 175 175 175 180 180 185 185 190 195 200 mmHg (n + 1)/4 = 2,75 → Q1 = 175 + 0,75·(175 – 175) = 175 mmHg (n + 1)/2 = 5,50 → Q2 = 180 + 0,50·(185 – 180) = 182,5 mmHg 3(n + 1)/4 = 8,25 → Q3 = 190 + 0,25·(195 – 190) = 191,25 mmHg mediana = 182,5 mmHg campo interquartile = 16,25 mmHg 12 Moda Dato un campione la moda è il valore più frequente presente nell’insieme dei dati, cioè il valore più comune. N.B. La moda può non esistere e, anche se esiste, può non essere unica. Esempi L’insieme di numeri {1, 1, 5, 8, 9, 9, 9, 10, 10, 11, 12, 18} ha moda 9. L’insieme dei numeri {1, 5, 8, 9, 10, 11, 13, 17, 18} non ha moda. L’insieme dei numeri {2, 2, 2, 5, 7, 9, 9, 9, 11, 12, 18} ha due mode (2 e 9) ed è detto bimodale. 13 Il concetto di frequenza Nel definire la moda di un campione abbiamo introdotto il concetto di frequenza. Viene detta frequenza il numero di volte che un dato carattere (per esempio il peso di un neonato) si presenta con un certo valore in un campione. Una frequenza rapportata a 100 osservazioni si chiama frequenza percentuale. N.B. Aumentando la numerosità del campione la frequenza percentuale si avvicina alla probabilità vera di ottenere quel determinato valore della variabile casuale nella popolazione. 14 Istogramma di frequenza L’istogramma di frequenze è costruito in modo analogo all’istogramma di probabilità. È costituito da rettangoli adiacenti le cui basi sono allineate su un asse orientato e dotato di unità di misura. L'adiacenza dei rettangoli dà conto della continuità del carattere. Ogni rettangolo ha base di lunghezza pari all'ampiezza della corrispondente classe, mentre l'altezza invece è calcolata come densità di frequenza, ovvero essa è pari al rapporto fra la frequenza associata alla classe e l'ampiezza della classe. 15 IMPORTANTE. L'area della superficie di ogni rettangolo coincide con la frequenza associata alla classe cui il rettangolo si riferisce. La somma delle aree dei rettangoli è uguale alla somma delle frequenze dei valori appartenenti alle varie classi. Esempio La variabile studiata è la variazione di temperatura Δt misurata in gradi Celsius. Δt (°C) 16 RIASSUNTI CAMPIONARI Abbiamo detto che possiamo estrarre campioni da una popolazione e quindi usarli per ottenere valori (quali, ad esempio, il valore medio m o la deviazione standard campionaria s) che servono a stimare i parametri della popolazione stessa. Qualunque quantità ottenuta dal campione in vista della stima dei parametri della popolazione è detta un riassunto campionario. IMPORTANTE. Un riassunto campionario è esso stesso una variabile casuale. 17 Si pensi, ad esempio, di calcolare la media m di tutti i possibili campioni di ampiezza n estratti da una popolazione. È ovvio che, preso uno qualunque di questi campioni, non sarà possibile prevedere a priori il corrispondente valore per m. Il riassunto media campionaria sarà quindi una variabile casuale. Valutando tutti i possibili campioni di ampiezza n estratti dalla popolazione in studio si otterrà la distribuzione di probabilità del riassunto considerato che sarà detta distribuzione campionaria del riassunto. Per una distribuzione campionaria si possono calcolare gli indici di tendenza centrale e quelli di dispersione (ad esempio: valore medio, mediana, moda, varianza, deviazione standard, campo interquartile o semi-interquartile). 18 ESEMPIO Si consideri una variabile casuale X distribuita in maniera gaussiana con media e deviazione standard . Si può dimostrare che le medie m di un infinito numeri di campioni di n individui, estratti casualmente dalla popolazione in esame, rappresentano una variabile casuale distribuita anch’essa in maniera gaussiana ed avente media e deviazione standard pari a / √n , che viene detta errore standard della media . Si noti che l’errore standard, e quindi la dispersione della media campionaria m attorno alla media vera , diminuisce all’aumentare di n, cioè della numerosità del campione preso in esame. Intuitivamente, più grande è la dimensione del campione più la sua media m si avvicinerà alla media vera della popolazione. 19