NOTE INTRODUTTIVE ALLA STATISTICA MEDICA G.Gilli – G.C.Candini 2 INDICE DEGLI ARGOMENTI Prefazione STATISTICA DESCRITTIVA I tipi di dati Scale nominali Scale ordinali Scale intervallo Rappresentare i dati Percentili Indici di posizione Media aritmetica Media geometrica Media armonica Mediana Moda Distribuzione di frequenze LE BASI DELL’INFERENZA STATISTICA Dispersione dei dati Varianza e deviazione standard Coefficiente di variazione Elementi di statistica inferenziale Intervallo fiduciale Confronto tra medie Analisi di varianza ANOVA multivariata Cluster analysis Analisi discriminante Analisi fattoriale Regressione lineare semplice Regressione logistica Coefficiente di correlazione lineare (o di Pearson) Analisi non parametriche Tavole di contingenza e test sulle frequenze Metodo ‘esatto’ di Fisher Analisi di ‘sopravvivenza’ Analisi R.O.C. Metanalisi Conclusione 3 Appendice : Richiami di matematica Espressioni Le potenze Estrazioni di radice I logaritmi Ancora sulle espressioni L'algebra Le equazioni La geometria analitica Sistemi di equazioni Regressione lineare Correlazione 4 Prefazione “ Il grande vuoto della nostra professione è dato dall’ASSENZA ASSOLUTA DI DATI DI RITORNO frutto dell’analisi statistica, epidemiologica, scientifica dei dati clinici (e non) in nostro possesso.” Così si esprime un medico di base di Savignano (gennaio ’92), in una lettera ai curatori di una rivista di settore. Il lamento è generale e accomuna medici di famiglia, quotati reparti, divisioni ospedaliere e cliniche universitarie. Se poi si tiene conto che oggi è praticamente impossibile pubblicare senza un adeguato apparato statistico di accompagnamento, risalta immediatamente la carenza di analisi del flusso di dati che colpisce le strutture della sanità. Che tale flusso contenga informazioni utili è chiaro anche al più distratto degli operatori. Il solo ammontare dei dati in una certa direzione è indicativo di mode e mentalità di un corpo sociale di cui pazienti & medici sono un ricco campione. Non di rado l'esame di questo flusso indica quanto un certo movimento sia più il risultato di opinioni correnti, che non l'applicazione di metodiche efficaci ed efficienti. Chi ci aiuta a condurre simili necessarie distinzioni è la statistica. La Statistica è una scienza discussa e soggetta ad ironiche osservazioni cui presta il fianco il suo congenito ‘vizio' di estendere una singola deduzione a tutta una problematica; quasi un vestire le più diverse taglie umane con un modello a misura unica. Eppure il credito di tali strane tecniche è progressivamente cresciuto quando è apparso chiaro agli occhi di tutti che alcune migliaia di voti sono sufficienti alla statistica per fornire il risultato di elezioni che si concluderanno solo 24 ore dopo con molti milioni di voti in più. Qualcosa del genere vale anche per la meteorologia, ugualmente bersaglio di frecciate ironiche, dopo un ‘week end’ sotto pioggia battente che la meteorologia aveva descritto solo un po’ variabile. E' la nostra mente che spinta dalla forza dell'evoluzione ad impegnarsi sul vicino e contingente, stenta a vedere i nessi tra molti dati, le possibili sinergie e soprattutto il peso da attribuire ad entità lontane, apparentemente libere. Così l'acida ironia per aver preso la pioggia in una certa incassata valle alpina, ci nasconde che nel resto della regione le cose possono essersi svolte affatto diversamente, o… che la parte dello stipendio 'medio' che non affluisce nelle nostre tasche fluisce però in quelle di molti altri vicini o colleghi, cosa di cui solo la statistica sembra accontentarsi . Ma tant'è: lontano dagli occhi lontano dal cuore…e dalla nostra mente; che è un altro modo per dire che ciò che muove il nostro interesse ed il nostro ragionamento è quello che ci colpisce da vicino e che adottiamo poi come soluzione immediata e semplificata di problemi spesso complessi. Eppure è tutto il mondo contemporaneo ad essere cresciuto in complessità, è l'edificio sociale che andiamo costruendo che non può più reggersi sulla vecchia economia dei piccoli gruppi del passato cui era sufficiente la navigata esperienza di un singolo saggio. I legami sono multipli, estesissimi ed ogni decisione si ripercuote lontano. Alla complessità si addicono allora modelli complessi per simulare lo sviluppo di fenomeni a molte componenti. Chi potrebbe altrimenti accorgersi che l'uso di un'innocua bomboletta spray innesca il fenomeno del buco nell'ozono in alta atmosfera o che il fumo di sigaretta è inevitabilmente connesso con l'incidenza dei tumori , non solo polmonari ? E’ necessario che ci convinciamo a fondo di queste caratteristiche salienti del nostro vivere per 'riconciliarci’ con il flusso di dati di cui siamo sempre più destinatari e sorgente. 5 Troppo spesso si attribuisce l’invasione di moduli, questionari e domande alla burocrazia la quale però si trova sempre più spesso ad essere la prima vittima di ineludibili esigenze a cui risponde (.. qui è la colpa) con metodiche inadeguate e con profluvi di carte e modulari . Non l’esigenza del dato ma il metodo è spesso errato. Noi vogliamo pensioni rapidamente liquidate con la ricongiunzione di periodi contributivi effettuati lontano nel tempo presso aziende diverse e diversamente ubicate, Ciò significherebbe, con l’usuale burocrazia, lettere di richiesta (..per posta), polverosi scaffali a qualche metro d’altezza in afosi sotterranei o sacrificate soffitte dove sono ammassate pratiche aperte magari nell’anteguerra, plichi (..postali) di ritorno, controlli manuali di adeguatezza, calligrafie malamente comprensibili, richiesta di chiarimenti (…postali) ed eventualmente con interposte ‘competenti commissioni’ che redigono corposi verbali, ecc., ecc. Nessuno dubita che quei dati siano necessari, come nessuno può ignorare che il problema, enormemente cresciuto col crescere delle classi tutelate dalla sicurezza sociale, non può essere risolto coi metodi tradizionali. Occorre una ‘evoluzione-rivoluzione’ culturale. Evoluzione. Perché le soluzioni praticabili devono essere graduali al punto che in molti settori si dovrebbe procedere su due binari contemporaneamente dato che l’impianto di nuove tecniche richiede addestramento, adattamento, revisione rapida mentre tuttavia, nel quotidiano, si deve mantenere il vecchio metodo cui tutti sanno mettere mano e che non pone imprevisti. Rivoluzione. Perché al termine del passaggio più delicato si constaterà che un vero oceano separa le moderne metodiche dalle precedenti. Quanto abbiamo detto esulerebbe in parte dalla problematica della statistica medica se non fosse che alla base di tutte le nuove tecniche di trattamento dell’informazione c’è innanzi tutto la raccolta delle informazioni. L’informatica con le adeguate soluzioni ‘hardware’ (le macchine) e ‘software’ (i programmi) è capace di intercettare qualsiasi flusso di informazione e restituirlo ordinato al potenziale utente per una semplice consultazione o per cercarne le caratteristiche leganti o le significative diversità. Ma c’è un inevitabile ‘gap’ culturale da superare colmo di piccole personali ‘pesantezze’ che portano a giudicare un aggravio ciò che è solo poco noto e che ha il torto di esigere una forma di ‘apprendimento permanente’ cui però nessun operatore sanitario può più onestamente pensare di sottrarsi. Anzi queste tecniche agevolano tale apprendimento e facilitano potentemente il riciclo della propria iniziale formazione culturale. Aumentano sul mercato ‘pacchetti’ di istruzione multimediale che per immagini e suoni aggiornano l’utente spesso divertendo e solleticando la sua curiosità differenziando quindi anche la profondità d’uso. La crescente velocità delle macchine e l’ampiezza delle memorie elettroniche diviene disponibile a prezzi sempre più ridotti. E disorienta il neofita la rapidità dei cambiamenti e la molteplicità delle soluzioni proposte. I pericoli che un mercato vasto e differenziato comporta, si affrontano con l’aiuto di esperti, anche più di uno per i diversi settori, e con la gradualità con cui deve innestarsi l’informatica nel nostro ambito di attività. E’ importante che dapprima si veda una soluzione informatica lavorare sulla stessa problematica che noi dobbiamo affrontare. In altre parole è bene iniziare ‘per imitazione’ di soluzioni e non obbedendo a stimoli pubblicitari che nascondono le difficoltà e propongono apparati scintillanti ma ovviamente non calibrati sulle nostre esigenze. La storia è vecchia e sempre nuova. Concludendo, questa lunga dissertazione vorrebbe aver chiarito, un poco, che: - la quantità di informazioni richieste e prodotte è una necessità dei tempi - senza adeguati strumenti tecnici il flusso di informazioni è un’alluvione incontenibile 6 - la disponibilità del dato, già importante in sé, diventa decisiva per le scelte future quando ci si dispone ad analizzare l'informazione racchiusa nel dato stesso. Sui primi due punti abbiamo già detto. Sull'ultimo che è il campo specifico della statistica medica diremo diffusamente più avanti. 7 INTRODUZIONE ALLA STATISTICA MEDICA I Parte : STATISTICA DESCRlTTIVA Introducendo il tema abbiamo parlato diffusamente della necessità e della difficoltà di raccogliere, catalogare e riutilizzare i dati che scaturiscono dalla attività sanitaria. Grandi possibilità di migliorare le proprie scelte si aprono a chi riesce a riflettere sui mille tasselli del quotidiano che ad una certa 'distanza' si compongono a delineare un panorama. Non di una distanza spaziale si tratta, come quella che consente ai satelliti di valutare stato e risorse di immensi territori, ma di una visione d’assieme che abbraccia veri continenti di informazioni per lo più ignoti. Non il razzo ma il computer, non la fotogrammetria ma la statistica rivela le 'regole' di eventi apparentemente casuali solo perché visti da vicino, a grana troppo grossa. Le ricordate difficoltà non dovrebbero spaventare più di tanto perché potenti strumenti, accessibili ormai a tutti consentono oggi di dominare il mare di eventi, solo che si voglia fare una breccia nella ‘routine’ quotidiana dando corpo alla discussa 'formazione permanente'. Fotografare i nostri dati Il metodo più semplice per la descrizione dei risultati di un esperimento è la rappresentazione in serie ordinata dei dati numerici grezzi. Tale metodo presenta tuttavia notevoli limitazioni sia per la scarsità delle informazioni fornite, sia per la difficoltà di ordine pratico nella rappresentazione di grandi quantità di dati. In quest'ultimo caso è spesso utile distribuire i dati in classi e determinare la frequenza, cioè la numerosità di ciascuna classe, e quindi procedere a rappresentare i risultati. ottenuti sotto forma di grafico. I tipi di dati Tuttavia per decidere quale strumento di rappresentazione usare ci si deve chiedere con che tipo di dati si ha a che fare. Dire infatti 'dato' è dire qualcosa di molto generico: noi trattiamo di dati suscettibili di elaborazione statistico-matematica. Ma pure con questa limitazione possiamo distinguere diverse categorie di dati. - scale nominali - - quando la distinzione tra le varie classi non implica alcun rapporto misurabile. Es.: la classifica in maschi e femmine è tipicamente 'nominale' anche se usiamo dei codici numerici come 1 e 2 per rappresentare i due sessi. Essere maschio-1 o femmina-2, o viceversa, non implica affatto che il gruppo 2 sia più grande del gruppo 1. scale ordinali - quando i dati stabiliscono tra loro almeno un ‘rango’, cioè un ordine che permetta una classificazione univoca. Es.: nei dosaggi crescenti di un farmaco si può essere interessati al 8 fatto che il dosaggio A sia minore di quello B e quest’ultimo sia minore di quello C senza preoccuparsi degli intervalli di grandezza tra i dosaggi (magari perché gli effetti possono essere discontinui, a soglia). La situazione si può riscontrare se lo scopo è di studiare un ‘trend’, una tendenza, per cui un effetto si manifesta al crescere, più o meno rilevante, dalla dose A alla dose B. scale intervallo - - quando i dati sono numeri che rappresentano delle misure le quali, proprio perché tali, mantengono tra loro un rapporto misurabile. Es.: tra i dati pressori seguenti: 160 180 210 220 non solo si stabilisce una sequenza senza ambiguità per la quale, p.es. 180 è più grande di 160 e sta dopo quest’ultimo, ma si dice pure quale è il valore dell'intervallo che li separa, che infatti è la metà di quello che separa 180 da 210 ed il doppio di quello tra 210 e 220. A seconda del tipo di dato, calcoli e rappresentazioni non possono essere che conseguenti : su scale NOMINALI si potranno fare dei conteggi: quanti sono i maschi che...? ,quante le femmine che hanno..?. Su una scala INTERVALLO potremo fare considerazioni molto più dettagliate del tipo : qual è il valore medio delle mie misure di pressione ... ?.., questo valore medio è significativamente più grande dell'altro ? ecc., ecc. . I dati su una ‘scala intervallo' possono essere sempre ridotti alle altre scale perdendo in contenuto d'informazione. Non e' ovviamente possibile il viceversa. Rappresentare i dati In statistica sono utilizzati diversi tipi di grafici, secondo la natura dei dati e lo scopo che si vuole raggiungere. Tra questi tipi ricordiamo il grafico a barre (o rettangoli), come si ha in fig. 1, il grafico a barre sovrapposte come si vede in fig. 2, il grafico circolare (o ‘torta' o 'pie chart’), come in fig. 3, l’ideogramma, fig. 4, ed altri . Fig. 1 Fig. 2 9 Fig. 3 Fig. 4 Tutti questi adatti a ‘scale nominali o ridotte tali . Per la rappresentazione grafica di una distribuzione di frequenze (cioè delle numerosità di vari gruppi di cui si sta trattando) di una variabile continua, come la pressione arteriosa, l'indice di massa corporea (Body Mass Index), la statura corporea e molte altre, si usano gli istogrammi o i poligoni di frequenza. L’istogramma non è altro che un insieme di rettangoli aventi la base centrata sul valore centrale delle classi considerate, la lunghezza uguale all'ampiezza delle classi e l'altezza proporzionale alle frequenze delle classi stesse (fig. 5). Fig. 5 L’ampiezza delle classi è un compromesso tra la quantità di casi disponibili ed il dettaglio con cui si vuole analizzare la variabile . Per esempio, volendo analizzare la variabile età dei nostri pazienti, 10 dopo aver preso visione dei dati si potrebbero costituire tre classi di età per intervalli di 10 anni ciascuna 40-50 , 50-60, 60-70 con valori centrali di classe : 45 , 55 , 65 . Ma per un maggiore dettaglio, sempre che disponiamo di casi, si potrebbero costituire 7 classi di cui le due estreme 'aperte'. Sarebbe inutile e sciocco costituire molte classi per ognuna delle quali ci fossero solo pochi o pochissimi casi. - fino a 40 - da 41 a 45 (valore centrale 43) - da 46 a 50 ( ‘ ‘ 48) - da 51 a 55 ( ‘ ‘ 53) - da 56 a 60 ( ‘ ‘ 58) - da 61 a 65 ( ‘ ‘ 63) - da 66 a 70 ( ‘ ‘ 68) - oltre 70 L’istogramma differisce dal. diagramma a barre (bar chart) perché mentre quest'ultimo, lungo l'asse orizzontale pone delle categorie senza significato numerico (p.es. le categorie del sesso) , l'istogramma porta una variabile continua e definita in tutto l’intervallo. Il termine ‘istogramma’ è spesso usato genericamente ad indicare anche il ‘diagramma a barre’ poiché la rappresentazione ‘a rettangoli’ di varia altezza è simile. La differenza è in realtà sostanziale poiché l’asse orizzontale di un istogramma è una variabile continua mentre per il ‘bar chart’ è solo un riferimento su cui impostare le barre. Quell’asse rappresenta infatti solo una variabile nominale (come p.es. il sesso) o ordinale (categorie ordinate). I poligoni di frequenza, derivati o parenti degli istogrammi, sono grafici a linea spezzata delle frequenze delle classi dove la linea di rappresentazione passa per i valori centrali delle classi stesse (fig. 6). Fig. 6 Con questi si tende a sottolineare maggiormente l’andamento delle frequenze lungo i vari gruppi. 11 Frequentemente sono impiegate le cosiddette 'distribuzioni di frequenza cumulative' ottenute riportando sotto forma, di istogramma o di poligono di frequenza i valori inferiori al confine superiore di una data classe (fig. 7). Fig. 7 Questa ultima rappresentazione, se la scala cumulativa ha 100 come fondo scala, ossia viene espressa in percentuale, aiuta visivamente a individuare i percentili quei valori della variabile al di sotto dei quali sta una fissata percentuale di casi della distribuzione data . Per esempio, analizzando una variabile tempo (in anni), la curva ci indicherà quale anno porta dietro di sé il 50% delle osservazioni (o casi), o il 5%, il 10% ecc. . Oltre ai percentili si parla anche di decili e quartili che, analogamente ai percentili, dividono le distribuzioni in decimi ed in quarti. Va da sé che il 50° percentile, il 2° quartile ed il 5° decile, che identificano la mediana della distribuzione, coincidono, come si vede dallo schema sottostante : quartili ------------------1----------------------------2---------------------------3-----------------------4 % decili 1----------2-----------3-----------4----------5----------6----------7----------8---------9-------10 % percentili 10---------20----------30---------40--------50--------60---------70--------80--------90------100. % Una distribuzione di frequenze, rappresentata in forma di istogramma o di poligono, qualora si riduca l’ampiezza delle classi, subisce un livellamento, perdendo progressivamente la forma a gradini, fino ad assumere l’aspetto di una curva smussata continua. Ciò equivale ad avere un elevato numero di casi anche se in classi sempre più strette. (cfr. fig. 8) 12 Fig. 8 I connotati di un gruppo di dati : gli indici di posizione L’opportunità di analizzare i propri dati, specialmente se molto numerosi, in forma di istogrammi, risulta particolarmente evidente quando il grafico stesso mostra distribuzioni bimodali e plurimodali, cioè quando si evidenziano due o più classi di dati, rispettivamente, presentanti un picco rispetto alle classi adiacenti (cfr. ultimi profili di fig. 9) . Fig. 9 Ciò indica che i casi in esame non sono omogenei per il carattere in studio, ma provengono, probabilmente, da diverse popolazioni. Se analizziamo la distribuzione dei pesi corporei di individui di specie a forte dimorfismo sessuale (grandi differenze fisiche tra maschi e femmine) come avviene ad esempio nei trichechi o nei rospi, vedremo una curva bimodale che dimostra come ciascuna popolazione non sia omogenea per il carattere ‘peso' ma sia in realtà costituita da 13 due gruppi (i due sessi) che andrebbero analizzati separatamente per quel carattere. La rappresentazione grafica dei dati mostra anche le tendenze e le dissimmetrie insite in essi come si vede dai profili di fig. 8 . Da qui la grande utilità di analizzare la distribuzione completa (per istogrammi), dei propri casi, relativamente ai caratteri in studio. Oltre ad analizzare la distribuzione d’insieme dei dati è indispensabile produrre alcuni indicatori che descrivano sinteticamente con pochi numeri le caratteristiche salienti della distribuzione sotto studio. Tali parametri sono : la media, la mediana, la moda e sono sovente riportati con il nome di parametri di ‘tendenza media’ ed opportuni indici di scostamento (‘scatter’) dell’insieme dei dati intorno a media e mediana. - La media aritmetica La più intuitiva di tali misure è la media aritmetica che ripartisce in modo identico, su ciascun caso, il totale del valore sommato sui singoli casi. Matematicamente: dati n casi (o dati) , da 1 a N, in cui Xi sia un generico caso tra gli N, si definisce la media aritmetica come: N ∑i Xi 1 (1) Media = N ossia : sommatoria da 1 a N di ciascun i-esimo caso diviso per il numero di casi. La sommatoria è indicata col simbolo maiuscolo greco ‘∑’ (sigma). Es. giorno Dati i valori seguenti. di pressione sistolica massima, rilevati ogni 12 ore su un certo paziente, per 7 giorni, trovare la pressione media della settimana 1° 2° 3° 4° 5° 6° 7° ore 8 160 180 170 180 200 190 160 ore 22 170 190 190 200 210 195 180 la media aritmetica di tutti i dati, senza riguardo alla fascia oraria, risulta : 183.9 Spesso tra i risultati di un esperimento, certi va1ori si presentano più volte. In questo caso, indicando con f1, f2 f3…fn le frequenze dei valori Xl, X2, X3, ... Xn (cioè quante volte i valori Xl, X2, X3, ... Xn si presentano), la (1) può essere scritta nel modo seguente: 14 N ∑i fi*Xi 1 (2) Media = N ∑i fi 1 la frequenza con cui i dati si ripetono nell'insieme dato rappresenta il contributo di quel valore (o fattore peso) nella determinazione della media, così la (2) viene anche detta 'media ponderata'. Esempio: Dati gli stessi valori pressori dell'esempio precedente rifare il calcolo tramite la media ponderata, ovvero raggruppando e valutando le frequenza (il peso) con cui certi valori si ripetono. Abbiamo così : Valori ---------160 170 180 190 195 200 210 ----------Totale Frequenza -------------- -------x 2 = 320 x 2 = 340 x 3 = 540 x 3 = 570 x 1 = 195 x 2 = 400 x 1 = 210 -------- ---------14 2575 Applicando la (2), ossia sommando i prodotti ‘frequenza per valori si ottiene : Media = 2575 / 14 = 183,9 Il valore coincide con il precedente. A differenza del nostro piccolo esempio dove risulta indifferente l'applicazione dell'uno o dell'altro metodo capita .spesso di avere a che fare con le sole frequenze con le quali il valore si presenta, ragione per cui riesce utilissimo l'uso della metodica 'ponderata' .. ma ci sono altri tipi di MEDIE La media aritmetica fornisce una buona descrizione dei dati solo quando essi siano raggruppati in modo che il valore medio aritmetico non sia troppo lontano da ciascuno dei valori di partenza, ossia quando i dati provengono da un insieme piuttosto omogeneo. Ad esempio, volendo calcolare la media degli stipendi di un gruppo di persone, la descrizione data dalla media aritmetica è attendibile solo se quelle persone sono, diciamo, impiegati. Se tra loro vi fosse qualche funzionario, o dirigente il cui stipendio sarebbe certamente diverso e maggiore, allora il 15 valore medio aritmetico sarebbe inattendibile a descrivere la maggior parte del gruppo poiché lo stipendio di pochi eleverebbe oltremodo la media generale. Nel caso in esempio la correzione adeguata consiste semplicemente nell’omogeneizzare i caratteri (le qualifiche) salvo quello in esame (lo stipendio). In altri casi si ricorre a strumenti alternativi come : …la media GEOMETRICA Ammettiamo di avere dati che crescano in modo ‘accelerato’ come la sequenza 1 10 100 1.000 10.000 100.000 1.000.000 La media aritmetica è 1.111.13.1 / 7 = 158.730,14 che si colloca tra l'ultimo e il penultimo dato, dunque fuorviante come indicatore del gruppo. Se pensiamo che la stessa sequenza può essere vista come una serie di potenze di 10 : esponente 0 1 2 3 4 5 6 base -> 10 10 10 10 10 10 10 si nota subito che gli esponenti delle potenze sono una serie di numeri vicini tra loro e crescenti in modo omogeneo, continuo. Viene allora spontaneo lavorare sulla serie degli esponenti (0,1,2,3,4,5,6) che matematicamente sono chiamati "Logaritmi decimali" dei dati originali. Logaritmo di un numero è definito infatti come l’esponente da dare ad una base per ottenere quel numero. Così avremo che : 1 = 2 = 3 = Log10 Log100 Log1000 poiché poiché poiché 10 elevato alla 1 dà 10 elevato ‘’ 2 dà 10 elevato ‘’ 3 dà 10 100 1000 ecc.. La media aritmetica dei logaritmi è allora : 0+1+2+3+4+5+6 = 3 7 Mlog = (3) Dal risultato 3 (logaritmo in base 10), si ricava il relativo numero decimale (ovvero ‘l’antilogaritmo’) che sarà 10 elevato alla 3 = 1000, detto 'media geometrica' e che infatti si colloca al centro della serie di logaritmi (ossia la serie di esponenti delle potenze di dieci). Dunque in questa particolare sequenza la media geometrica dà un valore ben più azzeccato perché più ‘centrale’ di quella aritmetica posto che la legge che sottendeva la serie dei dati non era lineare . Sinteticamente tutto il discorso precedente equivale alla seguente definizione rigorosa, perciò precisa e concisa, di media geometrica come: Mg = N ( X1 * X2 * X3 * . * Xn) ovvero : radice ennesima del prodotto di N osservazioni. Ma tale definizione, per le proprietà fondamentali di definizione dei logaritmi equivale alla formula (3) soprastante e si applica preferibilmente laddove i dati manifestino una crescita rapidissima, come nel caso in esempio di tipo esponenziale. 16 - ….ed anche la media ARMONICA E' definita come rapporto tra il numero di osservazioni e la somma dei reciproci dei dati, dove per reciproco di un numero X si intende il valore 1/X. Perciò la media armonica sarà : N Ma = 1/X1 + 1/X2 + 1/X3 + + 1/Xn Un impiego indicato della media armonica si ha quando alcuni valori possono risultare enormi ma legittimi oppure convenzionali come 'infinito', senza che la distribuzione dei dati implichi una qualche legge matematica come quella esponenziale sottesa alla media geometrica. In questi casi infatti l'uso del reciproco che fa diventare molto piccolo , o addirittura zero, il reciproco di un certo dato risultante, troppo alto per l’esperimento condotto, riduce validamente il contributo di quel valore alla media senza toglierlo. Effettua cioè un intervento 'armonizzante' . Si pensi ad esempio di prendere i tempi in minuti in cui avviene un certo evento per 4 soggetti campione e che l'evento si manifesti solo per il primo ed il terzo soggetto : casi esperimento 1° 2° 3° 4° tempi all’evento (min.) 20 --- 25 -- Poiché l'evento non si è verificato per il 2° e per il 4° soggetto si presentano diverse ipotesi : eliminare i 2 casi invariati, ma .... è erroneo poiché l'informazione secondo cui in due soggetti il tempo massimo dell'esperimento (es. 6 ore) è trascorso per intero dovrebbe pur essere tenuto in qualche conto. Magari, l’evento si sarebbe potuto verificare pochi secondi dopo il tempo limite. attribuire il tempo massimo, ma… non è consigliabile poiché l'evento potrebbe non verificarsi, nella realtà, neppure per tempi lunghissimi, cioè né presto né tardi dare valore zero, ma… è errato in quanto ciò indicherebbe che l'evento si è verificato prestissimo il che è l'opposto di quanto è risultato dall'esperimento. Viceversa, attribuendo un convenzionale valore "infinito" ai due soggetti il loro reciproco va a zero. La posizione è valida quando il tempo massimo di esperimento fosse stato fissato enormemente più lungo di quanto ci si attende e si verifica in sede di esperimento per cui i casi in cui l’evento non si verifica avrebbero tempi se non infiniti almeno ‘lunghissimi’ da cui si derivano reciproci molto piccoli e trascurabili, quando non zero. Calcolando la media armonica che pure comprende i due zeri, 'armonici' si ottiene: 17 Ma = 4 1 1 + 0 + + 0 20 25 = 44.4 Si vede come il contributo dei due elementi in cui l’evento non si è verificato ha prodotto uno spostamento della media armonica verso valori più alti dei tempi registrati per i casi 2 e 3, in modo 'ragionevole' senza stravolgere il senso dell'esperimento e spostando di 'un tanto' la media verso l'alto. Si è ridotto l’effetto dei casi non verificati senza annullarne la presenza. - Concludendo sulle medie …. La media aritmetica è certo la misura d'insieme più facile, più intuitiva e più usata anche perché è l'unica impiegata nelle procedure inferenziali ossia di estrapolazione dei risultati di un campione sulla popolazione da cui il campione è tratto. Tuttavia in sede di analisi descrittiva le medie, armonica o geometrica, potendo minimizzare l'effetto di valori ‘anomali’ e destabilizzanti, possono rivelarsi più adatte per caratterizzare un campione. - Altri ‘indici di posizione’ In aggiunta (..non in alternativa) alla media, citavamo altri cosiddetti 'indici di posizione' atti a descrivere sinteticamente i dati. I più comuni indici di posizione , oltre la media sono la mediana e la moda. La denominazione allude al fatto che quei valori occupano, nell'insieme dei dati ordinati, una ben precisa posizione, caratteristica di quei dati. La MEDIANA Il valore di mezzo di un insieme di dati ordinati (p.es. in modo crescente) è detto 'mediana'. Per un numero pari di dati la mediana viene calcolata come media aritmetica dei due valori centrali. Es.: mediana di : 1 3 5 7 = (3+5) / 2 = 4 Per serie di dati in numero dispari la mediana è il dato centrale della distribuzione ordinata. Es. :. mediana di 1 3 5 7 9 = 5 Un'estensione del concetto di mediana (valore che divide l'insieme dei dati in due parti uguali) è quello che riguarda i valori che, nella sequenza ordinata dei dati, dividono l’insieme in quattro parti uguali. Tali valori vengono chiamati ‘quartili’. In modo analogo vengono definiti i decili e i percentili, valori che dividono l'insieme ordinato dei dati, rispettivamente, in 10 e 100 parti uguali e di cui si è già detto. Si ricorderà ugualmente che il quinto decile ed il cinquantesimo percentile coincidono con la mediana poiché questa divide in due parti uguali (50% + 50%) la distribuzione. 18 La MODA Il valore più frequente della classe, tra quelle opportune per una certa distribuzione di dati, avente la frequenza (cioè la numerosità) più elevata, prende il nome di "moda". Aldilà della lettera della definizione si pensi al valore corrente della parola 'moda' , ..la cosa che va di più, ...il comportamento più frequente. Così anche in senso statistico : quel valore che nel gruppo dato si presenta più volte. Per es., se in una distribuzione di casi di un campione di maschi sui quali si vuole studiare il peso, si decide di costituire classi ponderali. di 10 Kg e si trova che la classe più numerosa (o di maggior frequenza) è quella tra 70 e 80 Kg potremo definire tale classe come ‘classe modale'. All’interno di essa il valore che si presenta con più ripetizioni sarà la ‘moda’. Se tutti i valori presentassero la stessa frequenza allora la moda non potrebbe essere definita. Come abbiamo già osservato spesso si ha una sola classe modale, cioè si nota che una certa classe ha frequenza superiore a tutte le classi contigue mentre queste hanno frequenze superiori ad una delle classi loro contigue e inferiori a quelle dell’altra classe contigua . Si parla allora di distribuzione a una moda o ‘unimodale'. Talvolta ci sono due o più classi di frequenza, superiore a quelle strettamente contigue presentando allora un tipico profilo 'a gobbe'. Si parla allora di distribuzioni ‘bimodali’, ‘plurimodali’: chiaro indice di una mescolanza tra ‘popolazioni’ diverse per il carattere che è stato misurato. In una distribuzione sperimentale di frequenze non eccessivamente asimmetrica, unimodale, gli indici di posizione non coincidono (fig. 10) ma sono legati tra loro secondo la relazione approssimativa : Media - Moda = 3 * (Media - Mediana) (4) Per constatare la non coincidenza degli indici sopra citati riprendiamo una distribuzione di pressioni sistoliche simile a quella impiegata come esempio : giorno ore 8 1° 160 2° 180 3° 170 4° 180 5° 200 6° 190 7° 160 19 ore 22 170 190 190 I succitati valori di pressione sono, per semplicità, anche i valori centrali delle classi, salvo il dato 192 contenuto nella. 5° classe: 185-195’ 200 210 classi da >= a< 155-160-165 165-170-175 175-180-185 185-190-195 195-200-205 205-210-215 192 180 frequenza casi x 2 x 2 x 3 x 4 x 2 x 1 14 Collochiamo i dati in ordine crescente sull'asse orizzontale di un grafico 'frequenze-pressioni', ossia ricaviamo una distribuzione di frequenze . dati 1 press. 160 2 160 3 170 4 170 5 180 6 180 La media si trova in posizione : 7 8 9 180 190 190 10 11 12 13 190 192 200 200 14 210 Xm = 183,7 La mediana è il punto centrale della distribuzione di tutti i dati e poiché i dati. sono in numero pari, avremo che : Me (mediana) = (180+190) / 2 = 185 La moda, cioè il valore più presente, (entro la classe con il maggior numero di casi e di più alto valore) è 190 . Dunque : Mo (moda) = 190 La relazione (4), vera solo per approssimazione, risulta soddisfatta a meno di circa 4 unità. Solo nella distribuzione teorica detta 'normale' o gaussiana, simmetrica, dalla caratteristica forma a campana, i tre indici di tendenza media (media, mediana e moda) coincidono in modo perfetto . Va detto che quantunque moltissimi fenomeni si presentino con distribuzioni ‘gaussiane' o 'a campana', esistono altri tipi di distribuzioni . Per esempio, in un lancio di dadi l'uscita delle diverse combinazioni, se il dado non presenta difetti, è tale che, dopo un congruo numero di lanci, ogni faccia del dado conta un numero pressoché uguale di uscite . Con espressione tecnica si parla allora di distribuzione 'UNIFORME' . - ... e per concludere, ecco un : esempio generale riassuntivo n. 1 20 La valutazione del peso alla nascita, in grammi, di un gruppo di 30 neonati di sesso maschile, di pari età gestazionale, ha fornito i seguenti risultati disposti in ordine crescente: I II III 1 2 3 4 5 6 7 8 9 10 2700, 2710, 2730, 2800, 2820, 2840, 2910, 2960, 3000, 3100 3120 3200, 3280, 3280, 3280, 3380 3400, 3420, 3450, 3460 3470 3480, 3490, 3550, 3580, 3600, 3650 3710, 3750, 4100 Determiniamo la media, la mediana, la moda nonché il 5°, il 25° e il 95° percentile della distribuzione dei 30 dati sperimentali. 30 ∑i Xi 98220 1 Media = = N Mediana = 3274 30 = (3280 + 3380) / 2 = 3330 Moda = 3280 Scegliendo classi di ampiezza pari a 100 g si ottiene la seguente: Distribuzione di frequenze peso (g) frequenza 2700-2799,9 3 2800-2899,9 3 2900-2999,9 --------------------------------------------------2 3000-3099,9 1 3100-3199,9 2 3200-3299,9 ------------------------------------------------- 4 3300-3399,9 1 3400-3499,9 7 3500~3599,9 ------------------------------------------------- 2 3600-3699,9 2 3700-3799,9 2 3800-3899,9 ------------------------------------------------- 0 3900-3999,9 0 4000-4100 1 30 Consideriamo che il 5° percentile è quel peso che occupa nella distribuzione, il posto dato dall’espressione: 21 Posizione del 5 % = 5 x 30 = 1,5 100 In altre parole si determina il valore del 5% di una scala che arriva a 30 (numero totale dei casi) ottenendo che tale posizione si trova al posto 1,5 nella serie ordinata dei dati . Contenendo la prima classe una frequenza pari a 3, dovremo considerare solo 1,5 di questi tre casi e, usando il metodo della interpolazione lineare, si avrà: P5 = 100 2700 + x 1,5 3 = 2750 dove 2700 è il limite inferiore della prima classe e 100 è l'ampiezza delle classi. Abbiamo cioè aggiunto al limite inferiore della classe una frazione data dalla classe, ampia 100, divisa per il numero di suoi casi (3) pari a 33.3333 (numero di unità per ogni caso della classe) quindi moltiplicando per il numero di casi trovati occorrenti di quella classe (1,5). Risulta allora 49.999 che è il 5% della nostra distribuzione di 30 casi e che colloca tale percentile sul valore 2750 Il 25° percentile è il peso che occupa il posto dato da: Posizione del 25% = 25 x 30 = 100 7,5 Dato che la somma delle frequenze delle prime due classi, è pari a 6, per completare i 7,5 casi richiesti dovremo considerare 1,5 dei 2 casi della terza classe, quindi si avrà: l00 P25 = 2900 + x 1,5 = 2975 2 Analogamente, per il 95° percentile si avrà: Posizione del 95% = P95 = 3700 + 95 x 30 = 28,5 100 100 x 1,5 = 3775 2 Avvio Software Statistica per esercitazione 22 II PARTE : LE BASI DELL’INFERENZA STATISTICA Nell'esempio n.1 , riportato alla fine della prima parte sono state create ben 14 classi su un insieme di soli 30 casi. Se i dati fossero stati molto più numerosi si sarebbe potuto elevare il numero delle classi ottenendo ancora, per ciascuna classe, una presenza numerica (frequenza) consistente. Gli istogrammi risultanti, man mano che aumenta il numero di classi, si. fanno più ravvicinati ed il caratteristico profilo a gradinata va progressivamente smussandosi assumendo prima la forma a 'canne d'organo' per avvicinarsi sempre più ad una figura ogivale simile ad una ‘campana’ senza più spigoli e gradini, pressoché continua, e che si avvicina ad una forma teorica descritta perfettamente da un’equazione matematica perfezionata da De Moivre nel XVIII sec. : − 1 Y = * (X m − X i )2 2σ 2 e 2π Nella formula Xm è la media aritmetica dei dati, σ2 (sigma al quadrato) indica la varianza (misura dello scostamento dei dati attorno alla media. Della varianza ci occuperemo in seguito. Nella fig. 1 si riporta il procedimento geometrico-logico che illustra come al tendere del numero delle classi all’infinito l'ampiezza delle classi stesse tenda a zero mentre gli 'spicchi' di frequenze che riempiono l'area coperta dalla curva assumano il significato di probabilità che un generico caso rientri in una distribuzione come quella sotto esame. Infatti : tutta l’area indica per l’appunto la totalità dei casi, il 100% della popolazione sotto studio di 'pesi' o di ‘battiti cardiaci, o di 'altezze', ecc., ecc. Fig 1 : Aumento del numero di classi e approssimazione alla curva teorica. 23 Il processo teorico che abbiamo seguito ha trasformato una distribuzione di frequenze ‘discreta’, ossia fatta di un numero finito di dati raggruppati in un numero finito di classi, in un continuo, cioè in una entità tale che presi due suoi elementi pur vicinissimi è sempre possibile trovare un elemento interposto tra essi. L'importanza di questo concetto è legata al fatto che, se possiamo dimostrare che il campione si avvicina ad una distribuzione teorica continua come quella a 'campana' suddetta, (meglio nota come ""normale" o "gaussiana", perché studiata dal sommo matematico Federico Gauss, verso la fine del 1700), tutte le notevoli proprietà di quest'ultima possono essere estese anche alla intera popolazione da cui il campione è stato tratto permettendo una innumerevole serie di considerazioni induttive sulla popolazione che altrimenti non sarebbe possibile fare . Abbiamo detto che non tutti i fenomeni si esprimono in modo 'normale' o ‘gaussiano’: esistono altre distribuzioni come quella 'uniforme' quella di 'Poisson' ecc. Per tutte queste sono state trovate le distribuzioni teoriche grazie alle quali si può inferire anche in quei domini. Media, mediana e moda che già sono ravvicinate, in una buona distribuzione sperimentale a istogrammi, sono poi perfettamente coincidenti nella distribuzione teorica gaussiana. - Come descrivere la dispersione dei dati Il più semplice indice di dispersione è dato dal campo di variazione ovvero dalla differenza tra il valore massimo ed il valore minimo dei dati sperimentali. Ma questa informazione sul ‘range’ o intervallo estremo dei dati non dice molto su come i dati si addensano in quel ‘range’ . Anche la media, benché riassuma una caratteristica comune dei dati non basta a descrivere un campione. Due gruppi di dati potrebbero avere infatti una stessa media aritmetica pur avendo valori diversissimi. Si osservi la situazione seguente che dà l’altezza media, in cm, di due gruppi ‘a’ e ‘b’ di individui. 151+170+130+160+140+173 Ma = = 154 6 180+140+120+200+100+184 Mb = = 154 6 Se vogliamo dunque dare delle descrizioni sintetiche delle due piccole distribuzioni non possiamo limitarci alla sola media aritmetica. Anche le altre medie non sono di aiuto poiché i dati non mostrano caratteristiche speciali come una crescita geometrica o assenza di misure . Si dovrà invece dare una misura della dispersione (in inglese ‘scatter’) dei dati attorno alla media. 24 - Varianza e deviazione standard Poiché varianza e deviazione standard sono misure dello scostamento dei dati attorno alla loro media, con una formulazione piuttosto inconsueta e stranamente complessa per il neofita, si tratta di identificare bene cosa si deve intendere per scostamento (o ‘scarto’). L'idea base è di misurare lo scarto di ciascun dato dalla media presa come termine di paragone, e di sommare tali scarti per ciascun gruppo. Ma l'uso della sola sommatoria degli scarti è inutilizzabile poiché i segni negativi riducono il totale dello scartamento rispetto alla media, a zero. Ciò per definizione di media aritmetica. Si potrebbero togliere i segni negativi tenendo il valore senza segno, il cosiddetto ‘valore assoluto’ dello scarto (indicato da barre verticali ‘| |’ entro cui si scrive il valore) dividendo poi la sommatoria degli scarti per il numero di dati ottenendo così uno scarto medio. ----------------------------------------GRUPPO ‘a’ classi deviaz. ----------------------------------------154-151 154-170 154-130 154-160 154-140 154-173 = = = = = = +3 -16 +24 -6 +14 -19 0 ----------------------------------------- -------------------------------------GRUPPO ‘b’ classi deviaz. -------------------------------------154-180 154-140 154-120 154-200 154-100 154-184 = = = = = -26 +14 +34 -46 +54 -30 0 -------------------------------------- Si veda intanto come il gruppo ‘b’ riporti un’ampiezza di ‘scatter’(dispersione) decisamente maggiore. Lo scarto medio può essere definito tramite la formula sottostante : N ∑i | Xm – Xi | 1 Scarto medio Sm = N Se ci limitassimo a definire dei parametri semplicemente descrittivi dello ‘scatter-dati’ ciò potrebbe bastare ma esiste il metodo apparentemente più complicato ma più fecondo di risultati tipico della statistica inferenziale, ossia la somma e l'elevazione al quadrato dei singoli scarti. Con questo metodo i segni negativi sono eliminati per elevazione al quadrato secondo quanto insegna l’algebra quando facendo il prodotto tra due numeri negativi ottiene un risultato positivo (Es. - 4 x - 4 = +16). La sommatoria degli scarti, resi quadratici, viene poi divisa per il numero dei dati per fornire una quantità media degli scarti quadratici. Tale quantità è nota come ‘varianza’ (indicata spesso con la lettera greca ‘σ2 ’ (sigma minuscola) elevata al quadrato. 25 Dunque la varianza è : ∑i (Xm – Xi) N 2 varianza = σ = 2 e rappresenta perciò una ‘media quadratica’ della variabilità dei dati . Calcolando poi la radice quadrata della varianza, ossia facendo il procedimento inverso a quello di elevazione al quadrato degli scarti, ossia de-quadratizzando la varianza si ricava la cosiddetta 'deviazione standard’ (ingl. standard deviation , s.d.) o 'scarto quadratico medio' spesso indicata con le sigle 'd.s', o 's.d’ o ‘s’ od anche con la σ (sigma) . Per quanto detto si riassume la definizione, al solito modo preciso e conciso con la formula : d.s. = σ = ∑ (X m − X i )2 N Si noti che la formula sopra scritta che dà la deviazione standard è identica a quella della varianza più sopra riportata salvo che per la presenza della radice quadrata. Per calcolare infatti la deviazione standard, avendo la varianza, basta estrarre la radice quadrata della varianza . Viceversa avendo la d.s. si ha la σ elevando al quadrato la deviazione standard. Es: se varianza = e se d.s. . = 25 allora 5 allora i d.s. = σ2 = 25 52 = 5 = 25 Nel concreto, l'importante calcolo della deviazione standard non avviene per lo più come sottinteso della definizione matematica, cioè facendo le differenze tra ciascun dato con la propria media, quindi elevando gli scostamenti al quadrato, ecc., bensì con un metodo più razionale, specialmente quando si usano procedimenti. automatici su calcolatrici e calcolatori elettronici. Infatti il procedimento della definizione matematica richiede di memorizzare tutti i dati, affinché dopo il calcolo della media, si proceda alle singole differenze. Ciò significa un grande dispendio di memoria di lavoro elettronica: pensiamo alla frequenza con cui si devono calcolare medie provenienti da migliaia di dati. La formula della deviazione standard viene dunque opportunamente manipolata per ottenerne un'altra, equivalente, che non richiede più di conoscere valore medio per effettuare i calcoli. d.s. = σ = ∑ i ( X i ) 2 − (∑ i X i ) 2 / N dove N è il numero dei dati, Xi è un generico dato. N −1 26 Anziché avere una sommatoria di differenze quadratiche si ha ora la differenza tra due sommatorie. L’una è la sommatoria dei singoli dati quadratizzati, l'altra è la somma quadratizzata dei singoli dati . Risulta chiaro che un calcolatore, a questo punto, non deve far altro che memorizzare tre soli valori man mano che i dati si. presentano, cioè : la somma di ciascun dato quadratico, la somma dei dati, quali sono, e il numero dei dati. Terminato l'arrivo dei dati, la macchina provvede ai calcoli finali. Qualunque macchina, comprese le calcolatrici tascabili operano convenientemente in tal modo senza più limiti di dati . Così calcolata, la d.s. del l° gruppo risulta 16,9 mentre quella del 2° gruppo è 39,8 : oltre 2 volte la precedente, com’è giusto. Possiamo notare che essendo la d.s. calcolata su un insieme di dati campionari, cioè estratti da una popolazione su cui si vorranno poi fare considerazioni inferenziali, ossia di induzione sulla popolazione da cui è tratto il campione, si effettua una sorta di correzione usando in formula la quantità N-1 invece che N. Questa riduzione, qui modesta, rispetto al numero N dei casi fornisce la quantità nota come ’grado di libertà’, indicata per lo più come ‘g.d.l’ (in inglese ‘d.o.f’- degrees of freedom-) La sua spiegazione richiederebbe una trattazione che esula dagli scopi di queste note: limitiamoci a dire che la nozione di 'grado di libertà attiene al fatto che data una serie di elementi a comporre un ‘sistema’ (p.es. gli elementi A,B,C,D) la quantità di combinazioni che si possono stabilire tra un qualunque elemento con tutti gli altri è pari a N-1 (cioè a 4-1 = 3). Infatti la ‘libertà’ del gruppo così definito è che preso un elemento, p.es. C, si avrà ‘libertà’ di formare solo 3 coppie CA, CB, CD. Ugualmente preso l'elemento D, potremo avere la possibilità dì avere solo DA, DB, DC. E così via. Se dunque il ‘sistema’ era definito per la messa in coppia di 4 elementi a due a due riscontrando che la ‘libertà’ di movimento degli elementi era ‘tre’, così, in modo analogo, definito un ‘sistema’ fatto di una media aritmetica e dei dati che la compongono, forniti i dati e fissata la media aritmetica, uno di questi dati è sovrabbondante nel senso che rimane definito senza equivoci quando si sono fissati gli altri elementi .Dunque questo particolare ‘ sistema’ ha grado di libertà pari al numero di dati meno uno. Con altre parole possiamo dire che conoscendo lo scarto totale dei valori A B C dalla media non occorre calcolare anche lo scarto tra D e la media perché esso resta fissato per differenza tra il totale degli scarti e quello dei primi tre già effettuati. La scienza statistica vuole che nei calcoli di un qualunque test ci si serva dei g.d.l specifici di ogni test, ovvero del numero minimo sufficiente di dati, anziché del semplice ma ridondante numero dei casi. - Il ‘coefficiente di variazione' : CV Un ulteriore interessante parametro è il 'coefficiente di variazione definito come rapporto percentuale tra deviazione standard e media aritmetica. σ CV = * 100 Xm Esso esprime sinteticamente di quanto variano i dati in termini di deviazione standard rispetto alla media, fatta 100. E' così possibile stabilire confronti tra le dispersioni di. gruppi di dati misurati su scale diverse poiché le dispersioni sono rapportate alle medie dei rispettivi gruppi. 27 16,9 CV = * 100 154 Così il nostro gruppo ‘a’ ha = 10% ossia la variabilità media (deviazione standard) dei dati attorno alla loro media è del 10% della media stessa. Per il 2° gruppo si ha: 39,8 CV = * 100 154 = 25% Se dunque il gruppo ‘a’ mostra una dispersione del 10% rispetto alla sua media mentre per il secondo gruppo, ‘b’, è del 25% possiamo dire che quest’ultimo è due volte e mezzo più disperso del primo gruppo. Conclusione sulle ‘dispersioni’ Volendo riassumere e completare quanto detto finora sul modo di raggrupparsi e/o di disperdersi dei dati, in pratica si tiene conto e si definiscono i seguenti parametri: Scarto : differenza tra un dato qualunque e la media dei dati. Viene spesso indicato con S e può essere positivo o negativo potendo essere il singolo dato maggiore o minore del valore medio, Xm . Scarto S = Xm - Xi Devianza : sommatoria degli scarti quadratizzati (per annullare le differenze negative). Viene spesso indicata con D N devianza D = ∑i (Xm - Xi) 2 N 1 Varianza : ∑i S2 = 1 E' la stessa devianza D divisa per il numero di casi (o per n-1 se il gruppo di dati è un campione tratto da una popolazione) N ∑i (Xm - Xi)2 1 Varianza σ2 = N = D N 28 Deviazione standard : è la radice quadrata della varianza (si usa N-1 se il gruppo di dati è un campione di una popolazione) N Dev. Stand. Coeff. di variaz. σ2 ∑ = CV i (X m − X i )2 1 N = = D N σ * 100 Xm - Conclusione del discorso con un : esempio generale n. 2 Riconsiderando i dati di cui all'esempio 1 (prima parte) e che qui trascriviamo per comodità, vogliamo calcolarne la varianza, la deviazione standard ed il 'coefficiente di variazione' Dati originali : 30 misure di peso alla nascita in grammi 2700, 2710, 2730, 2800, 2820, 2840, 2910, 2960, 3000, 3100, 3120, 3200, 3280, 3280, 3280, 3380, 3400, 3420, 3450, 3460, 3470, 3480, 3490, 3550, 3580, 3600, 3650, 3710, 3750, 4100 si era ottenuta la media aritmetica = 3274 Calcoliamo ora la varianza e deviazione standard usando il metodo 'economico' (ossia quello che non richiede il preventivo calcolo della media e poi il calcolo di tutti i singoli scarti). Ci basta la sommatoria dei quadrati dei dati ed il quadrato della sommatoria dei dati, secondo la formula (A) precedentemente scritta : 29 n. DATI Quadrati n. DATI Quadrati ---------------------------------------------------------------------------------------------------1 2700 7290000 16 3380 11424400 2 2710 7344100 17 3400 11560000 3 2730 7452900 16 3420 11696400 4 2800 7840000 19 3450 11902500 5 2820 7952400 20 3460 11973600 6 2840 8065600 21 3470 12040900 7 2910 8468100 22 3480 12110400 8 2960 8761600 23 3490 12180100 9 3000 9000000 24 3550 12602500 10 3100 9610000 25 3580 12816400 11 3120 9734400 26 3600 12960000 12 3200 1024000 27 3650 13322500 13 3280 1075840 28 3710 13764100 14 3280 1075840 29 3750 14062500 15 3280 1075840 30 4100 16810000 -------------------------------------------------------------------------------------------------------Fatti i calcoli si ottiene: Dati : Somma dati : Somma quadrati N ∑ Xi ∑ Xi2 = 30 = 98220 = 325258600 E dalle due sommatorie ricaviamo, secondo la formula (5) : ∑ Xi2 - (∑ Xi )2 / N 325258600 – 982202 / 30 = 122877,33 = dividendo poi il risultato per 29 (usiamo cioè ' N-1 gradi di libertà' , considerando i dati un campione) : si ottiene la Varianza σ2 = e quindi. la Dev. Stand. σ = il Coeff. di Variaz. CV = poi 122877,33 / 29 12714,48 = 127114,48 = 356,53 (356,53 / 3274) * 100 = 10,88 %. Avvio Software Statistica per esercitazione 30 III PARTE Elementi di statistica inferenziale Abbiamo visto la definizione di deviazione standard (o scarto quadratico medio) e di errore standard. Abbiamo accennato pure al significato della distribuzione normale ed alle sue proprietà. Ricordiamo che se una 'popolazione' è distribuita 'normalmente' per un certo carattere ciò equivale a dire che c'è un addensamento di casi, secondo certe leggi, nei gruppi aventi un valore intermedio di quel carattere e, viceversa, una rarefazione di casi nei gruppi con valori estremi di quel carattere. Così , p.es. se misuriamo le stature di una popolazione umana troveremo moltissimi casi nelle classi di statura tra 160 e 180 cm., pochi casi nelle classi tra 140-150 e 180200 cm, rarissimi casi sotto il metro e sopra i due metri. Tale popolazione avrà una certa statura media e un proprio modo di distribuirsi dei casi attorno al valore medio, come descritto dalla deviazione standard. Se misuriamo gli scostamenti, invece che nelle unità usate in quel particolare studio (nel nostro esempio in cm), in deviazioni standard attorno al valore medio, preso come punto zero degli scostamenti , avremo trasformato la curva gaussiana o normale in una curva normale standardizzata, cioè rapportata alle deviazioni standard e per la quale si definisce che tutta l'area sottostante la curva abbia convenzionalmente valore 1. Questo ci consente di fare delle considerazioni più generali. E' infatti come quando si paragonano due fenomeni percentualizzando le misure. Se volessimo, ad esempio. paragonare il potere di acquisto dei salari di operai russi e italiani, sarebbe molto difficile ragionare in termini di rubli e di lire e del loro cambio. E' molto più facile paragonare le percentuali di incidenza sull'intero rispettivo salario che italiani e russi sborsano all'acquisto di un certo bene. Se i russi impiegano il 30% del salario per comprare un paio di scarpe e gli italiani spendono solo il 10% per un prodotto analogo siamo autorizzati a paragonare le due percentuali ed a concludere che in Italia le scarpe costano meno. Tornando alle gaussiane standardizzate : se due gruppi di dati presentano medie diverse la cui incertezza statistica (ossia l’entità della oscillazione, ricavata a mezzo della deviazione standard, e contenente con buona probabilità la media vera della popolazione, di cui i dati correnti sono un campione) è tale da non implicare una sovrapposizione delle due medie pur rimanendo similare,nei due gruppi, l’ampiezza di tale oscillazione statistica, sarà difficile poter considerare omogenei i due gruppi : dunque dovremo considerarli statisticamente diversi . Procedendo con ordine, diciamo intanto, e si dimostra (... noi ne prendiamo solo atto) che l'area sottostante la gaussiana standardizzata compresa tra due intervalli multipli e/o sottomultipli di deviazioni standard attorno alla media, considerata convenzionalmente zero, esprime direttamente la probabilità che un caso qualunque, appartenente a quella popolazione normale, abbia una misura del carattere in studio, compreso in quell'intervallo attorno al valore medio. Tale numero, percentualizzato ossia moltiplicato per 100, esprime ugualmente la percentuale dei casi della distribuzione che hanno valori compresi fra gli intervalli attorno allo zero mediano. Noi insomma, dalle caratteristiche di una gaussiana standardizzata sappiamo che il 68,26% dei casi (1/3 circa) di tutti i casi di una popolazione distribuita 'normalmente' sta tra -1 e +1 deviazioni standard dalla media mentre a due deviazioni standard si trova il 95,45% dei casi . 31 Riassumendo, in una popolazione normalmente distribuita si ha che : la media ± 1 dev. stand. raccoglie il 68.26% della popolazione la media ± 2 dev. stand. '' il 95,45% '' '' la media ± 3 dev. stand. '' il 99,73% '' '' Ogni volta che in seguito ad opportune considerazioni potremo asserire che il campione in studio (selezionato con buoni criteri di rappresentatività) è distribuito anch'esso normalmente, saremo autorizzati ad estendere le conclusioni dal campione all'intera popolazione a meno di un certo inevitabile errore, dovuto al fatto che il campione per quanto rappresentativo non sarà identico alla popolazione di origine. Intervallo fiduciale di una media (confidence limits) ___ Sappiamo già che esiste un indice detto errore standard della media che vale s / √ n in cui ‘s’ è la deviazione standard campionaria ed n il numero dei casi. Se invece di un solo campione estraessimo cento, mille, diecimila campioni essi presenterebbero un insieme di medie a loro volta distribuite normalmente. E' intuitivo infatti che moltissime medie avrebbero dei valori relativamente vicini e solo poche o rare, se il campione è buono, avrebbero valori fortemente scostantisi . L'errore standard della media va visto come la deviazione standard di una popolazione di medie, per cui costruendo attorno alla media del gruppo sperimentale un intervallo in frazioni o multipli di errore standard (vista come dev. stand. delle medie), per le considerazioni sopra svolte sulle distribuzioni normali standardizzate, otterremmo la percentuale della popolazione di medie che possono considerarsi omogenee a quelle comprendenti la media che il campione in studio ha generato. Se usiamo due deviazioni standard attorno alla media si raccoglierà oltre il 95% dei casi (qui delle medie...) della distribuzione e solo il restante 5% verrà escluso pur appartenendo alla distribuzione stessa. Commetteremo perciò solo un errore inferiore al 5% escludendo dai valori possibili quelli che si discostano più di due deviazioni standard . 32 Se poi andiamo a calcolare i valori risultanti dalla somma e differenza della media campionaria con i due err. stand. indicanti la probabilità di includere oltre il 95% delle medie, otteniamo due limiti, destro e sinistro attorno al valore medio campionario che costituiscono il cosiddetto ‘intervallo fiduciale della media’, al prescelto livello fiduciale del 95% . Va da sé che si possono calcolare i limiti fiduciali per altri livelli, come il 99%, moltiplicando l'errore standard per tre, dal momento che uno scostamento dalla media pari a tre dev. stand. raccoglie oltre il 99% dei casi di una distribuzione normale . Esempio : Il calcolo della media di un campione di degenze ospedaliere per un certo tipo di ricoveri ha fornito questi valori : degenza media m (giorni) = 12.5 dev. stand s (giorni) = 9.9 n. casi esaminati = 180 con la formula e.s. = s / ( 180 ) ricaviamo e.s. = 0.93 calcoliamo ora gli estremi destro e sinistro attorno alla media aggiungendo e sottraendo alla stessa due volte l'errore standard della media. L'uso di un fattore due indica che intendiamo comprendere oltre il 95% delle medie appartenenti a quella popolazione normale che si creerebbe se estraessimo centinaia o migliaia di campioni di degenze calcolandone le relative medie, anziché un solo campione con una sola media, come dal nostro esperimento. Avremo pertanto che dalla espressione : m - 2 e.s. < m < m + 2 e.s. sarà 9.77 < m < 13.48 ossia 12.5 - 2 x .93 < m < (limiti fiduciali al 95%) 12.5 + 2 x .93 Possiamo affermare, ( .... sempre che il campione sia rappresentativo di una popolazione distribuita normalmente ! ) che la media vera della popolazione si trova all'interno dell'intervallo calcolato e che nell'affermare ciò non sbaglieremo più di 5 volte su cento. 33 Confronto tra medie di due gruppi ( t di 'Student') Spesso si manifesta l'esigenza di paragonare le medie campionarie di due gruppi per saggiare se l'inevitabile differenza tra i valori calcolati possa essere ritenuta statisticamente significativa cioè se si riproduca con alta probabilità in ripetuti validi campionamenti della stessa popolazione, o in altre parole, se il risultato dell'esperimento condotto su un campione valga per l'intera popolazione, e ciò sotto una prestabilita soglia di errore, di solito sotto al 5%. Anche in questi casi dovremo riferire il nostro esperimento campionario ad una distribuzione teorica più generale, somigliando alla quale potremo trasferire i risultati dal campione alla popolazione. Viene definito un indice 't' calcolato in due modi. Se le medie provengono da due campioni i cui casi non hanno legami tra loro se non una generica paragonabilità ( p.es. età, patologie, altre situazioni comparabili tra i due gruppi). Si parla allora di confronto tra 'dati non appaiati' . La formulazione di questo primo modo appare come segue ed 'S' è definita deviazione standard media (cfr. più sotto), mentre 'n' indica la numerosità rispettivamente dei due gruppi 'a' e 'b' : Se osserviamo la formula che definisce l'indice 't' notiamo che fondamentalmente consiste in una differenza tra le medie dei gruppi, differenza che poi viene corretta per la numerosità dei gruppi e per la dispersione complessiva dei dati, tramite le loro devianze (..definite come sommatorie quadratiche degli scarti di ogni valore dalla media, in formula : ∑ (Xm-Xi)2 ). E' abbastanza intuitivo che quanto più differiscono le medie tanto più probabile è il rifiuto dell’ipotesi base (detta ipotesi zero e spesso riportata col simbolo H0) che i gruppi siano statisticamente omogenei e quindi appartengano alla stessa popolazione. Se facessimo moltissime altre campionature, di due gruppi in due gruppi, troveremmo che moltissime differenze tra le loro medie si accumulerebbero intorno ad un certo valore e progressivamente molte meno si situerebbero su valori inferiori o superiori. Un discorso analogo è già stato fatto per introdurre la distribuzione 'normale'. Dicevamo infatti che una popolazione è ‘normale’ se per un certo carattere misurato si osservano un accumulo di 'frequenze' in certe classi centrali ed una rarefazione nelle classi estreme, secondo certe proporzioni. Ora, anche la distribuzione delle differenze tra le medie di due gruppi presenta questo fenomeno, pur con sue caratteristiche. C'è 34 insomma una distribuzione teorica, analoga alla 'normale', chiamata 'distribuzione t' ed è possibile fruire di tabelle che ci dicono con quale probabilità di errore possiamo rigettare l'ipotesi di omogeneità, di non differenza statistica tra le medie in esame ( la citata ipotesi H0). Il test che discende dalla distribuzione 't' e che è formalizzato dall'indice 't' è chiamato 't di Student' dallo pseudonimo dello statistico Gosset che l'ha studiato e proposto. La tabella dei valori limite di 't' per la significatività del test di Student è riportata su tutti i testi di statistica, anche i più elementari, stante la grande diffusione di questo metodo. Diamo qui sotto un breve campione di come è solitamente presentata tale tabella : Tabella dei valori t di Student ----------------------------------------------------------------------Gradi di ---Livelli di probabilita' --- * liberta' P 5% P 1% ---------------------------------------------------------------------1 12.71 63.66 2 4.30 9.93 3 3.18 5.84 4 2.78 4.60 5 2.57 4.03 6 2.45 3.71 7 2.37 3.50 8 2.31 3.36 9 2.26 3.25 10 2.23 3.17 ..... ...... ...... ..... ...... ...... 15 2.13 2.95 17 2.11 2.90 ..... ...... ...... 20 2.09 2.85 ..... ...... ...... 30 2.04 2.75 ..... ...... .... .. 60 2.00 2.66 ..... ...... .. .... 120 1.98 2.61 ..... ...... ...... ** N>> 1.96 2.58 ---------------------------------------------------------------------* I valori di t sono arrotondati al 2. decimale * * N>> indica un valore molto grande, verso l'infinito Il secondo modo di definire 't' si ha quando i casi appartenenti ai due gruppi sono direttamente legati o sono addirittura lo stesso caso visto in momenti o stati diversi. Questa situazione è nota come 'appaiamento' e produce una speciale comparabilità di cui le formule devono tenere conto: 35 Anche qui si fa uso della quantità 'S' , già descritta come deviazione standard media, e di 'n' : numerosità dei gruppi. Tipico di questa situazione è il caso di pazienti di cui venga registrato un parametro prima e dopo un determinato intervento, trattamento o terapia. Esempio : confronto tra le medie di due gruppi, senza appaiamento Supponiamo di avere due gruppi di individui di età paragonabile ma di sesso diverso e si voglia verificare se la media dei pesi (in kg) dei due gruppi, che nei campioni risulta diversa, possa indicare in modo statisticamente significativo che, in generale, maschi e femmine, differiscono per il peso a parità di età. Sia la seguente la tabella dati distinta per sesso, completa dei rispettivi quadrati . -------------------------------------------------------------------------------------------------N.caso Maschi Femmine ------------------------------------------------------------------------------------------------Peso Peso^2 Peso Peso^2 -------------------------------------------------------------------------------1 77.2 5959.8 62.1 3856.4 2 71.7 5140.9 69.5 4830.2 3 80.5 6480.2 72.4 5241.8 4 78.0 6084.0 61.1 3733.2 5 68.1 4637.6 65.7 4316.5 6 72.3 5227.3 59.3 3516.5 7 90.8 8244.6 85.5 7310.2 8 84.4 7123.4 49.0 2401.0 9 93.2 8686.2 78.1 6099.6 10 77.2 5959.8 ----------------------------------------------------------------------------------------------------Totali ----> 793.4 63543.8 602.7 41305.4 36 Calcoliamo poi rapidamente : Peso medio Dev.standard Errore stand. m. Interv.fiduc. 95% Maschi 79.34 8.14 2. 47 73.52 -:- 85.16 Femmine 66.97 10.97 3.62 58.61 -:- 75.32 Dando i simboli ‘m’ ed ‘f’ rispettivamente a maschi e femmine, ed indicando con N la numerosità dei gruppi, con 'gdl' la sigla : gradi di libertà (per questo test, per ogni gruppo sono pari al numero dei dati meno 1) ed indicando le sommatorie col simbolo greco ‘∑'’ (sigma maiuscolo), useremo le sottostanti formulazioni : + N Fattore delle numerosità : Devianza maschi : ∑ pesi - ( ∑ pesi m) 2 / N m = 595.44 Devianza femmine : ∑ pesi f 2 - ( ∑ pesi f) 2 / N f = 944.59 : ( devz m + devz f ) x ( gdl Dev. stand. media Otterremo un indice T = (N x N m 2 m 3.001 f )/(N che ha m Nm+ m f ) = 39.24 + gdl f ) = 161.80 Nf - 2 = 17 gdl Consultando le tavole riportanti i valori soglia della distribuzione 't' vediamo che con 17 gradi di libertà i valori soglia di significatività al 5% ( 2.11) ed all'1% (2.90) sono entrambi superati dal nostro T calcolato. Pertanto, la differenza tra i due valori medi è di una entità tale che ci consente di affermare, a meno del 1% di errare, che le due medie non appartengono probabilmente alla stessa distribuzione, ovvero rigettiamo l’ipotesi H0 di omogeneità e concludiamo affermando che i due gruppi hanno pesi significativamente diversi con P < 0.01. Il problema di confrontare medie si estende ovviamente al confronto tra più gruppi e non può essere correttamente risolto facendo tutti i possibili confronti a coppie. Si verifica infatti un 'accumulo di errore' che finisce per sovrastimare i risultati producendo differenze solo apparenti . Si applica allora la cosiddetta 'correzione di Bonferroni' che consiste nel moltiplicare la probabilità risultante dal confronto tra due qualunque degli n gruppi per cui è fatto l'esperimento per ‘n’ (numero dei gruppi). E' comunque consigliabile ricorrere ad una metodica più generale chiamata ‘analisi di varianza’ . 37 Analisi di varianza (ANalysis Of VAriance : ANOVA) monovariata Tale metodica non può essere estesamente trattata in queste brevi note, diremo comunque che si applica comunemente quando si devono confrontare le medie di più di due gruppi relativamente ad un criterio di suddivisione (analisi di varianza ad una via : one way ANOVA, monovariata) oppure con due o più criteri di suddivisione (analisi di varianza a due o più vie : two ways, three ways ANOVA). Se dovessimo, p.es., confrontare le medie dei pesi di cinque gruppi di individui trattati con diete diverse applicheremmo una ANOVA a 1 via, infatti il criterio di divisione è uno solo : le diete, come si vede dall'esempio nella seguente tabellina dove troviamo i pesi medi di 5 gruppi di individui trattati con 5 diverse diete : pesi medi dieta 1 dieta 2 dieta 3 dieta 4 dieta 5 -------------------------------------------------------------55 59 57 60 61 -------------------------------------------------------------- Se volessimo rifare l'esperimento tenendo conto anche del sesso degli individui dovremmo misurare i pesi suddividendo ciascun gruppo-dieta in due gruppi di sesso e prendendone poi i valori medi per ottenere : pesi medi ‘’ ‘’ dieta 1 dieta 2 dieta 3 dieta 4 dieta 5 -----------------------------------------------------------maschi 55 59 57 60 61 femmine 54 57 58 58 59 ------------------------------------------------------------ L' ANOVA , svolta normalmente al calcolatore per la quantità di calcoli da eseguire, specie se con molti dati e/o a più vie, produce normalmente un risultato globale che segnala se complessivamente c'è differenza tra le diete (one way), come nel primo esempio, e tra le diete e/o i sessi (two ways), come nel secondo esempio. In caso esistano tali differenze globali è possibile verificare tra quali coppie di gruppi-dieta e/o sesso risiedono le differenze di peso. Il discorso si complica con l'aumentare delle vie anche perché nella comprensione dei risultati entra in gioco un nuovo fattore noto come 'interazione'. La presenza di interazione significativa indicherebbe un legame inscindibile tra diete e sessi che rende inutile una trattazione separata per diete e sessi. E' come dire che, per qualche nota o meno nota ragione, le diete, agiscono molto di più su un sesso (magari per la presenza di ormoni anabolizzanti, in quelle diete, ecc.). Per la valutazione del significato statistico di una analisi di varianza ci si basa, come al solito, su una retrostante distribuzione : la ‘F’ di Snedecor, definita come un rapporto tra due variabilità. Una è chiamata 'media dei quadrati entro i gruppi' e consiste in una sommatoria delle varianze di ciascun gruppo, ciascuna moltiplicata per la numerosità ( meno 1) del gruppo stesso, quindi divisa per i gradi di libertà (numerosità globale meno il numero dei gruppi). L'altra e' chiamata m ' edia dei quadrati tra i gruppi' e consiste nella sommatoria delle differenze quadratizzate tra la media di ciascun gruppo con la media di tutti i casi di tutti i gruppi, assieme, e con ciascuna differenza moltiplicata per la numerosità di ciascun gruppo, quindi divisa per il proprio grado di libertà ( numero dei gruppi -1 ). 38 Come sempre si consulteranno apposite tabelle (che non riportiamo) per vedere se l'indice ‘F’ calcolato, supera quello riportato sulle tabelle, al voluto livello di probabilità. In caso affermativo può essere sostenuta una diversità tra le medie dei gruppi. Nel caso di un confronto tra due gruppi il risultato è identico a quello di un confronto fatto con il 't di Student' . Nel caso di più gruppi, poiché la risposta data dalla 'F' è globale mentre al ricercatore interessa sapere tra quale o tra quali gruppi c'è differenza significativa, occorre ricorrere ad appositi metodi, noti come 'post hoc tests' per individuare dove risiedono tali differenze. I metodi sono diversi ed i più noti sono : il test di Scheffé, di Duncan, di Tukey , ecc.. Ogni pacchetto statistico ben fornito li contiene nella propria dotazione . Il confronto tra le medie di due gruppi, condotto col 't' o con l'analisi di varianza, condotta su più medie con le ANOVA, può compiersi purché siano rispettati alcuni assunti, ossia sotto i vincoli di normalità della distribuzione dei casi e della cosiddetta 'omogeneita' delle varianze', cioè che i gruppi in esame mostrino similari modi di distribuirsi dei dati attorno alle rispettive medie. Anche qui non possiamo trattare diffusamente del problema ma vanno tenuti presenti alcuni criteri di massima, orientativi all'uso : 1. non si impieghi il 't' o l' ANOVA se i gruppi a confronto non sono dell'ordine di qualche decina di casi 2. si abbia la nozione se la variabile in esame (peso, altezza, ecc) da cui il campione è stato estratto risulti distribuita normalmente, tenendo conto della esistente letteratura 3. si cerchi di usare gli appositi test che verificano la normalità (p.es. il test di Kologorov Smirnov ) e l'omogeneità delle varianze (p.es. il test di Bartlett). Questi test sono studiati per sondare la presenza di non normalità e non omogeneità delle varianze, rispettivamente, pertanto si procederà con le analisi parametriche (ANOVA, ecc.) quando essi risultano non significativi. Infatti la loro significatività equivale al rigetto della ‘ipotesi zero’ (H0) che ci sia una distribuzione normale e che le varianze siano omogenee. 39 ANOVA multivariata Fin da quando abbiamo definito il 't di Student' per il confronto tra le medie di due gruppi e giù fino alle analisi di varianza tra più gruppi ed eventualmente a più vie, si è detto che i gruppi e le vie sono un modo di analizzare i dati ma sempre relativamente ad una sola caratteristica per volta: il peso, l'altezza, i giorni di degenza, ecc. Nell'esempio sopra riportato abbiamo raccolto i pesi per diversi gruppi di dieta e di sesso dove il carattere esaminato era sempre e solo il peso mentre i raggruppamenti erano fatti sotto due modalità (due vie): il sesso e le diete . Ci sono tecniche per vedere se i valori medi dei casi si distinguono analizzando contemporaneamente più caratteri, per esempio peso e altezza insieme. Questa tipo di analisi di varianza è detto: 'multivariato' ovvero a più variabili . Altre tecniche multivariate Tutte le analisi tipo ANOVA analizzano i dati riguardo ai valori medi di gruppi e sottogruppi in cui possono essere organizzati. E' possibile condurre molti altri tipi di analisi in grado di operare su più variabili contemporaneamente. Tra le diverse ricordiamo : - cluster analysis : tendente a raccogliere in dati in gruppi più o meno vicini tra loro a seconda dei valori che ogni caso riporta per le diverse variabili esaminate. - analisi discriminante: tendente a costruire, da un campione esemplare, una equazione che serva a classificare correttamente, in una di due alternative, (sani/ammalati, a rischio/non a rischio, ecc.) nuovi casi man mano che si presentano in base ad n variabili note. - analisi fattoriale : tendente a ‘semplificare’ l’insieme delle variabili sottoposte all’analisi in speciali raggruppamenti, detti ‘fattori’ che diventano vere e proprie nuove variabili, in numero decisamente inferiore, atte a descrivere il campione Riguardo alla ‘cluster analysis’ si immagina che ogni caso, definito tramite più caratteri (variabili) come p.es.: peso , altezza, età, degenza, ecc. sia come un punto in uno spazio ad n dimensioni in cui i valori assunti dalle variabili siano le coordinate di tali punti nello spazio. Naturalmente aldilà delle tre coordinate non è più possibile una rappresentazione grafica dato che lo spazio fisico nel quale ci muoviamo è di sole tre coordinate. Concettualmente parlando e lavorando con le formule matematiche non c'è limite al numero delle dimensioni elaborabili. Il vocabolo ‘cluster’ è mutuato dall’inglese e significa precisamente grappolo, raggruppamento. 40 In figura, un esempio di processo di ‘clusterizzazione’ su dati riguardanti le lunghezze dei canali vascolari entro occhi umani. Ad un normale ‘scatter plot’ è sovrimpresso un raggruppamento per un massimo di tre gruppi . Il metodo usato per la costituzione dei gruppi (‘average’) compone gruppi aventi la distanza media (tra i dati) minima possibile. Nel caso specifico di plot a due dimensioni questo soft si incarica non solo di segnalare le appartenenze ai cluster ma anche di contornare i cluster individuati. Ci sono altri tipi di rappresentazione che tendono ad evidenziare le ‘distanze’ che separano gruppi e sottogruppi tra loro. Se il processo di suddivisione è pensato come ‘gerarchico’, ovvero come un processo che può andare dalla massima frantumazione (tutti i casi, singolarmente, fanno un gruppo a sé) fino ad unico gruppo che di riunione in riunione raduna tutti i casi, allora si può ottenere un ‘dendrogramma’, una figura ad albero che si apre in molte diramazioni (gruppi e casi). In questa figura si osserva un dendrogramma che a partire dall’estrema sinistra della figura, fino alla estrema destra raccoglie progressivamente casi e gruppi fino ad una sola entità. Gli ultimi gruppi (a destra) sono caratterizzati da grandi differenze (distanze) evidenziate dalle quote a cui avviene l’unione tra due gruppi qualunque. 41 Riguardo alla analisi discriminante si intende soprattutto costruire uno strumento matematico, una equazione, che in base alla misura di uno o più caratteri (peso, altezza. età) sia in grado di classificare (per esempio come patologico o meno) ciascun nuovo caso che si presenti al ricercatore. I casi costituenti il campione, certamente numerosi, (molte decine o centinaia, per dare un riferimento…) non possono essere casi ignoti, da studiare, ma casi esemplari, sicuramente classificati in uno dei due gruppi stabiliti a priori. E’ come se lo spazio n-dimensionale fosse diviso in regioni contenenti casi p.es. casi sicuramente patologici e sicuramente sani oppure su due regioni di casi a bassa e alta risposta ad una certa terapia, ecc. . L’equazione ricavata, se mostra di poter riclassificare con accuratezza gli stessi casi del campione nelle rispettive regioni di appartenenza, diciamo attorno al 90-95% dei casi del campione potrà essere impiegata per classificare nelle stesse regioni un nuovo caso introducendo nella equazione trovata i valori delle variabili proprie di quel nuovo caso, a meno dell’errore che siamo disposti a tollerare e che risulta nel momento in cui accetta l’equazione. In figura, una tipica uscita (qui del prodotto PSP, per una elaborazione con tre variabili). Si osservi in particolare il valore della ‘soglia discriminante’ che costituisce il punto di distinzione tra i casi ricadenti nel primo o nel secondo gruppo. Ciascun nuovo caso, fornito del valore di ognuna delle tre variabili ritenute discriminanti viene collocato nel proprio campo calcolando il relativo ‘L’ che viene confrontato con la soglia (26.442). Riguardo alla analisi fattoriale notiamo che nelle diverse ricerche è normale che ciascun caso sia descritto con molte o moltissime variabili, non di rado varie decine. Si constata che parecchie variabili si muovono insieme, sono tra loro correlate in senso diretto (se crescono o calano insieme) o in senso inverso (se mentre cala l'una un'altra cresce). Ciò è normale, soprattutto in ambito medico, se non altro perché molte variabili sono misurate nello stesso distretto biologico : il fegato, il muscolo, i reni, ecc. Inoltre alcune variabili sono più valide di altre a caratterizzare i casi. E' possibile, con l’analisi fattoriale, semplificare la descrizione del campione tramite l'identificazione di due, tre o più fattori, ossia raggruppamenti di variabili configurate come una sorta di 'supervariabili' fittizie. Può allora intravvedersi p.es. un fattore 'antropometrico' dato dal contributo delle variabili antropometriche come peso, altezza, eta', body-mass-index (peso in kg / (altezza in metri)2) ecc.. , e/o può uscire un fattore ‘epatico’ da alcune variabili del distretto epatico, ecc. Di ogni fattore sarà possibile vedere l'importanza rispetto agli altri fattori ed il contributo di ciascuna variabile alla sua consistenza . 42 Regressione lineare semplice Non si può parlare di analisi di varianza senza ritornare sul tema delle regressioni. La procedura di regressione è una tecnica del tutto matematica e produce immancabilmente il suo risultato dopo una nutrita serie di passaggi di calcolo con i quali essenzialmente si risolve un sistema di due equazioni ottenendo il coefficiente angolare 'm' della retta e l'intercetta 'q' sull'asse y delle ordinate . Tale risultato, ancorché tecnicamente corretto può aver valore statistico nullo. Infatti bisogna verificare che i punti (i casi) in regressione, quando siano espressione di una campionatura, in dipendenza del loro numero e della entità del coefficiente angolare trovato, esprimano una regressione valida per l'intera popolazione . Allo scopo, le regressioni presenti nei pacchetti statistici sono generalmente corredate di due strumenti statistici essenziali : l'analisi di varianza della regressione e la statistica del coefficiente angolare (di solito condotta su una distribuzione 't' di cui il ‘pacchetto’ dà spesso anche il relativo P di significatività) . Nell’esempio in figura, nella sezione di descrizione della elaborazione numerica, si vede il risultato della analisi di varianza della regressione . Questa segnala, tramite il coefficiente ‘F’ se il modello di regressione, in generale può ritenersi valido . La ‘slope’ (pendenza) fornisce invece il tasso di variazione della variabile dipendente in funzione della variazione unitaria della variabile indipendente . Il risultato è ben riassunto nel quadro sottostante che riassume la legge di variazione della accelerazione in funzione del tempo : -3.37 x 10-3 per ogni unità di peso . Il valore negativo indica un proporzione inversa ovvero che al crescere del peso diminuisce l’accelerazione. Il modello di regressione è valido con P < 0.01 . 43 L'analisi della varianza col relativo 'F' ci dice se la regressione possa essere valida nel suo complesso, mentre il test 't' sul coefficiente angolare ci dice se tale coefficiente possa ritenersi significativamente diverso da zero . In altre parole si controlla che la pendenza (slope) data dal coefficiente 'm' non sia solo apparente. Dire infatti che 'm' ( tasso di variazione della variabile dipendente y, al variare della variabile indipendente x ) e' zero equivale a dire che il variare di x non trascina alcuna variazione significativa di y. Nelle regressioni semplici, quelle con una sola variabile indipendente x, il valore di 'F' coincide con quello del 't' del valore di pendenza 'm' poiché tale coefficiente è anche il solo che fa sussistere la regressione. Tra le tecniche multivariate molti includono anche le multiregressioni in cui una variabile dipendente Y varia in funzione della variazione di più variabili indipendenti X1,X2, X3, ecc. Per fissare le idee si immagini, ad esempio di voler testare se la lunghezza della degenza (y) dipenda contestualmente dalle variabili età (X1), tempo di presenza della patologia (X2), livello dei trigliceridi (X3), livello delle gamma-globuline (X4) . Avremmo il seguente modello di regressione multipla : Y = a X1 + b X2 + c X3 + d X4 in cui a, b, c, d sono i coefficienti da determinare con la regressione multipla , e dove ciascuno di loro è analogo alla 'm' di una regressione semplice poiché indica il tasso di variazione della variabile dipendente Y al variare di una unità di quella particolare variabile indipendente. In questo caso ciascun coefficiente ha valori diversi dall'indice 'F' globale di regressione ed i diversi coefficienti possono risultare o meno significativi indicando così che la y dipende realmente solo da quelle variabili indipendenti (a,b,c,d) risultate significative (significativamente diverse da zero). Ovviamente se 'F' fosse statisticamente insignificante ( errore P dell'indice 'F' troppo grande, ampiamente sopra il convenzionale 0.05) sarebbe inutile consultare a,b,c,d in quanto l'intero ‘modello’, cioè il complesso delle variabili indipendenti scelte non avrebbe significato. Nella regressione lineare semplice (una variabile dipendente ed una dipendente) e nella regressione lineare multipla (una variabile dipendente e molte indipendenti) sono in gioco variabili misurate su scala intervallo (quali peso, altezza, età e normalmente distribuite). Questa e le altre tecniche appena descritte sono cioè tipicamente ‘parametriche’. 44 Esistono regressioni come la regressione logistica (semplice o multipla) in grado di utilizzare variabili classificatorie cioè misurate su scala nominale, come il sesso, le classi di età, l'essere o meno fumatore , ecc. andando a comporre modelli di regressione con variabili di tipologia mista, del tipo : Y = altezza + sesso + Body-Mass-Index + età + fumatore Caratteristica appariscente della regressione logistica è che la variabile dipendente (Y) è codificata in modo dicotomico (modello logistico binario) ossia classificando i casi con due soli valori 0/1, 1/2 ecc. che indicano il verificarsi di un certo evento o la presenza di una certa situazione, ad es. paziente migliorato o meno, situazione di alto rischio - basso rischio, obeso - non obeso, deceduto non deceduto, ecc. Ma la caratteristica principale di questa analisi è che il risultato viene letto in termini di probabilità, ossia che il muoversi di una unità (o di una categoria) in una delle variabili indipendenti sposti dalla categoria 0 a quella 1 (o da 1 a 2…) la variabile dipendente. Anche la regressione logistica fornisce dei coefficienti che sono testati statisticamente. Se risultano significativi si esamina il ‘peso’ che essi hanno sul variare della Y in termini di ‘rischio’, cioè, ripetendo quanto si è detto poco sopra, la probabilità che il muoversi di una unità (o categoria, se quella variabile è di tipo nominale) di una variabile indipendente provochi il muoversi della variabile binaria dipendente (da 0 a 1, o da 1 a 2). Nella figura sottostante è riportata una tipica uscita della sezione ‘rischio’ (odds ratio) di una analisi di regressione logistica. Si può vedere che, p.es., la variabile 9 (esrisv8b_2) nel passare dalla categoria di riferimento alla categoria connotata da questa variabile implica l’innalzarsi di ca. 2 volte la probabilità che la variabile dipendente passi da 0 a 1 (cioè da assenza di un certo stato alla presenza di quello stato. Anche la variabile 2 (sessv1_1), indicante in questa analisi il sesso femminile, alza di quasi 2 volte (1.925) la probabilità che la variabile dipendente passi allo stato 1. Nelle righe inferiori della figura sono riportati alcuni parametri globali della regressione tra cui il ‘CHI-SQ P-VALUE’ indicante la significatività statistica del modello di regressione nel suo complesso e che qui risulta accettabile con P < = 0,05 La colonna degli ‘odds’ è affiancata a destra da due altre colonne riportanti i limiti fiduciali ( in 45 figura, al 95%) attorno al valore calcolato. Più alta è la significatività statistica delle variabili in esame e del modello nel suo insieme, più stretto sarà l’intervallo sfiduciale che identifica con più affidabilità l’odds calcolato. Regola pratica per asserire la significatività degli odds è che i limiti fiduciali non devono contenere il valore 1. Gli odss ed i rispettivi estremi sopra il valore 1 indicano un ‘rischio’ ovvero che il crescere della variabile fa crescere anche la probabilità, della quantità indicata dall’odds, di spostare la variabile dipendente allo stato 1. Gli stessi valori, sotto l’unità, indicano che il crescere della variabile indipendente agisce ‘in protezione’ , ossia al crescere della variabile diminuisce la probabilità di spostare la variabile dipendente allo stato 1. Bisogna notare che gli ‘odds ratio’ spiegati da molti come ‘rischio relativo’ sono in realtà una approssimazione del rischio relativo, secondo la più corretta definizione dello stesso. Sotto certe condizioni tuttavia le due quantità sono abbastanza simili. Se infatti chiamiamo p1 e p2 la probabilità di verificarsi di un certo evento in due diverse condizioni (es: ammalarsi [o meno], dopo esposizione [o no] ad una situazione rischiosa) ed (1-p1) e (1-p2) la probabilità del non verificarsi dello stesso evento, si ha, per definizione, che il ‘rischio relativo’ (RR) e l’ ‘odds ratio’ (OR) sono dati, rispettivamente, da : p2 RR = p1 p2 / (1 - p2) OR = p1 / (1 - p1) E’ evidente che le due definizioni forniscono valori tanto più vicini quanto più piccoli sono p1 e p2 . Rileviamo altresì che mentre le regressioni lineari semplici e multiple sono per lo più parte integrante dei comuni pacchetti statistici la regressione logistica viene spesso confinata in moduli aggiuntivi (da acquistare..). Poiché molti noti soft statistici sono organizzati a moduli attorno ad un ‘nucleo-base’ l’acquirente farà bene ad accertarsi che le analisi di suo interesse siano realmente contenute nei moduli acquistati. Coefficiente di correlazione lineare (o di Pearson) Se il coefficiente angolare 'm' misura il tasso di variazione della variabile dipendente (x) al variare di quella indipendente (y) il coefficiente di correlazione r (oppure R) è un indice di associazione tra le due variabili in regressione. E' definito dalla relazione : dove X ed Y sono le coordinate cartesiane dei vari punti e ∑ indica la sommatoria estesa a tutti i punti. Varia tra zero ed uno indicanti rispettivamente assenza o massima correlazione. Quanto più alto è il coefficiente tanto più alta è la forza del legame lineare tra le variabili e perciò i punti in regressione giacciono vicini ad una retta. E’ possibile che le variabili siano tra loro legate ma che sia basso il coefficiente r di Pearson il che indicherebbe esistere un legame di tipo diverso da quello lineare (esponenziale, parabolico, ecc.). Poiché in un esperimento i punti in regressione rappresentano più spesso un campione di una popolazione, sarebbe fuorviante limitarsi a rilevare 46 la sola entità del coefficiente. Infatti quando siamo in presenza di un campione occorre verificare la significatività del coefficiente tarandolo. Per così dire, su apposite tabelle in base al numero dei punti (o meglio, dei gradi libertà) della regressione. Così con 50 punti è sufficiente un ‘r’ di circa 0.28 per avere un errore sotto il 5% , (comunemente preso come soglia di significatività) . Il coefficiente ‘r’ è simmetrico perché invertendo le variabili in regressione, ossia dichiarando dipendente la variabile che prima era stata definita indipendente, fornisce lo stesso risultato (non così il coefficiente ‘m’ di regressione). Riportiamo uno stralcio di una tabella di significatività dei coefficienti ‘r’: Tabella dei valori ‘r’ di regressione ----------------------------------------------------------------------Gradi di --- Livelli di probabilità' --- ** Libertà * P 5% P 1% ---------------------------------------------------------------------1 .997 .9999 2 .950 .990 3 .878 .959 4 .811 .917 5 .755 .875 6 .707 .834 7 .666 .798 8 .632 .765 9 .602 .735 10 .576 .708 ..... ...... ...... 15 .482 .606 17 .456 .575 ..... ...... ...... 20 .424 .539 ..... ...... ...... 30 .349 .449 ..... ...... ...... 60 .250 .325 ..... ...... ...... 100 .195 .254 ..... ...... ...... ---------------------------------------------------------------------- * ** I gradi di libertà sono il numero di coppie meno due I valori di ‘r’ sono arrotondati al 3° decimale Nel caso delle multiregressioni il relativo coefficiente di correlazione è detto ‘coefficiente di correlazione multipla' . 47 Analisi non parametriche Quando non siano soddisfatte le condizioni più sopra descritte di normalità delle distribuzioni, di non omogeneità delle varianze, o quanto meno, di bassa o bassissima numerosità del campione conviene rivolgersi ad analisi cosiddette ‘non parametriche’, cioè non necessitanti l'impiego di misure su 'scala intervallo' . I gruppi non sono allora paragonati in base alla media ed alle varianze, come avviene per un test parametrico, bensì rilevando come ciascun caso di un gruppo si rapporta (più grande o più piccolo) con ciascun caso di altri gruppi e costruendo così una gerarchia ordinale (rank order). In base al numero di voltein cui un dato precede o segue quelli degli altri gruppi è possibile comporre test analoghi, nella funzione, a quelli già citati . Nella seguente tabella sono riportate in prospetto le analisi più comuni e corrispondenti, per misure di tipo parametrico e non parametrico . ---------------------------------------------------------------------------------------------------Analisi Parametriche NON parametriche ---------------------------------------------------------------------------------------------------tra due gruppi t Student Wilcoxon , Mann-Whitney tra più gruppi ANOVA 1 via Kruskall-Wallis tra più gruppi ANOVA 2 vie Friedman tra più gruppi ANOVA 3 -:- 5 vie nessuna ---------------------------------------------------------------------------------------------------- All’occorrenza dunque si sceglierà un Wilcoxon anziché il ‘t’ di Student oppure un KruskallWallis anziché una ‘one way ANOVA, ecc. Si noti che nei singoli pacchetti statistici la modalità di ingresso per i diversi tipi di analisi parametriche e non parametriche, normalmente, non varia e dunque con la stessa preparazione di dati si lanciano indifferentemente l’uno o l’altro tipo di test. Tavole di contingenza e test sulle frequenze Finora abbiamo eseguito calcoli e test su vere e proprie misure di un qualche carattere : abbiamo operato cioè su valori misurati su scala-intervallo . Ricordiamo infatti che la 'misura' di un carattere può effettuarsi in tre modalita : - - scala nominale : quando la misura e' puramente classificatoria, nominale, come quando per misurare il colore degli occhi diciamo che un certo caso ha gli occhi neri, un altro ha occhi blu, un altro ha occhi verdi, ecc ; oppure quando classifichiamo il sesso di un caso come maschio e femmina dando eventualmente il valore 1 al maschio e 2 alla femmina, senza che i due numeri abbiano alcun significato aritmetico . scala ordinale : quando la misura pur essendo espressa da numeri e indicano rapporti di grandezza non intende specificarne la precisa distanza con altre misure, ma solo l'entità maggiore o minore di altre misure. Ciò avviene quando, per esempio, si misuri la gravità di un sintomo con un punteggio (tipo 1,2,3,4) che pur segnalando una ingravescenza non intende 48 - misurare gli intervalli tra i numeri e quindi non si potrà dire, p.es., che il sintomo 4 è grave esattamente il doppio del sintomo 2 , ecc.. scala intervallo : quando la misura espressa con numeri ne mantiene tutto il significato sia di ordine che di dimensione tra le misure. Così chi pesa 40 kg ha un peso che è la metà di chi pesa 80 kg ed è 4 volte rispetto a chi pesa 10 kg . Orbene le cosiddette ‘tavole di contingenza’ raccolgono e paragonano delle numerosità delle 'frequenze' (quindi delle percentuali), raccolte in base a 'misure nominali' di un certo carattere. Quando ci poniamo domande del tipo: “ Quanti sono i casi maschi che presentano quel certo sintomo rispetto ai casi analoghi di femmine ?… ” stiamo implicitamente parlando di frequenze e di ‘tabelline’ di contingenza che raccolgono tali conteggi per fare su di essi qualche considerazione e paragone. Esempio : Supponiamo di aver somministrato due diversi farmaci A e B a due gruppi di pazienti, composti rispettivamente di 25 e 30 persone ciascuno e di aver preso nota di quanti casi di ogni gruppo hanno presentato chiari segni di miglioramento. Al termine delle osservazioni raccogliamo i risultati nella seguente tabellina di contingenza a due righe e due colonne ( 2 x 2) : MEDICINALI A B Migliorati Non migliorati TOTALI colonna 12 13 25 11 19 30 TOTALI riga 33 32 55 Dai risultati si evince che nel gruppo trattato con A sono migliorati 12 pazienti su 25 (oltre il 48%) , mentre dei 30 trattati con B sono migliorati in 11 (cioè il 37% circa). Ci chiediamo se queste percentuali decisamente difformi possano indicare un modo significativamente diverso di ripartirsi del miglioramento, in dipendenza dall'aver preso il farmaco A o quello B . Allo scopo si calcola un indice ℵ2 (Chi-quadro , dalla lettera maiuscola greca che lo contraddistingue) . A seconda che il ℵ2 superi o meno i valori teorici, riportati in apposite tabelle, potremo affermare o no, con un errore non superiore a quello indicato dalle tabelle stesse, che la ripartizione delle frequenze per i gruppi 'A' e 'B' è diversa . Prima di procedere al calcolo del ℵ 2 è utile soffermarsi sul significato e la derivazione di tale indice. Analogamente a quanto abbiamo visto per il 'test t' reso possibile dall'esistenza di una 'distribuzione t' teorica così ora per il test ℵ2 facciamo ricorso ad una distribuzione teorica chiamata allo stesso modo. E come per il 't' fu studiata la distribuzione delle differenze tra due medie per vedere fino a che punto esse potessero differire prima di affermare una probabile provenienza da gruppi diversi, cioè un'appartenenza a popolazioni diverse, così ora, il retroterra del test ℵ2 prende a base la definizione che segue : 49 ovvero, distribuzione degli scarti quadratici calcolati tra frequenze osservate sperimentalmente e frequenze attese, cioè quelle per le quali ci sarebbe omogeneità tra i gruppi in studio . Per capirci : si pensi al caso in cui si abbiano 30 maschi di cui se ne ammalano 15 . Volendo vedere se 100 femmine si ammalano allo stesso modo, nello stesso rapporto, dovremo supporre una 'frequenza attesa' di 50 ammalate perché non ci sia differenza tra i gruppi : solo così infatti la perc entuale di ammalati nei due gruppi sarebbe la stessa. Ma se vogliamo vedere un esempio completo supponiamo di avere 30 maschi e 120 femmine, e che maschi e femmine si siano ammalati con le seguenti frequenze : Frequenze osservate (o sperimentali ) Frequenze attese (o teoriche) maschi femmine Totali col. maschi femmine Totali ---------------------------------------------------------------------------------------------------ammalati 20 40 60 12 48 60 ---------------------------------------------------------------------------------------------------sani 10 80 90 18 72 90 ----------------------------------------------------------------------------------------------------Totali riga 30 120 150 30 120 150 Le frequenze attese sono date da : 30 ( 60/150 ) = 12 , 120 (60/150) = 40 e 30 ( 90/150) = 18 , 120 (90/150) = 72 per la prima riga per la seconda riga. Infatti viene impostata un proporzione in base alla seguente considerazione : se 60 sono gli ammalati su un totale di 150, pari al 40 %, allora gli ammalati maschi, su un totale di 30 maschi, saranno 0.40 x 30 , cioè 12 . Cosi' via per gli altri valori . Si trovano insomma le frequenze teoriche (attese) dei sottogruppi che rispettando le proporzioni generali rendono indifferenti le percentuali di ciascun gruppo, maschi e femmine. Si può anche verificare che il rapporto tra sani e ammalati (12/18 e 48/72 nei due sessi calcolato sulla tabellina delle frequenze attese è infatti identico. Oltre ad usare la formula di definizione, con frequenze attese ed osservate sopra riportata, per il calcolo del ℵ2 in tabelline di varia ampiezza, è noto anche il metodo di Skory che ha il vantaggio di non richiedere il calcolo delle frequenze attese, secondo la definizione. Nel caso di una tabellina generica m x n (cioè ad m righe ed n colonne) in cui le frequenze di ogni riga siano annotate con generici a,b,c,d, il ℵ 2 (chi-quadro) secondo Skory si ottiene con i seguenti passaggi : 50 - - calcolo per ogni riga della somma dei quadrati delle frequenze, divise per il rispettivo totale di colonna (che chiameremo genericamente m1, m2 ... ), per dare un certo numero di risultati che indicheremo con N1, N2 , ecc. , per ogni riga . N1 = a2/m1 + b2/m2 + c2/m3 +..... + ecc. N2 = g2/m1 + h2/m2 + i2/m3 +..... + ecc. tutti questi totali N1, N1 ecc (tanti quanti sono le righe) sono divisi, ciascuno per il rispettivo totale di riga, chiamato genericamente n1, n2, ,ecc ed infine sommati per dare un numero A ossia : A = N1 / n1 + N2/n2 + N3 / n3 + .........+ ecc. c) Il ℵ 2, indicato con N il totale dei casi di entrambi i gruppi è dato da : ℵ 2 = (A -1) x N Dopo aver fatto più chiarezza sul significato del ℵ2 possiamo ritornare al calcolo di tale indice riprendendo l'esempio del confronto tra medicinali per i quali avevamo composto la tabellina di contingenza 2 x 2 cosiffatta : MEDICINALI A B Migliorati Non migliorati TOTALI colonna 12 13 25 11 19 30 TOTALI riga 33 32 55 Ne verranno allora i seguenti calcoli, seguendo la regola di Skory : N1 = 122 / 25 + 112 / 30 = 144 / 25 + 121 / 30 = 5.76 + 4.03 N2 = 132 / 25 + 192 / 30 = 169 / 25 + 361 / 30 = 6.76 + 12.033 = 18.79 = 9.79 da cui : A= 9.79 / 33 + 18.79 / 32 = 0.29 + 0.59 = 0.88 perciò : ℵ 2 = ( 0.88 - 1 ) x 55 = - 0.12 x 55 = - 6.6 (trascurando il segno) = 6.6 51 Per la valutazione del risultato si ricorre alle tavole dei valori limite del ℵ2 , secondo quanto già fatto per il 't di Student'. Si prenda nota soprattutto della modalità di calcolo dei cosiddetti ‘gradi di libertà’ (in sigla: gdl; inglese: dof -degrees of freedom-). Anche in una tabella costituita da m x n celle, contenenti le frequenze rilevate nell’esperimento, oltre ai totali marginali di ciascuna riga e colonna, si verifica la ‘libertà’ di modificare un certo gruppo di elementi mentre alcuni altri elementi saranno implicitamente determinati dalla variazione degli altri al fine di conservare, ad. es., i totali marginali . Si deve cioè determinare il numero dei gradi di libertà del sistema ‘tavoladi-contingenza’ . Una tabella 3 x 4 ha (3-1) x (4-1) = 6 gdl . Una tabella 2 x 2 ha grado di liberta (gdl) 1 con valori di soglia di significatività al 5% ed all’ 1% di 3.84 e 6.64, rispettivamente. Questo significa che se il ℵ 2 calcolato risulta superiore, p.es. al valore 3.84 possiamo affermare, con possibilità di sbagliare 5 volte su 100 ipotetiche, valide campionature, che tra le due categorie in esame (es.: maschi e femmine) c’è una ripartizione significativamente diversa dei casi rispetto alla situazione studiata (es.: ammalarsi/non ammalarsi). Non ci sono test specifici, in analogia con i ‘post-hoc test’ delle analisi di varianza, che possano identificare tra le varie celle di una tabella m x n quelle che sostengano di fatto la significatività globale espressa dal ℵ 2 . Una tecnica valida consiste nel sommare tra loro i conteggi così da semplificare la tabella accorpando due o più righe e/o colonne ma mantenendo il totale globale, così da individuare meglio le sorgenti di variabilità . Diamo di seguito un esempio di tabella ℵ2 redatta per due livelli di significatività : Tabella dei valori di ℵ 2 ---------------------------------------------------------------------------Gradi di --- Livelli di probabilità --- * Libertà * * P 5% P 1% ---------------------------------------------------------------------------1 3.84 6.64 2 5.99 9.21 3 7.82 11.35 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 7 14.07 18.48 8 15.51 20.09 9 16.92 21.67 10 18.31 23.21 ..... ...... ...... ..... ...... ...... 15 24.00 30.58 17 27.59 33.41 ..... ...... ...... 20 31.41 37.57 ..... ...... ...... 25 37.66 44.31 ..... ...... ...... 30 43.77 50.89 ..... ...... ...... -------------------------------------------------------------- 52 • • • * I valori di ℵ2 sono arrotondati al 2° decimale * * In una tabella di contingenza m x n i gradi di libertà si ottengono dal prodotto : (m-1) x (n -1) . Una tabella 2 x 2 avrà 1 solo grado di libertà. E’ significativo quel valore calcolato di ℵ2 che risulta superiore a quello tabulato nella colonna del prescelto livello di significatività Consultando le apposite tavole dei valori limite di significatività del ℵ 2 , vediamo che per un grado di libertà il valore tabulato, al 5% è 3.84 mentre quello all'1% è 6.64. Dato che il valore calcolato per la nostra tabella supera quello riportato per il 5% ma non supera quello dell'1% siamo autorizzati ad affermare che i miglioramenti sono ripartiti in modo significativamente diverso a seconda che si prenda il farmaco A o B, ossia A e B agiscono sulle situazioni in modo realmente diverso. L'affermazione è soggetta ad un errore sotto il 5%, ma non sotto l'1% (... e vale finché il campione sia stato correttamente selezionato...! ) Per il corretto utilizzo dell'indice ℵ 2 va detto tale metodica deve subire una correzione (correzione di Yates, detta anche di ‘continuità’ ) se il totale dei casi in tabella di contingenza è inferiore ai 50 casi e addirittura, per le tabelle 2 x 2, si cambia metodo di calcolo se una delle quattro frequenze è minore di 5. Viene usato allora il cosiddetto 'metodo esatto di Fisher ' per il quale non si ricava più un indice da testare sulle tavole di probabilità di una qualche sottostante distribuzione ma si ottiene direttamente la probabilità che le due entrate in tabella siano statisticamente legate. Supponendo, p.es., che siano a, b, c, d le quattro frequenze di una tavola 2 x 2 , per un totale di N casi, ed r1, r2 e c1, c2 i totali marginali di riga e colonna, rispettivamente, la probabilità secondo Fisher è data dalla formula sottostante : Alle complessità che sembrano sorgere in continuazione quando si affronta una analisi concreta ovviano in parte i moderni pacchetti statistici per elaboratore che mentre annullano il tempo di calcolo riescono spesso a scegliere la metodica migliore. Così, ad esempio, correzione di Yat es o metodo esatto di Fisher sono selezionati automaticamente al presentarsi delle opportune numerosità. 53 Analisi di ‘sopravvivenza’ Vanno sotto questo nome un gruppo di tecniche tese a inferire sul verificarsi nel tempo di un certo evento in uno o più gruppi di soggetti in studio e, normalmente, di poter anche verificare se l’andamento con cui l’evento si diffonde nel tempo, sul campione, è significativamente diverso tra i gruppi in esame . Esistono tecniche non parametriche, semi-parametriche e parametriche . La più nota in assoluto tra le tecniche parametriche e non parametriche è la cosiddetta ‘KaplanMeier’ (non parametrica e spesso citata come K-M), presentata nel 1958 dagli omonimi autori. Viene ancora chiamata ‘attuariale’ in quanto collegata a metodi precedenti (Berkson e Gage, 1950) nei quali era essenziale raccogliere i dati suddivisi in periodi di tempo prestabiliti controllando il numero di casi all’inizio del periodo, la mortalità nel periodo ed i casi eventualmente perduti al controllo. I moderni metodi di calcolo operano direttamente sui tempi di sopravvivenza dei singoli casi senza alcun riferimento a periodi fissi predeterminati. L’aspetto della curva di Kaplan-Maier, la non dipendenza da speciali distribuzioni teoriche dei dati ed altre analogie collegano ancora questo metodo a quelli ‘attuariali’ precedenti. Con ‘K-M’ si giunge ad una o più ‘curve’ e ad una o più tabelle, quanti sono i gruppi in esame, che evidenziano i casi che si presentano all’inizio di ogni tempo di controllo e quanti di questi ‘sopravvivono’, ossia non si verifica ancora per loro l’evento. Poiché all’inizio tali tecniche erano sorte per controllare l’andamento della mortalità nel corso di ‘follow-up’ di pazienti, si è mantenuto il nome ed il riferimento a ‘sopravvivenze’ che possono non aver niente a che fare con il fenomeno in studio. Nella figura soprastante, un tipico andamento della ‘sopravvivenza’ secondo K-M, per due gruppi di pazienti che presentano un diverso complesso di sintomi : A e B . 54 Si vede chiaramente un diverso andamento della sopravvivenza, tanto che a 4 anni la percentuale di sopravvivenza del gruppo B scende sotto il 50% mentre il gruppo A non scende sotto tale quota neppure dopo 15 anni. Appositi test statistici, come il log-rank test (o di Mantel-Haenszel), forniscono la probabilità che due o più andamenti siano statisticamente diversi. Tali test forniscono però una risposta globale che nel caso di una indagine a più curve può richiedere opportuni approfondimenti : innanzitutto la possibile riduzione del numero di curve in gioco, l’uso di test diversi che essendo più sensibili alle sezioni dei tempi di indagine, iniziale o media o finale, aiuti ad individuare le effettive sorgenti di differenza. Altri metodi come quello di Cox, semiparametrico, offrono la possibilità di indagare quali variabili con cui sono stati descritti i casi influenzino il fenomeno in studio ed il verificarsi dell’evento atteso. Gli ‘output’ del metodo assomigliano a quelli di una regressione lineare multipla con l’assegnazione di una probabilità significativa o meno ad ogni singola variabile. Uno degli assunti del metodo di Cox è infatti quello di una modifica proporzionale del rischio, nel tempo, secondo un tasso lineare. Avvio Software Statistica per esercitazione 55 Analisi R.O.C. (Relative Operating Characteristic) Come possiamo misurare la qualità di una informazione diagnostica e stabilire che un sistema è significativamente migliore rispetto ad un'altro? Una risposta a tale interrogativo si è resa necessaria sia per ridurre i rischi sia per giustificare i costi delle procedure diagnostiche, che negli ultimi anni hanno conosciuto un continuo incremento: la teoria delle curve R.O.C. nasce appunto, in campo medico, con questa funzione. La sigla R.O.C. deriva da «receiver operating characteristic curve»; la teoria era infatti inizialmente utilizzata nel campo dell'elettronica per misurare la capacità di un radar di riconoscere un segnale in presenza di un rumore di fondo. In medicina le curve R.O.C. sono state utilizzate negli ultimi cinquant'anni soprattutto nel settore della diagnostica. In particolare il fisico e psicologo Gustav Fecner (1801-1887) sviluppò le basi della moderna metodologia di analisi psicofisica studiando la relazione tra stimolo e risposta, misurando la differenza tra due stimoli e il valore di soglia. Egli riuscì ad ottenere una rappresentazione della funzione psicometrica (graf.1) ponendo in grafico la proporzione di risposte positive rispetto alla misura dell'entità dello stimolo. Graf.1 Curva di risposta psicometrica. Louis Thurstone (1887-1955) successivamente, nel corso dell'analisi della discriminazione, fece ulteriori passi avanti adottando un modello basato sull'assunzione della parziale sovrapposizione delle distribuzioni dei valori psicometrici di stimoli simili. In tale situazione l'espressione di un giudizio viene definita in termini di criterio decisionale, ovvero di una soglia di discriminazione, che corrisponde ad un punto sull'asse degli effetti sensoriali tale che i valori superiori ad essa producano una risposta, e quelli inferiori la risposta contraria. 56 Nel 1940, Richard Blackwell considerò il caso in cui uno dei due stimoli considerati è nullo, ossia costituito dal solo rumore di fondo. Egli assunse, l'ampiezza dello stimolo corrispondente ad una proporzione di veri positivi pari a 0,50 sul grafico della funzione psicometrica come soglia di stimolo. L'applicazione della teoria delle decisioni statistiche alla capacità di rivelazione dei radar costituì un notevole passo avanti; nell'applicazione del test statistico l'ipotesi nulla H0 venne identificata nel rumore di fondo, mentre l'ipotesi alternativa H1 venne associata al rumore più il segnale (graf. 2). Graf. 2 Distribuzione dello spettro delle ampiezze del rumore di fondo (Ho) e del segnale (H1) A livello ufficiale, l'unificazione di diverse regole riferite alla costruzione delle curve R.O.C. fu realizzata nel 1954 in occasione della presentazione di due lavori al Simposio sulla Teoria delle informazioni da parte di studiosi delle Università di Harvard e del Michigan (15). CAPACITÀ DI DISCRIMINAZIONE DI UN TEST DIAGNOSTICO Questo metodo permette di studiare la capacità di discriminazione di un sistema, ossia quanto quest'ultimo è in grado di riconoscere correttamente i segnali che esprimono una patologia (positivi), in presenza di elementi di normalità (negativi) e in funzione dell'ampiezza della variabile in studio (segnale) e del livello di giudizio utilizzato per la classificazione (soglia di giudizio diagnostico). Supponiamo che un campione di pazienti venga sottoposto ad un test «A» e che in seguito, attraverso un secondo test (gold standard), già ampiamente utilizzato (ad esempio un esame istologico), si riesca a stabilire con certezza la loro positività o negatività nei confronti di una certa patologia; con queste informazioni è possibile costruire la seguente tabella: 57 risultato al test diagnostico VP=veri positivi stato reale + FP=falsi positivi -------------------------------------------FN=falsi negativi + VP FN VN=veri negativi FP VN -------------------------------------------Per valutare le potenzialità informative di un sistema sono disponibili i seguenti indicatori: 1) SENSIBILITA'= VP/(VP+FN) (in simboli FVP: frazione dei veri positivi) indica la probabilità che un soggetto affetto dalla malattia venga giudicato tale. 2) SPECIFICITA' = VN/(VN+FP) (in simboli FVN: frazione dei veri negativi), è la probabilità che un individuo sano risulti negativo al test diagnostico. 3) INCIDENZA DEI FALSI POSITIVI = FP/(FP+VN) = (1 - Specificità) (in simboli FFP: frazione di falsi positivi); indica la probabilità di commettere un errore di secondo tipo (Beta), ossia di accettare un'ipotesi falsa. 4) INCIDENZA DEI FALSI NEGATIVI = FN/(FN+VP) = (1 - Sensibilità) (in simboli FFN: frazione di falsi negativi); indica la probabilità di commettere un errore di primo tipo (Alfa) cioè di rifiutare un'ipotesi vera. 5) VALORE PREDITTIVO POSITIVO = VP/(VP+FP) probabilità che il test indichi la presenza di malattia di un soggetto effettivamente malato. 6) VALORE PREDITTIVO NEGATIVO = VN/(VN+FN) probabilità che il test classifichi negativo un individuo che lo è effettivamente. 7) INCIDENZA DI CORRETTA CLASSIFICAZIONE = (VP+VN)/P+N corrisponde al numero di decisioni corrette sul totale dei casi, chiamata anche Accuratezza. 8) INDICE DI YOUDEN J = 1-(FFP+FFN) questo indice tiene conto dei due tipi di errore, ossia FFN e FFP; nel caso di un test assolutamente non discriminante si avrà J=0 al contrario se J=1 il test sarà perfettamente iscriminante1. Le frazioni 1,2,3,4,5,6 sono probabilità condizionate: ognuna di esse rappresenta la stima della probabilità di un tipo di decisione, condizionata al fatto che il soggetto sia sano o malato. Ad esempio la FFP indica la probabilità di ottenere un risultato positivo dal test quando venga effettuato su un individuo sano. 1 In alcuni casi si potrebbe verificare che -1<=j<=0, ciò è dovuto ad una correlazione negativa con la diagnosi, anche se è raro che si presenti tale situazione (Armitage 1987). 58 SOGLIA DI GIUDIZIO DIAGNOSTICO Per valutare un sistema diagnostico non è sufficiente osservare questi indicatori separatamente, perchè il loro valore è strttamente correlato con quello assunto come soglia per la classificazione diagnostica. E' infatti evidente che, ad esempio, abbassando la soglia di giudizio per la classificazione dei positivi di un test si otterrà un miglioramento in termini di sensibilità, ma ciò avverrà a scapito della specificità. Pertanto volendo esprimere un giudizio complessivo della metodica diagnostica in studio è necessario valutare il comportamento di queste due variabili antagoniste (sensibilità e specificità) al variare della soglia di giudizio, ovvero attraverso la costruzione della cosidetta curva R.O.C. Ci sono due possibili tipi di approccio per la costruzione delle curve R.O.C., il primo è quello che parte direttamente dalla conoscenza delle distribuzioni di frequenza in un campione di veri positivi e veri negativi dei valori di una variabile ottenuti, ad esempio, attraverso l'applicazione di un test di laboratorio; il secondo è quello basato su una classificazione diretta dei singoli reperti diagnostici eseguita da uno o più operatori, come ad esempio avviene per le immagini radiografiche. In questo lavoro viene esaminata la prima delle due metodiche. SOGLIA DISCRIMINANTE Date le curve di distribuzione delle frequenze di una variabile misurata in un campione di positivi e in uno di negativi, supponendo che la media nei primi stia a destra rispetto all'altra, una soglia di discriminazione va intesa come un punto dell'asse delle ascisse tale che i soggetti che si trovano a destra vengono classificati come positivi e quelli a sinistra come negativi. Chiaramente quei negativi che cadranno al di là della soglia (a destra) verranno classificati come falsi positivi, al contrario, i positivi che cadranno a sinistra della soglia si chiameranno falsi positivi (graf. 3a). Supponendo che le distribuzioni dei positivi e dei negativi siano gaussiane, la capacità di discriminazione di un sistema dipenderà dal grado di sovrapposizione delle due distribuzioni. Più le curve sono sovrapposte, maggiore sarà la probabilità di commettere degli errori di primo e di secondo tipo (FFN, FFP) ovvero maggiore sara' l'errore di classificazione associato alla soglia (potere discriminante). E' evidente dai grafici seguenti come si riducano le frazioni di falsi positivi e di falsi negativi quando le curve sono più distanti e le medie delle distribuzioni sono più lontane (graf. 3b). 59 a b Graf. 3: Sovrapposizione di distribuzioni di frequenze della variabile in studio nei campioni dei "positivi" e dei "negativi". fp: falsi positivi, fn: falsi negativi. Nel confronto di due tecniche diagnostiche lo studio della sensibilità e della specificità calcolate rispetto ad un solo valore di soglia può essere fuorviante, in quanto, come è stato puntualizzato in precedenza, un basso valore di soglia di giudizio diagnostico comporta un'alta sensibilità ed una bassa specificità del test in esame, e viceversa. a b c Graf.4: effetto della variazione della soglia sulla classificazione di falsi negativi e falsi positivi. LA CURVA R.O.C. Dalla figura 4 si può notare come al variare del valore di soglia si ottengano un numero di falsi positivi e falsi negativi differenti. Mettendo in grafico le frazioni di falsi positivi e di veri positivi ottenute con le tre soglie rappresentate in figura si ottengono tre punti della curva R.O.C. 60 sottoriportata. E' da notare che, all'aumentare del valore di soglia, ossia passando da (a) a (c) diminuisce la frazione dei falsi positivi e la Sensibilità, mentre aumenta la Specificità. Graf. 5: curva R.O.C. Una curva ROC per definizione è una rappresentazione grafica del complementare ad 1 della probabilità di compiere un errore di secondo tipo (falso negativo) rispetto alla probabilità di compiere un errore di primo tipo (falso positivo), al variare del livello di soglia decisionale. Una curva R.O.C. è quindi una rappresentazione grafica che esprime la «covariazione» dei due tipi di errore. Fermo restando il sistema diagnostico in studio sarà possibile ottenere una famiglia di curve al variare del parametro dato dalla differenza tra le medie delle due distribuzioni, cioè tra l'ampiezza media del segnale e quella del rumore (graf. 6). a b Graf 6: distribuzioni delle ampiezze e rapporti segnale/rumore. c 61 Il grafico 7 mostra come all'aumentare della distanza tra le medie dei positivi e dei negativi la curva R.O.C. tenda a spostarsi più in alto e più a sinistra. Graf. 7: Effetto del rapporto segnale/rumore sulle curve R.O.C. COSTRUZIONE DELLA CURVA Date due distribuzioni di frequenza una di positivi e una di negativi, la costruzione di una curva ROC è basata sull'utilizzazione di cinque livelli di giudizio: 1 - sicuramente negativo 2 - probabilmente negativo 3 - possibilmente positivo 4 - probabilmente positivo 5 sicuramente positivo Queste soglie possono essere considerate coincidenti, sulla curva dei positivi, ai valori della variabile corrispondenti rispettivamente ai percentili 30, 250, 500, 750, e 970. (graf. 8). 62 Graf. 8: individuazione delle soglie di giudizio sulla distribuzione dei "positivi" Per ogni livello decisionale si calcolano due frazioni, quella dei veri positivi (sensibilità) e quella dei falsi positivi (FFP); le coppie di punti ricavate vengono assunte come coordinate dei punti che, opportunamente interpolati, danno origine alla curva ROC. (graf. 9) Utilizzando i percentili siamo in grado di avere punti ben distribuiti; i valori delle frazioni di veri positivi e di falsi positivi, essendo probabilità variano tra 0 e 1. Graf. 9: costruzione della curva R.O.C. sulla base dei 5 livelli di giudizio. 63 CONFRONTO DI DUE CURVE Nel caso in cui si volessero confrontare due sistemi diagnostici, si possono porre le curve sullo stesso grafico: in generale, quella delle due che si trova più in alto e più a sinistra dovrebbe indicare il sistema migliore. Graf. 10: confronto fra curve R.O.C. relative a due metodologie diagnostiche Nel caso delle due curve rappresentate nel grafico 10, la curva (b) è quella che intuitivamente rappresenta il sistema diagnostico migliore tra i due, infatti per un dato valore della frazione dei falsi positivi, il test (b) è quello che presenta un valore più alto della frazione dei veri positivi. E' necessario a questo punto valutare la significatività statistica della separazione tra due curve R.O.C.; per fare questo esistono diverse possibilità (8 e 12): nel nostro caso si è ritenuto opportuno utilizzare il metodo di A.Hanley e B.McNeil che studia la differenza tra le aree (9 e 10). L'area sottesa alla curva, che chiameremo Ai, misura la probabilità che reperti diagnostici, di malati e di sani, possano essere classificati correttamente; questo metodo di stima dell'area utilizza il test di Wilcoxon il quale ci permette di calcolare la suddetta probabilità anche quando le distribuzioni dei negativi e dei positivi non siano gaussiane2. Se un metodo diagnostico è un buon discriminatore, allora la misura dell'area, ossia la probabilità, sarà molto vicina a 1 (graf. 11a), in caso contrario sarà vicina a 0 (graf. 11b). 2 In campo medico spesso si è costretti ad utilizzare piccoli campioni, in questi casi infatti ci si trova di fronte a distribuzioni non gaussiane. 64 a b Graf. 11: tecnica diagnostica discriminante (a) e scarsamente discriminante (b) Per il confronto statistico delle aree viene utilizzato un test Z, che verifica l'ipotesi nulla H0 di uguaglianza delle aree; la descrizione dettagliata del metodo per il calcolo delle aree e il confronto statistico è riportata nell'appendice. In questo tipo di analisi insorgono a volte alcuni problemi, ad esempio può verificarsi che due curve abbiano aree simili ma forme differenti: potrebbe quindi verificarsi che il test Z ci porti ad accettare un'ipotesi quando questa è falsa. (graf. 12). Graf 12: curve R.O.C.- con area equivalente ma con andamento differenziato 65 E' quindi utile, nell'affrontare una analisi di questo tipo, prima di considerare i risultati, tenere conto delle forma delle due curve3. Nonostante questo, l'analisi eseguita attraverso le curve R.O.C. risulta essere un importante strumento per confrontare test diagnostici per immagine e non, evitando gli errori dovuti alla scelta della soglia decisionale. Inoltre, una volta costruita una curva, è possibile risalire al livello di giudizio diagnostico che assicuri la massima accuratezza percentuale, dal momento che la capacità diagnostica di un test è legata al miglior compromesso tra sensibilità e specificità. Avvio Software Statistica per esercitazione 3 Se le aree delle due curve R.O.C sono uguali ma la forma è differente è consigliabile ricorrere al test statistico descritto da Metz e Kronman (7). 66 Metanalisi Il contributo che ciascun autore o gruppo di autori fornisce alla conoscenza di una problematica, indipendentemente dalla quantità di effetti rilevati nei singoli lavori, può essere raccolto a comporre un ‘mosaico di conoscenza’ tramite speciali tecniche note come ‘metanalisi’ che, prima selezionando i lavori metodologicamente più affidabili, poi attribuendo un peso alle conclusioni raggiunte in base alla ‘potenza’ che i test applicati potevano attingere, riescono a rinforzare certe linee di tendenza e ad eliminare opinioni in realtà infondate. Il nome stesso di tali tecniche tramite il prefisso ‘meta’ ( dal greco: sopra) sottolinea l’obiettivo di indagare i problemi da un punto di vista più elevato. Uno dei punti di forza di tali metodi è la capacità di far valere l’insieme delle numerosità dei casi dei singoli lavori non di rado troppo basse per consentire di trarre conclusioni a elevati livelli di potenza e che quindi devono lasciare in ombra tutta una serie di possibili effetti. Patologie meno diffuse o rare, infatti, non danno quasi mai luogo a numerosità statisticamente consistenti se raccolte in un solo centro oppure la necessità di selezionare i casi in base a fattori di disturbo finisce ugualmente per abbassare la numerosità dei campioni. Il contributo di diversi ricercatori (Woolf, Peto, Cochran) ha permesso fin dagli anni ’50 la messa a punto di test specifici quali il metodo Mantel-Haentzel-Peto e più tardi del metodo CochranDersimonian-Laird . Particolari problemi sorgono nel controllo delle omogeneità di selezione dei casi da parte degli autori e perfino nella selezione dei lavori che sono giunti alla pubblicazione stante la tendenza delle riviste a non pubblicare, e degli autori a non presentare quei lavori che non portino alla rivelazione di effetti. Conclusione Nonostante la brevità di questa panoramica dovrebbe essere apparsa tutta la complessità di applicare praticamente calcoli e test che nel concreto richiederebbero correzioni, verifiche oltre che una grande attenzione nella scelta della metodica stessa . Ciò, tanto più in quanto abbiamo ristretto gli esempi a poche, limitate situazioni. Tenuto conto però della potenza di calcolo resa disponibile oggi dall’ 'hardware’ e dal ‘software’ statistico in circolazione e ...del consiglio di qualche esperto... è ragionevole pensare che anche operatori meno navigati, col minimo di retroterra che ci siamo sforzati di proporre, possano iniziare a muoversi nel settore con prudenza e buona disposizione ad approfondire. In rapida progressione si svelerà loro la ricchezza di informazione insita nei dati che passano sotto il loro controllo. f i n e 67 BIBLIOGRAFIA 1. Murray R. Spiegel -Teoria ed applicazioni della Statistica- collana Schaum - 1973. 2. Peter Armitage - Statistica Medica - Feltrinelli - 1987. 3. Alder/Roessler - Introduction to probability and statistics - W.H. Freeman and Company 1975. 4. R.F. Mould -Introductory Medical Statistics - Pitman Medical - 1976 5. Roy N. Barnett - Clinical Laboratory Statistics - Little, Brown and Company - 1979. 6. L.Spandrio - Manuale di Laboratorio - Cap.2 - B.Bagni,G.C.Candini - Statistica e Laboratorio - PICCIN -1985 7- Cochran W.G., Sampling tecnique, New York, Johon Wiley & Sons,1977. 8- Dorfman D.D. - Alf E., Maximum-Likelihood Estimation of Parameters of Signal-Detection Theory and Determination of Confidence Intervals--Rating Method Data, «Journal of Mathematical Psychology» 6, (1969), pp.487-496. 9- Hanley J.A. - McNeil B.J., The Meaning and Use of the Area under a Receiver Operating Characteristic (ROC) Curve, «Radiology», 143, (aprile 1982), pp.29-36. 10- Hanley J.A. - McNeil B.J., A Method of Comparing the Areas under Receiver Operating Characteristic Curves Derived from the Same Cases, «Radiology», 148, (settembre1983), pp.839-943. 11- Metz C.E., Basic Principles of ROC Analysis, «Seminars in Nuclear Medicine», 8, (1978), pp.283-298. 12- Metz C.E. - Kronman HB., Statistical Significance Tests for Binormal ROC Curves, «Journal of Mathematical Psychology», 22, (1980), pp.218-243. 13- Metz C.E., ROC Metodology in Radiologic Imaging, «Investigative Radiology», 21, (1986), pp.720-733. 14- Metz C.E., Some Pratical Issues of Experimental Design and Data Analysis in Radiological ROC Studies (in corso di stampa) 1988. 15- Swets J.A., The Relative Operating Characteristic in Psycology, «Science», December, Vol.182, n.4116. 16- Swets J.A. - Pickett R.M., Evaluation of diagnostic system: methods from signal detection theory, New York,Academic Press, 1982. 68 RICHIAMI MATEMATICI Le note qui riportate intendono fornire un aiuto alla corretta interpretazione di formule ed espressioni numeriche e/o letterali che si incontrano nel trattamento matematico-statistico dei dati, fatto manualmente o con l'aiuto di mezzi automatici (calcolatrici, calcolatori, ecc. ). Le citazioni fatte nel manualetto di statistica medica, normalmente allegato, presuppongono la conoscenza di diversi operatori matematici che si cerca in questa sede di richiamare o spiegare meglio. In ogni caso i cenni rimangono rapidi e concisi. Trattazioni rigorose e dimostrazioni potranno trovarsi in testi adeguati. Sono qui richiamate solo alcune fondamentali definizioni di importanti operatori matematici e geometrici. Espressioni Diciamo espressioni le sequenze di numeri e operazioni che li legano o per essere più precisi : le sequenze di operandi e di operatori . Operandi sono infatti le entità su cui si opera (numeri o lettere ) mentre gli operatori sono le regole con cui saranno trattati quegli operandi (p.es. le quattro operazioni aritmetiche di somma, sottrazione, moltiplicazione e divisione che operano su numeri di diverse tipologie . es. : 12 + 7 - 2 è una espressione che indica come tratteremo i numeri 12, 7, e 2 . Le espressioni assumono forma parzialmente o totalmente letterale quando si immagina di lavorare su numeri generici che potranno essere specificati in un secondo tempo . es.: 6· a + 4 + 3· b - 4· a è una espressione letterale in cui le quantità 'a' e 'b' non sono date esplicitamente, al momento, il che ci consente solo di mettere insieme tutti i gruppi che hanno le stesse parti letterali, sommandoli algebricamente . Ossia, se abbiamo 6 volte la quantità 'a' e poi altre 4 volte la quantità 'a' (da sottrarre) possiamo dire avere in tutto 2 volte la quantità 'a' mentre 4 e 3 volte 'b' dovranno rimanere separati dato che non sappiamo quanto vale l'imprecisato 'b' . Risulta dunque : 2· a + 3· b + 4 Nella notazione matematica è comune sostituire il segno di moltiplicazione 'x' con un semplice punto o addirittura con niente, quando ciò non dia luogo a confusione come capita avendo a che fare con espressioni dove i numeri non sono precisati e sono invece sostituiti da lettere. A volte, quando si ha a che fare con procedure informatizzate e/o con linguaggi di programmazione si vede spesso indicare l’operazione di prodotto con l’asterisco ‘*’ Risultano quindi matematicamente equivalenti le espressioni: 10 x 5 x 2 ; 10 · 5 · 2 ; 10 * 5 * 2 10 x a x b ; 10 · a · b ; 10ab ; 10 * a * b 69 E' evidente che mentre l'espressione 10ab (indicante un prodotto fra i tre fattori 10, a, b ) può essere scritta senza interpunzioni sottintendendo il relativo prodotto, l'espressione di soli numeri 10 x 5 x 2 non potrebbe essere scritta come 1052 senza evidente confusione . Questo vale soprattutto quando le espressioni fossero scritte per, o su calcolatori dove la grafia è codificata in un preciso modo e le diverse quantità devono avere interposto esplicitamente il relativo operatore. Nell'eseguire calcoli di più numeri e con più operazioni si deve tenere conto della gerarchia delle operazioni cioè del 'rango' delle operazioni stesse e della presenza di eventuali parentesi che modificano l'ordine prestabilito ‘per default’, cioè l’ordine standard in assenza di altre specifiche istruzioni. Tale ordine prevede che siano eseguite prioritariamente, in sequenza, le operazioni : 1) Moltiplicazione 'di segno' ( 'unary operation') 2) Elevazione a potenza 3) Moltiplicazioni e divisioni 4) Somme e sottrazioni - unary operation : operazione con cui il segno proprio di un numero determina l'effettiva operazione che il numero subirà nella espressione es.: 3 + (-2) = 3-2 = 1 il numero negativo -2 sommato a 3 , per la sua natura negativa dà luogo, di fatto, ad una operazione di differenza . E’ lo stesso principio per cui una somma algebrica tra due, o più di due, termini significa di fatto un mix di somme e sottrazioni secondo la natura algebricamente positiva o negativa di ciascun numero - - - elevazione a potenza : - operazione di moltiplicazione di n-fattori uguali. Si distingue una base indicante il fattore comune e un esponente cioè un numero indicante quante volte il fattore va moltiplicato per se stesso. Diamo più sotto alcune definizioni ed esempi sulle potenze . moltiplicazione e divisione : - operazione tra due numeri detti fattori (per la moltiplicazione) e dividendo e divisore (per la divisione) producenti un risultato detto, rispettivamente, prodotto e quoziente . somma e sottrazione : operazione tra due numeri detti addendi (per la somma) e minuendo e sottraendo (per la differenza) implicanti la formazione di risultati detti somma o differenza, rispettivamente . Le potenze 70 In molti calcoli è possibile trovare prodotti (cioè moltiplicazioni ) in cui più fattori sono identici, p.es . 15 x 10 x 5 x 4 x 5 x 2 x 5 x 10 = 750.000 . La notazione si semplifica se, notando che il fattore 5 è presente 3 volte e che il fattore 10 è presente 2 volte, scriviamo come segue : 15 x 10 2 x 4 x 5 3 = 750.000 Ciò equivale a dire che il fattore 10 entra nel prodotto due volte, come se fosse 10 x 10 mentre il 5 entra nel prodotto 3 volte, come se fosse 5 x 5 x 5 . La potenza è formata, allora, di due parti : la base indicante qual è il fattore da moltiplicare e l'esponente indicante quante volte il fattore è moltiplicato per se stesso . es. : 33 = 3x3x3 ; 25 = 2x2x2x2x2 Regole importanti, utilissime nel calcolo con potenze sono : 1) Qualunque numero può essere considerato come una potenza ad esponente 1 . Infatti se l'esponente indica quanti sono i fattori , tutti uguali, da moltiplicare tra loro, l'esponente 1 indica che c'è un solo fattore , ossia il numero stesso che rimarrà invariato. E' normale comunque NON mettere l'esponente 1 . es. : 5 1 = 5 ; 12 1 = 12 2) Per convenzione, qualunque numero elevato ad esponente zero dà 1 . es. : 3 0 = 1 23 0 = 1 3) Un numero elevato ad esponente negativo equivale al reciproco di quel numero elevato al medesimo esponente, reso positivo. es. : 3-2 = 1/ 3 2 4) Nota : Per ragioni tipografiche occorre talvolta abbreviare la scrittura di numeri frazionari ed esponenziali introducendo la barra trasversale diritta '/' al posto del segno di frazione e/o, eventualmente, l'accento circonflesso '^' ad indicare un esponente . Ciò consente di scrivere espressioni complesse sulla medesima riga. Alla luce di quanto detto la frazione sopra scritta può divenire : 1 / 3^2 Si noti come l'espressione non possa essere soggetta ad ambiguità quando si tenga conto che la gerarchia delle operazioni prevede che venga eseguita prima l'elevazione a potenza 3^2 e solo dopo il rapporto in quanto questo è di rango inferiore alla potenza. Solo l'uso di parentesi può modificare la sequenza delle operazioni come avverrebbe se fosse scritto : (1/3) ^2 qui è obbligatorio fare prima il rapporto 1/3 e solo dopo elevare a potenza due. 5) Il prodotto di potenze di stessa base è una potenza avente per base la stessa base e per esponente la somma algebrica degli esponenti: es.: 2 2 x 2 -3 x 2 4 = 23 = 8 perché la somma degli esponenti (di stessa base..) è : 2 -3 + 4 = + 3 71 Estrazioni di radice Può essere pensata come l'operazione contraria o inversa alla elevazione a potenza. Si tratta infatti, dato un numero, di trovare un altro numero che elevato ad un certo esponente restituisca il primo numero . es. : poiché 32 = 9 possiamo dire che 2 9 = 3 (in parole :radice quadrata di 9 è 3) Infatti se moltiplicando il 3 per se stesso si ottiene 9 , fornito il numero 9 , l'unico numero moltiplicabile due volte per se stesso che possa dare 9 è il 3 . Dunque, 3 è la radice (..è alla radice...) seconda (o quadrata) del numero 9 . Così come esistono le potenze di due ( p.es.: 3 2 4 2 ecc. ) esistono anche le potenze con tutti i numeri possibili. Così esistono le radici terze (o cubiche) , quarte, quinte .....,decime, ecc. di un numero . 3 Infatti come 22 = 8 cosi' 8 = 2 '' 34 = 81 '' 4 81 = 3 72 I logaritmi Si definisce come logaritmo di un numero quell'esponente che elevato ad una qualche base dà il numero in questione . es. : data la potenza 2 3 = 8 , definiamo essere 3 il logaritmo del numero 8 , nella base 2, proprio perché elevando la base 2 all'esponente 3 risulta il numero 8 Se e vero che la estrazione di radice è l'operazione inversa della elevazione a potenza di un numero in quanto si ricava quella base che elevata a un certo esponente dà quel numero ( es. : 2 3 = 8 perciò la radice terza, o cubica, di 8 è 2, in quanto 2 è alla radice di 8 se viene elevato a potenza) similmente possiamo pensare che il logaritmo è anch'esso una operazione inversa della potenza salvo che invece di porre l'accento sulla ricerca del numero alla base della potenza si cerca il numero che di quella potenza fa da esponente. Nell'esempio 2 3 = 8 : del numero 8, il 2 è radice in quanto visto come base della potenza. Invece 3 è logaritmo in quanto esponente da dare ad una base (qui 2) per avere 8. Riassumendo e precisando : dato un numero esiste sempre un altro numero, che chiamiamo logaritmo, che posto quale esponente di una opportuna base fornisce il numero di partenza. Pertanto per ogni numero si hanno infinite combinazioni base-esponente per ottenere qualunque numero. Nella pratica tecnico-matematica sono state redatte ampie tavole che danno i logaritmi di migliaia di numeri (spesso dei primi diecimila numeri da 1 a 10.000 ) nella base 10 : sono i logaritmi decimali (o ‘volgari’, o di Briggs) , indicati per lo più con le sigle Log , Lg cioè quasi sempre con l'iniziale maiuscola e l'uso della lettera 'g' . Avremo cosi' che Log 8 = 0.9038.. Log 123 = 2.089905 poiché '' 10.9038 =8 (..circa) 10 2.089905 = 123 ecc. Per ragioni matematiche su cui non ci soffermiamo è possibile usare anche i logaritmi in base e : una speciale costante matematica frazionaria di cui si usano solo le prime cifre e che vale circa 2.71182818... i puntini stanno ad indicare la presenza di un numero indefinito di decimali il che qualifica tale numero e quelli come lui, quali irrazionali. Tali logaritmi sono detti anche 'naturali' (o 'in base e’ , o neperiani , dal nome del matematico Neper) e sono segnalati con la sigla 'ln' per lo più minuscola. Anche per loro sono state redatte tavole appropriate . Avremo così che ln 8 = 2.0794.. poiché 2.711 82 2.0794 = 8 (..circa) 4.812184 ln 123 = 4.812184 '' 2.71182 = 123 (..circa) dove le potenze , a destra, sarebbero meglio scritte nel modo : e 2.0794 = 8 ed e 4.812184 = 123 Anche le macchine calcolatrici cosiddette scientifiche riportano i comandi per calcolare i logaritmi decimali e/o naturali nonché le rispettive elevazioni a potenza. 73 Bisogna dire che con opportune formule, trovato il logaritmo di un numero in una certa base (decimale, naturale, o una delle infinite altre ) è sempre possibile trovare il logaritmo dello stesso numero in una qualunque altra base. Osserviamo la seguente formula : log mb = loga m loga b equivalente alla notazione : log mb =· loga m / loga b Correttamente enunciando, si dirà : ' Il logaritmo di un numero m in una certa base b è uguale al logaritmo dello stesso numero, ma nella nuova base a , diviso per il logaritmo della vecchia base nella nuova base' es. : log8 512 = log2 512 * 1 / log2 8 3 = postulata è vera . 9 · 1/ 3 infatti calcolando si ha : risultando quindi 3 = 3 , l'uguaglianza Ottimo esempio è il passaggio tra i logaritmi naturali ( o neperiani ) che indicheremo con 'ln' omettendo la base e (e = 2.71828....) e quelli decimali ( o comuni, o volgari) che indicheremo con Log : Log 1000 = ln 1000 cioè 6.9077553 3 = da cui 3 = 3 c.v.d. (*) ln 10 2.302585 (*) la sigla c.v.d indica l’espressione ‘come volevasi dimostrare’ usata in matematica a chiusura convenzionale dopo la dimostrazione della verità della tesi posta alla partenza Ci si può chiedere per quale motivo, oltre che per il solo amor di simmetria matematica si sia cercata una seconda strada inversa alle potenze. Il motivo pratico è che con i logaritmi si semplificano enormemente molti calcoli che risulterebbero impraticabili. Per capire come, si osservino prima le seguenti regole del calcolo logaritmico dove i logaritmi (indicati con 'log' in lettere minuscole) indicano logaritmi in una qualunque non specificata base : 1) Il logaritmo di un prodotto è uguale alla somma dei logaritmi dei fattori . Così : log ( 3 * 5 * 7 ) = log 3 + log 5 + log 7 2) Il logaritmo di un quoziente è uguale alla differenza dei logaritmi tra dividendo e divisore . Così : log ( 3 / 7 ) = log 3 - log 7 3) Il logaritmo di un radicale è uguale al logaritmo del radicando diviso per l’indice 74 della radice . Così : 3 log log 5 5 = 3 5 Si immagini ora di dover calcolare : 12,4 Si tratta di una calcolo per il quale non esiste una metodica rifinita come quella per il calcolo della radice quadrata . Quand'anche ci fosse ne occorrerebbe un'altra quando volessimo calcolare la radice sesta o settima o … decima dello stesso numero. Applicando le regole suddette calcoleremo prima di tutto il logaritmo (in una qualche base della quale siano disponibili i logaritmi pre-calcolati, eventualmente su calcolatrice, come p.es. è per le basi naturale e decimale) del radicale dato, poi ritorneremo dal logaritmo al numero ‘normale’. Ossia (usando i logaritmi naturali o ‘neperiani’ indicati con 'ln' ) ed applicando le regole sopra descritte : ln ( 5 12,4 ) = 1/5 ln 12.4 = 1/5 * 2.5176965 = 0.5035393 Il risultato ottenuto è un logaritmo: il logaritmo (naturale) del radicale dato. Se vogliamo in realtà il risultato non in forma logaritmica ma in numero ‘normale’, ricordando che, per definizione stessa di logaritmo, abbiamo ottenuto un esponente a cui va elevata una certa base (..noi abbiamo usato quella naturale 'e’ = 2.7182818...) per avere il risultato in numero semplice calcoleremo semplicemente la potenza : e 0.5035393 = 1,654.... risultato del radicale dato in numeri ‘normali’. Consideriamo ora il calcolo di una espressione più complessa : 3 1,14 / ( 12 321 / ( 12 + 5 0,5 ) 3 ) 2,5 Facendo il logaritmo (naturale) della espressione data ed applicando le regole di calcolo dei logaritmi avremo : = ln ( 3 1,14 / = ln 3 1,14 - ( 12 321 / ( 12 + 5 0,5 ) 3 ) 2,5 ln ( 12 ) 321 / ( 12 + 5 0,5 ) 3 ) 2,5 = ln 31,14 - 2.5 * ln ( = ln 31,14 - 12 = ) 321 / ( 12 + 5 0,5 ) 3 ) 2.5 / 12 * ln ( 321 / ( 12 + 5 0.5 ) 3 ) = = = 75 = ln 31,14 - 2.5 / 12 *· ( ln 321 - ln ( 12 + 5 0.5 ) 3 ) = = 1.14 * ln 3 - 2.080333 * ( ln 321 - 3 *· ln ( 12 + 5 0.5 ) ) = 1.14 * 1.0986 - = 2.080333 · ( 5.77144 - 3 ln ( 12 + 2.236068) ) = = 1.252 - 2.080333 · ( 5.77144 - 3 · ln 14.236068 ) = 1.252 - 2.080333 · ( 5.77144 - 3 * 2.6557787 ) = = 1.252 - 2.080333 · ( - 2.195896 ) = = 1.252 + 4.5681949 = ( ..che è un logaritmo, …un esponente ! ) 5.8201949 = = perciò ricavando l'antilogaritmo (ovvero tornando ai numeri ‘normali’ ) si otterrà : = e 5.8201949 = 337.0377 Risultato finale L'unico vero, non trascurabile problema, nel calcolare ‘logaritmicamente’ è che si dovrebbe cercare di conservare il massimo numero possibile di decimali poiché trattandosi di numeri che hanno il significato di esponenti ogni loro piccola variazione o arrotondamento causa ampie variazioni al numero finale cioè alla potenza di cui quei numeri sono gli esponenti. Ancora sulle espressioni Fissato il concetto di gerarchia di operazioni, di potenza, ecc. possiamo valutare meglio la notazione corrente in una qualunque espressione : Per es. l’espressione : 4 + 62 * 3 + (-3) * 3 = 103 è correttamente eseguita se il 6 è elevato al quadrato (cioè moltiplicato per se stesso per dare 36) prima di venire moltiplicato per 3 (a dare 108). Solo dopo, lo si somma a 4. Così pure il + ( 3) viene ridotto a -3 (unary operation) nel senso che l'aggiunta, ad una espressione, di un numero di per se negativo (-3) equivale a togliere (differenza) anziché aggiungere il 3. È come se avessimo di fronte l'espressione +1 *( -3) = -3 in quanto il prodotto tra numeri di segno opposto dà risultato negativo . Si veda più sotto il richiamo alle espressioni algebriche . Come già detto l'ordine naturale di esecuzione delle operazioni può essere modificato dalla presenza di parentesi. L'espressione precedente darebbe un risultato diverso se fosse scritta nel modo seguente : 76 (4 + 6 ) 2 * 3 + (-3) * 3 = 291 Infatti le parentesi richiedono che prima di elevare al quadrato si esegua il calcolo 4+ 6 e solo dopo si elevi al quadrato il risultato. Se poi una espressione avesse una sezione tra parentesi, posta a sua volta entro parentesi, ciò significherebbe che si dovrebbero valutare prima le parentesi più interne, poi quelle via via più esterne. Se l'espressione precedente si presentasse come : (4 + (2 * 4 - 2) ) 2 * 3 + (-3) * 3 = 291 significherebbe che il 4 può essere sommato solo dopo aver valutato la sezione (2 * 4 -2) che dà ancora 6 . 77 L'algebra La parola è derivata dall'arabo e nella matematica odierna indica genericamente un insieme di procedure di calcolo su numeri che possono essere anche negativi . L'algebra quindi estende il campo dei numeri interi e frazionari che sono oggetto della sola 'aritmetica' ai numeri negativi . La necessità di lavorare con numeri negativi viene come naturale conseguenza nel trattare certi fenomeni come la registrazione di temperature sopra e sotto zero di cui fare poi le medie, calcoli attinenti guadagni e perdite nelle diverse operazioni economiche, ecc . In algebra come in aritmetica si lavora con le quattro operazioni fondamentali : somma, differenza, moltiplicazione (o prodotto), divisione (o quoziente) sulle sequenze di numeri dette espressioni algebriche su cui si operano i calcoli . Poiché ci si può trovare ad usare le quattro operazioni su numeri postivi e/o negativi valgono le seguenti regole a) la somma di due numeri di stesso segno dà come risultato un numero che è la somma dei due numeri e con segno lo stesso segno dei medesimi es. : 10 + 5 = 15 ; -5 + (-4) = -9 b) la somma di due numeri di diverso segno dà come risultato un numero che è la differenza dei due numeri e col segno del numero più grande in assoluto es. : 10 + (- 6 ) = 4 ; 10 + (-12) = -2 ; -14 + 3 = -11 c) il prodotto (o la divisione o quoziente) tra due numeri di qualunque segno dà come risultato un numero che è il prodotto (o il quoziente ) tra i due numeri ed ha il segno segno quale risulta dalla seguente tabellina : + + - moltiplicato + '' '' + '' - =+ ===+ Si ricordi l'uso delle parentesi, comune in algebra, che stacca un pezzo di espressione per isolarla dal contesto e valutarne a parte il contenuto prima di reimmetterlo nel corpo della espressione data . 78 Le equazioni Ogni volta che stabiliamo delle uguaglianze tra quantità numeriche poniamo, anche senza accorgercene, delle equazioni. Per esempio tutti riusciamo a risolvere mentalmente equazioni che corrispondono a domande del tipo : ' qual è quel numero che aggiunto a 6 dà 10 ? ' ( X + 6 = 10 dunque X --> 4 ) ' qual è quel numero che diviso per 2 dà 8 ? ' ( X /2 = 8 dunque X --> 16 ) (... indichiamo con 'X' il valore incognito da trovare) Poiché all'aumentare della complessità della uguaglianza la risoluzione mentale diventa sempre più laboriosa se non impossibile ne deriva la necessità di mettere per iscritto tali uguaglianze complesse e di chiarirne bene le regole di manipolazione per giungere con sicurezza alla sua soluzione cioè alla determinazione del numero incognito che la risolve, detto per l'appunto 'incognita' o 'radice della equazione' . es: Si abbia l'equazione (A) operando…si avrà ‘ ‘ ‘ ‘ ‘ ‘ e finalmente .. X + 5 = - [ (+10 - 66 / 3) ] / 2 X + 5 X + 5 X + 5 X X = - [ 10 - 22 ] /2 = - [ - 12 ] /2 = + 6 = + 6 - 5 = 1 Con l’espressione (A) è stata impostata l’ equazione le cui condizioni di partenza ci impongono di trovare quel valore di X che soddisfa (o verifica o risolve ) le condizioni imposte dalla equazione stessa. I vari passaggi si svolgono al fine di isolare l'incognita nel membro sinistro della equazione mentre tutti i termini noti (tutto ciò che non è incognito) passa nel membro di destra . Poiché i termini noti possono essere sommati (anche quando sono letterali, entro certi limiti) si finirà per determinare calcolo dopo calcolo il valore incognito. Riassumendo : - Parliamo di equazione uando si imposta una eguaglianza con uno ( o più) valori incogniti - L’equazione ha due membri: membro di sinistra e membro di destra separati dal segno di '=' - Il 'trasporto' dei valori da un membro all'altro avviene seguendo le due seguenti regole pratiche fondamentali: - a) ogni elemento che cambia di membro cambia anche di segno 2 + X -3 = 15 può diventare X = 15 - 2 + 3 da cui X = 16 - b) ogni divisore di tutto un membro può passare a moltiplicare, al numeratore tutto l'altro membro e ogni fattore moltiplicante un intero membro può diventare divisore di tutto l’altro membro ( si ricordi che la barra '/' è usata come segno di rapporto o divisione) : - es.: 3· X = 15 può diventare X = 15 / 3 X / 12 = (12 -2 ) / 3 '' '' X = 12· (12 · 2) / 3 79 Queste regole sono una trasposizione operativa, solo regole pratiche, delle due vere e proprie leggi applicando le quali avviene come se si operasse secondo a) o b). Infatti in realtà non c’è alcuno spostamento da un membro all'altro né scambi tra divisori e dividendi ma solo l'applicazione delle due leggi seguenti : - Sommando o sottraendo ad entrambi i membri una stessa quantità la relazione di uguaglianza viene mantenuta Moltiplicando o dividendo entrambi i membri per una stessa quantità la relazione ( con l'unico vincolo che l'eventuale divisore non sia zero) viene mantenuta . - Che questa sia la realtà lo possiamo vedere anche dal seguente esempio : es: (15 - 6 ) / 3 +2 = 5 (B) ma l'uguaglianza regge anche se si sottrae da entrambi i membri, p.es., 3 -3 + risulta infatti : (15 - 6 ) / 3 +2 2 = 2 = -3 + 5 c.v.d. La stessa cosa può dirsi moltiplicando o dividendo per una stessa quantità i due membri della precedente uguaglianza : es: 6 * (15 - 6 ) / 3 +2 = 5 * 6 oppure, dividendo la (B) per 3 es: ( (15 - 6 ) / 3 +2 ) / 3 = 5 / 3 ( 9 / 3 +2 ) /3 = 5 / 3 ( 3 + 2 /3 = 5 / 3 = 5 / 3 5 / 3 ) c.v.d. 80 La geometria analitica ( Coordinates Geometry ) Quando trattiamo le proprietà di una figura geometrica si fa astrazione dalle misure reali e dai rapporti che quella figura ha con altri enti nel piano o nello spazio circostante. La geometria analitica invece mira a descrivere gli oggetti matematici nei loro rapporti piano-spaziali giungendo ad algoritmi che fissano in modo completo quelle figure e le loro interrelazioni. Il primo passo consiste nel fissare un riferimento dal quale misurare con adatta scala le distanze. Riferendoci ad una situazione piana fisseremo dunque due assi coordinati cioè due rette intersecantesi ortogonalmente in un punto ‘O’, detto origine e dal quale si misureranno le distanze su scale collegate con ciascun asse . Per convenzione , un asse viene tracciato orizzontalmente davanti all'osservatore e l'altro in posizione verticale ed ortogonale al primo ( a 90 gradi). In alternativa, dati gli assi ortogonali un osservatore può sempre situarsi in modo da avere di fronte a sè un asse orizzontale e l'altro ortogonale al primo . L'asse orizzontale è detto asse X o asse delle ascisse, l'asse verticale è detto asse Y o asse delle ordinate ed ascisse e ordinate sono le ‘coordinate’ cioè le misure su ciascun asse di quanto un qualunque punto, isolato o facente parte di un qualche ente geometrico (retta, cerchio , ecc. ), si discosta dalla origine degli assi, per ciascun asse. Il piano viene dunque suddiviso in quattro quadranti nei quali i punti avranno coordinate rispettivamente : ascissa ed ordinata positive ascissa negativa ed ordinata positiva ascissa negativa ed ordinata negativa ascissa positiva ed ordinata negativa I quadrante ( quadrante alto destro) II '' ( '' alto sinistro) III '' ( '' basso sinistro) IV '' ( '' basso destro ) Un piano così organizzato è detto piano cartesiano, le coordinate sono dette cartesiane, come gli assi , in onore del matematico e filosofo francese Descartes che dette notevole impulso allo studio di questa parte della matematica. Fig. 1 : Assi e quadranti nel piano cartesiano 81 Quanto detto può estendersi allo spazio fisico tridimensionale con l'aggiunta di un terzo asse (solitamente chiamato asse Z) ed a spazi virtuali a più di tre dimensioni non rappresentabili con un normale disegno. Quel che importa sottolineare è che si stabilisce una corrispondenza biunivoca tra i punti del piano (o dello spazio) che avranno tutti una ed una sola coppia (o serie) di coordinate e viceversa : ad ogni coppia (se si opera nel piano), o serie di coordinate (se si opera in spazi multidimensionali) corrisponderà uno ed un solo punto del piano o di quello spazio. Ed è qui la radice fecondissima del legame tra geometria ed algebra. L'importanza della geometria analitica è enorme. Basti pensare che ogni genere di cartografia (nautica, stradale, ecc.) ha per base la rappresentazione di punti tramite coordinate. Latitudine e longitudine ( ossia la posizione, in gradi sessagesimali, di un punto sulla superficie terrestre, misurata rispetto all'equatore fino al polo e la posizione, sempre in gradi misurata nella direzione est-ovest a partire dalla località inglese di Greenwich ) sono un esempio di impiego delle coordinate cartesiane. Facciamo ora un passo avanti: non solo possiamo rappresentare dei punti generici sul piano cartesiano ma possiamo rappresentare tutto un insieme di punti, ( rigorosamente si dice: un luogo geometrico di punti) con un descrittore algebrico quale una equazione. Ugualmente possiamo rappresentare ad es. tutti i punti di una circonferenza (immaginata come disegnata su un piano cartesiano) tramite una opportuna equazione oppure tutti i punti di una retta tramite un'altra opportuna equazione , ecc. Poiché una equazione può essere manipolata, risolta, integrata in vari modi per via matematico-algebrica senza legarsi a complicati disegni peraltro sempre imprecisi e necessitanti di attrezzature speciali (righe, squadre, compassi, tavoli da disegno, carte millimetrate) e tenuto ugualmente conto che un problema, divenuto problema di calcolo, può essere vantaggiosamente sottoposto ad un veloce elaboratore elettronico, si può valutare l'importanza di impostare la soluzione dei problemi per via di equazioni. Non è ovviamente in discussione l'utilità di un disegno e la sua potenza rappresentativa e didattica bensì la difficoltà di risolvere, in via ordinaria, un problema matematico per via grafica. Sia per limitare il nostro discorso alla parte più comprensibile, sia perché non occorrerà molto di più alle nostre considerazioni statistiche, tratteremo proprio della equazione della retta. Dimostreremo cioè che davvero tutti i punti di una generica retta sono rappresentabili con una semplice equazione sfruttando allo scopo tutte le conoscenze matematiche fin qui perfezionate. Consideriamo dunque un sistema di assi cartesiani ortogonali e tre punti allineati su una retta di coordinate generiche : P 1( x1,y1) P2(x2,y2) P(x,y) in cui i punti P1 e P2 siano considerati fissi in due qualsivoglia posizioni sulla retta mentre il terzo punto lo immaginiamo generico, cioè mobile sulla retta che collega P1 a P2. I tre punti staccano sulla retta due segmenti P P1 , P P2 che danno sugli assi coordinati, rispettivamente i segmenti: A A1 , A A2 sull'asse X e B B1 , B B2 sull'asse Y . 82 Fig. 2 : Punti su una retta e coordinate staccate sugli assi E' intuitivo (e potrebbe essere dimostrato rigorosamente) che allo scorrere del punto P sulla retta il modo di variare dei segmenti P P1 e P P2 è proporzionale alle conseguenti variazioni dei segmenti A A1 e A A2 così come dei segmenti B B 1 e B B2 in quanto proiezioni dei suddetti segmenti P P1 e P P2 sui due assi coordinati X e Y . Riassumiamo ciò scrivendo le proporzioni seguenti : A A1 A1 A2 = P P1 P1 P2 B B1 B1 B2 P P1 = P1 P2 ossia, discorsivamente : il rapporto esistente tra i due segmenti A A1 ed A1 A2 è numericamente identico al rapporto tra i segmenti P P1 e P1 P2 così come avviene per il rapporto tra i segmenti B B 1 con B1 B2 che si mantiene identico al rapporto tra P P1 con P1 P2 . Poiché i due rapporti (A A1) / (A1 A2) e (B B1) / (B1 B2) sono entrambi identici allo stesso rapporto (P P1) / (P1 P2) questo implica che siano tra loro uguali i rapporti : A A1 = B B1 (1) A1 A2 B1 B2 Infatti si verifica la situazione in cui due quantità, essendo uguali entrambe ad una terza quantità, debbono necessariamente essere uguali tra loro ( proprietà transitiva delle uguaglianze). Possiamo adesso passare da considerazioni puramente geometriche a ragionare in termini di geometria analitica cioè di segmenti le cui lunghezze siano espresse tramite le loro coordinate cartesiane. Per far ciò è sufficiente esprimere i segmenti indicati da A A1 , A1 A2 , B B1 , B1 B2 , 83 P P1 , P1 P2 con le rispettive coordinate cartesiane staccate sugli assi, riscrivendo la soprastante uguaglianza (1) : x - x1 y - y1 = (2) x2 - x1 y2 - y1 E' chiaro infatti che se il punto A dista dall'origine O una lunghezza pari ad x, ed il punto A1 dista da O di una lunghezza pari ad x1, allora la lunghezza del segmento A A1 sarà data dalla differenza x -x1 . Analogamente si farà per gli altri segmenti . La relazione (2) è una equazione che cercheremo di risolvere applicando le già note leggi delle equazioni. Pertanto cominceremo a moltiplicare ambo i membri per la quantità : (x2 - x1) · (y2 y1) con l'intento di liberare l'uguaglianza dai denominatori : (x2 - x1) · (y2 - y1) . ( x - x1) = x2 - x1 (y - y1) . (x2 - x1) · y2 - y1 (y2 - y1) Il risultato è che (x2 - x1) del 1° membro si semplificherà con l'identico denominatore dello stesso 1° membro ed analogamente farà la quantità (y2 - y1) al 2° membro . Il risultato sarà : (y2 - y1) · (x - x1) = (y - y1) · (x2 - x1) Il prodotto tra le due parentesi a 1° membro si effettua moltiplicando ciascun elemento della prima parentesi per ciascun elemento della seconda parentesi ( ed analogamente per il 2° membro). A noi fa comodo lasciare indicato il prodotto di x con (y2 - y1) e fare i restanti due prodotti (così anche per il 2° membro con y ed (x2 - x1)). Otteniamo : x · ( y2 - y1) - x1 · y2 + x1 · y1 = y (x2 - x1) - y1 · x2 + x1 · y1 Applicando la prima legge delle equazioni sottraiamo ad entrambi i membri la quantità x1· y1 ( o , secondo la regola pratica, portiamo a primo membro la quantità x1· y1 che si trova nel 2° membro, previo cambiamento del segno ) . Risulterà : x · ( y2 - y1) - x1 · y2 = y (x2 - x1) - y1 · x2 Portiamo ora (..regola pratica ...) al 1° membro (cambiando il segno) tutto il contenuto del 2° membro che rimarrà evidentemente ‘vuoto’, cioè a zero : x ( y2 - y1) - x1 · y2 ed ordinando meglio si avrà : - y· (x2 - x1) + y1 · x2 = 0 84 x ( y2 - y1) - y (x2 - x1) + y1 · x2 - x1 · y2 = 0 (3) Se per comodità decidiamo di chiamare la quantità y2 - y1 come 'a’, la quantità - (x2 - x1) come 'b', la quantità y1· x2 - x1· y2 come 'c' allora l'uguaglianza (3) diventa : ax + by + c = 0 (4) La (4) è la forma più generale della equazione di una retta e contiene implicitamente tutti i punti di ogni possibile retta nel piano cartesiano in dipendenza di ogni possibile tripletta di numeri assegnabili ai coefficienti 'a' 'b' 'c' . Per esempio, scegliendo una combinazione a caso quale a = -1 b = 2 c = 1/2 avremo la retta di equazione : - 1· x + 2· y + 1/2 = 0 (5) Constateremo ora, con un procedimento detto 'studio di funzione', che dando valori qualunque ad x (piuttosto piccoli per amor di semplicità) e risolvendo l'equazione rimanente nella incognita y, risulteranno in definitiva delle coppie di valori x , y che messe in grafico, appariranno tutte giacenti su una certa retta: quella determinata dagli a, b , c, di cui le coppie di coordinate x , y rappresentano specifici punti . Supponiamo dunque di attribuire ad x, in successione, i valori 0 , 1, 2 , 3 , 4… e per ognuno di essi risolviamo l'equazione rispetto ad y. Raccogliamo poi in uno specchietto ' a croce ' le coppie di risultati x, y trovate. Pertanto : Per Per Per Per Per x=0 x=1 x=2 x=3 x=4 l'equaz. l'equaz. l'equaz. l'equaz. l'equaz. (5) (5) (5) (5) (5) diventa diventa diventa diventa diventa -1 + -2 + -3 + -4 + 2y 2y 2y 2y 2y = = = = = - 1/2 - 1/2 - 1/2 - 1/2 - 1/2 da cui da cui da cui da cui da cui y= y= y= y= y= - 1 + 1/4 + 3/4 + 5/4 + 7/4 Mettendo in grafico le soluzioni trovate riportate nello specchietto ‘a croce’ vediamo come i punti determinati dalle coppie di coordinate x,y stanno effettivamente su quella particolare retta calcolata : 85 Fig. 3 : Equazione di una retta e suo grafico nel piano Oltre alla presentazione della retta nella forma analitica ax + by + c = 0 esiste anche un altro modo di rappresentazione matematica nella quale si mette in risalto il fatto che i valori di y sono ricavabili dopo aver fissato gli x ossia, con termine tecnico : in funzione di x . E' proprio ciò che abbiamo visto poco fa quando, data l'equazione fissavamo un valore di x e ricavavamo la relativa y risolvendo l'equazione proprio nell’incognita y . Consideriamo allora la generica retta : ax + by + c = 0 (6) Risolviamo per y, applicando le consuete leggi delle equazioni : by = -ax - c Se poniamo -a/b = m e da cui -c/b = q y = -a/b · x - c/b l'equazione (6) si presenta come : y = mx + q Questa forma in cui si mette in risalto la y come funzione di x (cioè ricavabile per il tramite della x) è detta forma esplicita e consente di osservare diverse cose interessanti : • l’equazione esplicita definisce x come 'variabile indipendente' mentre y diviene 'variabile dipendente' anche noi, infatti, abbiamo ricavato diversi valori di y in dipendenza dei valori assegnati ad x 86 • • • • il coefficiente m della variabile indipendente è detto 'coefficiente angolare' della retta infatti misura l'inclinazione della retta rispetto all'asse cartesiano X, in termini di rapporto tra l'ascissa e l'ordinata di un qualunque punto sulla retta (abbiamo definito infatti m = - a/b) misurare un angolo, una inclinazione in termini di rapporto delle coordinate equivale a ciò che in 'trigonometria' (una branca delle matematiche) è detto 'tangente di un angolo’ quando m è positivo si parla di proporzionalità diretta tra le coordinate, ossia al crescere di x cresce anche y . Quando m è negativo si parla proporzionalità inversa tra le coordinate, ossia al crescere di x il valore della coordinata y cala. il termine 'q' ( o termine noto, o intercetta sull'asse Y ) esprime la misura del segmento staccato sull'asse Y delle ordinate, dalla retta . Per esempio consideriamo la retta già trovata sopra : -x +2y -1/2 = 0 Mettiamola in forma esplicita risolvendo l'equazione rispetto ad y : 2y = x + 1/2 = 0 y = 1/2x +1 cioè perciò y = (x + 1/2 ) / 2 m = 1/2 da cui : q = 1 L'esplicitazione ci dà direttamente il coefficiente angolare (la pendenza della retta ) ossia l'inclinazione misurata come tangente trigonometrica dal rapporto tra le coordinate x e y di un qualunque punto di quella retta. Essa è inclinata quanto occorre perché l'ascissa di un qualunque suo punto stia in rapporto di due a uno, proprio come espresso dal coefficiente angolare m = 1/2, con ogni corrispondente ordinata. Esistono infinite rette, nel piano cartesiano, inclinate m = 1/2 ma solo una ne esiste (la nostra) che stacchi anche un segmento lungo 1 sull'asse Y . Con la retta espressa in forma esplicita basta un'occhiata ad m e q per capire come sia disposta la retta in studio prima di volerla eventualmente ‘plottare’, cioè rappresentare rigorosamente su figura. Esempi : Data la retta y = 3x -1/3 essa stacca un segmento negativo lungo 1/3 sull'asse Y mentre è inclinata in modo tale che l'ascissa di un qualunque punto è sempre un terzo della corrispondente ordinata, oppure, che ad ogni variazione di una unità lungo X, c'è una corrispondente variazione di tre unità su Y (cfr. a) . Data la retta y = -2x +2 essa stacca un segmento negativo lungo 2 sull'asse Y mentre è inclinata in modo tale che l'ascissa di un qualunque punto è sempre la metà della corrispondente ordinata, oppure, il che è lo stesso, che ad ogni variazione di una unità lungo X c'è una corrispondente variazione di due unità negative su Y . La retta dunque sta calando ovvero al crescere di X va calando il valore della Y (cfr. b) . Data la retta y = 4x essa stacca un segmento lungo zero ossia passa per l'origine degli assi (infatti non esiste il termine q) sull'asse Y mentre è inclinata in modo tale che l'ascissa di un qualunque punto è sempre la quarta parte della corrispondente ordinata, oppure, il che è lo stesso che ad ogni variazione di una unità lungo X c'è una corrispondente variazione di quattro unità su Y . La retta dunque sta salendo rapidamente uscendo dalla origine degli assi (cfr c) . 87 Data la retta y = x essa stacca un segmento lungo zero ossia passa per l'origine degli assi (infatti non esiste il termine q) sull'asse Y mentre è inclinata in modo tale che l'ascissa di un qualunque punto è sempre identica alla corrispondente ordinata, oppure, il che è lo stesso che ad ogni variazione di una unità lungo X c'è una corrispondente variazione di una unità su Y . La retta dunque sta crescendo lungo Y con la stessa rapidità con cui cresce lungo X. La retta appare dividere in due parti uguali il I quadrante cioè funge da bisettrice del quadrante (cfr. d) . Fig. 4: Quattro equazioni di retta e loro andamento grafico approssimato Insomma con uno sguardo al coefficiente angolare si capisce subito se la retta cresce o cala, in fretta o lentamente, e dove attraversa l'asse y, con un giudizio più preciso di quanto non sia uno sguardo ad un grafico.. Infatti l'inclinazione alta o bassa di una retta sul grafico può essere del tutto apparente e perciò fuorviante, se dovuta semplicemente alle diverse scale con cui le due variabili sono rappresentate sugli assi. Considerando un grafico in cui la retta appaia inclinata come una bisettrice del I quadrante, si potrebbe essere indotti a pensare che la sua equazione sia del tipo y = x (cfr. d) . Ma se notassimo che il fondo scala dei due assi fosse 10 per l'asse Y e 100 per l'asse X avremmo che, per ogni punto del grafico, l'ascissa sarebbe sempre 10 volte il valore della corrispondente ordinata, per cui il coefficiente angolare vero sarebbe m = 1/10 con equazione della retta pari a : y= 1/10 x (cfr. c). Solo nel caso di scale identiche sui due assi si può prendere l'inclinazione apparente come reale andamento del fenomeno. Abbiamo detto che l'equazione esplicita y = mx + q esprime y, variabile dipendente, in funzione, cioè per il tramite, della relazione lineare ( così definita in quanto non ci sono incognite elevate ad esponente superiore ad 1 e perché il tasso di variazione delle y al variare delle x è costante, ossia, varia linearmente)… posta a secondo membro (mx+q). Tale funzione si è dimostrata essere una retta di cui m rappresenta l'inclinazione e q l'intercetta sull'asse Y . Allargando brevemente il discorso si può pensare che a secondo membro potrebbe esserci una relazione diversa da quella rappresentata da una retta e che y sia quindi una funzione di un'altra relazione non lineare , p.es. una parabola, un cerchio, una ellisse, ecc. In molti ragionamenti è 88 comodo riferirsi ad y, variabile indipendente come funzione di una o più altre variabili con una relazione non specificata . Si esprime ciò scrivendo : y = f(x) per dire che y è funzione di.., si ricava da.., varia con.., dipende da una imprecisata espressione contenente una sola variabile indipendente x z = f(x,y) per dire che z è funzione, si ricava, dipende, da una imprecisata espressione contenente due variabili indipendenti x,y . In questo caso, in presenza di tre variabili in gioco, una eventuale rappresentazione grafica implicherà per forza una visualizzazione tridimensionale. Per esempio, l'equazione cartesiana di una circonferenza generica di raggio unitario passante per il centro degli assi cartesiani è data dalla relazione generica : x 2 + y2 = r che esplicitata, ovvero risolvendo per y , dà : y = X2 Analogamente l'equazione cartesiana di una generica ellisse (*) è : x2 y2 - + = 1 a2 b2 dove ‘a’ e ' la semisomma delle distanze tra un qualunque punto della ellisse dai due 'fuochi'. ‘b’ equivale a a2 − c2 di uno dei fuochi . in cui ‘c’ è ascissa (*) L’ellisse è definita come l’insieme dei punti (‘luogo’ dei punti) per i quali si mantiene costante la somma delle distanze di ciascun punto dell’ellisse da due punti interni all’ellisse, detti ‘fuochi’. Il disegno di una ellisse è intuitivo ed in linea di principio, facile. Se tra due chiodi infissi su una tavola di legno si lega uno spago più lungo della distanza tra i chiodi stessi e si immagina di muovere perpendicolarmente alla tavola una matita che tenga in tensione lo spago si ottiene la figura dell’ellisse. E’ evidente in questa procedura che lo spago rappresenta quella distanza fissa che è la somma delle distanze tra la punta della matita ed i due chiodi (i fuochi). Il cerchio è un caso particolare di ellisse in cui i due fuochi coincidono in un unico punto detto centro. L’iperbole è invece definita come l’insieme dei punti (‘luogo’ dei punti) per i quali si mantiene costante la differenza delle distanze di ciascun punto dell’ellisse da due punti detti, ‘fuochi’. Ha un aspetto particolare in quanto la curva si presenta con due rami separati e simmetrici rispetto all’uno o all’altro dei due assi cartesiani. Il disegno di una iperbole poi è molto più complesso da realizzare. La parabola dalla caratteristica forma ‘a scodella’ ha pure in teoria due fuochi ma uno di questi è posto all’infinito. La forma parabolica ha grande importanza nell’ottica poiché gli specchi realizzati con tale profilo (specchio detto ‘obiettivo’) concentrano i raggi paralleli provenienti ‘dall’infinito’ (p.es. quelli di un astro) nell’unico fuoco effettivo, in prossimità del quale si ottiene una immagine reale che può essere osservata e ingrandita tramite le lenti in funzione di ‘oculari’. Con tale tecnica e fin dai tempi di Newton sono stati realizzati strumenti astronomici anche giganteschi come quello di Monte Palomar, in California, il cui specchio parabolico (obiettivo) ha un diametro di 5 metri. L’equazione di una ellisse può essere così esplicitata : 89 b y = a a2 − x2 Fig. 5 : Le curve dette coniche ottenute da un piano secante un cono Le curve (e le relative equazioni, tutte di ‘secondo grado’ ossia contenenti, al massimo, termini elevati al quadrato) sono spesso chiamate ‘coniche’ in quanto, geometricamente, tali profili sono ricavabili dalla sezione di una figura conica tramite un piano : perpendicolare all’asse del cono per ottenere un cerchio, variamente inclinato per ottenere un’ellisse ( moderata inclinazione del piano secante), o una parabola (piano secante ad inclinazione parallela ad uno dei lati del cono), un’iperbole (piano secante passante per l’asse del cono). 90 Sistemi di equazioni Come abbiamo visto una equazione consiste in una relazione vera che ci consente di ricavare (tramite la ripetuta applicazione delle due leggi delle equazioni) il valore di una quantità incognita, spesso chiamata X ( .. ma anche Y o Z o altra notazione..) che sostituita nella equazione la verifica, cioè rende effettivamente uguali i due membri . Per es., nella semplice equazione impostata trascrivendo l'enunciato : " trovare quel numero che moltiplicato per due e addizionato a 5 dà 23 " , ossia x· 2 + 5 = 23 , abbiamo definito una equazione nella variabile x come si deduce dall'enunciato. Grazie alla relazione scritta , manipolando i membri della equazione possiamo trovare quel valore di x che risolve (.. soddisfa, verifica..) l'equazione. Infatti trovato il valore di x possiamo sostituirlo nella relazione originale ed avremo la prova che il valore trovato è esatto perché con quel valore constateremo che i due membri sono uguali. Infatti risolvendo l'equazione abbiamo i seguenti passaggi : 2 x + 5 = 23 2 x = 23 - 5 x = ( 23 - 5)/ 2 x = 18/2 x= 9 Se è vero che la soluzione è 9 , tale valore messo nella relazione di partenza deve ‘soddisfarla’. Infatti data la : x· 2 + 5 = 23 se x = 9 sarà che 9 * 2 + 5 = 23 ossia 18 + 5 = 23 da cui 23 = 23 come è ovvio e ‘c.v.d’ (‘come volevasi dimostrare’). Orbene, può essere che le condizioni di un enunciato siano più complesse e indichino più di una relazione cioè più di un vincolo da rispettare: in altri termini si dovranno scrivere più equazioni ricavate dall'enunciato ma tutte relative al medesimo problema . Si ottengono cioè più equazioni 'simultanee' in più incognite (tante incognite quante sono le relazioni deducibili dall'enunciato del problema). Per indicare tale simultaneità si scrivono le equazioni una sotto l’altra, in righe successive, raccogliendole con una parentesi graffa a sinistra delle equazioni. Per es. nell'enunciato : " trovare i lati del rettangolo che danno per perimetro 18 ed area 20 " riusciamo a distinguere due vincoli, due relazioni, che chiamando x e y i lati ignoti del rettangolo scriveremo come : 2 * ( x + y) = 18 = 20 x*y essendo il perimetro il doppio dei due lati adiacenti essendo l'area il prodotto tra i due lati adiacenti Risolviamo per x la prima relazione e mettiamo l'espressione risultante (che contiene la incognita y , nella seconda equazione . x+ y = 9 x · y = 20 x= 9–y x · y = 20 x= 9–y ( 9 - y ) · y = 20 In tal modo la seconda equazione si semplifica apparendo come una equazione nella sola variabile y ( benché non più lineare bensì di secondo grado perché l'incognita è elevata al 91 quadrato ). La soluzione di quest'ultima dà un numero che messo nella prima espressione risolve completamente il sistema : x= 9-y 9y - y 2 = 20 x= 9-y y 2 - 9y + 20 = 0 La seconda equazione nella incognita y, di secondo grado in quanto l'incognita è elevata al quadrato, si risolve con una apposita formula che nella sua espressione simbolica, generale, appare come segue : - b ± b 2 - 4a c y = 2a e risolve, ossia trova le radici, di una generica equazione a x 2 + bx + c = 0 da cui deduciamo che nel nostro caso : ‘a’ (coefficiente del termine al quadrato ) vale 1, mentre ‘b’ (coefficiente del termine lineare, o alla prima potenza) vale 9. Inoltre il termine noto ‘c’, non legato all'incognita, vale 20 . Non deve apparire strano che nella formula compaia un ± (che origina due risultati : l'uno calcolando con b + .... e l'altro usando b - ..... ) . Infatti ciò capita ogni volta che si deve risolvere una radice quadrata. La ragione di questo sta nel fatto che l'elevazione al quadrato di un numero, positivo o negativo che sia, origina un risultato sempre positivo per cui, nel procedimento inverso, dovendo ricavare la radice di un tale numero non si può sapere se questo proveniva da una base positiva o negativa . P. es. -2 2 = 4 ma anche +2 2 = 4 per cui sarà che 4 = ± 2 Si comprenderà che anche con tutte le radici risultanti da una potenza multipla del 2 come 4, 8 , 16 ecc. si ha lo stesso effetto poiché il prodotto di un numero pari di fattori annulla rende il risultato sempre positivo. . 4 4 P. es . -2 = 16 ma anche +2 = 16 per cui sarà che 4 16 = ± 2 Tornando al nostro sistema ed applicando la formula al nostro caso, tenuto conto che si è già detto del significato dei termini a, b, c della formula ossia dei coefficienti, rispettivamente, del termine al quadrato, del termine lineare di grado 1 e del termine noto, e tenuto pure conto che l'equazione che stiamo risolvendo è nella incognita y, per noi sarà : a = 1 b = -4.5 c = 20 . Applicando la formula otterremo : 92 y= 9 ± 9 2 - 4 *1 * 20 2 e continuando a sviluppare i calcoli per questa seconda equazione del sistema, (tralasciando per il momento la prima equazione), si ha : y= 9 ± 81 - 80 2 y= 9± 1 2 y= 9 ± 1 2 y= 10 2 oppure y= y= 5 oppure y= 8 2 da cui : 4 Ecco dunque che l'equazione quadratica nella incognita y ha dato le sue due soluzioni. Analogamente, tutte le equazioni di grado generico 'n' avranno 'n' soluzioni . Ora sostituendo ciascuno dei valori di y trovati, nella prima delle equazioni, finora trascurata, cioè x = 9 - y si ha : da cui x = 9 - 5 oppure x= 9 - 4 x = 4 oppure x= 5 Riassumendo : il sistema risulta 'soddisfatto' dalle due seguenti coppie di valori : x= 4 y= 5 oppure x = 5 oppure x = 4 Notiamo che la doppia soluzione di y trascina anche due valori per x e che , alla fine, le due coppie di soluzioni sono tra loro scambiate. Infatti il nostro problema chiedeva le dimensioni di 93 un rettangolo di dato perimetro e data area ed effettivamente le soluzioni sono due perché se di un rettangolo scambiamo le dimensioni non ci sono variazioni di perimetro o di area : Fig. 6 : Lati di rettangolo di data area e perimetro: soluzioni analitiche intercambiabili 94 Regressione lineare L'attenzione che prestiamo ai sistemi di equazioni ed in particolare ai sistemi lineari di due equazioni in due incognite è dovuto al fatto che la procedura di regressione lineare ovvero di determinazione dei coefficienti di una retta a partire da punti sperimentali richiede proprio la soluzione di un tale sistema in cui i coefficienti ( m,q) della retta sono le incognite di un sistema in due equazioni. Sarebbe troppo lungo e complesso trattare rigorosamente del come e perché si arriva ad un sistema di due equazioni tuttavia possiamo dire quanto segue 1) la regressione lineare consiste nel far passare la migliore retta possibile tra i punti sperimentali 2) la retta migliore è quella che rende il più possibile piccolo l'errore complessivo insito nell'operazione, è cioè la retta che registra il minor valore dello scarto quadratico complessivo tra punti sperimentali e retta teorica di regressione. 3) trattandosi di cercare un valore minimo, viene scritta una equazione che rappresenta tale scarto quadratico medio e si interviene su tale funzione con operatori appositi chiamati derivate della funzione che hanno la proprietà di trovare le condizioni che rendono minimo lo scarto suddetto. Per questo motivo il metodo impiegato è noto come ‘metodo dei minimi quadrati’. 4) In definitiva si arriva ad un sistema di due equazioni in due incognite le cui soluzioni sono proprio i coefficienti m e q della miglior retta possibile che possa essere tracciata tra i punti sperimentali. Il sistema di due equazioni e due incognite ha la seguente forma generale : I simboli x ed y indicano le coordinate cartesiane dei punti sperimentali pertanto l'impostazione del sistema esige che si calcoli la sommatoria delle ascisse ‘quadratizzate’, la sommatoria delle ascisse, la sommatoria dei prodotti tra ascisse ed ordinate, la sommatoria delle ordinate ed infine che venga fornito il numero dei punti N. Il sistema va risolto nelle incognite a , b che sono rispettivamente il coefficiente angolare già definito come 'm' e l'intercetta sull'asse delle ordinate definita come 'q' quando si è parlato della forma esplicita della equazione di una retta . Per completare con un breve esempio, supponiamo che si voglia studiare la modalità di accrescimento in peso (espresso in kg con due decimali) di un gruppo di neonati, al passare del tempo (espresso in settimane ) e ci si chieda in sostanza : a) se c'è una variazione del peso in dipendenza del tempo b) quale sia il tasso di variazione in peso per ogni settimana trascorsa 95 A queste domande risponde tipicamente una procedura di regressione la quale ha una parte matematica, che è quella a cui facciamo riferimento in queste note, ma che ha, o può avere, anche una parte statistica se, come spesso avviene, i punti sperimentali sono considerati come un campione di tutti i possibili risultati deducibili dal fenomeno in esame. Anche noi riferendoci al peso di alcuni neonati dobbiamo pensare di avere a che fare con un campione di tutti i possibili neonati anche quando fossero ricavati da situazioni relativamente omogenee. Raramente ci si trova in presenza di intere popolazioni o come si dice in statistica dell'intero universo, il che avviene per lo più nel corso di studi di epidemiologia dove l’obiettivo è più spesso quello di voler conoscere la totalità di un fenomeno. Ciò premesso, si capirà perché il coefficiente angolare trovato vada testato statisticamente per verificare che il valore fornito dalla procedura matematica e riferentesi al campione possa essere validamente, ossia probabilmente, trasferito, a meno di un certo errore campionario, sulla popolazione da cui lo si è estratto. Si supponga dunque che di 10 bambini si sia rilevato il peso tra la prima e decima settimana dalla nascita, per ogni settimana. Compilando una tabella che a partire dai dati sperimentali di tempo e peso riporti anche i quadrati ed prodotti tra i dati, otterremo : -------------------------------------------------------------------------------------------------------------peso peso 2 tempo tempo 2 prodotto x.y 2 kg kg settimane Y Y2 X X2 XY -------------------------------------------------------------------------------------------------------------bambino sigla A 3,55 12,60 1 1 3,55 B 3,78 14,29 2 4 7,56 C 3,70 13,69 3 9 11,10 D 3,92 15,37 4 16 15,68 E 4,32 18,66 5 25 21,60 F 4,40 19,36 6 36 26,40 G 4,53 20,52 7 49 31,70 G 4,62 21,34 8 64 36,96 H 4,67 21,80 9 81 42,03 I 5,02 25,20 10 100 50,20 ------------------------------------------------------------------------------------------------------------Totali -------> 42,51 182,83 55 385 246,.79 Le sommatorie forniscono quanto necessario alla impostazione del sistema risolvente la regressione (nelle incognite A e B) e tenendo conto che abbiamo 10 dati : A 385 A 55 + B 55 = 246,79 + B 10 = 42,51 96 Tra i vari metodi di risoluzione di un sistema sceglieremo ora quello di somma/differenza che usiamo per la prima volta mentre in precedenza abbiamo optato per il più ovvio metodo di sostituzione . Il metodo di somma/differenza si presta bene in tutti quei casi, come il presente, in cui la opportuna trasformazione di una delle equazioni (sfruttando ovviamente i soliti due principi delle equazioni) conduce alla rapida eliminazione di una incognita nella equazione che si deduce sommando algebricamente (da cui la definizione di somma/differenza) i termini analoghi delle due equazioni. Tale equazione dedotta, è poi accoppiata con l'equazione originale non manipolata per procedere alla soluzione del sistema. L'esempio varrà più di molte parole . Moltiplicando infatti ambo i membri della seconda equazione per -5,5 si ottiene : A 385 + B 55 = 246,79 A 55 (-5,5) + B 10 ( -5,5) = 42,51 (-5,5) A 385 + A (- 305,5) - B 55 = 246,79 B 55 = -233,.81 Sommando algebricamente termine a termine tra le due equazioni se ne ricava una terza (priva del termine B che va a zero) che accoppieremo alla prima equazione non manipolata: + B 55 = 246,79 A 385 A (- 305,5) B 55 = -233,81 A 79,5 // = 12,98 A 385 A 79,5 + B 55 = 246,79 = 12,98 da cui si ricava : A 385 A + A 385 A + B 55 = 246,79 = 0,16 x 385 + B 55 12,98 / 79,5 = 246,79 = 0,16 B 55 = 246,79 97 A = B 55 A = 246,79 - B 55 A = 185,19 B 55 A = 185,19 / 55 B A = = = = 3,37 = 0,16 0,16 0,16 x 385 0,16 0,16 0,16 Per quanto detto sul significato di A (coefficiente angolare) e di B (intercetta sull'asse y) l'equazione della retta di regressione (espressa nella consueta forma esplicita y = mx + q) che evidenzia con quale legge la variabile dipendente - per noi il peso - dipenda dalla variabile indipendente (il tempo) avremo : Peso = 0,16 tempo +3,37 Se di questa funzione facciamo uno studio per vedere come si presenta il grafico della retta tra gli assi cartesiani, quando ad X ( da noi, il tempo) si diano p.es. i valori 0, 1, 3, 5, 10 vedremo la situazione seguente : Fig. 7 : Regressione di punti sperimentali con relativo grafico In conclusione possiamo rispondere al quesito b) più sopra formulato dicendo che la pendenza (slope) della retta di regressione indica un tasso di crescita di 0,16 Kg per settimana, dopo la nascita . Quanto al quesito a) la risposta deve completarsi sul piano statistico. Poiché i valori 98 sperimentali rilevati rappresentano un campione e per il suo tramite intendiamo trarre indicazioni su un'intera popolazione di bambini, sottoporremo i dati ad una 'analisi di varianza' . Diciamo, per inciso, che eseguendo una analisi di varianza, effettivamente i risultati della regressione possono essere validamente estesi (posto che la campionatura sia stata effettuata secondo le regole). Correlazione La regressione ha per scopo precipuo la valutazione del tasso di variazione della variabile dipendente al variare unitario della variabile dipendente. E' consuetudine fornire una ulteriore misura che testimoni l’esistenza o meno di un legame tra le variabili. Tale è l'indice di correlazione ‘r’ così definito : L'indice di correlazione può variare tra 0 ed 1 indicando rispettivamente assenza e massima correlazione tra le variabili. Un alto valore di r, indicherà un forte legame nel variare delle due variabili. Così p.es. uno 0.8 indica un'alta correlazione tra le variabili. Tuttavia se i dati sono frutto di campionamento il significato del coefficiente ‘r’ , particolarmente per i risultati intermedi, va testato statisticamente in base al numero di coppie di punti. Succede infatti, ad esempio., che un indice di 0,25 con oltre 60 coppie di valori sia statisticamente significativo mentre non lo sia un r di 0,6 avendo a disposizione meno di 10 coppie di valori. Applicando la formula ai nostri dati otteniamo : 10 x 246,79 55 x 42,51 r = 10 x 385 - 55 2 10 x 182.84 - 42.512 2467,9 2338,1 r = 3850 - 3025 1828,4 - 1807,1 129,8 r = 825 21,4 129,8 r = 28,73 x 4,63 = 129,8 132,99 = 0,97 99 Il coefficiente risulta molto alto anche indipendentemente da ogni altra considerazione statistica. Notiamo comunque che con dieci coppie di valori sarebbe sufficiente un r maggiore di 0.632 per raggiungere la consueta soglia minima di significatività ( P < 0.05). Va ribadito che l’indice ‘r’ attesta con più o meno sicurezza la sola esistenza di un legame e non la sua ‘forza’. Altri indici sono deputati a ciò. Se dunque due calcoli di ‘r’ mostrano rispettivamente valori sotto l’1% e sotto il 5% non siamo autorizzati a dire che il primo indice è più forte di cinque volte ma solo che l’affermazione della esistenza di un legame tra le variabili messe in regressione relative al primo ‘r’ è meno incerta, cioè meno soggetta ad errore. Conclusione Il rapidissimo excursus su tanta parte di matematica, non sempre elementare, dovrebbe aver dato un'idea della potenza degli operatori citati e reso familiari alcuni di questi che sono consueti nel trattamento statistico dei dati. Soprattutto dovrebbe aver messo il lettore in grado di rendersi conto di cosa sta dietro le più comuni procedure impiegate nel trattamento statistico dei dati. fine