Esclusione dei valori meno probabili Il criterio di Chauvenet Nel campo dell’analisi sperimentale è frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri. 1 Il criterio di Chauvenet dà la possibilità di formulare un giudizio di accettazione dei dati in base a considerazioni di tipo statistico. 2 In una serie di n dati sperimentali, se alcuni valori presentano uno scostamento dal valore medio che ha probabilità di verificarsi inferiore di 1/(2n), allora quei valori possono essere scartati. 3 CRITERIO DI CHAUVENET Scarto ridotto xi - x x , s Þ si = s determinare z: si z si > z 1 p 1 2n 1 F (z ) = 1 - 0.5 × 2n Si SCARTARE IL DATO 4 Interpretazione grafica: 1 1 - 0.5 × 2n 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 1 0.5 × 2n 0.2 0.1 0 -3 z -2 -z -1 0 1 z 2 3 I valori appartenenti a questo intervallo esterno possono essere eliminati infatti la probabilità associata ai due semiintervalli è pari a 1/2n 5 ANALISI DELLA NORMALITA’ DI UNA DISTRIBUZIONE Il grafico di probabilità normale Il test del chi-quadro 6 IL GRAFICO DI PROBABILITÀ NORMALE Si vuole verificare se la distribuzione dei dati sperimentali può essere rappresentata mediante la legge di Gauss o meno. 7 grafico di probabilità normale 1 1 0.99 0.98 0.95 0.90 0.9 0.8 0.7 0.6 0.5 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 y 3 Cambio scala sulle ordinate (scala logaritmica) 0.10 0.05 0.02 0.01 0 -3 -2 -1 0 1 2 y Si ottiene una retta 8 3 1 Esempi 2 3 1 0.99 0.98 x1 ¹ x2 s x1 = s x2 x1 = x3 s x1 ¹ s x3 0.95 0.90 0.5 0.10 0.05 0.02 0.01 0 x1 x3 x2 x 9 Distribuzione iper-normale 1 0.99 0.98 0.95 0.90 0.5 0.10 0.05 0.02 0.01 0 10 Distribuzione ipo-normale 1 0.99 0.98 0.95 0.90 0.5 0.10 0.05 0.02 0.01 0 11 Distribuzione asimmetrica 1 0.99 0.98 0.95 0.90 0.5 0.10 0.05 0.02 0.01 0 12 Distribuzione bimodale 1 0.99 0.98 0.95 0.90 0.5 0.10 0.05 0.02 0.01 0 13 IL TEST DEL 2 Permette di valutare quantitativamente, su base statistica, se una serie di dati appartiene ad un tipo di distribuzione (non necessariamente normale). 14 IL TEST DEL 2 2 fo K j 1 f a j j fa j K è il numero di classi in cui si sono suddivisi i dati foj è la frequenza assoluta osservata per la classe j faj è la frequenza assoluta aspettata in base alla distribuzione che si vuole provare 15 PROCEDURA 1) Calcolare: K 2 j1 fo j fa j fa j 16 PROCEDURA 2) Definire il rischio d’errore e calcolare: p1 = 1- a 2 p2 = a 2 17 PROCEDURA 3) Calcolare il numero di gradi di libertà : K 3 18 PROCEDURA 4) Dalle tabelle determinare: c ( p1, n ) c ( p2 , n ) 2 2 19 PROCEDURA 5) Eseguire il test: c ( p1, n ) < c < c ( p2 , n ) 2 2 2 Se verificato, non vi sono ragioni statistiche, per rifiutare il modello di distribuzione sottoposto a test. 20 ESEMPIO si vuole verificare quale di due farmaci è più efficace. A questo scopo: - 23 pazienti vengono trattati con il farmaco A - 17 con il farmaco B. Dei 23 pazienti trattati con A, 13 risultano guariti, mentre dei 17 trattati con B ne risultano guariti 8. 21 La percentuale di guarigione per entrambi i due trattamenti è complessivamente 21/40 = 0,525 = 52,5% 22 E quindi se non ci fosse differenza tra i due farmaci si avrebbe la seguente tabella dei risultati attesi: 23 Quindi possiamo calcolare il 2 : 2 = (13 - 12)2/12 + (10 - 11)2/11 + (8 9)2/9 + (9 - 8)2/8 = 0,41 Dati ottenuti Dati che si otterrebbero se la densità di probabilità fosse uguale 24 Definiamo un grado di rischio = 10% = 0.1 p1 = 0.95 p2 = 0.05 3. Calcoliamo il numero dei gradi di libertà n = 4 - 3 =1 25 Dalla tabella determiniamo: c ( p1, n ) c ( p2 , n ) 2 2 26 Verifichiamo che: c ( p1, n ) < c < c ( p2 , n ) 2 2 2 0 < 0.41 < 3.84 E quindi non c’è motivo statistico per concludere che le due distribuzioni non siano la stessa ovvero non si può concludere che un farmaco sia più efficace dell’altro 27 Esempio di verifica dell’influenza della temperatura su di un processo di misurazione % CHI2GOF Chi-square goodness-of-fit test. % CHI2GOF performs a chi-square goodness-of-fit test. % The test is performed by grouping the data into bins, calculating % the observed and expected counts for those bins, and % computing the chi-square test statistic SUM((O-E).^2./E), where O is the % observed counts and E is the expected counts. This test statistic has an % approximate chi-square distribution when counts are sufficiently large. % % Bins in either tail with an expected count less than 5 are pooled with % neighboring bins until the count in each extreme bin is at least 5. % % H = CHI2GOF(X) performs a chi-square goodness-of-fit test that the data in % the vector X are a random sample from a normal distribution with mean and % variance estimated from X. The result is H=0 if the null hypothesis (that % X is a random sample from a normal distribution) cannot be rejected at the % 5% significance level, or H=1 if the null hypothesis can be rejected at % the 5% level. CHI2GOF compares the test statistic % to a chi-square distribution with NBINS-3 degrees of freedom, to take into 28 % account that two parameters were estimated. close all % Modello del processo di misurazione della lunghezza di un pezzo meccanico % in funzione dell'effetto di disturbo della temperatura T = 20; Lm = 50 + (T-20)*0.01 ; std = 0.1 + (T-20)*0.05 ; x20 = normrnd(Lm , std , 1000 , 1); figure, subplot(2,1,1), plot(x20) subplot(2,1,2), hist(x20, length(45 : 0.25 : 55)) 29 % Modello del processo di misurazione della lunghezza di un pezzo meccanico % in funzione dell'effetto di disturbo della temperatura T = 120; Lm = 50 + (T-20)*0.01 ; std = 0.1 + (T-20)*0.02 ; x120 = normrnd(Lm , std , 1000 , 1); figure, subplot(2,1,1), plot(x120) subplot(2,1,2), hist(x120 , length(45 : 0.25 : 55)) 30 figure, subplot(2,1,1), plot([x20; x120]) subplot(2,1,2), hist([x20; x120], length(45 : 0.25 : 55)) [H,P,STATS] = chi2gof([x20; x120], 'ctrs', 45 : 0.25 : 55) Output MATLAB: H= 1 P= 0 STATS = chi2stat: 5015 df: 31 edges: [1x35 double] O: [1x34 double] E: [1x34 double] 31 Queste due sono le PDF che il test del 2 è andato a confrontare figure, plot(STATS.O / 1000) hold on plot(STATS.E / 1000,'r') legend('Observed','Expected') 32 33