23/05/2014 Esercitazione 2 22.5.2014 (AVVISI) RIEPILOGO STATISTICHE (NOTA) TEST DEL CHI2 Accedere alle macchine con LOGIN: esame PASSWORD: didattica AVVISO Valutazione prova intercorso Vincolo di accesso alla seconda prova Oggi lavoriamo usando la procedura vista per la prova intercorso: cliccate sull’icona Esame_P13 1 23/05/2014 Esercizio La tabella nel file peso_tavolette.xlsx riporta il peso in grammi di un campione di 100 tavolette di cioccolato. a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana, …. Curtosi…) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche. b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b). Esempio 6.1 PROVIAMO La tabella peso_tavolette.xlsx riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche 2 23/05/2014 Esempio 6.1 Media Errore standard Mediana Moda 99,79652336 0,010062453 99,79312502 #N/D Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) 0,100624532 Non esistono duplicati 0,010125296 0,083114239 0,069723767 0,484818884 99,55261744 100,0374363 9979,652336 100 100,0121 99,57665 Funzioni del Riepilogo statistiche Manualmente: Riepilogo statistiche Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) =MEDIA(A2:A101) =G6/RADQ(G14) =MEDIANA(A2:A101) =MODA(A2:A101) Non hanno =DEV.ST(A2:A101) funzione =VAR(A2:A101) esplicita =CURTOSI(A2:A101) =ASIMMETRIA(A2:A101) =MAX(A2:A101)-MIN(A2:A101) =MIN(A2:A101) =MAX(A2:A101) =SOMMA(A2:A101) =CONTA.NUMERI(A2:A101) =GRANDE(A2:A101;2) =PICCOLO(A2:A101;3) 3 23/05/2014 Test chi2 Test di significatività non parametrico (non basata su una distribuzione probabilistica) che viene usato per valutare se i valori di frequenza ottenuti tramite una rilevazione sono diverse in maniera significativa dalle frequenze ottenute con la distribuzione teorica Questo test ci permette di rifiutare o accettare un’ipotesi data. Passi per effettuare un test di significatività Ipotesi H0: Non esiste correlazione tra i dati Test di significatività no Rifiuto H0 χ2 <χ2C si Accetto H0 4 23/05/2014 Calcolo di χ2 e χ2C Per calcolare χ2 abbiamo due strategie: usando la funzione TEST.CHI di excel, a mano. Per calcolare χ2C occorre conoscere il livello di significatività α (prob. di accettare o rigettare l’ipotesi nulla) e i gradi di libertà (quantità delle frequenze sperimentali che devo conoscere direttamente). Si può conosce in due modi: consultando la tabella della distribuzione χ2 usando la funzione Excel INV.CHI Quindi più velocemente: ACCETTO se TEST.CHI(int_effettivo; int_previsto) > α Confronto dato empirico e dato teorico modalità testa croce n= frequenze empiriche: fe 499 501 1000 probabilità teoriche: p 0,5 0,5 frequenze teoriche: ft=p*n 500 500 funzione test χ2= livello di significativita' α= valore critico χc2= 2 (fe - ft) / ft 0,002 0,002 0,004 0,05 Tratto dalle slides delle lezioni in aula Confrontare χ2 col valore teorico nel caso di moneta non truccata 3,841458821 Il valore critico lo posso ottenere dalla tabella dei valori della distribuzione χ2, in funzione di α e dei gradi di libertà, o calcolarlo direttamente con INV.CHI(probabilità; gradi_libertà), dove gradi di libertà = quantità delle frequenze sperimentali che devo conoscere direttamente. Nel nostro esempio: α = 0,05 e gradi di libertà = 1 (perché basta conoscere p per ottenere q=1-p) χ2 c = INV.CHI(0,05;1) = 3,841458821 5 23/05/2014 Funzione TEST.CHI TEST.CHI(B2:B3;D2:D3) = 0,950 Indica direttamente che il valore di χ2 (0,004) corrisponde a χ20,950 Dato che 0,950 > 0,05: ACCETTO l’ipotesi nulla! Esempio dal libro di fisica La tabella mostra 40 misurazioni di una variabile. Vogliamo valutare col test di χ2 la concordanza con una distribuzione normale di Gauss. 731 772 771 681 722 688 653 757 733 742 739 780 709 676 760 748 672 687 766 645 678 748 689 810 805 778 764 753 709 675 698 770 754 830 725 710 738 638 787 712 Procediamo come segue. Calcoliamo la media X, la deviazione standard σ. Stabiliamo di considerare i valori nei 4 intervalli individuati da X - σ, X, X + σ. Per ogni intervallo calcoliamo le frequenze empiriche, date del numero di valori che ricadono in quell’intervallo. Come si fa? calcoliamo il numero di valori ≤ X - σ, X, X + σ, rispettivamente, con la funzione CONTA.PIÙ.SE(A1:J4;"< X - σ"), eccetera. Otteniamo: X ≤ 683,3 X ≤ 730,1 X ≤ 776,9 X>776,9 frequenze ausiliare 8 18 34 6 6 23/05/2014 Calcolo probabilità intermedie Calcoliamo ora le probabilità teoriche concordi ad una distribuzione normale. Come passo intermedio calcoliamo: P(X ≤ 683,3) = DISTRIB.NORM.N(683,3;$B$9;$B$10;VERO) e similmente per le altre. Otteniamo: frequenze ausiliare 8 18 34 6 X ≤ 683,3 X ≤ 730,1 X ≤ 776,9 X>776,9 Rispettivamente la media e la deviazione standard probabilità ausiliare 0,16 0,50 0,84 0,50 Calcolo probabilità teoriche Con i valori calcolati nella slide precedente, possiamo ora calcolare: k Intervallo frequenze probabilità empiriche Ok teoriche pk frequenza teorica Ek 2 (fe-ft) /ft 1 0< X ≤ 683,3 8 0,16 6,3 0,4320 2 683,3< X ≤ 730,1 10 0,34 13,7 0,9825 3 730,1< X < 776,9 16 0,34 13,7 0,4018 4 X >776,9 6 0,16 6,3 0,0176 χ = 1,8340 2 Per esempio: P(683,3< X ≤ 730,1) = P(X ≤ 730,1) - P(X ≤ 683,3). Ek = pk * n, dove n=CONTA.VALORI(A1:J4) Il valore χ2 è ottenuto come la somma dei valori soprastanti. 7 23/05/2014 Considerazioni finali Infine calcolo il valore critico con cui confrontare con INV.CHI(0,05;1) ed accetto se χ2 è minore di tale valore χ = 1,8340 2 valore critico = 3,84 risultato: accetto H0 In questa cella scriverò la funzione SE(F26<F28; "accetto H0";"rifiuto H0"). se χ2 < χ2c 731 739 678 698 772 780 748 770 n= minimo= 40 638 massimo= 830 X media= 730,1 σ dev. standard= 46,8 X-σ= 683,3 X+σ= 776,8 771 709 689 754 681 676 810 830 frequenze probabilità empiriche Ok teoriche pk 722 760 805 725 688 748 778 710 frequenza teorica Ek (fe-ft) /ft 0,16 6,3 0,4320 10 0,34 13,7 0,9825 16 0,34 13,7 0,4018 X >776,9 6 0,16 6,3 0,0176 X ≤ 683,3 X ≤ 730,1 X ≤ 776,9 X>776,9 frequenze ausiliare 8 18 34 6 probabilità ausiliare 0,16 0,50 0,84 0,16 k Intervallo 1 0< X ≤ 683,3 8 2 683,3< X ≤ 730,1 3 730,1< X < 776,9 4 653 672 764 738 757 687 753 638 733 766 709 787 742 645 675 712 2 χ2 = 1,8340 valore critico = 3,84 risultato: accetto H0 8 23/05/2014 Esempio Un’associazione ambientalista sostiene che un’azienda X ha riversato in un fiume rifiuti tossici che hanno provocato cambiamenti nella distribuzione “maschi-femmine” nella categoria dei pesci Fish. Vengono riportati i seguenti dati empirici, per 4 rami del fiume Freq.emp. Maschi Femmine totale Ramo A 53 43 96 Ramo B 35 22 57 Ramo C 48 39 87 Ramo D 18 12 30 Totale 154 116 270 Esempio Il giudice, per condannare l’azienda, ha bisogno del test di significatività del chi2, per capire se accettare o rifiutare l’ipotesi (nulla): “Il rapporto maschifemmine è 1:1”. Controllare cosa accade se il campione è unico (senza suddividere sui rami) Freq.emp. Maschi Femmine totale Ramo A 53 43 96 Ramo B 35 22 57 Ramo C 48 39 87 Ramo D 18 12 30 Totale 154 116 270 9 23/05/2014 Rivediamo un esempio Effettuando 50 lanci di un dado si sono ottenuti: 9 11 5 8 10 7 uno due tre quattro cinque sei. Vogliamo valutare se il dado è equo. Confrontiamo le frequenze ottenute con quelle teoriche della distribuzione uniforme, corrispondente ai dadi equi. Per valutarne la discordanza, calcoliamo il relativo χ2. Con Excel (senza usare TEST.CHI) modalità 1 2 3 4 5 6 frequenze empiriche: fe 9 11 5 8 10 7 n= 50 probabilità teoriche: p 0,1667 0,1667 0,1667 0,1667 0,1667 0,1667 frequenze teoriche: ft=p*n 8,333333333 8,333333333 8,333333333 8,333333333 8,333333333 8,333333333 (fe - ft) 2/ ft 0,053333333 0,853333333 1,333333333 0,013333333 0,333333333 0,213333333 funzione test χ 2= 2,8 livello di significativita' α= valore critico χc2= 0,05 11,07049769 risultato: si accetta l'ipotesi nulla Confrontare χ2 col valore teorico nel caso di dadi equi gradi di libertà = 5 (perché occorre conoscere 5 frequenze per ottenere anche la sesta) INV.CHI(0,05;5) = 11,07049769 2,8 < 11,07049769 quindi ACCETTO 10 23/05/2014 Con la funzione TEST.CHI TEST.CHI(B2:B7;D2:D7) = 0,731 Indica direttamente che il valore di χ2 corrisponde a χ20,731 Dato che 0,731 > 0,05: ACCETTO! Uso la funzione: SE(D11>D10; "ACCETTO H0";"RIFIUTO H0") Per casa Rivedete tutta la lezione 6 e anche l’esempio alla fine (relazione tra l’influenza e prendere o meno l’autobus) 11