Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Introduzione alla probabilità Giovanni Filatrella ([email protected]) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Saper calcolare bene una probabilità può tornare utile Abbiamo novanta probabilità su cento. Napoleone, Waterloo, 1815 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 2 Legame fra probabilità e statistica L’obiettivo: costruire una tecnica che permetta di “prevedere” i risultati di esperimenti quando questi danno risultati che comunque non si ripetono sempre uguali. Es.: se consideriamo l’esperimento “lanciare un dado e leggere la faccia superiore”, questo è un evento casuale. E’ possibile prevedere cosa ragionevolmente succede? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 3 Introduzione storica alla formulazione di probabilità (1) Origine della teoria della probabilità: come dividere equamente la posta se il gioco viene interrotto prima della fine. Ex.: Fra Luca Paccioli's “summa de Arithmetica, Geometria, Proportioni et Proportionalità”, 1494: “una squadra gioca in un torneo nel quale sono necessari 60 punti per vincere. Ogni risultato positivo si ottengono 10 punti. La posta è 10 ducati. Il gioco si interrompe quando una squadra ha 50 punti, l’altra 20. Come dividere il premio di 10 ducati?” G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 4 Una soluzione che (oggi) riteniamo corretta La prima sistematica formulazione del problema viene riportata nella corrispondenza fra Pascal (1623-1662) e Fermat (1601- 1665). In una lettera di Mercoledì 29Luglio 1654, Pascal scrive a Fermat: “This is your procedure when there are two players: If two players, playing several games, find themselves in that position when the first man needs two games and second needs three, then to find the fair division of stakes, you say that one must know in how many games the play will be absolutely decided.” (in Florence David: Games, Gods and Gambling) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 5 Definizioni di probabilità (1) • Approccio “classico” (Laplace): “Il rapporto fra il numero di casi favorevoli ed il numero di casi possibili, supposti equiprobabili” Questo approccio suppone che sia possibile decidere che due eventi sono equiprobabili, e quindi contiene un ragionamento circolare Approccio “frequentistico” (MonteCarlo) “La probabilità di un evento, ritenuto ripetibile, è uguale al numero di eventi favorevoli che i sono verificati diviso il numero totale di eventi” G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 6 Come si calcola una probabilità Es.: una moneta ha due facce. Se : 1) costruisco il dado in modo che sia completamente simmetrico; 2) il lancio non favorisce nessuna delle due facce. Allora è ragionevole che i due eventi T(esta) e C(roce) siamo equiprobabili. La probabilità dell’evento T è: # di casi favorevoli a T 1 P(T) # di casi possibili 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 7 Metodo di calcolo In base alla definizione “classica” il calcolo di una probabilità dipende dalla nostra capacità di valutare gli eventi elementari equiprobabili e poi di contarli. Es.: qual è la probabilità che lanciando due dadi a sei facce si ottenga 4? Sono possibili (almeno) due schemi logici: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 I ragionamento possibile I possibili esiti dell’esperimento sono un qualsiasi numero fra 2 e 12, quindi sono 11 casi possibili. La probabilità di ottenere 4 risulta dunque: # di casi favorevoli a 4 1 P(4) 0.091 # di casi possibili 11 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 9 II ragionamento possibile I possibili esiti dell’esperimento sono 36, 1=2 infatti: + 2=3 1 2 3 4 5 6 3=4 4=5 5=6 6=7 1=3 2=4 3=5 4=6 5=7 6=8 . . . . . . E fra questi 36 occorre contare quanti danno come esito “4” D.: quanti sono? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 10 Tecnica di base da conoscere per il calcolo delle probabilità CONTARE e sapere cosa contare G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 11 Cosa significa questo numero? Aver trovato il modo di calcolare una probabilità non significa avere un collegamento con gli esperimenti. Il legame è dato dalla legge empirica: La frequenza osservata di un evento tende a coincidere con la probabilità. Maggiore è il numero osservazioni, minore è la differenza aspettata fra frequenza e probabilità. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 12 Sul significato di frequenza e probabilità Probabilità Frequenza Osservazioni Calcoli a priori Osservazioni a posteriori G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 13 Le osservazioni (frequenze) sono diverse dalle possibilità teoriche (probabilità) Gary Larson "Fair is fair, Larry. We're out of food, we drew straws-you lost:' G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 14 Osservazione di (#T-#C) 1) Il numero di teste tende ad essere uguale a quello delle croci solo in termini relativi. 2) L’andamento non è uniforme, vi sono zone in cui aumentando gli esperimenti la differenza diminuisce. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 15 Definizione alternativa Es.: Il numero di nati in Campania nel 2001: M: 34320 F : 32355 Totale: 66675 se ne deduce che presumibilmente la probabilità che in Campania nasca un maschio (M) o una femmina (F) sono: # di casi favorevoli a M 34320 P(M) 0.515 P( F ) 0.485 # di casi possibili 66675 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 16 Interpretazione della probabilità “frequentistica” L’interpretazione del numero che esprime la probabilità non dipende dal metodo con cui è stata calcolata. Anche nel caso della probabilità calcolato con il metodo frequentistico il legame con gli esperimenti è dato dall’aspettativa che che la frequenza osservata deve tendere alla probabilità. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 17 L’approccio assiomatico: definizioni • Spazio degli eventi : un insieme U i cui elementi sono tutti i possibili esiti degli esperimenti • Eventi E: un qualsiasi sottoinsieme di U: EU • Probabilità: una qualsiasi funzione P tale che: – P(U) = 1 – P(ø) = 0 – E1,E2: E1E2= ø => P(E1E2)=P(E1)+P(E2) • Eventi complementari: due eventi disgiunti la cui unione è lo spazio degli eventi: A, A tali che: A A ø, A A = U G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 18 Un importante definizione per il calcolo: Base: un insieme di eventi tali che: Bi B j ø, N B i i 1 U Gli eventi sono disgiunti Gli eventi ricoprono tutti i possibili eventi Se si conosce la probabilità degli eventi elementari della base si possono trovare le probabilità di eventi arbitrari. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 19 Interpretazione grafica Se questo è lo spazio di tutti gli eventi, e se si conoscono le probabilità di tutti gli eventi elementari (i ), allora per trovare la probabilità di un evento basta contare il numero di eventi elementari che lo compongono. U G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali A 20 In formule se tutti i B sono equiprobab ili : altrimenti : P( A) (# B A) P( B) P( A) P( Bi ), Bi Ai i G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 21 Conseguenze dell’approccio: Da questa definizione di probabilità è possibile dedurre dei teoremi del tipo: • P(A-B)=P(A)-P(A B) • Se AB => P(A)P(B) Questi teoremi sono facilmente visualizzabili grazie alla teoria degli insiemi e ai diagrammi di Venn G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 22 Operazioni sugli insiemi utili per la teoria della probabilità E’ possibile tradurre alcune operazioni sugli eventi in operazioni sugli insiemi che rappresentano la probabilità degli eventi stessi G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 23 Interpretazione con i diagrammi di Venn U P( A B) P( A) + P(B) P( A B) P( A B) P( A) + P(B) P( A B) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 24 Teorema delle probabilità condizionate Un evento A si dice condizionato da un altro B, nel senso che assumiamo che B si sia verificato. In simboli: A | B Poiché si assume che B si sia verificato, si può anche dire che B è divenuto lo spazio degli eventi. # di casi favorevoli ad A e B P(A | B) # di casi favorevoli a B # di casi favorevoli ad A e B # di casi possibili P( A B) # di casi possibili # di casi favorevoli a B P( B) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 25 Probabilità condizionata con diagrammi di Venn P( A B) P(A | B) P( B) U A B G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 26 Una possibile confusione fra individui ed esiti dell’esperimento Una possibile applicazione è chegli eventi “A” e “B” siano del tipo “Soffrire di una malattia X” e “Essere fumatori”. In questo caso l’insieme dei possibili risultati è composto da 4 casi: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 27 I possibili esiti risulterebbero: 1. Non si soffre della malattia X e non si è fumatori (area bianca); 2. Si soffre della malattia X e non si è fumatori (area gialla); 3. Non si soffre della malattia X e si è fumatori(area verde); 4. Si soffre della malattia X e si è fumatori (area tratteggiata rossa). Però gli esiti non sono equiprobabili! G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 28 Per calcolare le probabilità usare invece: Un individuo soffre (/non soffre) della malattia X ed è (/non è) fumatore. La determinazione su ogni individuo dell’essere affetto dalla malattia X e di fuamre è un possibile esito dell’esperiemento. In questo caso vi è il pericolo di confondere gli esiti con gli individui – fare attenzione alla distinzione concettuale! G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 29 Eventi indipendenti e regola del prodotto Chiamiamo eventi indipendenti A, B se P(A|B) = P(A). Per eventi indipendenti, la probabilità che si verifichino entrambi è data dal prodotto delle probabilità dei singoli eventi: P( A B) P( A | B) P( A) P( A B) P( A) P( B) P( B) Es. La probabilità di estrarre due carte d’oro (rimescolando) o di due numeri pari consecutivi sulla ruota di Napoli. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 30