Appunti di Probabilità Sara Pasquali CNR-IMATI, Sezione di Milano [email protected] www.mi.imati.cnr.it/∼sara Testi di riferimento: • Dall’Aglio G., Calcolo delle Probabilità, Zanichelli • Scozzafava R., La probabilità soggettiva e le sue applicazioni, editoriale Veschi Lettura interessante: • Isaac R., The pleasures of probability, Springer-Verlag 1 Probabilità e statistica Statistica descrittiva: sintesi di un gran numero di dati (media, SD, istogrammi). Non richiede la conoscenza del CDP. Es. altezza dei ragazzi in una scuola. Statistica inferenziale: studia le caratteristiche di una popolazione a partire da informazioni rilevate su un campione. Richiede la conoscenza del CDP. Es. azienda che acquista 5000 guarnizioni. Quanti pezzi difettosi? CDP: dà delle regole di calcolo. Permette di misurare l’incerto e di costruire modelli per lo studio di fenomeni aleatori. Es. probabilità di ottenere 2 nel lancio di 1 dado: 1 6 . Probabilità di ottenere somma 7 nel lancio di due dadi? 2 Cenni storici Calcolo delle probabilità sconosciuto al mondo antico per assenza metodo sperimentale Rinascimento: Cardano (1526?) prima trattazione della probabilità: calcolo della probabilità della somma di tre dadi, problema ripreso poi da Galileo (1620) Nascita del calcolo delle probabilità attribuita alla corrispondenza (1654) tra Pascal e Fermat Interesse di Pascal attivato da un giocatore d’azzardo dell’epoca, de Méré, che lamentava discrepanza tra suoi calcoli e la frequenza dei risultati (a lui sfavorevole) Paternità di Pascal contestata, ma Pascal compie primi studi sistematici. 3 Contrasto con impostazione di Cartesio, alla base del determinismo, ormai abbandonato dalla scienza moderna Pascal: costruzione di modelli che descrivono approssimativamente i fenomeni Nato come teoria matematica dei giochi, il Calcolo delle probabilità crebbe progressivamente di importanza Laplace (1812): “E’ notevole il fatto che una scienza che è iniziata con l’analisi dei giochi d’azzardo dovesse essere elevata al rango dei più importanti oggetti della conoscenza umana” Applicazioni del Calcolo delle probabilità oggi presenti in ogni ramo della scienza, nella tecnologia, nella finanza. 4 Prime estensioni (fine 17mo secolo) in campo assicurativo per calcolare il valor medio di una rendita vitalizia Alla fine del 18mo secolo la probabilità entra nell’astronomia e nella fisica. L’aleatorietà entra non solo nelle osservazioni, ma nello stesso processo fisico. Le leggi classiche sono inadeguate a rappresentare i fenomeni studiati: si formulano modelli aleatori Boltzmann: teoria cinetica basata sulla probabilità Mendel: studio probabilistico della trasmissione ereditaria dei caratteri (inizio della genetica moderna) 5 Teoria dell’affidabilità: valuta quanto si può contare sul corretto funzionamento di un apparecchio Teoria delle code: arrivi ad uno sportello, chiamate ad un centralino, arrivi di aerei ad una pista, pazienti al pronto soccorso Campo giuridico: nel secolo 19mo si sviluppò una discussione sulla probabilità di errore nel verdetto di una giuria. Vi parteciparano Laplace e Poisson. Condorcet contribuı̀ a scegliere la maggioranza richiesta per la validità del verdetto nelle giurie popolari. Negli anni ’50 de Finetti e Pompilj sottolinearono l’utilità del teorema di Bayes in campo giuridico. Solo nel 1972 de Finetti e dall’Aglio effettuarono una perizia statistico-probabilistica per il tribunale di Roma. L’episodio rimase isolato per molti anni. Oggi l’utilizzo in campo giuridico è più diffuso grazie all’analisi del DNA 6 Nel secolo XX grande sviluppo della Statistica, “braccio operativo”, della probabilità: studia sostanzialmente come combinare le probabilità che misurano l’incertezza relativa ad un certo fenomeno con osservazioni sperimentali del fenomeno stesso Oggi la probabilità si sente anche alla TV. In particolare nel gioco del lotto dove si sottolinea l’impossibilità di una vincita certa con i ritardi. Dibattito sulla probabilità che rimangano i 2 premi più alti nei pacchi al termine del gioco 7 Gli ingredienti di base del CDP “eventi” ⇔ insiemi A, B, C, . . . P (A) probabilità di A, numero reale eventi incompatibili ⇔ insiemi disgiunti unione di eventi = evento che consiste nel verificarsi di almeno uno degli eventi considerati ⇔ A ∪ B ∪ C . . . Ā evento che si verifica quando non si verifica A ⇔ negazione dell’evento ⇔ insieme complementare. Due impostazioni per definire la probabilità: • assiomatica o di Kolmogorov: basta sulla teoria della misura • soggettiva: erenza basata sul concetto di co- 8 Valutazioni di probabilità in casi particolari Valutazione classica (Pascal) n. casi favorevoli ad A P (A) = n. casi possibili, purché equiprobabili Definizione a carattere tautologico! Limitata a numero finito di casi possibili, anche se estendibile con passaggi al limite Regola utile per calcolare probabilità in certe situazioni in cui ci sia un numero finito di alternative, che possono essere considerate, ad es. per motivi di simmetria, ugualmente probabili Definizione operativa che implica alcune regole per elaborazione matematica della probabilità: 9 1. 0 ≤ P (A) ≤ 1 ∀ evento A 2. se A certo ⇒ P (A) = 1 3. A, B incompatibili ⇒ P (A ∪ B) = P (A) + P (B) nA +nB = = P (A) + P (B) ) (P (A ∪ B) = nA∪B n n Tipico campo di applicazione della valutazione classica: giochi di dadi, carte, ecc. (se si può assumere che non ci sia trucco!) In genere richiesti calcoli di natura combinatoria Es.: probabilità che il primo estratto sulla ruota di Roma, sabato prossimo, sia un multiplo di 8: 11 90 (casi favorevoli: 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88) 10 Valutazione frequentista Sia Pascal sia de Méré si aspettavano che, a lungo andare, la frequenza con cui un evento si verifica si stabilizzi sul valore della probabilità. Opinione comune, espressa nella cosiddetta legge empirica del caso “in una successione di prove fatte nelle stesse condizioni, la frequenza di un evento si avvicina alla probabilità dell’evento stesso e l’approssimazione tende a migliorare con l’aumento del numero delle prove ” L’insoddisfazione per la valutazione classica portò a costruire la probabilità sulla frequenza: “la probabilità di un evento è il limite della frequenza (relativa) dei successi (cioè delle prove in cui l’evento si verifica), quando il numero delle prove tende all’infinito” 11 Cosa si intende per “limite” ? E’ possibile ripetere all’infinito le prove nelle stesse condizioni? Come calcolare la probabilità di eventi del tipo“domani pioverà”? Anche la definizione frequentista è “operativa”, nel senso che fornisce una regola di calcolo delle probabilità in determinate circostanze Anche da questa definizione seguono le regole 1, 2, 3 viste per la probabilità classica 1. 0 ≤ P (A) ≤ 1 ∀ evento A 2. se A certo ⇒ P (A) = 1 3. A, B incompatibili ⇒ P (A ∪ B) = P (A) + P (B) 12 Es.: si osservano 1000 nascite, 526 maschi e 474 femmine. Qual è la probabilità di nascita 526 di un maschio? 1000 Valutazione classica e frequentista non bastano. Es.: popolazione di N individui. Un certo r carattere è presente nel rapporto θr = N (con r incognito). Sia Hk = “k individui possiedono quel carattere”. Quanto vale P (Hk )? Classica: le possibili composizioni della popolazione sono θ0, θ1, ..., θN , quindi 1 P (Hk ) = N +1 Frequentista: occorre esaminare m popolazioni opportune e vedere in quante di queste il carattere è presente esattamente in k individui. Supponiamo sia s il numero di tali s popolazioni. Allora P (Hk ) = m Nessuna di queste due valutazioni è sensata. Occorre osservare un campione di n < N individui e dall’esame di questo riportarsi alla P (Hk ). Servono regole più generali. 13 Impostazione soggettiva Già accennata in Pascal, si può fare risalire a Daniele Bernoulli, ripresa nel ’900 da Bruno de Finetti e Jimmy Savage L’evento è un ente descritto da una proposizione non ambigua che può essere vera o falsa La probabilità è il grado di fiducia che una persona ha nel verificarsi dell’evento La probabilità di un evento nasce da una scommessa: “La probabilità P (A) di un evento A è il prezzo che un individuo ritiene equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica. Le probabilità degli eventi devono essere attribuite in modo che non sia possibile ottenere con un insieme di scommesse una vincita certa o una perdita certa (principio di coerenza o equità)” 14 La coerenza implica le solite regole della probabilità: proprietà 1: ∀A 0 ≤ P (A) ≤ 1 Poniamo p = P (A) se A si verifica ⇒ G1 = 1 − p se A non si verifica ⇒ G2 = −p se fosse p < 0 ⇒ G1 > 0 e G2 > 0, vincita certa se fosse p > 1 ⇒ G1 < 0 e G2 < 0, perdita certa ne segue che 0 ≤ p ≤ 1 proprietà 2: se A evento certo ⇒ P (A) = 1 se A evento certo la scommessa è certamente vinta e per la coerenza il guadagno deve essere nullo: 1 − p = 0 ⇒ p = 1 15 proprietà 3: A1, A2, . . . , An eventi incompatibili e necessari (se ne verifica 1 e solo 1); n “scommesse”, 1 per ogni evento, ognuna di Pn quota pi. Guadagno totale G = i=1 Gi. Una sola scommessa è vinta: Gj = 1 − pj , Pn Gi = −pi ∀i 6= j; G = 1 − i=1 pi Per la coerenza G = 0 altrimenti si avrebbe Pn una vincita certa, allora i=1 pi = 1 Sn Sia A = i=1 Ai. Possiamo considerare una scommessa su A di importo p. Poiché A si verifica certamente G = 1−p. La scommessa su A è equivalente alle n scommesse sugli Ai, Pn quindi 1 − i=1 pi = 1 − p da cui si ricava che Sn Pn P ( i=1 Ai) = i=1 P (Ai) Se gli Ai sono incompatibili ma non necesS c sari, consideriamo E = ( n i=1 Ai) . A1, A2, ...., An, E sono incompatibili e necesP P (Ai)+P (E) = 1, ma anche sari, allora n i=1 S P( n i=1 Ai) + P (E) = 1 ⇒ P( n [ i=1 Ai) = n X P (Ai) i=1 (teorema probabilità totali) 16 Impostazione assiomatica Ω “spazio”, spazio campionario; eventi = sottinsiemi di Ω (Ω compreso) che costuiscono una famiglia non vuota F chiusa rispetto all’unione numerabile e alla negazione; F si dice classe σ-additiva o σ-algebra. F contiene ∅ = evento impossibile. Dato un evento A ∈ F , P (A) è un numero reale tale che 0 ≤ P (A) ≤ 1 P (Ω) = 1 S∞ P∞ P ( i=1 Ai) = i=1 P (Ai) Ai ∩ Aj = ∅; i 6= j (Ω, F , P ) Spazio di probabilità L’insieme delle parti P(Ω) è una σ-algebra, ma può essere una famiglia troppo ricca Se Ω finito, anche F finita. 17 Lancio del dado: Ω = {1, 2, 3, 4, 5, 6} F = P(Ω) 64 eventi {1}, . . . , {6} eventi elementari Necessario considerare F = P(Ω) ? Dipende da quello a cui siamo interessati Es.: eventi di interesse: {1, 3, 5} (dispari) e {2, 4, 6} (pari) {1, 3, 5}c = {2, 4, 6} e {1, 3, 5} ∪ {2, 4, 6} = Ω F = {∅, {1, 3, 5}, {2, 4, 6}, Ω} Es.: eventi di interesse {5, 6} (“numero alto”) e {2, 4, 6} (“numero pari”) con successive operazione di unione e negazione possiamo ottenere F = {{5, 6}, {2, 4, 6}, {2, 4, 5, 6}, {1, 2, 3, 4}, {1, 3, 5}, {1, 3}, {1, 2, 3, 4, 5}, {6}, {1, 2, 3, 4, 6}, {1, 3, 5, 6}, {1, 3, 6}, {5}, {2, 4}, {2, 4, 5}, {1, 2, 3, 4, 5, 6}, ∅} 16 eventi invece che 64; minima σ-algebra che contiene i due eventi “base” {5, 6}, {2, 4, 6} 18 Impostazione soggettiva e assiomatica Nell’impostazione soggettiva si ottiene la finita additività, nell’assiomatica si impone la σadditività Critiche all’approccio soggettivo: fonda la probabilità sull’opinione dei singoli. Non c’è comunicazione tra persone con diverse valutazioni di probabilità. In alcuni casi l’individuo è disposto a pagare prezzi non equi (lotterie e giochi d’azzardo). Questo rende poco chiaro il concetto di equità. Vantaggi approccio soggettivo: è possibile definire la probabilità per eventi qualsiasi, non solo legati a esperimenti Sia nell’approccio soggettivo che in quello assiomatico, quando possibile, si utilizza la valutazione classica della probabilità 19 Proprietà che derivano dagli assiomi 1) P (A) + P (Ā) = 1; 2) P (∅) = 0; (P (A ∪ Ā) = 1) (P (∅ ∪ Ω) = 1) 3) A ⊂ B ⇒ P (A) ≤ P (B) B = (A ∩ B) ∪ (Ā ∩ B) = A ∪ (B ∩ Ā) ⇒ P (B) = P (A) + P (B ∩ Ā) ≥ P (A) 4) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) A ∪ B = A ∪ (Ā ∩ B); B = (A ∩ B) ∪ (Ā ∩ B) P (A ∪ B) = P (A) + P (Ā ∩ B); P (B) = P (A ∩ B) + P (Ā ∩ B) 5) An → A ({An} crescente o decrescente) ⇒ P (An) → P (A) Probabilità è funzione di insieme continua Oss.: Ω evento certo, ∅ evento impossibile; se P (A) = 1, A evento quasi certo (q.c.); se P (A) = 0, A evento quasi impossibile Contro intuizione? Non del tutto, se si pensa ad Ω = IR e al fatto che i punti di IR possono essere tutti quasi impossibili ma non possono essere tutti impossibili ! 20 Richiami di calcolo combinatorio Es.: probabilità di fare 13 al totocalcio. Casi favorevoli:1 Casi possibili: tutte le sequenze di 13 simboli estratti dall’insieme {1, X, 2}. 3 possibilità per il primo risultato 3 per il secondo . . . Per ogni partita ci sono 3 possibilità, quindi 313 possibili sequenze. Allora P (f are 13) = 1/313 Disposizioni con ripetizione di n oggetti di classe k Sono k-uple ordinate estratte da un insieme di n elementi (con possibili ripetizioni) k anche ≥ n ∗ = nk Dn,k 21 Disposizioni semplici di n oggetti di classe k(k ≤ n) Sono k-uple ordinate estratte da un insieme di n elementi (senza ripetizioni) Dn,k = n(n − 1)(n − 2) · · · (n − k + 1) Es.: quante sequenze di 3 lettere distinte si possono fare con le vocali ‘a, e, i , o, u’ ? 5 possibilità per la prima posizione 4 possibilità per la seconda posizione 3 possibilità per la terza posizione Quindi 5 · 4 · 3 possibili sequenze di 3 lettere Permutazioni di n oggetti Caso particolare di disposizioni semplici con k=n Pn = numero di permutazioni ⇒ Pn = n! Es.: in quanti modi si possono disporre 7 persone in fila indiana? P7 = 7! 22 Permutazioni con ripetizione es. a a a b b c c ⇒ 7!/(3!2!2!) n oggetti di cui k1 uguali tra loro, k2 uguali tra loro e distinti dai precedenti, . . . , kr uguali tra loro e distinti dai precedenti n n! ∗ Pk ,k ,...,kr = k !k !···kr ! = k ,k ,...,kr 1 2 1 2 1 2 coefficiente polinomiale o multinomiale 9! Es.: n. di anagrammi di ANAGRAMMA? 4!2! Es.: anagrammi di ‘ORI’ ⇒ ORI ; OIR ; RIO ROI ; IOR ; IRO Es.: anagrammi di ‘ORO’ ⇒ ORO ; OOR ; ROO ORO ; OOR ; ROO 3!=6 3 23 Combinazioni semplici di n oggetti di classe k Sono k-uple non ordinate estratte da un insieme di n elementi n oggetti distinti, sottinsiemi di k elementi Cn,k = numero di sottinsiemi di cardinalità k ⇒ n(n−1)·...·(n−k+1) n n! = = k k! k!(n−k)! Es.: in quanti modi si possono scegliere 5 carte da un mazzo di 52? : 52 5 Es.: se un insieme X ha cardinalità n, cardinalità di P(X) ? Insieme vuoto ∪ sottinsiemi di 1 elemento ∪ . . . ∪X n n 1 + 1 + . . . + n−1 + 1 = (1 + 1)n = 2n tenendo conto dello sviluppo del binomio Pn n i n−i n (a + b) = i=0 i a b 24 Spazio finito: esempio illustrativo Lancio simultaneo di due dadi di diverso colore esiti o eventi elementari: coppie ordinate di interi da 1 a 6 (36 coppie) ⇒ spazio campionario insieme delle 36 coppie evento “somma 7 ”: E = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} Spazio campionario ed eventi = costruzione matematica non necessariamente unica, dipende da ciò che pensiamo importante. 6 = 1 P (somma 7) = 36 6 Poiché lo spazio campionario è costituito da tutte le 36 coppie ogni coppia ha probabilità 1/36: 1 p(1,1) = p(1,2) = ... = p(6,6) = 36 distribuzione uniforme discreta 25 Esempi 1) Calcolare la probabilità che lanciando 6 volte 1 dado si ottengano numeri tutti diversi. ∗ Casi possibili: 66 = D6,6 Casi favorevoli: 6! = P6 Da cui segue la probabilità cercata: 66!6 . 2) Un ufficio ha 10 sportelli che forniscono servizi diversi. Arrivano contemporaneamente 7 clienti che si distribuiscono tra i vari sportelli. Supponendo equiprobabili le distribuzioni dei clienti, qual è la probabilità che non si formino code? (coda = 2 o più persone allo stesso sportello) D10,7 10 · 9 · 8 · 7 · 6 · 5 · 4 = ∗ P (no code) = 107 D10,7 = 0.06048 26 3) Si lanciano 3 dadi. Qual è la probabilità di ottenere 3 numeri diversi? P (3 numeri diversi) = D6,3 6·5·4 = ∗ 63 D6,3 Qual è la probabilità di ottenere 3 numeri uguali? 6 P (3 numeri uguali) = 3 6 Qual è la probabilità di ottenere 2 numeri uguali e uno diverso? 6·5·3 63 4) Calcolare la probabilità di vincere 1 ed 1 solo terno giocando 5 numeri al lotto su una data ruota in una data estrazione. 5 85 3 2 P (1 solo terno) = 90 ≃ 0.0008 5 27 5) E’ più probabile ottenere almeno un 6 lanciando 4 volte 1 dado oppure ottenere almeno una volta la coppia (6, 6) lanciando 24 volte 2 dadi? 54 P (no 6) = 4 ⇒ 6 P (ottenere 6) = 1 − 4 5 6 ≃ 0.518 3524 P (no (6, 6)) = ⇒ 24 36 35 24 ≃ 0.491 P (almeno un (6, 6)) = 1 − 36 Paradosso di de Méré: egli riteneva che i 2 risultati avessero la stessa probabilità (forse ragionando cosı̀: 4 eventi, ciascuno di probabilità 1/6 equivalogono a 24 eventi ciascuno di probabilità 1/36). Scrisse a Pascal per lamentare la discrepanza tra i suoi calcoli e la frequenza dei risultati. 28 6) 52 carte distribuite tra 4 giocatori N, E, S, O (13 a testa). Qual è la probabilità che ogni giocatore abbia le stesse carte della partita precedente? (13!)4 P (stesse carte) = 523926 = 52! 1 13 13 13 Qual è la probabilità che N abbia 7 carte di picche? P (7 picche per N ) = 13 39 7 6 52 13 29 7) Il problema dei compleanni n persone in una sala; calcolare la probabilità p che almeno due persone compiano gli anni lo stesso giorno supponiamo n ≤ 365 numeriamo persone da 1 a n ⇒ giorni liste di n 365n liste possibili (spazio campionario): assumiamole equiprobabili In quante liste non 2 volte lo stesso giorno? D365,n = 365 · 364 · . . . · (365 − n + 1) p = 1 − D365,n/365n n = 23 ⇒ n = 30 ⇒ n = 50 ⇒ p ≈ 0.507 p ≈ 0.706 p ≈ 0.97 Bastano 23 persone affinché la probabilità che due persone abbiano lo stesso compleanno sia 1/2. 30 Spazio numerabile Lancio ripetuto di una moneta Successioni finite di lanci {T, C} Se pensiamo che ogni successione finita di lunghezza n sia equiprobabile ⇒ probabilità 2−n per il verificarsi di ciascuna successione (ci sono 2n possibili successioni) Successioni infinite, passando al limite ⇒ probabilità nulla di ogni successione Ogni successione è quasi impossibile ma non impossibile! Esempio di schema di Bernoulli o delle prove ripetute Quanti lanci per ottenere T la prima volta? Ω N la N ha la potenza del continuo numero del lancio al quale si verifica T per prima volta; = 0 per “non osservo mai T ” 31 Considerando che N assume valori interi non negativi, possiamo lavorare su spazio campionario numerabile dove gli eventi elementari sono N = n, n = 0, . . . , ∞ ⇒ P (N = n) = 2−n, n ≥ 1 Probabilità di A = “N pari”? P (A) = P ({N = 2} ∪ {N = 4} ∪ . . .) = ∞ X P (N = 2k) = k=1 ∞ X 2−2k = k=1 1 −1 = 1 1−4 1 3 Probabilità di B = “N dispari”? P (B) = ∞ X P (N = 2k − 1) k=1 = ∞ X k=1 2−(2k−1) = 2 ∞ X 2−2k = 2/3 k=1 ⇒ P (N = 0) = 0, una uscita di T si verifica quasi certamente 32 Spazio continuo (distribuzione uniforme) Ω = [0, 1], F σ-algebra di Borel come costruire “distribuzione uniforme”? idea: dividiamo Ω in n intervalli disgiunti di ampiezza 1/n; per ciascuno probabilità 1/n Se un intervallo è composto da r intervalli tra gli n, probabilità r/n ⇒ per ogni intervallo I di ampiezza razionale, L(I) probabilità P (I) = L(I) Se L(I) numero reale, esiste successione Ik , L(Ik ) razionale, tale che Ik → I ⇒ L(Ik ) → L(I) ⇒ P (I) = lim P (Ik ) = lim L(Ik ) = L(I) la probabilità cosı̀ costruita si estende in modo unico dagli intervalli agli insiemi di Borel; per ogni A ∈ F , P (A) = L(A) dove L è la misura di Lebesgue 33