statistica teoria della probabilità alessandro polli facoltà di scienze politiche, sociologia, comunicazione 18 maggio 2015 Generalità Il probabilismo gnoseologico La teoria della probabilità, prima ancora che una branca della matematica, è un «modo di vedere il mondo» La dottrina del Probabilismo trae le sue origini dall’Accademia platonica legata alla corrente scettica (III sec. a.C.) con Arcesila di Pitane (315 – 241 a.C.) e soprattutto con Carneade di Cirene (219 – 129 a.C.) Poiché per questa scuola la verità (ideale e assoluta) è inconoscibile (pensate al mito platonico della caverna, tanto per capirci), si può assumere come «vera» l’opinione più probabile. Parleremo in questo caso di Probabilismo gnoseologico Questo approccio è vivo ancora oggi nella Epistemologia critica, proprio per la serrata analisi che effettua al concetto di conoscenza Generalità Il problema della ripartizione della posta in Pacioli I primi contributi all’elaborazione della teoria della probabilità risalgono alla fine del XV secolo Luca Pacioli, amico di Leonardo da Vinci, in uno dei volumi della Summa de arithmetica, geometria, proportioni et proportionalita pubblicata nel 1494, si occupa del problema della ripartizione della posta tra giocatori nel caso di interruzione di un popolare gioco, problema presentato originariamente in un manoscritto anonimo degli inizi del XV secolo Il problema è il seguente: si considerino due giocatori 𝐴 e 𝐵 che stiano giocando una partita, ad esempio giocando con una moneta a «testa o croce», in cui vince la somma 𝑠 (scommessa per metà da ciascun giocatore) chi per primo raggiunge 𝑛 punti Generalità Il problema della ripartizione della posta in Pacioli Al momento dell’interruzione della partita, il giocatore 𝐴 ha totalizzato 𝑎 punti, mentre 𝐵 ne ha totalizzati 𝑏, con 𝑎, 𝑏 < 𝑛. Luca Pacioli propone il problema con 𝑛 = 60, 𝑎 = 50 e 𝑏 = 20 e la soluzione da lui individuata è di dividere la posta assegnando ad 𝐴 e a 𝐵 rispettivamente le somme 𝑠 𝐴 =𝑠 𝑎 𝑎+𝑏 𝑠 𝐵 =𝑠 𝑏 𝑎+𝑏 e quindi non tenendo conto del fatto che uno dei due giocatori possa essere «più vicino» ad ottenere il punteggio che gli farebbe conseguire la posta in palio Generalità La critica di Tartaglia Il problema è successivamente studiato da Tartaglia, che critica la soluzione di Pacioli, osservando che, nel caso di interruzione dopo la prima partita, se 𝐴 ha vinto e 𝐵 ha perso, poiché 𝑎 = 1, 𝑏 = 0 e 𝑎 + 𝑏 = 1 + 0 = 1, si avrebbe che 𝑠 𝐴 =𝑠 1 =𝑠 1 𝑠 𝐵 =𝑠 0 =0 1 con la conclusione paradossale che in caso di interruzione del gioco dopo la prima partita 𝐴 otterrebbe la stessa somma che avrebbe vinto nel caso di 𝑛 partite effettivamente disputate Generalità Pascal e Fermat giocano a testa o croce Il problema è risolto nel XVII secolo da Fermat e Pascal, sulla base di un ragionamento che è alla base del moderno calcolo combinatorio. Vediamo come Fermat e Pascal giocano a testa o croce. Ciascuno scommette 50 ducati, per un totale di 100 ducati. Ogni partita vinta vale un punto. Se esce testa il punto è di Fermat, se esce croce il punto è di Pascal. I due uomini stabiliscono che quando uno di essi avrà raggiunto 10 punti, potrà prendersi i 100 ducati Purtroppo devono smettere di giocare quando Fermat sta vincendo per 8 a 7. Come si divideranno i 100 ducati? Generalità Pascal e Fermat giocano a testa o croce Per Pacioli la soluzione sarebbe la seguente: indicando con 𝑎 = 8 il numero di vittorie di Fermat e con 𝑏 = 7 le vittorie di Pascal, la suddivisione della posta sarebbe la seguente: 𝑎 8 = 100 = 53,33 𝑎+𝑏 15 𝑏 7 𝑠 𝑃 =𝑠 = 100 = 46,67 𝑎+𝑏 15 𝑠 𝐹 =𝑠 ma sappiamo (lo dimostra Tartaglia) che tale soluzione non è soddisfacente sotto molti punti di vista Vediamo come risolve il problema Fermat Generalità Il ragionamento di Fermat A Fermat mancano ancora 2 punti per vincere, mentre a Pascal ne mancano 3, quindi sarebbero necessarie al massimo 4 partite per decidere il vincitore: infatti, in 3 partite, nella peggiore delle ipotesi Fermat potrebbe conquistare 1 punto e Pascal 2 e in questo caso la quarta partita sarebbe quella decisiva Indicando con 𝑇 l’evento «testa» e con 𝐶 l’evento «croce», la seguente tabella riporta tutte le possibili sequenze di risultati nelle 4 partite: 𝑇𝑇𝑇𝑇 ∗ 𝐶𝑇𝑇𝑇 ∗ 𝐶𝑇𝐶𝑇 ∗ 𝐶𝑇𝐶𝐶 𝑇𝑇𝑇𝐶 ∗ 𝑇𝑇𝐶𝐶 ∗ 𝐶𝑇𝑇𝐶 ∗ 𝐶𝐶𝑇𝐶 𝑇𝑇𝐶𝑇 ∗ 𝑇𝐶𝑇𝐶 ∗ 𝐶𝐶𝑇𝑇 ∗ 𝐶𝐶𝐶𝑇 𝑇𝐶𝑇𝑇 ∗ 𝑇𝐶𝐶𝑇 ∗ 𝑇𝐶𝐶𝐶 𝐶𝐶𝐶𝐶 Le sequenze in cui Fermat vince il gioco sono contrassegnate dal simbolo *: è evidente che in 11 delle 16 sequenze possibili, Fermat vince, mentre in 5 delle 16 sequenze vince Pascal Generalità Il ragionamento di Fermat Poiché su 16 eventi possibili, 11 sono favorevoli a Fermat e 5 sono favorevoli a Pascal, in caso di interruzione del gioco la soluzione più ragionevole è dividere i 100 scudi in parti proporzionali in ragione di 11 a 5 e quindi 11 = 68,75 16 5 𝑠 𝑃 = 100 = 31,25 16 𝑠 𝐹 = 100 È evidente che la soluzione appare più equa di quella proposta da Pacioli (che, a dire il vero, non era completamente convinto della soluzione da lui stesso proposta … ) Generalità La generalizzazione di Pascal Pascal propone una soluzione più generale. Affinché Fermat vinca il gioco, è sufficiente che nelle ultime 4 partite si verifichi almeno 2 volte l’evento «testa» (cioè 2, 3 o 4 volte «testa») In quanti modi possono uscire 2 «teste» in 4 lanci? Consultando la precedente tabella, il numero di sequenze di 4 lanci in cui l’evento «testa» si verifica 2 volte è pari a 6. Più in particolare: 𝑇𝑇𝐶𝐶 𝑇𝐶𝑇𝐶 𝑇𝐶𝐶𝑇 𝐶𝑇𝑇𝐶 𝐶𝑇𝐶𝑇 𝐶𝐶𝑇𝑇 Analogamente, in quanti modi possono verificarsi 3 «teste» in 4 lanci? Consultando la tabella, ci accorgiamo che il numero di sequenze di 4 lanci in cui «testa» si verifica 3 volte è pari a 4. Infatti: 𝑇𝑇𝑇𝐶 𝑇𝑇𝐶𝑇 𝑇𝐶𝑇𝑇 𝐶𝑇𝑇𝑇 Generalità La generalizzazione di Pascal In ultimo, in quanti modi possiamo ottenere 4 volte «testa» in 4 lanci? È agevole verificare che vi è solo una sequenza in cui si verifica 4 volte «testa» in 4 lanci: 𝑇𝑇𝑇𝑇 Quindi i casi a favore di Fermat sono 6 + 4 + 1 = 11 su 16 casi possibili Detto in altri termini, il numero di sequenze in cui si ottengono o 𝟐 o 𝟑 o 𝟒 volte «testa» è pari alla somma del numero di sequenze in cui si ottengono 𝟐 volte testa, del numero in cui se ne ottengono 𝟑 e di quello in cui se ne ottengono 𝟒 (tenete a mente questo risultato, perché come vedremo ci consentirà di enunciare un assioma teorico molto importante … ) Generalità La generalizzazione di Pascal Domandiamoci adesso se è possibile evitare di elencare materialmente tutte le combinazioni e di risalire al numero di sequenze favorevoli a Fermat attraverso una semplice procedura di carattere matematico Quello che segue è il triangolo di Tartaglia: Riga 0 Riga 1 Riga 2 Riga 3 Riga 4 Riga 5 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 Osservate ad esempio la quarta riga, formata dai numeri 1, 4, 6, 4, 1. Questi numeri indicano proprio quanti sono i modi in cui ottenere rispettivamente 0, 1, 2, 3, 4 «teste» (o «croci») in 4 lanci di una moneta Generalità La generalizzazione di Pascal Ora possiamo scrivere una formula più semplice e generale basata sull'utilizzo del triangolo di Tartaglia Due giocatori, 𝐴 e 𝐵, giocano a «testa o croce». Ogni partita vinta vale un punto. Se esce l’evento «testa» il punto è di 𝐴, se esce «croce» il punto è di 𝐵. I due giocatori stabiliscono che quando uno di essi avrà raggiunto 𝑛 punti, potrà prendersi la posta Purtroppo essi devono smettere di giocare quando ad 𝐴 mancano ancora 𝑥 punti per vincere e a 𝐵 ne mancano 𝑦. Come si divideranno la posta? Generalità La generalizzazione di Pascal Con riferimento al triangolo di Tartaglia, la soluzione è la seguente: • Collochiamoci in corrispondenza della 𝑥 + 𝑦 -esima riga del triangolo di Tartaglia; • Indichiamo con 𝑆 𝑥 + 𝑦 la somma di tutti gli elementi posti sulla 𝑥 + 𝑦 -esima riga; • Indichiamo con 𝑆 𝑥 la somma dei primi 𝑥 termini; La somma che spetterà al giocatore 𝐴 sarà proporzionale al rapporto: 𝑆 𝑥 𝑝 𝑥 = 𝑆 𝑥+𝑦 Generalità La generalizzazione di Pascal Analogamente, la somma che spetterà al giocatore 𝐵 sarà proporzionale al rapporto 𝑆 𝑥+𝑦 −𝑆 𝑥 𝑆 𝑥 𝑝 𝑦 = =1− =1−𝑝 𝑥 𝑆 𝑥+𝑦 𝑆 𝑥+𝑦 Naturalmente, esiste anche un metodo meno empirico del triangolo di Tartaglia per determinare il numero di sequenze favorevoli a Fermat, basato sul calcolo combinatorio: lo esamineremo più avanti nel corso della trattazione Generalità La probabilità dopo il carteggio Fermat-Pascal Lo scienziato olandese Christian Huygens, un insegnante di Leibnitz, ispirato dal carteggio tra Fermat e Pascal, pubblica nel 1657 il primo trattato di teoria della probabilità, dal titolo De ratiociniis in ludo aleae Poiché il libro si occupava di giochi aleatori, la cui «febbre» stava dilagando in quel periodo, la teoria della probabilità divenne presto famosa e si sviluppò rapidamente durante il XVIII secolo. Tra gli studiosi ai quali si devono fondamentali contributi alla teoria della probabilità in questo periodo, ricordiamo Jacob Bernoulli (1654-1705) e Abraham De Moivre (1667-1754) Generalità Il contributo di Laplace Nel 1812 Pierre Simon de Laplace (1749-1827) introduce nuove idee e tecniche matematiche nel suo testo Théorie Analytique des Probabilités Se prima di Laplace la teoria della probabilità si occupava per lo più dello sviluppo di una matematica dei giochi aleatori, allo studioso francese si deve l’applicazione di un approccio probabilistico in molti problemi scientifici e pratici La teoria degli errori, la matematica attuariale e la meccanica statistica sono esempi di alcune delle applicazioni della teoria della probabilità sviluppate nel XIX secolo Generalità Il contributo di Laplace In quegli stessi anni, Gauss, con il contributo dello stesso Laplace, presentava una prima formulazione della distribuzione normale, conosciuta anche come distribuzione di Gauss-Laplace, che come sappiamo costituisce uno dei cardini su cui si fonda la statistica moderna Dai tempi di Laplace, molti studiosi hanno contribuito alla sviluppo formale della teoria della probabilità. Tra i più importanti Chebychev, Markov, von Mises, De Finetti e Kolmogorov Generalità La teoria della probabilità come teoria della misura Una delle difficoltà nello sviluppo di una teoria matematica della probabilità è stata il raggiungimento di una definizione di probabilità sufficientemente rigorosa e precisa per l'utilizzo all’interno di un modello matematico ma, al tempo stesso, flessibile al fine di essere utilizzata per l’analisi di un’ampia gamma di fenomeni Il problema è stato definitivamente risolto nel XX secolo, quando la teoria della probabilità è stata riformulata su basi completamente assiomatiche. Nel 1933, nella monografia Grundbegriffe der Wahrscheinlichkeitsrechnung (Fondamenti di teoria della probabilità), Kolmogorov delinea l’approccio assiomatico che è alla base della moderna teoria della probabilità Da allora, queste idee sono state alquanto sviluppate e la teoria della probabilità ora è parte di una più generale disciplina matematica, la teoria della misura L’evoluzione nelle definizioni Premessa La realtà che ci circonda è la sintesi – il prodotto – di infiniti fatti le cui cause si intrecciano e si sovrappongono. Nonostante l’estrema complessità della realtà fenomenica e la difficoltà di individuare leggi generali, l’osservazione e l’esperienza pongono in evidenza ripetizioni e regolarità (è il cosiddetto problema sull’induzione di Hume) che possono essere condensate in affermazioni del tipo: «Ogni volta che si realizza un certo insieme di condizioni B, si verifica l’evento E» In questo caso, l’evento E è detto evento certo, in quanto definito in maniera univoca dall’insieme delle condizioni B. In notazione logica scriveremo che 𝐸⊂𝐵 che si legge «𝐸 implica 𝐵» L’evoluzione nelle definizioni Premessa Se il set informativo a disposizione dell’agente non è 𝐵, ma un sottoinsieme parziale di condizioni 𝐶, non si avrà come conseguenza necessaria il verificarsi di 𝐸. Si parlerà in questo caso di evento incerto, o evento casuale La teoria della probabilità è la branca delle discipline matematiche che studia i problemi di definizione e misurazione dell’incertezza L’evoluzione nelle definizioni Premessa Il concetto di probabilità si presenta con due significati: • quello di chance, quando l’osservazione sul risultato di un esperimento e la sua valutazione dipendono dal caso – nel senso chiarito in precedenza – e l’esperimento è suscettibile di essere ripetuto un gran numero di volte; • quello di probabilità in senso stretto, attinente ad un esperimento difficilmente ripetibile L’evoluzione nelle definizioni Premessa Introduciamo tre concetti, che risulteranno utili nel seguito della trattazione: • Esperimento casuale. Operazione (o sequenza di operazioni) il cui esito è incerto, nel senso che non può essere previsto con certezza (pensate ad esempio al lancio di una moneta … ) • Evento elementare. Qualunque risultato cui può dare luogo un esperimento. Gli eventi elementari 𝜔𝑖 possono essere considerati come elementi di un più generale spazio degli eventi • Spazio campione. È l’insieme di tutti gli eventi elementari o evento certo Ω, nel senso che dato un esperimento casuale, o l’uno o l’altro degli eventi elementari cui può condurre l’esperimento deve necessariamente verificarsi. In generale gli eventi elementari costituiranno sottoinsiemi in Ω. L’evoluzione nelle definizioni La definizione classica di probabilità Originariamente dovuta a Laplace, afferma che dato uno spazio finito di eventi 𝛀, la probabilità è il rapporto tra il numero 𝒏𝝎 dei casi favorevoli al verificarsi di un qualunque evento 𝝎 e il numero 𝒏 dei casi possibili, posto che gli eventi siano tutti equiprobabili 𝑃𝑟 𝜔 = 𝑛𝜔 𝑛 ∀𝜔 ∈ Ω Esempio 1. Consideriamo un semplice esperimento di lancio di una moneta ben bilanciata. Il lancio di una moneta può avere come esito l’uno o l’altro dei due eventi elementari «testa» e «croce» Lo spazio campione sarà quindi composto dai due eventi elementari «testa» e «croce» e quindi Ω = 𝑇, 𝐶 L’evoluzione nelle definizioni La definizione classica di probabilità Con riferimento all’evento elementare 𝜔 = 𝑡𝑒𝑠𝑡𝑎, poiché nel corso di un esperimento casuale di lancio di una moneta gli eventi possibili sono due, di cui soltanto uno favorevole al verificarsi dell’evento elementare «testa», avremo che 𝑛 = 2, 𝑛𝜔 = 1 e quindi la probabilità che si verifichi 𝜔 sarà data dal rapporto 𝑛𝜔 1 𝑃𝑟 𝜔 = = 𝑛 2 Lo stesso ragionamento, ovviamente, può essere seguito per valutare la probabilità del verificarsi dell’evento elementare «croce» L’evoluzione nelle definizioni La definizione classica di probabilità La definizione classica è una definizione a priori. Per esempio, con riferimento all’esperimento consistente nel lancio di una moneta ben bilanciata, l’agente conosce ex ante gli eventi elementari (testa, croce) cui l’esperimento può dare luogo Gli eventi hanno la caratteristica fondamentale di essere: • necessari, in quanto nel corso dell’esperimento o l’uno o l’altro degli eventi elementari deve necessariamente verificarsi • mutuamente esclusivi (o incompatibili), tali cioè che il verificarsi dell’uno esclude il verificarsi dell’altro • equiprobabili, in quanto si assume che nessuno dei due eventi elementari abbia maggiori chance di manifestarsi rispetto all’altro L’evoluzione nelle definizioni La definizione classica di probabilità Per quanto di immediata comprensibilità e di pronta applicazione a semplici problemi pratici, la definizione classica è insoddisfacente da un punto di vista logico Infatti, il riferimento nella definizione alla nozione di equiprobabilità degli eventi elementari configura una tautologia: in logica la tautologia è un’affermazione vera per definizione e, in quanto tale, fondamentalmente priva di contenuto informativo; una tautologia, in altre parole, ragiona circolarmente attorno agli argomenti o alle definizioni Inoltre, a prescindere dalle sue lacune logiche, l’applicabilità della definizione classica è confinata a quei contesti in cui l’osservatore sia in grado di rappresentare ex ante lo spazio degli eventi elementari e che questi, come detto, siano equiprobabili, condizioni che difficilmente si presentano nella realtà L’evoluzione nelle definizioni La definizione frequentista Formulata da Venn (1834-1923), emerge da un ragionamento a posteriori fondato sull’osservazione dei risultati di un esperimento Consideriamo un esperimento articolato in 𝑛 prove, nel corso del quale si verifichino 𝑘 eventi elementari 𝜔1 , 𝜔2 , … , 𝜔𝑘 tra loro incompatibili, ma non equiprobabili Ipotizziamo che in 𝑛 prove l’evento elementare 𝜔𝑖 si sia manifestato 𝑛𝑖 volte. Definendo la frequenza relativa dell’evento 𝜔𝑖 il rapporto 𝑓𝑖 = 𝑛𝑖 𝑛 la misura di probabilità del generico evento elementare 𝝎𝒊 è il limite della sua frequenza relativa al divergere del numero di prove. L’evoluzione nelle definizioni La definizione frequentista In simboli avremo che 𝑛𝑖 𝑛→∞ 𝑛 𝑃𝑟 𝜔𝑖 = lim La definizione frequentista è stata anche indicata come legge empirica del caso Esempio 2. Ipotizziamo di lanciare un dado, ma di non sapere a priori a quali esiti può dare luogo l’esperimento. Replicando alcune volte l‘esperimento, all’ottava prova ci accorgiamo che uno degli eventi elementari che si verificano è la faccia contrassegnata dal numero 6. Concentriamoci sulla probabilità di ottenere come risultato la faccia contrassegnata dal numero 6 e, a questo scopo, replichiamo l’esperimento 20.000 volte e calcoliamo la frequenza assoluta e quella relativa dell’evento 𝜔6 = 𝑓𝑎𝑐𝑐𝑖𝑎 6 𝑑𝑒𝑙 𝑑𝑎𝑑𝑜 L’evoluzione nelle definizioni La definizione frequentista L’esperimento è condotto utilizzando la funzione di «campionamento» di Excel: L’evoluzione nelle definizioni La definizione frequentista Al divergere del numero delle prove, la frequenza relativa associata al verificarsi dell’evento 𝜔6 ha il seguente andamento: Come appare evidente dal grafico, il valore della frequenza relativa mostra notevoli oscillazioni, per poi stabilizzarsi a partire dalla prova 𝑛∗ ≅ 4.800. Da quel punto in poi, la frequenza relativa di uscita della faccia numero 6 è approssimativamente costante: è «diventata» una probabilità L’evoluzione nelle definizioni La definizione frequentista Proprio perché formulata a posteriori, in quanto emerge nel corso di un esperimento articolato in un grande numero di prove, la definizione frequentista presenta alcune limitazioni Quella più ovvia è che la misura di probabilità nella definizione frequentista presuppone lo svolgimento di un esperimento articolato su un gran numero di prove. Se un evento non si è manifestato nel corso dell’esperimento, non se ne può misurare la probabilità: sarebbe infatti necessario ripetere l’esperimento infinite volte per avere la certezza che tutti gli eventi elementari si siano effettivamente manifestati Inoltre, sebbene la definizione frequentista sia largamente diffusa nelle scienze applicate, non è universale. Per risolvere il problema dell’universalità sono stati proposti due approcci più consistenti sul piano matematico, l’impostazione soggettiva e quella assiomatica L’evoluzione nelle definizioni La definizione soggettiva L’approccio in termini soggettivi appare alla fine degli anni venti del XX secolo in risposta alle citate lacune logiche dell’impostazione classica e di quella frequentista Partiamo da una premessa generale. Nella vita di tutti i giorni possono manifestarsi eventi unici, irripetibili, rispetto ai quali un osservatore potrebbe essere chiamato a prendere decisioni, senza conoscerne pienamente conseguenze e implicazioni. In questi contesti, dominati dall’incertezza più che dal rischio, le misure classiche e frequentiste di probabilità non risultano più applicabili L’evoluzione nelle definizioni La definizione soggettiva In che termini parliamo di incertezza e di rischio? La distinzione tra rischio (measurable uncertainty) e incertezza (unmeasurable uncertainty) è un tema introdotto da Knight Una decisione in condizioni di rischio si realizza quando il decisore ha cognizione di tutti gli stati in cui può manifestarsi un fenomeno ed è in grado di associare una misura di probabilità a ciascuno stato Di contro, quando l’agente non dispone di una rappresentazione completa dello spazio degli stati e/o non è in grado di assegnare una misura di probabilità a ciascuno di essi, si parlerà più propriamente di decisioni in condizioni di incertezza L’evoluzione nelle definizioni La definizione soggettiva Sviluppata indipendentemente da Ramsey (1903-1930) e da De Finetti (1906-1985), l’impostazione soggettiva afferma che la probabilità di un evento 𝝎 è una misura 𝒑 del grado di fiducia che un individuo attribuisce al verificarsi di 𝝎 sulla base delle sue opinioni ed informazioni sull’evento e il principio di coerenza In realtà De Finetti preferiva utilizzare una definizione più operativa: la probabilità di un evento 𝝎, secondo l’opinione di un individuo 𝑰, è il prezzo 𝒑 che 𝑰 giudica equo pagare per riscuotere un importo unitario nel caso in cui 𝝎 si verifichi L’evoluzione nelle definizioni La definizione soggettiva Per i soggettivisti la probabilità è una misura del grado di fiducia – in inglese degree of belief – che una qualsiasi affermazione sia vera. E poiché quanto più si crede in un’affermazione, tanto più si è disposti a scommettere su di essa, si può utilizzare il concetto di scommessa coerente per definire in maniera operativa la misura di probabilità Nella concezione di De Finetti una scommessa è coerente quando non determina una perdita certa a priori per il banco o per lo scommettitore, mentre il prezzo pagato si definisce equo se lo scommettitore non muta i termini della scommessa anche quando scambia il suo ruolo con quello di banco L’evoluzione nelle definizioni La definizione soggettiva Quindi coerenza significa il rispetto di alcuni criteri di carattere logico. Con la diretta implicazione che, per quanto in questa impostazione la valutazione sia un atto soggettivo, non è arbitraria Infatti, se nell’analisi di un problema le valutazioni di una pluralità di osservatori potrebbero non concordare, quando il set informativo di cui dispone l’osservatore rimane immutato, non deve mutare il suo grado di fiducia circa l’avverarsi di 𝝎 L’evoluzione nelle definizioni La definizione soggettiva Esempio 3. Consideriamo l’evento 𝜔 =«vittoria del pilota 𝑋 nella gara automobilistica 𝑌» Ipotizziamo che dietro pagamento di 0 euro un allibratore ve ne promettesse 100 nel caso si verifichi 𝜔: accettereste di partecipare alla scommessa? L’evoluzione nelle definizioni La definizione soggettiva Sicuramente sì, in quanto l’allibratore vi ha chiesto 0 euro per partecipare al gioco e l’evento 𝜔 potrebbe verificarsi Ipotizziamo adesso che l’allibratore vi chieda di scommettere 10 eurocent. In questo caso accettereste di partecipare? Quasi certamente la risposta sarebbe ancora affermativa, perché a fronte di una perdita massima di 10 eurocent la vincita potrebbe essere molto superiore Ma se per scommettere l’allibratore vi chiedesse 90 euro, accettereste di partecipare? Verosimilmente no, a meno che il vostro information set non vi induca a ritenere che la scommessa è comunque vantaggiosa. Dunque con un prezzo di 10 eurocent partecipate alla scommessa, mentre non partecipate se non a condizioni stringenti quando il prezzo è di 90 euro L’evoluzione nelle definizioni La definizione soggettiva Generalizzando, se accettate di partecipare al gioco pagando un prezzo 𝑝, accetterete a maggior ragione al prezzo 𝑝∗ < 𝑝. Di contro, se non partecipate al gioco al prezzo 𝑝, rifiuterete a maggior ragione al prezzo 𝑝∗∗ > 𝑝. Esisterà quindi un valore soglia di 𝒑 che separa la decisione di partecipare alla scommessa da quella di non partecipare. Quel valore soglia 𝒑 è la probabilità soggettiva da voi assegnata a 𝝎 In generale, se un certo evento 𝝎, nell’ambito di una scommessa coerente e ipotizzando che il prezzo sia equo, viene dato «𝒙 contro 𝒚», la probabilità soggettiva di 𝝎 risulterà pari a 𝑦 𝑝 𝜔 = 𝑥+𝑦 L’evoluzione nelle definizioni La definizione soggettiva Esempio 4. Un allibratore vi propone una scommessa «4 contro 1» sul verificarsi di un certo evento 𝜔, il che significa che l’allibratore si impegna, al verificarsi dell’evento, a riconoscervi un premio pari a 4 più il rimborso del prezzo da voi pagato per partecipare al gioco, pari ad 1 Se accettate di partecipare alla scommessa, la vostra misura di probabilità soggettiva circa il verificarsi di 𝜔 sarà data da 𝑝 𝜔 = 𝑦 1 = = 0,2 𝑥+𝑦 4+1 L’evoluzione nelle definizioni Richiami di teoria degli insiemi Per introdurre la quarta definizione di probabilità, è necessario richiamare alcune semplici nozioni di teoria degli insiemi L’insieme può essere visto come una collezione di oggetti che presentano una o più caratteristiche comuni. Nel caso dello spazio campione Ω, l’elemento comune agli eventi 𝜔𝑖 ∈ Ω è quello di essere i risultati ottenibili nel corso di un esperimento casuale L’evoluzione nelle definizioni Relazioni su insiemi Relazione di appartenenza. In matematica, per relazione intendiamo un collegamento tra oggetti La prima relazione fondamentale è quella di appartenenza. Diremo che un evento elementare 𝜔 appartiene ad un sottoinsieme 𝐴 di eventi elementari (e indicheremo tale relazione come 𝜔 ∈ 𝐴) se soddisfa un criterio di appartenenza specifico Se per esempio 𝐴 è l’insieme dei numeri naturali minori di 10, il criterio di appartenenza sarà descritto come 𝐴 = 𝜔: 𝜔 𝑛𝑢𝑚𝑒𝑟𝑜 𝑛𝑎𝑡𝑢𝑟𝑎𝑙𝑒 𝑚𝑖𝑛𝑜𝑟𝑒 𝑑𝑖 10 = 𝜔: 𝜔 ∈ ℕ; 𝜔 < 10 Tale definizione si legge come «𝐴 insieme degli eventi elementari 𝜔 appartenenti ai numeri naturali minori di dieci» L’evoluzione nelle definizioni Relazioni su insiemi Da un punto di vista grafico, avremo che L’evoluzione nelle definizioni Relazioni su insiemi Definita l’appartenenza è immediato derivare la relazione di non appartenenza. Infatti, fissato l’insieme 𝐵 dei numeri naturali maggiori o uguali a 10: 𝐵 = 𝜔: 𝜔 𝑛𝑢𝑚𝑒𝑟𝑜 𝑛𝑎𝑡𝑢𝑟𝑎𝑙𝑒 𝑚𝑎𝑔𝑔𝑖𝑜𝑟𝑒 𝑜 𝑢𝑔𝑢𝑎𝑙𝑒 𝑎 10 = 𝜔: 𝜔 ∈ ℕ; 𝜔 ≥ 10 allora se 𝜔 ∈ 𝐴 → 𝜔 ∉ 𝐵 L’evoluzione nelle definizioni Relazioni su insiemi Relazione di inclusione. La seconda relazione fondamentale, riferita a due sottoinsiemi, è quella di inclusione. Dati due sottoinsiemi 𝐴 e 𝐵, si ha una relazione di inclusione se tutti gli elementi appartenenti ad uno dei due sottoinsiemi appartengono anche all’altro. In simboli avremo che 𝐴 ⊆ 𝐵 ⟺ ∀𝜔 ∈ 𝐴, 𝜔 ∈ 𝐵 La definizione va letta come «𝐴 è incluso in 𝐵 se e solo se, per ogni 𝜔 appartenente ad 𝐴, 𝜔 appartiene a B» L’evoluzione nelle definizioni Relazioni su insiemi Da un punto di vista grafico, avremo che L’evoluzione nelle definizioni Relazioni su insiemi Parleremo poi di relazione di inclusione stretta (indicata come 𝐴 ⊂ 𝐵) se ogni elemento di 𝐴 è anche elemento di 𝐵, ma esistono alcuni elementi di 𝐵 che con certezza non appartengono ad 𝐴 La relazione di inclusione è riflessiva, antisimmetrica e transitiva. Infatti • • • 𝐴⊆𝐴 𝐴⊆𝐵∧𝐵 ⊆𝐴⟹𝐴=𝐵 𝐴⊆𝐵∧𝐵 ⊆𝐶 ⟹𝐴⊆𝐶 La proprietà di antisimmetria è importante in quanto consente di definire la relazione di uguaglianza tra due o più sottoinsiemi L’evoluzione nelle definizioni Relazioni su insiemi Relazione di disgiunzione. La terza relazione fondamentale è quella di disgiunzione. Dati due sottoinsiemi 𝐴 e 𝐵, diremo che 𝑨 e 𝑩 sono disgiunti se non hanno alcun elemento in comune, cioè se la loro intersezione è insieme vuoto. In simboli: 𝐴∩𝐵 =∅ La relazione di disgiunzione tra sottoinsiemi è simmetrica, nel senso che se 𝐴 è disgiunto da 𝐵, deve valere anche la relazione opposta, ma non è riflessiva né transitiva Infatti, se è chiaro che un insieme 𝐴 non può essere disgiunto da 𝐴, cioè da sé stesso, potrebbe non risultare immediato che la relazione di disgiunzione non è transitiva L’evoluzione nelle definizioni Relazioni su insiemi Per convincerci della validità dell’affermazione, tuttavia, basta fare riferimento alla situazione rappresentata nel seguente diagramma: Dall’osservazione del diagramma, appare evidente che 𝐴 è disgiunto da 𝐵, 𝐵 è disgiunto da 𝐶, ma 𝐶 non è disgiunto da 𝐴. Quindi in generale la relazione di disgiunzione non è transitiva L’evoluzione nelle definizioni Relazioni su insiemi Estendiamo la relazione di disgiunzione a famiglie di sottoinsiemi. Una famiglia di sottoinsiemi 𝐴𝑘 ; 𝑘 = 1, 2, … , 𝑛 si dirà costituita da insiemi mutuamente disgiunti, o mutuamente esclusivi, se per ogni coppia di indici distinti 𝑖 e 𝑗, con 𝑖 ≠ 𝑗, i corrispondenti sottoinsiemi risultano disgiunti Nel caso in cui, infine, lo spazio degli eventi Ω possa essere suddiviso in un certo numero di sottoinsiemi mutuamente esclusivi appartenenti ad una famiglia 𝐹, si dirà che 𝐹 è una partizione di Ω L’evoluzione nelle definizioni Operazioni su insiemi In matematica, si definisce operazione una legge di composizione da uno o più insiemi agli elementi compresi in essi. Si tratta di una definizione alquanto astratta, su cui non è opportuno soffermarci, e la riportiamo soltanto per uniformità di trattazione Nel seguito, quindi, ci affidiamo ad un concetto primitivo di operazione, come confronto tra due o più sottoinsiemi L’evoluzione nelle definizioni Operazioni su insiemi Operazione di unione. Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω, l’unione è l’insieme composto dagli eventi elementari compresi in A o in B o in entrambi. In simboli avremo che ∀𝐴, 𝐵 ∈ Ω 𝐴 ∪ 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∨ 𝜔 ∈ 𝐵 La definizione precedente si legge come «dati due sottoinsiemi di eventi elementari 𝐴, 𝐵 appartenenti allo spazio di eventi Ω, l’evento unione è l’insieme di eventi elementari che appartengono a 𝐴 o a 𝐵» L’evoluzione nelle definizioni Operazioni su insiemi Graficamente si avrà che Notare che nel diagramma precedente i due sottoinsiemi presentano eventi elementari in comune. Se questa situazione non si verifica, parleremo di unione di eventi disgiunti L’evoluzione nelle definizioni Operazioni su insiemi Operazione di intersezione. La seconda operazione è quella di intersezione tra sottoinsiemi. Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω, l’intersezione è l’insieme composto dagli eventi elementari compresi in 𝐴 e in 𝐵. In simboli avremo che ∀𝐴, 𝐵 ∈ Ω 𝐴 ∩ 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∧ 𝜔 ∈ 𝐵 La definizione si legge come «dati due sottoinsiemi di eventi elementari 𝐴, 𝐵 appartenenti allo spazio di eventi Ω, l’evento intersezione è l’insieme di eventi elementari che appartengono a 𝐴 e a 𝐵» L’evoluzione nelle definizioni Operazioni su insiemi Graficamente si avrà che L’evoluzione nelle definizioni Operazioni su insiemi Operazione di complemento assoluto o negazione. Con riferimento ad un sottoinsieme 𝐴 ∈ Ω, definiamo il complemento assoluto o negazione di 𝑨 l’insieme degli eventi elementari compresi in Ω e non appartenenti al sottoinsieme 𝐴. In simboli avremo che ∀𝐴 ∈ Ω ¬𝐴 = 𝜔: 𝜔 ∉ 𝐴 L’evento ¬𝐴 quindi si verifica se e solo se non si verifica 𝐴 L’evoluzione nelle definizioni Operazioni su insiemi Da un punto di vista grafico, rappresentiamo il complemento assoluto nel modo seguente: L’evoluzione nelle definizioni Operazioni su insiemi Elenchiamo di seguito alcune implicazioni dell’operazione di complemento assoluto: • • • • • ¬ ¬𝐴 = 𝐴 𝐴 ∪ ¬𝐴 = Ω 𝐴 ∩ ¬𝐴 = ∅ ¬Ω = ∅ ¬∅ = Ω L’evoluzione nelle definizioni Operazioni su insiemi Operazione di complemento relativo o differenza. L’estensione dell’operazione di complemento assoluto è indicata come complemento relativo o differenza Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω caratterizzati dall’avere uno o più eventi elementari in comune, tali cioè che 𝐴 ∩ 𝐵 ≠ ∅, il complemento relativo o evento differenza 𝐴 − 𝐵 è l’insieme composto dagli eventi elementari compresi in 𝐴 e non compresi in 𝐵. In simboli avremo che ∀𝐴, 𝐵 ∈ Ω 𝐴 − 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∧ 𝜔 ∉ 𝐵 L’evoluzione nelle definizioni Operazioni su insiemi Notare che, diversamente dalle operazioni di unione e intersezione, in generale l’operazione di complemento relativo non è simmetrica, per cui potremo definire, dati i due sottoinsiemi 𝐴, 𝐵 ∈ Ω, un secondo evento differenza 𝐵 − 𝐴 , definito come l’insieme composto dagli eventi elementari compresi in 𝐵 e non compresi in 𝐴. In simboli ∀𝐴, 𝐵 ∈ Ω 𝐵 − 𝐴 = 𝜔: 𝜔 ∉ 𝐴 ∧ 𝜔 ∈ 𝐵 L’evoluzione nelle definizioni Operazioni su insiemi Da un punto di vista grafico possiamo rappresentare gli eventi differenza nel modo seguente: Naturalmente 𝐴 − 𝐵 ≠ 𝐵 − 𝐴 ⟺ 𝐴 ≠ 𝐵 L’evoluzione nelle definizioni Proprietà delle operazioni su insiemi Le operazioni su insiemi (e in particolare le operazioni di unione e intersezione) godono di alcune fondamentali proprietà, elencate di seguito: Proprietà commutativa 𝐴∪𝐵 = 𝐵∪𝐴 𝐴∩𝐵 = 𝐵∩𝐴 Proprietà associativa 𝐴∪ 𝐵∪𝐶 = 𝐴∪𝐵 ∪𝐶 𝐴∩ 𝐵∩𝐶 = 𝐴∩𝐵 ∩𝐶 L’evoluzione nelle definizioni Proprietà delle operazioni su insiemi Proprietà distributiva 𝐴∪ 𝐵∩𝐶 = 𝐴∪𝐵 ∩ 𝐴∪𝐶 𝐴∩ 𝐵∪𝐶 = 𝐴∩𝐵 ∪ 𝐴∩𝐶 Leggi di De Morgan ¬ 𝐴 ∪ 𝐵 = ¬𝐴 ∩ ¬𝐵 ¬ 𝐴 ∩ 𝐵 = ¬𝐴 ∪ ¬𝐵 L’evoluzione nelle definizioni Estensione a più eventi Dato un numero finito di eventi 𝐴𝑘 ; 𝑘 = 1, 2, … , 𝑛 , la loro unione è l’insieme composto dagli eventi elementari 𝜔 appartenenti a 𝐴1 o 𝐴2 o … o 𝐴𝑛 , mentre la loro intersezione sarà data dall’insieme composto dagli eventi elementari 𝜔 appartenenti a 𝐴1 e 𝐴2 e … e 𝐴𝑛 In simboli, per l’operazione di unione avremo che 𝑛 𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∨ 𝜔 ∈ 𝐴2 ∨ … ∨ 𝜔 ∈ 𝐴𝑘 𝑘=1 mentre per l’operazione di intersezione potremo scrivere che 𝑛 𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∧ 𝜔 ∈ 𝐴2 ∧ ⋯ ∧ 𝜔 ∈ 𝐴𝑘 𝑘=1 L’evoluzione nelle definizioni Estensione a più eventi Quanto alle leggi di De Morgan, la loro estensione a 𝑛 eventi assume la seguente formulazione: 𝑛 ¬ 𝑛 𝐴𝑘 = 𝑘=1 𝑛 ¬ 𝐴𝑘 = 𝑘=1 ¬𝐴𝑘 𝑘=1 𝑛 ¬𝐴𝑘 𝑘=1 L’evoluzione nelle definizioni Estensione a successioni di eventi Dato un numero finito di eventi 𝐴𝑘 ; 𝑘 = 1, 2, … , per l’operazione di unione scriveremo che ∞ 𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∨ 𝜔 ∈ 𝐴2 ∨ … 𝑘=1 mentre per l’operazione di intersezione avremo che ∞ 𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∧ 𝜔 ∈ 𝐴2 ∧ ⋯ 𝑘=1 L’evoluzione nelle definizioni Estensione a successioni di eventi Quanto alle leggi di De Morgan, la loro estensione ad una successione di eventi è formulata come segue: ∞ ¬ ∞ 𝐴𝑘 = 𝑘=1 ∞ ¬ 𝐴𝑘 = 𝑘=1 ¬𝐴𝑘 𝑘=1 ∞ ¬𝐴𝑘 𝑘=1 L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) In matematica, una 𝝈-algebra o tribù su un insieme di eventi 𝛀 è una famiglia di sottoinsiemi di 𝛀 che gode di alcune proprietà di stabilità rispetto a operazioni quali l’unione numerabile e il passaggio al complementare Il concetto di 𝝈-algebra è alla base della teoria della misura, della teoria della probabilità incentrata sull’impostazione assiomatica e di tutte le nozioni di misurabilità, sia di insiemi, sia di funzioni. Infatti la 𝜎-algebra è un caso particolare di algebra di insiemi, ed è utilizzata ampiamente in analisi matematica, per gli svariati vantaggi che le misure definite su 𝜎-algebre hanno rispetto alle operazioni di passaggio al limite (ricordate l’approccio frequentista?) L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Sia dato uno spazio di eventi Ω e un suo sottoinsieme di eventi elementari 𝐴. Consideriamo una classe ℂ tale che 1. Contenga Ω ⟹ Ω ∈ ℂ 2. Se 𝐴 ∈ ℂ ⟹ ¬ 𝐴 ∈ ℂ. In altri termini, se la classe ℂ contiene il sottoinsieme 𝐴, deve contenere anche la sua negazione ¬𝐴 3. Data una successione finita o infinita di sottoinsieme di eventi elementari 𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ, anche la loro unione appartiene a ℂ. In simboli avremo che ∞ 𝐴𝑘 : 𝐴𝑘 ∈ ℂ ⟹ 𝐴𝑘 ∈ ℂ 𝑘=1 Se valgono le proprietà 1-3, allora ℂ è detta 𝜎-algebra o classe completamente additiva e si indicherà come ℂ = 𝐴𝑘 : 𝐴𝑘 ⊆ Ω L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Perché introduciamo il concetto di 𝜎-algebra? Perché è uno strumento che ci consente di «condensare» e riassumere l’insieme dei risultati di tutte le operazioni di confronto fra eventi elementari o sottoinsiemi di eventi elementari, con particolare riferimento alle operazioni di unione, intersezione, differenza A partire da uno stesso spazio campione Ω, possono essere costruite più classi di eventi ℂ, ognuna delle quali deve contenere almeno Ω (proprietà 1) e l’evento complemento ¬Ω = ∅ (proprietà 2). Quindi la più piccola classe completamente additiva è formata solo da Ω e ∅: ℂ= ∅ Ω L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Nel caso di insiemi numerici continui definiti su ℝ, è impossibile effettuare confronti, per cui preliminarmente devono essere fissati intervalli di valori quali 𝐼 = −∞, 𝑥 𝐼 = 𝑥1 , 𝑥2 a partire dai quali è nuovamente possibile costruire la 𝜎-algebra L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Esempio 5. Dato lo spazio degli eventi Ω = 1, 2, 3 costruiamo la 𝜎algebra completa dei sottoinsiemi di eventi elementari appartenenti a Ω. Avremo che ∅ 1 2 3 ℂ= 12 13 23 123 Verifichiamo se effettivamente ℂ è una 𝜎-algebra, verificando che la proprietà 2, in virtù della quale se 𝐴 ∈ ℂ ⟹ ¬ 𝐴 ∈ ℂ, sia soddisfatta L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Scegliamo arbitrariamente due sottoinsiemi rispettivamente di ampiezza 1 o 2, ad esempio 𝐴1 = 3 e 𝐴2 = 1, 2 . È agevole mostrare che 𝑠𝑒 𝐴 = 3 ∈ ℂ ⟹ ¬𝐴 = 1, 2 ∈ ℂ 𝑠𝑒 𝐴 = 1, 2 ∈ ℂ ⟹ ¬𝐴 = 3 ∈ ℂ Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza unitaria, quali ad esempio 𝐴1 = 1 e 𝐴2 = 3 , verifichiamo se ℂ è una 𝜎-algebra alla luce della proprietà 3, in virtù della quale data una successione finita o infinita di sottoinsieme di eventi elementari 𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ, anche la loro unione appartiene a ℂ L’evoluzione nelle definizioni Classi completamente additive (𝝈 −algebre) Avremo che 1. 2. 𝐴1 ∪ 𝐴2 = 1, 3 ⟹ ¬ 𝐴1 ∪ 𝐴2 = 2 ∈ ℂ 2 𝑘=1 ¬𝐴𝑘 = ¬𝐴1 ∩ ¬𝐴2 = 2, 3 ∩ 1, 2 = 2 ∈ ℂ Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza unitaria, quali ad esempio 𝐴1 = 1 e 𝐴2 = 3 , verifichiamo se ℂ è una 𝜎-algebra alla luce della proprietà 3, in virtù della quale data una successione finita o infinita di sottoinsieme di eventi elementari 𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ, anche la loro unione appartiene a ℂ L’evoluzione nelle definizioni La definizione assiomatica Formulata da Kolmogorov (1903-1987), è considerata la definizione più consistente sul piano matematico, in quanto, come chiarito in precedenza, si fonda su alcuni principi generali di teoria della misura Data una 𝝈-algebra ℂ di sottoinsiemi 𝑨 ⊆ 𝜴, la misura di probabilità 𝑷𝒓 è una funzione che associa ad ogni sottoinsieme 𝑨 un numero reale non negativo. In simboli 𝑃𝑟: 𝐴 → ℝ+ Come appare evidente, tale definizione prescinde dalle nozioni di casi favorevoli, casi possibili, equiprobabilità, esperimenti articolati in infinite prove, quindi «tiene» da un punto di vista sia logico, sia operativo, in quanto è sufficientemente generale da ricomprendere tutti i contesti concretamente osservabili La teoria assiomatica Gli assiomi della misura di probabilità La misura di probabilità così definita soddisfa quattro assiomi: 1. Non negatività. ∀𝐴 ∈ ℂ 𝑃𝑟 𝐴 ≥ 0 2. Normalizzazione 𝑃𝑟 Ω = 1 3. Additività finita. Dati due eventi 𝐴, 𝐵 ∈ Ω incompatibili, cioè tali che 𝐴 ∩ 𝐵 = ∅, la probabilità dell’evento unione è data dalla somma delle singole probabilità degli eventi. In simboli: 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 4. Completa additività. Data una famiglia composta da un’infinità numerabile di sottoinsiemi di eventi elementari 𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … a due a due incompatibili, cioè tali che ∀𝑖 ≠ 𝑗 𝐴𝑖 ∩ 𝐴𝑗 = ∅ ∞ 𝑃𝑟 ∞ 𝐴𝑘 = 𝑘=1 𝑃𝑟 𝐴𝑘 𝑘=1 La teoria assiomatica Gli assiomi della misura di probabilità Nell’impostazione assiomatica si adotta una definizione di probabilità su una 𝜎-algebra ℂ perché si è interessati non soltanto agli eventi elementari (come nella definizione classica), ma anche a sequenze finite o infinite di operazioni di unione, intersezione, differenza, negazione: gli eventi complessi così definiti appartengono di nuovo a ℂ, per cui se ne può misurare la probabilità Notare anche che, per le leggi di De Morgan, data una successione 𝐴𝑘 ∈ ℂ, ∞ 𝑠𝑒 ∞ 𝐴𝑘 ∈ ℂ ⟹ 𝑘=1 𝐴𝑘 ∈ ℂ 𝑘=1 quindi oltre ad esistere la misura di probabilità dell’evento unione, esiste quella dell’evento intersezione La teoria assiomatica Proprietà della misura di probabilità La misura di probabilità gode di alcune proprietà che consentono di quantificare l’incertezza dell’osservatore non soltanto circa il verificarsi di eventi elementari, ma anche circa il verificarsi di sottoinsiemi di eventi, cioè di suddivisioni dello spazio campione Ω Queste proprietà sussistono indipendentemente dalla definizione adottata di probabilità. Nel caso delle definizioni classiche e frequentiste, le proprietà sono una conseguenza della formula di calcolo adottata (una frequenza relativa), mentre nelle definizioni soggettivistiche e assiomatiche trovano fondamento in alcuni principi di natura logica Ad ogni modo, nel seguito della trattazione, preferiamo attenerci esclusivamente all’impostazione assiomatica. Dagli assiomi 1‒4 elencati in precedenza derivano tutte le proprietà della probabilità La teoria assiomatica Proprietà 1. Probabilità dell’evento negazione Dato un sottoinsieme di eventi 𝐴 ∈ Ω, siamo interessati a calcolare la probabilità associata all’evento ¬𝐴 Per risalire alla probabilità dell’evento negazione, è sufficiente osservare che ¬𝐴 = 𝜔: 𝜔 ∉ 𝐴 , quindi 𝐴 ∪ ¬𝐴 = Ω e 𝐴 ∩ ¬𝐴 = ∅ Osservando che in virtù dell’assioma 2 (normalizzazione) 𝑃𝑟 Ω = 1 e che 𝐴 e ¬𝐴 sono sottoinsiemi incompatibili, possiamo applicare l’assioma 3 (additività finita) e scrivere 𝑃𝑟 𝐴 ∪ ¬𝐴 = 𝑃𝑟 Ω 𝑃𝑟 𝐴 + 𝑃𝑟 ¬𝐴 = 1 e quindi 𝑃𝑟 ¬𝐴 = 1 − 𝑃𝑟 𝐴 La teoria assiomatica Probabilità dell’evento negazione Esempio 6. Consideriamo l’esperimento consistente nel lancio di un dado. Lo spazio campione sarà composto dai sei eventi elementari Ω = 1, 2, 3, 4, 5, 6 Poiché lo spazio campione Ω ha cardinalità 6 (cioè contiene 6 eventi elementari), mentre ciascun evento elementare ha cardinalità 1 (essendo un «punto» appartenente ad Ω), la probabilità teorica che si verifichi uno dei sei eventi elementari (ad esempio la faccia del dado contrassegnata dal numero 6) sarà data dal rapporto 𝑃𝑟 𝜔6 #𝜔6 1 = = #Ω 6 La teoria assiomatica Probabilità dell’evento negazione Domandiamoci adesso a quanto ammonta la probabilità che lanciando il dado «non» so ottenga la faccia contrassegnata dal numero 6» Tale probabilità può essere calcolata facendo riferimento all’evento negazione ¬𝜔6 Osservando che: • ¬𝜔6 = 1, 2, 3, 4, 5 • 𝜔6 ∪ ¬𝜔6 = 6 ∪ 1, 2, 3, 4, 5 = 1, 2, 3, 4, 5, 6 = Ω • 𝜔6 ∩ ¬𝜔6 = ∅ avremo che 𝑃𝑟 ¬𝜔6 = 1 − 𝑃𝑟 𝜔6 1 5 =1− = 6 6 La teoria assiomatica Probabilità dell’evento negazione In alternativa, osservando che la cardinalità del sottoinsieme ¬𝜔6 è pari a 5, possiamo scrivere in maniera del tutto equivalente che 𝑃𝑟 ¬𝜔6 #¬𝜔6 5 = = #Ω 6 Una delle più dirette conseguenze della prima proprietà è la seguente: poiché ¬Ω = ∅, avremo che 𝑃𝑟 ∅ = 𝑃𝑟 ¬Ω = 1 − 𝑃𝑟 Ω = 1 − 1 = 0 Quindi la probabilità dell’insieme vuoto è nulla (ad esempio, con riferimento al precedente esperimento, a quanto ammonta la probabilità di ottenere la faccia del dado contrassegnata dal numero 7?) La teoria assiomatica Proprietà 2. Estremi della misura di probabilità La proprietà 2 definisce l’insieme di definizione della misura di probabilità Intuitivamente, poiché abbiamo già sottolineato l’analogia che lega la nozione di frequenza relativa a quella di probabilità nella definizione classica e in quella frequentista, è immediato comprendere che la misura di probabilità deve variare tra 0 (probabilità dell’insieme vuoto ∅, cioè la probabilità che si verifichi un qualche evento elementare o sottoinsieme di eventi elementari non compreso in Ω) e 1 (probabilità che si verifichi l’uno o l’altro degli eventi elementari compresi in Ω), per cui con riferimento ad un generico sottoinsieme di eventi elementari 𝐴 ∈ Ω possiamo scrivere che 0 ≤ 𝑃𝑟 𝐴 ≤ 1 Naturalmente, in un’impostazione di tipo assiomatico di intuitivo c’è ben poco, per cui vediamo come dimostrare formalmente questa proprietà La teoria assiomatica Estremi della misura di probabilità Osservando che • in virtù dell’assioma 1 (non negatività) 𝑃𝑟 𝐴 ≥ 0 • tale assioma vale anche per la probabilità dell’evento negazione, per cui possiamo scrivere che 𝑃𝑟 ¬𝐴 ≥ 0. Poiché abbiamo appena dimostrato che 𝑃𝑟 ¬𝐴 = 1 − 𝑃𝑟 𝐴 , sostituendo nella precedente relazione avremo che 1 − 𝑃𝑟 𝐴 ≥ 0 e quindi 𝑃𝑟 𝐴 ≤ 1 Combinando i due risultati avremo che 0 ≤ 𝑃𝑟 𝐴 ≤ 1 La teoria assiomatica Estremi della misura di probabilità Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con reintroduzione di due palline da un’urna contenente 5 palline bianche e 5 palline nere. Lo spazio campione, come sappiamo, è l’insieme degli eventi elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi in questo caso Ω assumerà la seguente struttura: Ω = 𝐵𝐵, 𝐵𝑁, 𝑁𝐵, 𝑁𝑁 Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi in Ω (a causa della particolare composizione dell’urna e delle particolari modalità con cui è condotta l’estrazione) sono equiprobabili, la probabilità del generico evento 𝜔𝑖 sarà data da 𝑃𝑟 𝜔𝑖 = #𝜔𝑖 1 = ≥0 #Ω 4 La teoria assiomatica Estremi della misura di probabilità È interessante verificare anche a quanto ammonta la probabilità su un qualche sottoinsieme 𝐴 di eventi elementari. Ad esempio, la probabilità di ottenere almeno una pallina nera nel corso dell’esperimento di estrazione sarà data da A = 𝐵𝑁, 𝑁𝐵, 𝑁𝑁 la cui misura di probabilità è pari a #𝐴 3 𝑃𝑟 𝐴 = = #Ω 4 Naturalmente, anche in questo caso si ha che 0 ≤ 𝑃𝑟 𝐴 ≤ 1 La teoria assiomatica Proprietà 3. Additività in una successione finita Con riferimento all’esempio precedente, fissiamo i tre eventi 𝐴1 = 0 𝑝𝑎𝑙𝑙𝑖𝑛𝑒 𝑛𝑒𝑟𝑒 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝐵𝐵 𝐴2 = 1 𝑝𝑎𝑙𝑙𝑖𝑛𝑎 𝑛𝑒𝑟𝑎 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝐵𝑁, 𝑁𝐵 𝐴3 = 2 𝑝𝑎𝑙𝑙𝑖𝑛𝑒 𝑛𝑒𝑟𝑒 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝑁𝑁 I tre sottoinsiemi così individuati costituiscono una famiglia 𝑭 di sottoinsiemi di eventi elementari 𝐴𝑘 ; 𝑘 = 1, 2, 3 , a due a due incompatibili, cioè tali che ∀𝑖 ≠ 𝑗, 𝐴𝑖 ∩ 𝐴𝑗 = ∅, quindi 𝐹 = 𝐴1 , 𝐴2 , 𝐴3 costituisce una partizione di Ω La proprietà di additività di una successione finita di sottoinsiemi stabilisce che 𝑛 𝑃𝑟 𝑛 𝐴𝑘 = 𝑘=1 𝑃𝑟 𝐴𝑘 𝑘=1 La teoria assiomatica Additività in una successione finita Detto in altri termini, la proprietà di additività di una successione finita stabilisce che la probabilità dell’unione di una successione finita di sottoinsiemi di eventi disgiunti è pari alla somma delle probabilità dei relativi sottoinsiemi Ad esempio, nel caso precedente, 𝑃𝑟 𝐴1 = 𝑃𝑟 𝐴3 = #𝐴3 #Ω 1 #𝐴1 #Ω 1 = 4 , 𝑃𝑟 𝐴2 = = 4 . Poiché in questo risulta 3 𝑃𝑟 𝐴𝑘 = 𝑃𝑟 𝐴1 ∪ 𝐴2 ∪ 𝐴3 𝑘=1 e quindi = 𝑃𝑟 𝐵𝐵 ∪ 𝐵𝑁, 𝑁𝐵 ∪ 𝑁𝑁 = 𝑃𝑟 Ω = 1 #𝐴2 #Ω 2 =4 , La teoria assiomatica Additività in una successione finita Inoltre osserviamo che 3 𝑘=1 𝑃𝑟 𝐴𝑘 = 1 2 1 + + =1 4 4 4 Con riferimento all’esempio precedente, quindi, abbiamo dimostrato empiricamente che 𝑛 𝑃𝑟 𝑛 𝐴𝑘 = 𝑘=1 𝑃𝑟 𝐴𝑘 𝑘=1 La teoria assiomatica Additività in una successione finita Su un piano formale, consideriamo per semplicità 3 sottoinsiemi 𝐴1 , 𝐴2 e 𝐴3 disgiunti, costituenti una famiglia 𝐹 = 𝐴1 , 𝐴2 , 𝐴3 ∈ ℂ. Poiché i tre sottoinsiemi sono a due a due incompatibili (e quindi 𝐴𝑖 ∩ 𝐴𝑗 = ∅), in virtù della proprietà distributiva delle operazioni di unione e intersezione tra sottoinsiemi risulterà che 𝐴1 ∪ 𝐴2 ∩ 𝐴3 = 𝐴1 ∩ 𝐴3 ∪ 𝐴2 ∩ 𝐴3 = ∅ ∪ ∅ = ∅ e poiché per l’assioma 3 (additività finita) si ha che 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 , potremo scrivere 𝑃𝑟 𝐴1 ∪ 𝐴2 ∪ 𝐴3 = 𝑃𝑟 𝐴1 ∪ 𝐴2 + 𝑃𝑟 𝐴3 = 𝑃𝑟 𝐴1 + 𝑃𝑟 𝐴2 + 𝑃𝑟 𝐴2 Naturalmente, quanto mostrato con riferimento a tre sottoinsiemi è valido, in generale, per una qualunque successione finita di eventi La teoria assiomatica Proprietà 4. Teorema delle probabilità totali Il teorema delle probabilità totali generalizza la misura della probabilità di un evento unione al caso di eventi compatibili, cioè caratterizzati da un’intersezione non vuota Dati due sottoinsiemi di eventi 𝐴, 𝐵 ∈ ℂ compatibili, cioè tali che 𝐴 ∩ 𝐵 ≠ ∅, il teorema delle probabilità totali ci consente di misurare la probabilità dell’evento differenza 𝐵 − 𝐴 e la probabilità dell’evento unione 𝐴 ∪ 𝐵 Per comprendere l’ambito di applicazione del teorema delle probabilità totali, facciamo riferimento al seguente diagramma: La teoria assiomatica Teorema delle probabilità totali Come appare evidente dall’esame del diagramma, nel caso di eventi compatibili non possiamo ottenere la probabilità dell’evento unione semplicemente sommando le singole probabilità dei sottoinsiemi, applicando la relazione 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 , in quanto ci esporremmo all’errore logico del «doppio conteggio» degli eventi appartenenti all’intersezione 𝐴 ∩ 𝐵 La teoria assiomatica Teorema delle probabilità totali Il problema può essere aggirato esprimendo l’evento unione 𝐴 ∪ 𝐵 in termini di due sottoinsiemi equivalenti, ma disgiunti, che ci consentano di applicare l’assioma 3 In primo luogo, osserviamo che il sottoinsieme 𝐵 può essere espresso come l’evento unione 𝐵 = 𝐵−𝐴 ∪ 𝐴∩𝐵 Poiché 𝐵 − 𝐴 ∩ 𝐴 ∩ 𝐵 = ∅, in virtù dell’assioma 3 possiamo scrivere che 𝑃𝑟 𝐵 = 𝑃𝑟 𝐵 − 𝐴 ∪ 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐵 − 𝐴 + 𝑃𝑟 𝐴 ∩ 𝐵 La teoria assiomatica Teorema delle probabilità totali Poiché, una volta introdotta la misura di probabilità, siamo nel «territorio» dell’algebra, potremo quindi scrivere che 𝑃𝑟 𝐵 − 𝐴 = 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵 Quindi, un primo risultato del teorema delle probabilità totale riguarda la misura di probabilità dell’evento differenza. Ben più importante tuttavia è l’implicazione diretta di tale risultato. Infatti, possiamo esprimere l’evento unione 𝐴 ∪ 𝐵 come 𝐴∪𝐵 =𝐴∪ 𝐵−𝐴 Notare che 𝐴 e 𝐵 − 𝐴 sono eventi incompatibili, cioè tali che 𝐴 ∩ 𝐵 − 𝐴 = ∅, quindi possiamo applicare l’assioma 3 e scrivere 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 ∪ 𝐵 − 𝐴 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴 La teoria assiomatica Teorema delle probabilità totali Quindi abbiamo che 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴 Avendo dimostrato in precedenza che 𝑃𝑟 𝐵 − 𝐴 = 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵 combinando i due risultati otteniamo che 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵 Questa relazione estende l’applicabilità dell’assioma 3 anche al caso più generale di unione di sottoinsiemi di eventi compatibili La teoria assiomatica Teorema delle probabilità totali Esempio 8. Ipotizziamo di effettuare un esperimento di lancio di due dadi e di considerare lo spazio di eventi 𝑆 = 𝑠𝑜𝑚𝑚𝑎 𝑑𝑒𝑖 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖 𝑑𝑒𝑖 𝑑𝑢𝑒 𝑑𝑎𝑑𝑖 La seguente tabella riporta la distribuzione di 𝑆 in termini di una tabella a doppia entrata, in cui i punteggi ottenibili con il lancio del primo dado figurano in fiancata, quelli ottenibili con il lancio del secondo dado sono riportati in testata, mentre nel quadro centrale figura la somma dei due punteggi: Tabella 1. Risultati dell'esperimento di lancio di due dadi. Distribuzione della somma dei punteggi dei due lanci Punteggi dado numero 1 1 2 3 4 5 6 Punteggi dado numero 2 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 La teoria assiomatica Teorema delle probabilità totali Definiamo i seguenti sottoinsiemi di eventi: 𝐴 = 𝑖𝑙 𝑟𝑖𝑠𝑢𝑙𝑡𝑎𝑡𝑜 𝑑𝑒𝑙 𝑙𝑎𝑛𝑐𝑖𝑜 𝑑𝑒𝑙 𝑝𝑟𝑖𝑚𝑜 𝑑𝑎𝑑𝑜 è 𝑝𝑎𝑟𝑖 𝑎 3 𝐵 = 𝑙𝑎 𝑠𝑜𝑚𝑚𝑎 𝑑𝑒𝑖 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖 𝑜𝑡𝑡𝑒𝑛𝑢𝑡𝑖 𝑛𝑒𝑖 𝑑𝑢𝑒 𝑙𝑎𝑛𝑐𝑖 è 𝑝𝑎𝑟𝑖 𝑎 7 Domandiamoci a quanto ammonta la probabilità dell’evento unione 𝐴 ∪ 𝐵 , cioè la probabilità che come risultato dell’esperimento di lancio di due dadi si ottenga o 𝟑 al primo lancio o 𝟕 come somma dei due lanci Intanto introduciamo qualche convenzione di notazione: indichiamo con 𝑠𝑥𝑦 un generico punto dell’insieme 𝑆, individuato dai due indici 𝑥 e 𝑦, dove 𝑥 è il punteggio ottenuto nel lancio del primo dado e 𝑦 è quello relativo al lancio del secondo dado. Ad esempio, 𝑠12 rappresenterà la somma dei due punteggi quando 𝑥 = 1 e 𝑦 = 2 La teoria assiomatica Teorema delle probabilità totali Da notare che i 36 eventi elementari appartenenti a 𝑆 sono equiprobabili ─ #𝑠𝑥𝑦 1 𝑃𝑟 𝑠𝑥𝑦 = #𝑆 = 36 ─ e necessari, nel senso che nello svolgimento dell’esperimento di lancio se ne dovrà osservare necessariamente uno Il sottoinsieme 𝐴 è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato dal fatto di essere caratterizzati da un valore di 𝑥 = 3, cioè un punteggio ottenuto dal lancio del primo dado pari a 3 La teoria assiomatica Teorema delle probabilità totali Scriveremo che 𝐴 = 𝑠31 , 𝑠32 , 𝑠33 , 𝑠34 , 𝑠35 , 𝑠36 Quindi 𝐴 ha cardinalità pari a 6 e la probabilità associata sarà pari a #𝐴 6 1 𝑃𝑟 𝐴 = = = #𝑆 36 6 La teoria assiomatica Teorema delle probabilità totali Il sottoinsieme 𝐵 è composto dagli eventi elementari il cui criterio di appartenenza al sottoinsieme è dato dal fatto che la somma dei punteggi ottenuti dal lancio dei due dadi è pari a 7 Osservando che gli eventi elementari appartenenti a 𝐵 sono dislocati lungo la diagonale secondaria del quadro centrale della tabella a doppia entrata, potremo scrivere che 𝐵 = 𝑠16 , 𝑠25 , 𝑠34 , 𝑠43 , 𝑠52 , 𝑠61 Anche 𝐵 ha cardinalità pari a 6, quindi la probabilità associata sarà pari a 𝑃𝑟 𝐵 = #𝐵 6 1 = = #𝑆 36 6 La teoria assiomatica Teorema delle probabilità totali Domandiamoci adesso a quanto ammonta la probabilità di ottenere 𝟑 come risultato del lancio del primo dado o 𝟕 come somma dei due punteggi Confrontando gli eventi elementari compresi nel sottoinsieme 𝐴 e quelli appartenenti a 𝐵, è agevole verificare che l’intersezione 𝐴 ∩ 𝐵 ≠ ∅, in quanto 𝐴 ∩ 𝐵 = 𝑠34 , quindi i sottoinsiemi 𝐴 e 𝐵 sono compatibili e ciò esclude l’applicabilità dell’assioma 3 Quanto alla cardinalità dell’evento intersezione, essendo composto dall’unico punto 𝑠34 , la sua cardinalità sarà pari all’unità e quindi potremo scrivere che 𝑃𝑟 𝐴 ∩ 𝐵 = # 𝐴∩𝐵 1 = #𝑆 36 La teoria assiomatica Teorema delle probabilità totali Con riferimento alla tabella a doppia entrata, la situazione può essere rappresentata nei termini seguenti: Punteggi dado numero 1 1 2 3 4 5 6 𝐵 = 𝑠: 𝑠 = 7 Punteggi dado numero 2 1 2 3 4 5 6 7 2 3 4 5 6 7 8 𝐴 = 𝑠: 𝑥 = 3 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 𝐴∩𝐵 La teoria assiomatica Teorema delle probabilità totali Ad ogni modo, in virtù del teorema delle probabilità totali, applicabile nel caso di unione fra sottoinsiemi di eventi compatibili, sappiamo che 𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵 Nel problema esaminato risulterà quindi che 𝑃𝑟 𝐴 ∩ 𝐵 = 1 1 1 11 + − = 6 6 36 36 La teoria assiomatica Teorema delle probabilità totali L’enunciato del teorema delle probabilità totali può essere generalizzato. Data una famiglia di 𝑛 eventi 𝐴𝑘 ; 𝑘 = 1,2, … , 𝑛 a due a due compatibili, la probabilità della loro unione è uguale alla somma delle probabilità degli eventi, meno la somma delle intersezioni tra coppie di eventi, più la somma delle intersezioni tra triple di eventi, meno la somma delle intersezioni tra quadruple di eventi, e così via, per giungere alla probabilità dell’intersezione della 𝑛 −upla di eventi, con segno positivo se 𝑛 è dispari, negativo in caso contrario. La teoria assiomatica Proprietà 5. Probabilità in una relazione di inclusione È una proprietà relativamente banale e quindi ci affidiamo soprattutto ad un ragionamento intuitivo. Dati due sottoinsiemi 𝐴, 𝐵 ∈ Ω, ipotizziamo che fra i due sottoinsiemi valga la seguente relazione di inclusione: 𝐴⊆𝐵 Ricordando che 𝐴 ⊆ 𝐵 ⟺ ∀𝜔 ∈ 𝐴, 𝜔 ∈ 𝐵, la probabilità in una relazione di inclusione stabilisce che 𝑠𝑒 𝐴 ⊆ 𝐵 ⟹ 𝑃𝑟 𝐴 ≤ 𝑃𝑟 𝐵 Tale proposizione è ovvia, non appena rappresentiamo la relazione tramite il diagramma di Venn La teoria assiomatica Probabilità in una relazione di inclusione Infatti, con riferimento al concetto di cardinalità dei due sottoinsiemi, appare ovvio che il sottoinsieme 𝐴 comprende eventi elementari che appartengono anche al sottoinsieme 𝐵, mentre in generale non vale la relazione opposta, fatta eccezione per il caso in cui 𝐴 = 𝐵 Poiché la cardinalità di 𝐴 è minore della cardinalità di 𝐵, ne discende che 𝑃𝑟 𝐴 ≤ 𝑃𝑟 𝐵 , con il segno di uguaglianza che vale quando 𝐴 = 𝐵 Fin qui l’intuizione. Ora cerchiamo di formalizzare il ragionamento appena seguito La teoria assiomatica Probabilità in una relazione di inclusione Con riferimento al precedente diagramma, possiamo scrivere che 𝐵 =𝐴∪ 𝐵−𝐴 Poiché 𝐴 ∩ 𝐵 − 𝐴 = ∅, possiamo applicare l’assioma 3 e scrivere che 𝑃𝑟 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴 ≥ 𝑃𝑟 𝐴 La teoria assiomatica Proprietà 6. Probabilità condizionata Ipotizziamo di effettuare un esperimento di estrazione in blocco di 2 palline da un’urna contenente 5 palline bianche e 5 nere. Naturalmente, questo esperimento non ha particolare interesse in sé, ma perché concettualizza situazioni del mondo reale che sono caratterizzate da una complessità ben diversa Si ha estrazione bernoulliana o con ripetizione quando, in un esperimento di estrazione di 𝑛 unità da un’urna probabilistica, le unità sono reimmesse nell’urna dopo la registrazione del risultato e possono essere estratte nuovamente, per cui la composizione dell’urna non si modifica al susseguirsi delle prove Si ha viceversa estrazione in blocco o senza ripetizione, quando le unità estratte non sono reimmesse nell’urna dopo la registrazione del risultato. Nel secondo caso, il manifestarsi di un certo risultato nello svolgimento della prova 𝑖 −esima dipenderà dall’intera sequenza dei risultati che lo hanno preceduto La teoria assiomatica Probabilità condizionata Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore nero (evento 𝐵) e che questa, conformemente allo schema di estrazione scelto, non sia reintrodotta nell’urna, alterando quindi la composizione di quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere nell’estrazione successiva una pallina bianca (evento 𝐴), essendosi verificato l’evento condizionante B nella prima estrazione Con la composizione di partenza dell’urna la probabilità di estrarre nella prima prova una pallina bianca sarebbe pari al rapporto tra il numero delle palline bianche e il totale delle palline contenute nell’urna, cioè 𝑃𝑟 𝐴 = 0,5 Notare che questa probabilità non cambierebbe, nelle estrazioni successive, se si adottasse uno schema di estrazione con ripetizione, la cui principale caratteristica è quella di lasciare immutata la composizione dell’urna dopo lo svolgimento di ciascuna delle prove La teoria assiomatica Probabilità condizionata Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore nero (evento 𝐵) e che questa, conformemente allo schema di estrazione scelto, non sia reintrodotta nell’urna, alterando quindi la composizione di quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere nell’estrazione successiva una pallina bianca (evento 𝐴), essendosi verificato l’evento condizionante B nella prima estrazione Con la composizione di partenza dell’urna la probabilità di estrarre nella prima prova una pallina bianca sarebbe pari al rapporto tra il numero delle palline bianche e il totale delle palline contenute nell’urna, cioè 𝑃𝑟 𝐴 = 0,5 Notare che questa probabilità non cambierebbe, nelle estrazioni successive, se si adottasse uno schema di estrazione con ripetizione, la cui principale caratteristica è quella di lasciare immutata la composizione dell’urna dopo lo svolgimento di ciascuna delle prove La teoria assiomatica Probabilità condizionata Se viceversa si adotta uno schema di estrazione in blocco, la composizione dell’urna si altera ad ogni successiva estrazione, influenzando i successivi risultati. Estratta nella prima prova una pallina nera, infatti, la probabilità di ottenere nella seconda estrazione una pallina bianca sarà pari a 5 su 9, cioè 0,555 L’implicazione più diretta di questo semplice esperimento è che il meccanismo di estrazione delle palline dall’urna determina la relazione di dipendenza o l’indipendenza tra eventi La teoria assiomatica Probabilità condizionata Tentiamo una prima formalizzazione del risultato appena ottenuto Dati due eventi 𝐴, 𝐵 ∈ ℂ, si ipotizzi che 𝐵 ≠ ∅ e che non risulti vuota l’intersezione tra i due sottoinsiemi 𝐴 e 𝐵 𝐴 ∩ 𝐵 ≠ ∅. Ipotizziamo di essere interessati all’evento condizionato 𝐴 𝑠𝑖 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎 𝑒𝑠𝑠𝑒𝑛𝑑𝑜𝑠𝑖 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎𝑡𝑜 𝐵 , evento che denoteremo come 𝐴|𝐵 Possiamo pensare all’evento condizionante 𝐵 come ad una partizione di eventi elementari Ω𝐵 ⊆ Ω Tanto per essere chiari, con riferimento all’esempio precedente, se siamo interessati all’estrazione di una pallina bianca avendo estratto in precedenza una pallina nera, a noi non interessano tutte le sequenze di estrazioni di due palline, ma soltanto quelle in cui otteniamo una pallina nera alla prima estrazione: gli esiti dell’esperimento di estrazione in cui otteniamo una pallina nera alla prima estrazione costituiscono una partizione di Ω e da questo momento in poi è a tale partizione che faremo riferimento La teoria assiomatica Probabilità condizionata A partire dalla partizione Ω𝐵 , possiamo costruire una 𝜎 −algebra ℂ𝐵 : quali elementi conterrà ℂ𝐵 ? Ricordando i principi esposti in precedenza, ℂ𝐵 dovrà contenere lo spazio campione (che in questo caso coincide con la partizione Ω𝐵 ), la sua negazione ∅ e l’evento condizionato 𝐴|𝐵 ─ che a ben riflettere coincide con l’intersezione 𝐴 ∩ 𝐵 , nel senso che l’evento condizionato 𝐴|𝐵 si verifica se e solo se si manifesta un evento elementare presente nell’intersezione 𝐴 ∩ 𝐵 Nel complesso avremo che ∅ ℂ𝐵 = 𝐴 ∩ 𝐵 Ω𝐵 La teoria assiomatica Probabilità condizionata Associamo ad ogni evento compreso in ℂ𝐵 una misura di probabilità 𝑃𝑟𝐵 : 𝐴|𝐵 → ℝ+ in cui Ω𝐵 assume la funzione di evento certo. Nella partizione Ω𝐵 l’evento 𝐴 ∩ 𝐵 non ha probabilità 𝑃𝑟 𝐴 ∩ 𝐵 , ma una misura di probabilità 𝑃𝑟𝐵 𝐴 ∩ 𝐵 > 𝑃𝑟 𝐴 ∩ 𝐵 Ricordando che vale l’identità 𝐴|𝐵 = 𝐴 ∩ 𝐵 , possiamo scrivere la seguente proporzione: 𝑃𝑟 𝐴 ∩ 𝐵 : 𝑃𝑟𝐵 𝐴 ∩ 𝐵 = 𝑃𝑟 Ω𝐵 : 𝑃𝑟 Ω =𝑃𝑟 𝐴|𝐵 𝑃𝑟 𝐵 =1 La teoria assiomatica Probabilità condizionata Quindi 𝑃𝑟 𝐴 ∩ 𝐵 : 𝑃𝑟 𝐴|𝐵 = 𝑃𝑟 𝐵 : 1 da cui è immediato scrivere che 𝑃𝑟 𝐴|𝐵 = 𝑃𝑟 𝐴 ∩ 𝐵 𝑃𝑟 𝐵 Naturalmente, se si considera come evento condizionante 𝐴, vale anche il seguente risultato: 𝑃𝑟 𝐵|𝐴 = 𝑃𝑟 𝐴 ∩ 𝐵 𝑃𝑟 𝐴 𝑃𝑟 𝐴 ≠ 0 La teoria assiomatica Probabilità condizionata La principale conseguenza della proprietà appena illustrata è la seguente Se risolviamo le due precedenti relazioni per 𝑃𝑟 𝐴 ∩ 𝐵 , otteniamo la probabilità dell’evento intersezione: 𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 𝑃𝑟 𝐵|𝐴 = 𝑃𝑟 𝐵 𝑃𝑟 𝐴|𝐵 Tale relazione è definita principio o postulato della probabilità composta La teoria assiomatica Probabilità condizionata Come dobbiamo considerare l’evento condizionato 𝐴|𝐵 ? L’evento 𝐴|𝐵 esprime una revisione nelle aspettative dell’osservatore circa il manifestarsi di 𝑨, che in qualche modo risulta collegato al verificarsi dell’evento condizionante 𝐵, al fine di tenere conto del cambiamento avvenuto nell’information set a seguito del verificarsi di 𝑩 Il verificarsi dell’evento 𝑩 potrebbe migliorare la conoscenza delle circostanze che determinano il verificarsi dell’evento 𝑨, il che in precedenza ci ha consentito di affermare che 𝑃𝑟𝐵 𝐴 ∩ 𝐵 > 𝑃𝑟 𝐴 ∩ 𝐵 . Ma ciò non si verifica necessariamente. Può accadere che il manifestarsi di 𝑩 potrebbe non rappresentare un’informazione rilevante per l’osservatore. È il caso dell’estrazione con ripetizione, in cui 𝑃𝑟 𝐴|𝐵 = 𝑃𝑟 𝐴 , condizione che ci consente di affermare che l’evento 𝑨 è stocasticamente indipendente dall’evento 𝑩 La teoria assiomatica Probabilità condizionata Nel caso di indipendenza tra eventi, scriveremo pertanto 𝑃𝑟 𝐴 ∩ 𝐵 𝑃𝑟 𝐴|𝐵 = = 𝑃𝑟 𝐴 𝑃𝑟 𝐵 ⟹ 𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 𝑃𝑟 𝐵 In altri termini, nel caso di indipendenza tra eventi la probabilità dell’evento intersezione è data dal prodotto delle probabilità associate ai singoli sottoinsiemi che formano l’intersezione La teoria assiomatica Probabilità condizionata Esempio 8. Ipotizziamo che in una scuola ci siano 80 studentesse e 120 studenti. I 2 5 delle studentesse e 1 2 degli alunni portano gli occhiali. Se scegliamo 2 studenti in modo casuale fra tutti gli studenti della scuola, a quanto ammonta la probabilità che 1. il primo studente scelto porti gli occhiali? 2. il primo studente scelto sia un’alunna, sapendo che porta gli occhiali? 3. il secondo studente scelto porti gli occhiali, sapendo che il primo non li porta? In primo luogo, per visualizzare la situazione, è conveniente rappresentare la distribuzione degli studenti in base ai caratteri «genere» e «indossa occhiali» in una tabella a doppia entrata La teoria assiomatica Probabilità condizionata Avremo quindi che Tabella 2. Distribuzione degli studenti per genere e possesso di occhiali Ge ne re O cchiali Totale M F Sì 60 32 No 60 48 120 80 Totale 92 108 200 Abbiamo già una certa familiarità con questo tipo di rappresentazione, in quanto l’abbiamo già incontrata in analisi bivariata (si tratta di una tabella tetracorica, ricordate?) La teoria assiomatica Probabilità condizionata Risolviamo il primo quesito: la probabilità che il primo studente scelto estraendolo casualmente dal collettivo porti gli occhiali non è altro che il rapporto tra numero di studenti che portano gli occhiali (detto altrimenti, la cardinalità del sottoinsieme degli studenti che portano gli occhiali) sulla numerosità (cardinalità) del collettivo Formalmente, se indichiamo con 𝐴 il sottoinsieme degli studenti che portano gli occhiali, allora la probabilità che estraendo casualmente dal collettivo uno studente che porta gli occhiali sarà pari a #𝐴 92 𝑃𝑟 𝐴 = = = 0,46 𝑁 200 La teoria assiomatica Probabilità condizionata Occupiamoci del secondo quesito: la probabilità che il primo studente scelto sia un’alunna, sapendo che porta gli occhiali. Per noi il fatto di sapere che lo studente scelto casualmente porta gli occhiali è un’informazione rilevante? In linea di massima sì, poiché se sappiamo che porta gli occhiali, non siamo più interessati al collettivo nel suo complesso, ma concentriamo il nostro interesse sul sottoinsieme di studenti che indossano occhiali Su un piano operativo, questo significa considerare solo la prima colonna del quadro centrale (ciò che in precedenza abbiamo indicato come Ω𝐵 e che in questo caso dovremmo indicare come Ω𝐴 ). Se 𝐵 è il sottoinsieme del collettivo di genere femminile, potremo fare riferimento alla nozione di evento condizionato 𝐵|𝐴 e scrivere 𝑃𝑟 𝐵|𝐴 = 𝑃𝑟 𝐴 ∩ 𝐵 𝑃𝑟 𝐴 La teoria assiomatica Probabilità condizionata Al numeratore del rapporto figura la probabilità dell’evento intersezione 𝐴 ∩ 𝐵 = 𝑙𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 𝑝𝑜𝑟𝑡𝑎 𝑔𝑙𝑖 𝑜𝑐𝑐ℎ𝑖𝑎𝑙𝑖 𝒆 è 𝑑𝑖 𝑔𝑒𝑛𝑒𝑟𝑒 𝑓𝑒𝑚𝑚𝑖𝑛𝑖𝑙𝑒 , che ha cardinalità 32, mentre al numeratore del rapporto figura la probabilità dell’evento che uno studente scelto casualmente indossi occhiali, sottoinsieme che ha cardinalità 92, per cui nel complesso si avrà 𝑃𝑟 𝐵|𝐴 = 𝑃𝑟 𝐴 ∩ 𝐵 32 200 32 = = ≅ 0,348 𝑃𝑟 𝐴 92 200 92 La teoria assiomatica Probabilità condizionata In ultimo, la probabilità che il secondo studente estratto porti gli occhiali, sapendo che il primo non li porta, può essere ricavata semplicemente osservando che, una volta estratto il primo studente e accertato che non indossa occhiali, rimangono 199 studenti, di cui 92 portano occhiali e i 107 rimanenti (108 meno quello già estratto) no, per cui 𝑃𝑟 𝐵2 |¬𝐵1 = 92 ≅ 0,462 199