Assiomi della Probabilità 1. La probabilità di una qualunque ipotesi A è un numero reale non-negativo, i.e. P (A) ≥ 0 2. La probabilità di una qualunque verità necessaria T è 1, i.e. P (T) = 1 3. Se A e B sono mutuamente esclusive (A ∩ B = ∅ ) allora la somma delle loro probabilità eguaglia la probabilità della loro unione, i.e P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅ a) P (A) = 1 - P (Ā) b) P (∅ ) = 0 c) A ⊆ B ⇒ P (A) ≤ P (B) d) P (A ∪ B) = P (A) + P (B) - P (A ∩ B) Assiomi della Probabilità A B A∩B 4 La probabilità della congiunzione di A e B è data dal prodotto della probabilità condizionata P (A | B) e della probabilità di B, i.e. P (A ∩ B) = P (A | B) P (B) Probabilità Condizionata P (A | B) ≡ probabilità di A dato B; P (A ∩ B) ≡ probabilità che A e B si verifichino P (A ∩ B) ≠ P (A | B) Esempio: A = B P (A) = P (A ∩ A) ≤ P (A | A) = 1 i.e. “A dato A” è un evento certo indipendentemente dal valore di P (A) (anche se P (A) = 0) L’evento A | B può avere 3 valori: VERO (A = vero e B = falso) FALSO (A = falso e B = vero) INDETERMINATO (B = falso) Probabilità Condizionata P (A ∩ B) = P (A) P (B) Eventi indipendenti: ⇒ P (A | B) = P (A) P (B | A) = P (B) i.e., sapere che un evento si è verificato non altera la probabilità dell’altro. Invece, se P(A | B) ≠ P(A) gli eventi A e B sono correlati: positivamente se P (A | B) > P (A) negativamente se P (A | B) < P (A) Scambiando A e B nell’assioma 4, si ha: P (B ∩ A) = P (B | A) P (A) A∩B≡B∩A ⇒ P (A | B) P (B) = P (B | A) P (A) Teorema di Bayes Consideriamo tutte le possibili (mutuamente esclusive) ipotesi Hi che potrebbero influenzare un dato evento E → qual’è la probabilità di Hi sotto l’ipotesi dell’occorrenza di E ? i.e., avendo osservato un effetto, assegnare la probabilità di ciascuna delle cause che potrebbero averlo prodotto (= inferenza) Ipotesi Hi - mutuamente esclusive, i.e. Hi ∩ Hj = ∅ , ∀ (i, j) - esaustive, i.e. ∪i Hi = E= ∪i E ∩ Hi H1 Hi E H2 Hn Teorema di Bayes P (E) = P (∪i E ∩ Hi ) = ∑i P (E ∩ Hi ) = ∑i P (E | Hi) P (Hi) P (Hi | E) P (E) = P (E | Hi) P (Hi) teorema di Bayes P(Hi | E) = P (E | Hi) P (Hi) ∑i P (E | Hi) P (Hi) Phil. Trans. R. Soc. 53, 370 (1763); Biometrika 45, 293 (1958) Teorema di Bayes Espressioni alternative per il teorema di Bayes ripristinando P (E) P (Hi | E) P (Hi) = P (E | Hi) P (E) i.e. P (Hi) è alterato dalla condizione E con lo stesso rapporto con cui P (E) lo è dalla condizione Hi poiché il denominatore nell’espressione del teorema di Bayes è solo un fattore di normalizzazione che fa si che risulti ∑i P (Hi | E) = 1 è possibile riscrivere il teorema nella forma seguente: Teorema di Bayes P(Hi | E) ∝ P (E | Hi) P (Hi) questa forma del teorema mostra esplicitamente come la probabilità di una certa ipotesi è aggiornata a seguito del cambiamento dello stato di informazione P (Hi) = probabilità iniziale (a priori), i.e. la probabilità di Hi “prima” di sapere che si è verificato E P (Hi | E) = probabilità finale (a posteriori), i.e. la probabilità Hi “dopo” la nuova informazione P (E | Hi) = likelihood N.B. - nessun ordinamento temporale: prima e dopo si riferiscono alla considerazione o meno della nuova informazione Teorema di Bayes Causa = qualunque sorgente fisica in grado di produrre un dato osservabile, i.e. un effetto Likelihood indica la verosimiglianza che una causa produrrà un certo effetto Esempio: particella carica che attraversa materiale in cui rilascia una certa quantità d’energia Causa: tutte le possibili particelle che attraversano il rivelatore Effetto: quantità di energia persa Likelihood: probabilità che ciascuna delle particelle rilasci quella quantità d’energia Applicazioni del teorema di Bayes • Esempio 1: test per un certo virus influenzale P (virus) = 0.001 P (no virus) = 0.999 → probabilità a priori, i.e. prima di aver sostenuto il test Il test prevede 2 soli risultati: + / − P (+ | virus) = 0.98 P (− | virus) = 0.02 → probabilità dei 2 possibili risultati nel caso di persona infetta P (+ | no virus) = 0.03 P (− | no virus) = 0.97 → probabilità dei 2 possibili risultati nel caso di persona sana Il risultato del test è + → devo preoccuparmi ? Applicazioni del teorema di Bayes La probabilità di essere infetto dato un risultato + del test è: P (+ | virus) P (virus) P (virus | +) = P (+ | virus) P (virus) + P (+ | no virus) P (no virus) = 0.98 x 0.001 0.98 x 0.001 + 0.03 x 0.999 = 0.032 probabilità a posteriori la probabilità di essere infetto dato un risultato + del test è soltanto il 3.2 %, i.e. sono OK ! Risultato sorprendente ? NO, la probabilità a priori è molto piccola (0.1 %) Applicazioni del teorema di Bayes … e la probabilità di essere infetto dato un risultato − ? P (− | virus) P (virus) P (virus | −) = P (− | virus) P (virus) + P (− | no virus) P (no virus) = 0.02 x 0.001 0.02 x 0.001 + 0.97 x 0.999 … il test è affidabile ≅ 2.1 x 10-5 Applicazioni del teorema di Bayes • Esempio 2: 3 scatole con 2 anelli ciascuna, ma una contiene 2 anelli d’oro, in un’altra gli anelli sono entrambi di ferro e nell’ultima ci sono un anello d’oro e uno di ferro Si estrae un primo anello da una scatola il cui contenuto è incognito → supponiamo che l’anello sia d’oro Se voglio che anche il secondo anello sia d’oro è preferibile estrarlo dalla stessa scatola o da una scatola diversa ?? Applicazioni del teorema di Bayes E = anello di Au scatola A: Au-Au ⇒ P ( E | A) = 1 scatola B: Au-Fe ⇒ P ( E | B) = 1/2 scatola C: Fe-Fe ⇒ P ( E | C) = 0 Le probabilità iniziali, i.e. prima di aver estratto l’anello d’oro, per la scelta delle 3 scatole è (per simmetria): P (A) = P (B) = P (C) = 1/3 per cui (K = A, B, C) P (E) = ∑K P (E | K) P(K) = 1 x 1 3 + 1 2 x 1 3 + 0x 1 3 = 1 2 Applicazioni del teorema di Bayes P (E | A) P (A) P (A | E) = P (E) P (E | B) P (B) P (B | E) = P (E) P (C | E) = P (E | C) P (C) P (E) = = = 1 x 1/3 1/2 = 1/2 x 1/3 1/2 0 x 1/3 1/2 2 3 = 1 3 =0 S = anello successivo sarà d’oro se lo estraggo dalla stessa scatola P (S | E) = P (S | A,E) P (A | E) + P (S | B,E) P (B | E) + P (S | C,E) P (C | E) =1x 2 3 + 0x 1 3 + 0x0 = 2 3 Applicazioni del teorema di Bayes osservazioni sui 2 esempi Esempio 1 - probabilità utilizzate desunte da frequenze relative osservate studiando un campione di pazienti sotto osservazione → problema: cosa dire nel caso di un singolo paziente ? Inevitabile trasformazione (inconscia) frequenze → probabilità d’ipotesi, nel senso di quanto confidente sono nelle 2 ipotesi (sano o infetto ?) Esempio 2 - significato di P (A | E) = 2/3 e P (B | E) = 1/3 ? esistono solo 2 eventi: Au e Fe ! quali sono gli equiprobabili favorevoli e possibili casi ? se la probabilità è il rapporto tra questi numeri, in qualunque momento potrebbe esserci richiesto di elencare questi casi equiprobabili che servono per calcolarlo. Anche in questo, almeno intuitivamente, tutti interpretano 2/3 e 1/3 come quanto essere confidenti in ciascuna ipotesi analisi del concetto di probabilità Concetto di Probabilità 2 definizioni “standard” (da libro di testo): definizione combinatoria - rapporto tra il numeri di casi favorevoli e il numero totale dei casi … se tutti i casi sono equiprobabili → definizione circolare spesso si trova scritto: “se tutti i casi sono egualmente possibili” → soluzione ? NO, in tale contesto “possibile” ≡ “probabile” Questa definizione è, al più, una regola per calcolare la probabilità definizione frequentista - rapporto tra il numero di volte che l’evento si presenta nelle ripetizioni di un certo esperimento e il numero totale di prove Concetto di Probabilità Insoddisfacente per 2 motivi: a) non è detto che il numero di ripetizioni deve essere molto grande (→ ∞) b) definisce la frequenza relativa con cui l’evento è occorso nel passato che per essere usata come misura della probabilità richiede l’ipotesi che l’evento è occorso nel passato e occorrerà nel futuro con la stessa probabilità. N.B. - il punto a) è secondario, ma il punto b) è cruciale: chi può assicurarci che l’ipotesi sia valida? nessuno, siamo costretti a fare congetture in ogni singolo caso … in definitiva, che cos’è la probabilità ? Probabilità Soggettiva Dizionario Zingarelli probabilità - condizione, carattere di ciò che è probabile; probabile - credibile, verosimile, ammissibile in base a motivi e argomenti abbastanza sicuri probabile si contrappone a certo: se non possiamo affermare con sicurezza che un evento è vero/falso, diciamo che è possibile o probabile eventi diversi possono avere gradi di probabilità differenti a seconda se pensiamo che per essi è più verosimile essere veri o falsi, e.g dati due eventi E1 e E2 o considero E2 più probabile di E1 o sono più confidente in E2 o dovendo scommettere scelgo senza dubbio E1 Probabilità Soggettiva probabilità come misura della fiducia, del grado di confidenza, che riponiamo nel fatto che un certo evento si verificherà N.B. - l’uso del futuro non implica ordinamento temporale, ma sta ad indicare che l’affermazione sarà provata essere vera anche se si riferisce al passato (e.g. probabilità che il giorno della vostra laurea fosse soleggiato) La probabilità come atto di fede ?? … È una definizione utile ?? … Se riflette il nostro personale grado di fiducia, come è possibile basare su essa una logica oggettiva d’inferenza induttiva ?? … Le definizioni combinatoria e frequentista, se non altro, forniscono regola per calcolare qualcosa. E quella soggettiva ?? La definizione necessita indubbiamente di alcune spiegazioni … ma già così presenta indubbi vantaggi Probabilità Soggettiva naturale, (molto) generale e applicabile a qualunque evento indipendentemente dalla possibilità di: costruire un elenco di tutti i casi possibili e favorevoli ripetere gli esperimenti sotto condizioni di equiprobabilità non richiede distinzione tra la probabilità “scientifica” e quella “non-scientifica” (i.e. quella usata nella vita di tutti i giorni) nel caso di misure, consente di parlare della probabilità del valore vero di una quantità (teoria) fisica N.B. - nell’approccio frequentista si può parlare solo della probabilità di un risultato sperimentale: il valore vero è una costante Consente teoria generale dell’incertezza che tiene conto di qualunque sorgente d’errore statistico e sistematico Gioco di de Finetti Un vostro studente afferma di essere sicuro al 100 % di aver superato con successo il test di Matematica Come fare per stabilire quanto lo studente sia veramente sicuro di essere andato bene ? gioco di de Finetti: serie di domande volte a valutare il grado di fiducia p che lo studente ripone nell’affermazione “test perfetto” (= probabilità soggettiva) Strumenti (virtuali) del gioco: scatola con R palle rosse e B palle blu (R + B = 100) una posta S in denaro, e.g. 1 M€ Gioco di de Finetti Si propongono allo studente 2 alternative: A = aspettare il risultato del test, se prende il massimo vince S E = estrarre una palla dalla scatola, se prende una palla R vince S 1. A E (R = 98) ⇒ p ≤ 0.98 2. A E (R = 80) ⇒ 0.8 < p ≤ 0.98 3. A E (R = 90) ⇒ 0.8 < p ≤ 0.9 4. A E (R = 85) ⇒ 0.8 < p ≤ 0.85 5. A E (R = 83) (i.e. scelta indifferente) p = 0.83 Teorema Ramsey-de Finetti Scommessa che prevede che una parte (A) sia disposta a scambiare con l’altra (B) una certa somma pS con l’opportunità di ricevere: • una somma S (≠ 0) se una certa ipotesi H è vera • 0 se l’ipotesi H è falsa somme incassate dai due contraenti: H A B vera S - pS pS - S falsa -pS pS Ipotesi: p è tale che la scommessa è leale, i.e. non c’è alcun vantaggio a scegliere uno o l’altro lato della scommessa → p = grado di confidenza in H N.B.- p < 1 (scommessa coerente): chi scommetterebbe con p > 1 ?? Teorema Ramsey-de Finetti Insieme finito di ipotesi arbitrarie Hi con gradi di confidenza pi → Strategia di gioco rispetto alle Hi è un insieme di decisioni della forma: scommetti a favore (o contro) ciascuna Hi Teorema: se le pi non soddisfano gli assiomi della probabilità, allora esistono poste Si e una strategia di gioco per le Hi che necessariamente comportano una perdita certa per chiunque segua questa strategia, i.e. le scommesse non sono tutte leali Esempio: assioma 2 (i.e. P (T) = 1) p = P (T) > 1 → poiché T è necessariamente vera chi scommette su T ha una perdita garantita pari a pS - S p = P (T) < 1 → chi scommette contro T ha una perdita garantita pari a S - pS i.e. in entrambi i casi una o l’altra parte perdono con certezza → nessun valore p ≠ 1 può essere leale Teorema Ramsey-de Finetti … i gradi di confidenza possono essere personali ma non sono infondati o anarchici: devono soddisfare gli assiomi della probabilità … gioco d’azzardo e fisica: quale legame ?? La definizione della probabilità tramite le puntate delle scommesse è operativa, sebbene non ci sia alcun bisogno di fare una scommessa (con chi ?) ogni volta che viene presentato un risultato. Lo scopo della scommessa è di costringere a un’assegnazione onesta della probabilità. Il fatto che la procedura operativa non sia da prendere alla lettera non deve suscitare scandalo, basti pensare alla definizione di sostanza chimica velenosa: qualcosa che è letale se ingerita … anche se rappresenta la migliore definizione possibile del concetto, è meglio mantenere questa definizione operativa a livello ipotetico. Statistica Bayesiana probabilità soggettiva + teorema di Bayes = statistica Bayesiana A = ipotesi che una certa teoria sia vera B = ipotesi che un esperimento darà un certo risultato, i.e. dei dati teorema di Bayes assume la forma: P (teoria | dati) ∝ P(dati | teoria) P (teoria) probabilità a posteriori che la teoria è corretta dopo aver osservato il risultato dell’esperimento probabilità, sotto l’assunzione della teoria, di osservare i dati effettivamente ottenuti probabilità a priori che la teoria sia vera Statistica Bayesiana … ancora l’esempio del test influenzale punto di vista del virologo, i.e. di chi studia un gran numero di potenziali portatori del virus → probabilità come frequenze relative (frequentista): P (virus) = frazione f di persone infette; P (virus | +) = frazione di persone che sono infette tra quelle per le quali il test è + punto di vista del paziente, i.e. del singolo che si sottopone al test → se nessun altra info è disponibile si assume: P (virus) = f, i.e. come nel caso frequentista, ma interpretandola come grado di confidenza dell’ipotesi ‘infetto’ prima di eseguire il test. altre info a disposizione probabilità a priori differenti potrebbero essere assegnate (aspetto soggettivo della statistica bayesiana) Una volta assegnata P (virus), però, il teorema di Bayes ci dice come la probabilità di avere il virus, i.e. il grado di confidenza in questa ipotesi, cambia alla luce del risultato + del test se Statistica Bayesiana Esempio 3 - C’è da lavare i piatti dopo cena. Il vostro partner propone di lasciar decidere alla sorte: lava i piatti chi estrae dal mazzo la carta più bassa. Voi accettate e perdete … La cosa si ripete nei giorni successivi: tocca sempre a voi lavare i piatti … Qual è la probabilità che il vostro partner cominci a barare al crescere del numero n di vittorie consecutive ? • B = il partner è un baro Le ipotesi sono 2: • O = il partner è onesto P (B) è bassa (è pur sempre dell’uomo/donna della vostra vita …) ma ≠ 0: assumiamo P (B) = 0.05 assumiamo (per semplificare) che un baro vince sempre: P (Sn | B) = 1 assumiamo che la chance di vittoria ad ogni prova è 1/2 → probabilità di vittoria se onesto è: P (Sn | O) = 1/2n Statistica Bayesiana P (Sn | B) P (B) P (B | Sn) = = P (Sn | B) P (B) + P (Sn | O) P (O) 1 x 0.05 1 x 0.05 + 0.95 x 2-n n P (B | Sn) (%) P (O | Sn) (%) 1 9.5 90.5 2 17.4 82.6 3 29.4 70.6 4 45.7 54.3 5 62.7 37.3 Statistica Bayesiana La risposta è sempre probabilistica: non potete mai essere completamente certi che il vostro partner sia un baro … Ciò è coerente con il fatto che stiamo trattando eventi casuali e con il fatto che qualunque sequenza di risultati ha la stessa probabilità (sebbene ci sia solo 1 possibilità su 2n che il vostro partner sia sempre il più fortunato). In base al valore di P (B | Sn), voi potete decidere come agire: • continuare il gioco, con probabilità P (B | Sn) di perdere certamente alla prossima estrazione • smettere di giocare, con probabilità P (O | Sn) di offendere il vostro innocente partner P (B) = 0 → la probabilità finale rimane sempre = 0, i.e. se voi credete ciecamente nell’onesta del vostro partner, allora dovete solo registrare il verificarsidi un evento raro al crescere di n. Statistica Bayesiana dipendenza della probabilità finale da quella iniziale per un dato numero n di vittorie P (B) (%) P (B | Sn) (%) n=5 n = 10 n = 15 n = 20 1 24 91.1 99.7 99.99 5 63 98.2 99.94 99.998 10 78 99.1 99.97 99.999 50 97 99.9 99.997 99.9999 • al crescere del numero di osservazioni sperimentali la conclusione (i.e. la probabilità a posteriori) diviene indipendente da quella a priori • i risultati sono stabili rispetto a variazioni ragionevoli della probabilità a priori (cfr. i casi P (B) = 5 %, 10 %) Referenze Tutti gli argomenti sono trattati con maggiore ampiezza e profondità nel libro di Giulio D’Agostini, “Bayesian Reasoning in Data Analysis”, World Scientific (2003) Il libro è il culmine del lavoro decennale dell’autore nell’ambito della analisi dei dati nella Fisica delle Particelle Elementari. Traccia di tutta questa attività è reperibile sul sito web www.roma1.infn.it/˜dagos