Laboratorio di Strumentazione e Misura Cesare Bini Corso di laurea in Fisica Anno Accademico 2006-2007 1 Questi appunti sono basati sulle lezioni del modulo di Laboratorio di Strumentazione e Misura del primo anno delle lauree triennale in Fisica, Fisica e Astrofisica e Fisica e Tecnologie Informatiche da me tenute negli anni accademici a partire dal 2002-2003 all’Università “La Sapienza” di Roma. Si tratta del primo modulo di laboratorio, al quale seguono nei trimestri successivi altri quattro moduli di laboratorio con contenuti più specifici (Meccanica, Termodinamica, Elettromagnetismo e Ottica). Il modulo si propone di fornire agli studenti gli strumenti di base per la comprensione del linguaggio della fisica sperimentale con particolare riferimento al problema dell’elaborazione e dell’analisi dei dati sperimentali. In questi appunti, dopo una breve introduzione sul significato del metodo sperimentale, ci si concentra nel primo capitolo sul concetto elementare di misura in fisica. In questo primo capitolo le idee e le nozioni sono fornite esclusivamente su base intuitiva, senza formalismi matematici e senza alcuna pretesa di completezza e di esaustività. Nel secondo capitolo si entra nella teoria della probabilità, o meglio, in quella parte della teoria della probabilità e delle variabili casuali che risulta fondamentale per la comprensione dei risultati degli esperimenti di fisica. Gli argomenti di questa parte sono trattati con maggior rigore, e vengono utilizzati alcuni formalismi matematici più evoluti che gli studenti stanno apprendendo nei corsi paralleli di matematica. In alcuni casi, dove é necessario, sono forniti dei semplici complementi di matematica, trattati però sempre con l’attitudine del fisico sperimentale che, come lo studente avrà modo di vedere é diversa da quella del matematico. Nel terzo capitolo infine con l’ausilio degli strumenti di teoria della probabilità e delle variabili casuali trattati in precedenza, vengono ripresi i problemi impostati all’inizio del corso per fornire dei metodi statistici di risoluzione di cui sarà ora chiaro il fondamento. L’obiettivo é acquisire il modo di analizzare i dati degli esperimenti per trarne delle conclusioni scientificamente ben fondate. Ciascuno dei tre capitoli é corredato da una serie di esercizi per i quali alla fine sono illustrate e discusse le soluzioni. Si tratta di esercizi in tutto analoghi a quelli che vengono dati sia nella prova scritta finale che nelle cosiddette “prove in itinere”, e costituiscono una parte fondamentale del corso. La conoscenza e la padronanza dei metodi di analisi dei dati sperimentali costituisce non solo un bagaglio fondamentale per quegli studenti che si avvieranno alla ricerca scientifica, ma é anche estremamente importante per tutti quei laureati che si avvieranno al lavoro nell’industria o in altri settori, per i quali comunque sarà cruciale la capacità di trarre delle conclusioni fondate a partire da un insieme di dati qualunque sia l’origine di questi. 2 (0) Il metodo scientifico.....................................................................................................5 (1) La misura di una grandezza fisica ..............................................................................9 (1.1) Grandezze fisiche, unità di misura e dimensioni fisiche. ............................................................9 (1.1.1) L’unità di tempo. ................................................................................................................10 (1.1.2) L’unità di lunghezza...........................................................................................................10 (1.1.3) L’unità di massa. ................................................................................................................11 (1.1.4) Sistemi di unità di misura...................................................................................................11 (1.2) Il concetto di incertezza di misura.............................................................................................13 (1.3) Esempi di valutazioni “qualitative” di incertezza ....................................................................15 (1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento........................................15 (1.3.2) Caso dei conteggi. ..............................................................................................................16 (1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. .........................17 (1.3.4) Analisi grafica della sequenza di numeri. ..........................................................................17 (1.3.5) Caratteristiche riassuntive di una sequenza di numeri .......................................................22 (1.3.6) Stima di intervalli. ..............................................................................................................25 (1.3.7) Errori sistematici ................................................................................................................26 (1.4) Sequenze di “coppie” di misure ................................................................................................27 (1.5) Terminologia .............................................................................................................................30 (1.6) Cifre significative ......................................................................................................................30 (1.7) Caso di misure indirette: cenni alla propagazione.....................................................................33 (1.8) Nozione di significatività ..........................................................................................................34 (1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. .......................................37 (1.9.1) La scala quadratica. ............................................................................................................37 (1.9.2) La scala logaritmica............................................................................................................38 Esercizi relativi al Capitolo (1) ..........................................................................................................42 (2) La probabilità e le variabili casuali ...........................................................................46 (2.1) Concetto di probabilità ..............................................................................................................46 (2.2) Alcuni metodi di calcolo ...........................................................................................................46 (2.3) Regole della teoria delle probabilità.........................................................................................47 (2.3.1) Spazio degli eventi .............................................................................................................47 (2.3.2) Eventi composti..................................................................................................................48 (2.3.3) Definizione assiomatica della probabilità ..........................................................................48 (2.3.4) Probabilità condizionata .....................................................................................................48 (2.3.5) Alcune proprietà delle probabilità......................................................................................49 (2.3.6) Il teorema di Bayes.............................................................................................................50 (2.4) Il Calcolo Combinatorio............................................................................................................51 (2.5) Variabili casuali.........................................................................................................................53 (2.5.1) Considerazioni generali......................................................................................................53 (2.5.2) Distribuzioni di probabilità di variabili casuali..................................................................54 (2.5.3) Variabili discrete. ...............................................................................................................55 (2.5.4) Variabili continue ...............................................................................................................55 (2.5.5) Momenti di una distribuzione.............................................................................................58 (2.5.6) Densità di probabilità di una funzione di variabile casuale................................................59 (2.5.7) La media e la deviazione standard come variabili casuali .................................................60 (2.6) Variabili casuali notevoli...........................................................................................................61 (2.6.1) Distribuzione uniforme.......................................................................................................61 (2.6.2) La distribuzione binomiale.................................................................................................63 (2.6.3) Il processo di Poisson: limite del processo di Bernoulli. ...................................................66 (2.6.4) Il processo di Poisson: definizione generale. .....................................................................69 (2.6.5) La distribuzione di Gauss ...................................................................................................71 (2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.............................74 3 (2.7) Proprietà notevoli delle variabili casuali ...................................................................................77 (2.7.1) Contenuto di probabilità di intervalli di variabili casuali...................................................78 (2.7.2) Il teorema del limite centrale..............................................................................................78 (2.7.3) Limite gaussiano.................................................................................................................80 (2.8) Variabili casuali multiple. .........................................................................................................81 (2.8.1) Impostazione del problema ................................................................................................81 (2.8.2.) Probabilità congiunta e covarianza....................................................................................82 (2.8.3) Calcolo di E[y] e Var[y].....................................................................................................83 (2.8.4) Propagazione delle incertezze ............................................................................................84 Esercizi relativi al Capitolo (2) ..........................................................................................................88 (3) Introduzione all’inferenza ..........................................................................................92 (3.1) Introduzione “formale” all’inferenza ........................................................................................92 (3.1.1) Considerazioni generali......................................................................................................92 (3.1.2) L’inferenza bayesiana.........................................................................................................93 (3.1.3) Il principio di massima verosimiglianza ............................................................................94 (3.2) Inferenza sul valore vero ...........................................................................................................94 (3.2.1) Caso di una singola misura.................................................................................................94 (3.2.2) Caso di una misura ripetuta N volte. ..................................................................................95 (3.2.3) Caso dei conteggi poissoniani. ...........................................................................................97 (3.2.4) Caso dei conteggi binomiali. ..............................................................................................98 (3.2.5) La “barra di incertezza”......................................................................................................99 (3.3) Misure indirette: la propagazione delle incertezze....................................................................99 (3.3.1) Riformulazione del problema.............................................................................................99 (3.3.2) Propagazione delle incertezze ..........................................................................................100 (3.4) Nozione di consistenza e significatività: test d’ipotesi ...........................................................100 (3.4.1) Consistenza tra risultati di esperimenti ............................................................................101 (3.4.2) Consistenza tra esperimento e modello ............................................................................102 (3.4.3) Combinazione di diverse misure: la media pesata. ..........................................................102 (3.5) Analisi delle dipendenze funzionali: il fit ...............................................................................103 (3.5.1) Il fit: formulazione del problema......................................................................................103 (3.5.2) Ipotesi di lavoro................................................................................................................104 (3.5.3) Il fit: derivazione delle formule per le stime dei parametri..............................................105 (3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza ..................................108 (3.5.5) Valutazione della bontà del fit: test del χ2. ......................................................................111 (3.5.6) Caso particolare: test della consistenza tra N misure indipendenti ..................................116 (3.5.7) Il fit: come farlo operativamente ......................................................................................116 (3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui ...............................117 Esercizi relativi al Capitolo (3) ........................................................................................................120 Soluzione degli esercizi proposti. ................................................................................124 4 (0) Il metodo scientifico Qual é l’oggetto della scienza naturale ? La scienza si occupa dei fenomeni naturali vale a dire di tutte quelle cose che osserviamo accadere, di quelle manifestazioni della natura, che “entrano in relazione” con i nostri sensi, e che noi consideriamo rilevanti e degne di essere studiate. In particolare, anche la fisica studia tali “manifestazioni”. E’ difficile circoscrivere con chiarezza il campo di indagine della fisica rispetto ad altre discipline quali la chimica o la biologia (e in effetti esistono discipline di confine quali la chimica fisica e la biofisica). In modo generale e forse discutibile, si può dire che la fisica si distingue dagli altri settori di indagine, per il fatto di studiare i fenomeni nelle loro manifestazioni più “elementari” o “fondamentali”, ovvero per il fatto di occuparsi dei sistemi più semplici esistenti in natura. Il metodo con cui in fisica vengono studiati i fenomeni naturali si colloca entro il quadro più vasto del metodo scientifico, una grande costruzione di pensiero e di esperienza sviluppata nel corso degli ultimi secoli. La fisica fa proprio il metodo scientifico, con alcune specificità dovute al tipo di problemi che devono essere affrontati. A cosa serve dunque il corso di laurea in fisica ? La cosa principale che gli studenti di fisica imparano é proprio il metodo della fisica, l’apprendimento del quale é in un certo senso ancora più importante della conoscenza delle leggi fisiche stesse. Il metodo fornisce, infatti, l’atteggiamento con cui il fisico si pone nello studio dei fenomeni naturali, costituisce un modo di indagine della realtà, un approccio ai problemi. Vediamo quali sono gli aspetti caratteristici di questo metodo. Nella storia del pensiero ci sono stati due atteggiamenti di fronte alla complessità della realtà fisica: (a) L’Empirismo (il cui metodo d’indagine caratteristico é detto induzione) e (b) il Razionalismo (per il quale si ha il metodo detto della deduzione). Per esemplificare questi 2 approcci prendiamo un esempio preso a prestito dalla vita quotidiana. Tutti noi scegliamo di comportarci in un certo modo in base alle informazioni che abbiamo. A che ora usciamo di casa la mattina per arrivare all’università’ prima delle 9 ? Lo studente 1 affronta il problema con il seguente approccio. Fa diverse prove: un giorno esce alle 7 un giorno alle 7:30 poi alle 8 ed infine alle 8:30. Ripete in giorni diversi queste prove e alla fine osserva che se esce alle 7:30 impiega 15 minuti, se esce alle 8 impiega di più e così via. Da tali osservazioni “conclude” che l’orario migliore per uscire é uno dei tanti provati. Da ciò trae in definitiva la sua regola di comportamento. Lo studente 2 invece sulla base del fatto che le scuole aprono alle 8, gli uffici alle 9 “deduce” che é meglio uscire alle 7:30 (senza impiegare diverse settimane a fare delle prove). E’ chiaro che si tratta di un esempio di empirista (lo studente 1) e di razionalista (lo studente 2). Quale dei due approcci é quello proprio del metodo scientifico ? In realtà non lo é nessuno dei due, o meglio, lo scienziato usa ambedue i metodi, li combina. In questo consiste la sintesi propria del metodo scientifico, che si suole anche indicare come sintesi galileiana ricordando il nome di Galileo che fu il primo a formularne gli aspetti salienti nei suoi scritti: osservazione e teoria sono intimamente legate tra loro, in un certo senso “si guidano a vicenda”. Il metodo scientifico moderno nasce da questa sintesi. L’osservazione della natura non é un puro e semplice catalogare fatti o fenomeni (che é viceversa proprio dell’empirismo puro). Attraverso l’osservazione lo scienziato vuole in realtà cogliere il “meccanismo” che regola i fenomeni e pertanto tende a “selezionare” le osservazioni da fare e, al tempo stesso, tende ad “inventare un linguaggio” con il quale riesce a parlare in modo chiaro dei fenomeni naturali che osserva. La comprensione dei “meccanismi” della natura é infatti molto più potente della pura e semplice osservazione di come si svolgono le cose. Non solo, tale comprensione “spinge” ad altre osservazioni e pertanto la conoscenza che si acquisisce diventa la base per acquisizioni di conoscenze successive. 5 Gli ingredienti fondamentali del metodo scientifico sono dunque da un lato gli esperimenti e dall’altro i modelli teorici. Sono due elementi che si muovono di pari passo condizionandosi a vicenda. Vediamo di chiarirne il significato. - Fare un esperimento significa fare una domanda alla natura. Si noti la differenza che c’è tra esperimento (processo attivo) e semplice osservazione (processo passivo). La domanda che l’esperimento pone, deve essere ben posta. Quello dell’esperimento é un procedimento chiaramente induttivo. Sul piano logico il processo é il seguente: se osservo che una cosa si svolge in un certo modo in una data circostanza, passo dal particolare al generale: quella cosa in quelle condizioni si svolge sempre in quel modo. Per esempio se io osservo che un dato materiale ha una certa proprietà (esempio, il rame é conduttore), io “induco” che tutto il rame é conduttore. Per dire questo dovrei prendere tutto il rame del mondo anzi dell’universo e misurarlo. Ma non é necessario farlo. Facciamo un’osservazione: il fatto che la ripetizione di un dato esperimento fatto da persone diverse in tempi diversi con apparati diversi porti a risultati che sono tutti “generalmente compatibile”, é un fatto per nulla banale, ma é ciò che effettivamente accade. In altre parole la Natura risponde allo stesso modo ad osservatori diversi, quando la domanda é posta ugualmente bene. Quando ciò accade, si dice che siamo in condizioni di riproducibilità. Quando non accade normalmente vuol dire che la domanda é mal posta, l’esperimento é fatto male. In questo, troviamo un primo aspetto dell’oggettività che rende fattibile l’indagine scientifica. - Che cos’è invece un modello teorico? Il modello si sviluppa quando vengono individuati i termini che descrivono il fenomeno (gli elementi del “linguaggio”) e le relazioni che li collegano. A questo punto posso “dedurre” le caratteristiche di altri fenomeni. Posso cioè fare predizioni. Si tratta di un procedimento chiaramente deduttivo. Da assiomi generali deduco conseguenze osservabili. Un modello, potremmo dire, “inventa un linguaggio” con il quale é possibile parlare di quel fenomeno e predire le proprietà di altri fenomeni a questo collegati. Seconda osservazione: il fatto che i nostri modelli descrivono bene i risultati degli esperimenti é un secondo fatto per nulla ovvio, ma é anch’esso vero. Si tratta di un altro aspetto dell’oggettività di cui si diceva. Gli uomini riescono a creare un linguaggio comune per descrivere la natura. Una persona intelligente riesce a capire questo linguaggio, e si rende conto presto che funziona. Per poter apprezzare il modo con cui la scienza si sviluppa, é fondamentale vedere i tanti esempi che la storia della scienza ci fornisce. Tra i tanti che saranno discussi in tutti i corsi del seguito degli studi, accenniamo solo brevemente al caso della meccanica: dall’osservazione dei corpi in moto (di alcuni corpi in moto non di tutti i moti possibili) Newton “induce” la legge del moto che costituisce la regola fondamentale del “linguaggio” dei fenomeni di corpi in moto. Una volta stabilito il linguaggio della meccanica fu possibile dedurre predizioni di altri fenomeni che in seguito, esperimenti tecnologicamente sempre più evoluti hanno sottoposto a test sempre più accurati. Questo progresso nell’accuratezza degli esperimenti ha portato infine a mostrare che il linguaggio della meccanica doveva essere modificato per poter descrivere fenomeni in certe particolari condizioni. La forza del metodo scientifico sta essenzialmente nel suo successo. Il successo della meccanica, della termodinamica e dell’elettromagnetismo nell’arco di meno di 3 secoli sono una testimonianza straordinaria di ciò. Facciamo ora un passo avanti. Infatti finora abbiamo parlato in modo generico di osservazioni e modelli. In realtà sappiamo bene che sia gli esperimenti che i modelli hanno a che fare con i numeri e più in generale con le regole della matematica. D’altra parte gli studenti del primo anno sanno bene che sono invitati a studiare la matematica. Cerchiamo di capire il perché. Nell’esperimento le sensazioni umane sono “quantificate”. In altre parole sono sostituite da numeri che appunto rendono quantitativa una sensazione che altrimenti sarebbe solo qualitativa. Dire che un corpo é più caldo di un altro costituisce una affermazione ben definita e non ambigua. Tuttavia é 6 un’affermazione povera di contenuto. Per rendere più efficace la sensazione si mette in atto un processo di quantificazione che chiamiamo processo di misura di una grandezza fisica. Al termine dell’esperimento ho dunque un insieme di numeri, che rappresentano i risultati delle misure della o delle grandezze fisiche rilevanti per la descrizione del fenomeno che sto studiando. Il modello esprime relazioni tra tali grandezze fisiche. Si tratta delle leggi fisiche. Il confronto tra i risultati delle misure e tali legge permette di stabilire se il modello descrive correttamente il fenomeno. Nel contesto del metodo scientifico il ruolo della matematica risulta decisivo sia negli esperimenti che nella teoria. Infatti: Æ La usiamo per sviluppare i modelli e definire il linguaggio per la loro caratterizzazione. Il dedurre é matematico. Il settore principe della matematica applicata alla fisica é l’analisi (calcolo infinitesimale) che, infatti, nacque proprio dall’esigenza di fornire uno strumento di calcolo adeguato alla descrizione della fisica. Æ Ma la dobbiamo usare per “trattare” in modo coerente i risultati delle misure che compongono qualsiasi esperimento. In questo caso il concetto di probabilità diventa molto importante perché si vede che gli esperimenti si lasciano descrivere da teorie probabilistiche. Accanto alla teoria della probabilità si colloca la statistica la disciplina che studia da un lato, le modalità con cui descrivere le proprietà di un insieme di dati (statistica descrittiva) e dall’altro come a partire dai dati si può trarre conclusioni sui valori delle grandezze fisiche (statistica inferenziale). (1) (2) (3) (4) (5) (6) Cosa facciamo noi in questo corso ? Nell’ambito dei corsi di laurea in fisica, il corso di laboratorio ha un ruolo estremamente rilevante. Si tratta infatti di imparare un “mestiere”: il mestiere dello sperimentatore. E’ un lavoro ben definito con le sue caratteristiche. Schematizzando potremmo dire che il lavoro dello sperimentatore si sviluppa nei seguenti passi, ciascuno del quali richiede una certa propensione: pensare a quale é l’esperimento giusto da fare (domanda alla natura); conoscere la fisica pensare a come farlo; conoscere la tecnologia montarlo e mettere in funzione l’apparato di misura; abilità manuale e organizzativa fare la misura con tutti i controlli essenziali; attenzione e cura analizzare i risultati e trarne delle conclusioni; usare i metodi della statistica comunicare queste conclusioni al mondo scientifico; chiarezza e sintesi comunicativa. È importante sottolineare la varietà e la complessità del lavoro dello sperimentatore, per il quale sono necessarie attitudine normalmente considerate molto diverse (per esempio la manualità e l’attitudine all’astrazione). Si tratta di un lavoro molto bello per il quale vale la pena impegnarsi (ma questa é una mia valutazione personale). In questo corso inizieremo un percorso articolato in più moduli per imparare a fare tutte queste cose (1)-(6). In questo modulo ci occuperemo prevalentemente dei punti (5)-(6) (discutendo i metodi di analisi dei dati) ma anche un po’ (3) e (4) (quando andremo in laboratorio). Nei moduli successivi vedremo meglio (2)-(3)-(4). (1) ha a che fare con la conoscenza della fisica e dunque ha a che fare con tutto ciò che sarà discusso nel corso di laurea in Fisica. Alcune considerazioni pratiche: Ruolo del Calcolatore: per un primo approccio efficace all’attività sperimentale é meglio usarlo il meno possibile. Il calcolatore é infatti uno strumento essenziale ma spesso finisce per impedire una comprensione profonda di quello che si sta facendo. Bisogna sempre evitare di fare le cose “ad occhi chiusi”, fidandosi ciecamente di un programma che qualcun altro ha fatto. Almeno una volta bisogna aver fatto un’analisi con “carta e penna” per poter usare in modo critico ed efficace un prodotto informatico. 7 Ruolo della Calcolatrice: sapere usarla al meglio (una calcolatrice scientifica con le operazioni matematiche fondamentali come le funzioni trigonometriche, i logaritmi, la notazione esponenziale). Ruolo della matematica: ad un certo punto dovremo usare alcune nozioni elementari di analisi quali la derivata e l’integrale. Per il resto si cerchierà di rendere i vari concetti in modo semplice ed intuitivo. Ruolo del log-book (quaderno) e delle relazioni: é molto importante imparare a descrivere quello che si sta facendo e che si é fatto in modo utile e chiaro. Nel log-book é bene riportare sempre tutto quello che si fa. Il suo ruolo é quello di poter sempre ricostruire quello che si é fatto in quel dato giorno. Le relazioni devono invece essere sintetiche e devono dare al lettore le informazioni rilevanti e non dare quelle irrilevanti. Lavoro di gruppo: é importante imparare a lavorare in gruppo collaborando. Sono sempre più rari coloro che fanno ricerca scientifica da soli. Quasi sempre la ricerca, ed in particolare quella sperimentale é un lavoro di gruppo. 8 (1) La misura di una grandezza fisica Abbiamo visto che un esperimento é riconducibile ad una o più misure. Vediamo ora di delineare la logica del processo di misura. Individuiamo i seguenti passi logici. (0) Associo ad ogni “elemento” (potremmo anche dire sensazione) che partecipa al fenomeno una grandezza fisica; (chiamo temperatura la sensazione di caldo/freddo, tempo la sensazione di eventi che si succedono, lunghezza la sensazione di spaziatura tra 2 posizioni, corrente la sensazione di “scossa elettrica”) (1) stabilisco come associare un numero a tale grandezza; questo processo costituisce la definizione operativa della grandezza, cioè lo stabilire il principio ed il metodo della misura; (2) infine effettuo la misura e dunque ottengo il numero. La definizione operativa presuppone un principio di misura cioè l’esistenza di un fenomeno fisico e di un modello teorico che usiamo per trattare questo fenomeno. Si tratta pertanto di misure che hanno significato solo nell’ambito di un modello. Anche la misura del peso con una bilancia, apparentemente elementare, si fonda sul fatto che si ha equilibrio statico tra la forza di richiamo di una molla e la forza peso; il funzionamento del termometro si fonda sulla nostra descrizione della dilatazione termica dei corpi e così via. In altri casi il principio di misura é più elementare. Per esempio se si tratta di contare il numero di oggetti o il numero di volte in cui é accaduta una certa cosa, la misura fa riferimento alla nozione di numerabilità degli oggetti, così come la misura di lunghezza effettuata con un metro si basa sul confronto tra 2 oggetti, il tavolo ed il metro. Si tratta di operazioni che fanno riferimento a procedimenti elementari (la numerabilità, il confronto) che sono insiti nella nostra intelligenza. Tutti gli esempi fatti appartengono alla classe delle misure dirette cioè di misure di una grandezza fisica che si fanno con un metodo di misura ben definito per quanto complicato. Esistono poi le misure indirette che si hanno quando combino, secondo una relazione che appartiene al mio modello, diverse misure dirette di grandezze diverse. Nel caso della velocità nella maggioranza dei casi faccio v = s / t non misuro direttamente v, anche se uso un tachimetro: vengono misurate separatamente s e t e poi viene fatto il rapporto. Oppure posso usare uno strumento per misurare una grandezza e poi ricavarne un’altra moltiplicandola per dei numeri noti da misure precedenti. In ogni caso le misure vengono effettuati con gli strumenti di misura, che possono essere “acquistati” ed utilizzati “chiavi in mano” previa lettura del libretto di istruzioni, oppure possono essere preparati dallo sperimentatore (ciò é quanto in genere fanno o preferirebbero fare la gran parte dei fisici). In ogni caso é molto importante conoscere le caratteristiche degli strumenti che si utilizzano. (1.1) Grandezze fisiche, unità di misura e dimensioni fisiche. Consideriamo le misure dirette: si tratta di confrontare la cosa che misuriamo, che chiameremo in generale il misurando, con un “esemplare” della stessa grandezza di cui conosciamo il valore numerico. Esempio: quando misuro la temperatura con il termometro, la scala del termometro é graduata in gradi centigradi (detti Celsius o scala Celsius). Sappiamo che quando la colonnina del mercurio raggiunge una certa posizione, quella condizione corrisponde ad una data temperatura. Quella condizione é l’esemplare con cui mi confronto. Il grado centigrado é invece l’unità di misura della grandezza in esame (la temperatura in questo caso). Analogamente la posizione dell’ago della bilancia o il numero sul display di un cronometro digitale, costituiscono gli esemplari delle grandezze con cui confronto il misurando, mentre il kg e il secondo sono le unità di misura (che compaiono nelle scale degli strumenti). Specifichiamo ora che cos’è un’unità di misura. Cosa vuol dire esprimere un peso in kg ? Significa assumere che da qualche parte esiste un “misurando particolare” arbitrariamente detto kilogrammo, che tale misurando particolare é stabile e ben definito, e che quindi noi esprimiamo tutti i nostri pesi come multipli o sottomultipli di quel misurando particolare. Naturalmente per una data grandezza posso usare unità diverse. Per esempio le lunghezze sono in km in Europa e in miglia negli USA. Le 9 temperature sono in gradi Celsius in Europa e in gradi Fahrenheit negli USA. E’ fondamentale “mettersi d’accordo” sulle unità di misura. Dall’’800 si procede verso la standardizzazione delle unità (si tratta di una delle poche eredità utili del positivismo ottocentesco). Vi é una branca molto importante della fisica che si chiama metrologia che fa questo lavoro. Per procedere alla standardizzazione di cui si é detto, é fondamentale disporre di campioni di riferimento (i misurandi particolari di cui si é detto sopra appunto) internazionalmente riconosciuti delle varie grandezze che siano sempre “meglio definiti”. Una volta creati questi campioni, l’uso di uno strumento sarà possibile solo dopo che lo strumento stesso sarà stato “applicato” al campione di riferimento. Quindi per esempio supponiamo che da qualche parte vi sia il campione di lunghezza (1 metro). Devo portare lì il mio regolo (o righello o metro da sarta o calibro o qualunque altro strumento per misure di lunghezza) e fare in modo che “applicato” al campione di riferimento indichi 1. Analogamente per i tempi , per le masse e per qualunque altra grandezza. Questa operazione che si chiama calibrazione o taratura dello strumento, é un operazione che facciamo spesso (per esempio con il nostro orologio quando lo rimettiamo sentendo il segnale alla radio o al telefono). Si tratta di una operazione che richiede (a) la fiducia che il riferimento sia “migliore” della nostra misura e (b) che su quel riferimento si sia d’accordo tra tutti. Naturalmente non é possibile che vi sia un unico campione di riferimento al mondo e che tutti debbano andare lì a fare la calibrazione. Questo campione deve essere distribuito, ma in ogni caso, in linea di principio deve essere possibile fare questa operazione di taratura. Vediamo ora quali sono i campioni di riferimento per le grandezze di uso più comune: il tempo, la lunghezza e la massa. (1.1.1) L’unità di tempo. È difficile dare una definizione della variabile tempo. Il punto di partenza é la percezione che in natura vi sono eventi che si ripetono in un modo che noi percepiamo come regolare. I primi esempi sono il giorno e le stagioni. E, in effetti, la prima definizione (prima in senso storico) di unità di tempo si basa su questo: il secondo (s) é 1/86400 del “giorno solare medio” . Si tratta di una misura basata sulla riproducibilità di fenomeni astronomici, in questo caso il moto di rotazione della terra su sé stessa. Ben presto ci si accorse che in realtà il giorno solare medio non é sempre uguale, o, detto in altre parole, che vi sono dei meccanismi astronomici che rendono “irregolari” i moti dei pianeti. Confrontato con altri fenomeni periodici differenti, si vide che c’erano variazioni “secolari” legati ai moti complessi della terra. Di qui l’esigenza di riferirsi non a fenomeni astronomici ma a qualcosa che fosse fisso e ben riproducibile: apparve allora naturale riferirsi a fenomeni che fossero caratteristici di un certo materiale e che pertanto fossero invariabili nel tempo. Fenomeni di questo tipo sono dati dalla vasta gamma di emissione di radiazione elettromagnetica da parte di certi materiali e dalle loro frequenze. L’attuale definizione di secondo é la seguente: é la durata di 9192631.770 periodi della radiazione corrispondente alla transizione tra i 2 livelli iperfini dello stato fondamentale dell’atomo di Cesio 133 ( 133Cs). Quindi occorre un campione di 133Cs per produrre il campione di riferimento. La ragione di questo numero così bizzarro (9192631.770) risiede nell’esigenza di mantenere una unità sostanzialmente equivalente al “vecchio secondo” così radicato nella società. Si noti che in questo modo il valore del periodo di quella particolare radiazione del Cesio 133é una quantità nota esattamente, non affetta da incertezza (vedi prossimo paragrafo). (1.1.2) L’unità di lunghezza. Nel caso della lunghezza, la cosa più naturale da fare é prendere un’asta e vedere quante “aste” é lungo il mio misurando. Naturalmente devo scegliere un “asta” opportuna (usare il palmo della propria mano comporta evidenti problemi). Allora si disse: prendiamo una cosa fissa e tutti ci riferiamo a quella. Insorsero però dei problemi. Infatti si vide che la lunghezza di questo “campione” variava al variare della temperatura. Allora si disse: prendiamo un campione di un 10 materiale opportuno (il platino-iridio é una lega di straordinarie proprietà meccaniche e chimiche) lo mettiamo in un posto fisso a riparo dalle intemperie e lo termostatiamo. La prima definizione di unità di lunghezza fu questa. Poi si vide che non si riesce a termostatarlo perfettamente e poi che ci sono dei fenomeni chimici di corrosione, insomma che la barretta di platino-iridio non é immutabile. Devo riferirmi ad un fenomeno fisico più “solido”. In analogia a quanto fatto per la variabile tempo si decise di usare il fenomeno dell’emissione di una specie atomica: il metro (m) é pertanto pari a 1650763.73 lunghezze d’onda nel vuoto della radiazione corrispondente alla transizione tra i livelli 2p10 5 d5 dell’atomo di Kripton 86 (86Kr). Da alcuni anni tuttavia i metrologi si sono accorti di sapere misurare la velocità della luce nel vuoto (la quantità c che costituisce anche il limite superiore di ogni velocità) meglio di qualunque altra cosa. Di qui la definizione attuale del campione di riferimento della lunghezza: il metro é lo spazio percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s. Si noti che si tratta di una definizione che richiede la definizione del secondo. In definitiva significa che ora c (la velocità della luce nel vuoto) é fissa (nota esattamente). E dunque una distanza é “quanto impiega la luce a percorrerla”. L’esempio dell’unità della lunghezza é particolarmente istruttivo. Infatti, ci mostra quello che accade quando misurando la velocità della luce nel vuoto sempre meglio, si arriva al punto in cui a limitare la precisione della misura é proprio la definizione dell’unità di lunghezza. A questo punto é evidente che conviene prendere questa cosa che so misurare così bene come nuova unità. Si tratta di un procedimento generale. Se misurando sempre meglio un “misurando” mi accorgo che la precisione della misura é ormai limitata dalla “bontà” del campione di riferimento, allora questo “misurando” ha tutti i diritti di diventare il nuovo campione. Lo fisso ad un valore arbitrario e d’ora in avanti mi riferisco ad esso. (1.1.3) L’unità di massa. Il kilogrammo (kg) era e rimane il peso di un campione di platino-iridio conservato in un istituto metrologico nei pressi di Parigi. Non é cambiato, perché ancora non é stato trovato un campione migliore di questo (ci sono delle proposte di cambiamento, ma per ora il Sistema Internazionale (vedi seguito) mantiene questo campione di riferimento). (1.1.4) Sistemi di unità di misura. Tra le varie grandezze che si possono definire per descrivere i fenomeni fisici, possiamo individuarne alcune che chiameremo fondamentali ed altre che invece chiameremo grandezze derivate. Si tratta di una distinzione arbitraria. E’ inutile definire un campione per ogni grandezza: (esempio v = s /t, E = 1/2 mv2). Per questo si definisce un insieme di grandezze fondamentali da cui le altre sono derivate secondo le loro definizioni. Come si scelgono le grandezze fondamentali ? Quelle per cui si trovano i campioni di riferimento “migliori”. Oggi si ha il sistema detto S.I. (sistema internazionale). Questo si definisce con l’insieme delle grandezze fondamentali. Si noti che la scelta del S.I. non é univoca. Si possono scegliere (e ci sono) altri sistemi anche con un diverso numero di unità fondamentali. Si può dimostrare che una sola grandezza fondamentale é sufficiente. Per fare un esempio, nella fisica delle particelle elementari si usa l’energia come grandezza fondamentale, e tutte le altre grandezze altro non sono che potenze (positive, negative o nulle) dell’energia. Nella tabella che segue sono riportate le unità fondamentali del sistema internazionale ciascuna con la definizione del campione che la definisce. Si può notare che alcune delle definizioni fanno riferimento ad altre unità che sono definite indipendentemente. Tempo secondo (s) Durata di 9192631.770 periodi di una radiazione dal 133 Cs Lunghezza metro (m) Spazio percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s 11 Massa kilogrammo (kg) Intensità di corrente ampere (A) Temperatura kelvin (K) Intensità luminosa candela (cd) Quantità di materia mole (mol) Massa del prototipo campione realizzato in lega 90% platino e 10% iridio e conservato al BIPM (Parigi) Quella corrente tale che 2 conduttori paralleli e rettilinei di sezione costante a 1 m di distanza sono attratti da 2 10-7 N/m 1/273.15 della temperatura del punto triplo dell’acqua Intensità emessa da un corpo nero di superficie 1/600000 m2 posto a pressione 101325 Pa e alla temperatura di solidificazione del platino Quantità di materia che contiene tanti elementi quanti ne contengono 0.012 kg di carbonio 12 Associato alla nozione di grandezze fondamentali e derivate, vi é il concetto di dimensioni fisiche: ogni grandezza ha una dimensione fisica. Le grandezze fondamentali hanno come dimensioni la grandezza stessa. Quelle derivate, che sono definite da una formula, hanno come dimensione la combinazione delle grandezze fondamentali che si desume dalla formula stessa. Per indicare le dimensioni di una grandezza si usano in genere le notazioni [l], [m], [t] (rispettivamente una lunghezza, una massa, un tempo). Facciamo alcuni esempi di grandezze derivate. La formula per l’energia cinetica é E = ½ mv2, d’altro canto v = s / t, quindi mettendo insieme: [E] = [m] [l]2 [t]-2. Il momento angolare é dato da L = r × mv pertanto le sue dimensioni sono [L] = [m][l]2[t]-1. Infine un angolo é il rapporto tra l’arco di cerchio [l] e il raggio [l]. In tal caso si dice che la grandezza é adimensionale. Le dimensioni non sono da confondere con le unità di misura. Le regole sulle dimensioni (che sono del tutto naturali) non sono altro che il prolungamento delle regole viste alle scuole elementari, quando ci dicevano che “non si possono sommare mele con arance”. Quindi in una formula se compare una somma o una differenza, gli addendi devono avere le stesse dimensioni, così come in un’equazione i due membri devono avere le stesse dimensioni. Inoltre in espressioni contenenti esponenziali o logaritmi, gli argomenti di tali funzioni devono essere adimensionali. Quanto alle unità delle grandezze non elementari, si usano le combinazioni delle unità delle grandezze elementari corrispondenti. Ad esempio per la velocità si userà m/s. In alcuni casi sì da anche un nome all’unità. Per esempio per la forza, le cui dimensioni sono massa x accelerazione e dunque [m] [l] [t]-2 viene introdotto il Newton (N) che é equivalente a dire kg m s-2. Andando avanti nel corso introdurremo le varie unità. Vale la pena ricordare che per alcune grandezze restano in uso unità al di fuori del sistema internazionale, che sono di uso comune. E’ il caso dell’atmosfera per la pressione, della caloria per l’energia e cosi’ via. Infine é anche importante conoscere l’uso dei multipli e dei sottomultipli, per evitare di avere a che fare con numeri troppo grandi o troppo piccoli. In tabella di seguito é riportato l’elenco di multipli e sottomultipli con i loro simboli. 12 1012 109 106 103 102 101 10-1 10-2 10-3 10-6 10-9 10-12 10-15 10-18 (1) (2) (3) (4) (5) Tera Giga Mega Chilo Etto Deca Deci Centi Milli Micro Nano Pico Femto Atto T G M k h da d c m μ n p f a (1.2) Il concetto di incertezza di misura Fin qui tutto semplice. Ma c’è un fatto in più che rende il mestiere dello sperimentatore più complesso ed interessante. C’è una caratteristica fondamentale: la misura fornisce una conoscenza intrinsecamente incerta. Ciò può apparire contraddittorio. Infatti riguardo alla Scienza si usano spesso espressioni del tipo “Scienza Esatta”, o frasi del tipo “è scientificamente provato” o simili. Qui occorre sgomberare il campo da equivoci. Scienza Esatta non significa fare affermazioni assolutamente precise e indiscutibili. Significa piuttosto fare affermazioni nelle quali é indicato in modo chiaro il limite di attendibilità dell’affermazione stessa. (Attenzione alle parole e ai luoghi comuni dunque.). In che senso la misura, come si é appena detto, fornisce una conoscenza intrinsecamente incerta ? Vediamo alcuni esempi di sorgenti di incertezza. Misuriamo la lunghezza del tavolo. Con un regolo (un metro nel linguaggio comune) posso dire che il risultato é tra qui e qui, 12.3 e 12.4 cm per esempio; basta che stabilisco tra quali divisioni (dette anche tacche) dello strumento si situa la mia misura. Allora prendo uno strumento molto più “preciso” le cui divisioni sono di 10 micron (per esempio un calibro palmer di quelli che vedremo in laboratorio) e ottengo che la misura si situa tra 12.324 12.325 cm; certo ho ristretto l’intervallo, ma sempre di un “intervallo” si tratta; Mi chiedo allora c’è modo di arrivare a dire: il tavolo é lungo 12.3246 cm ? Oppure intrinsecamente posso solo dare un intervallo ? Evidentemente si’. Qualsiasi strumento darà un intervallo. Ma c’è di più. Se ripeto la misura un po’ più in là ottengo una cosa diversa. Quant’è lungo il tavolo ? Qui siamo di fronte ad una carenza nella definizione di quello che voglio misurare. Voglio misurare il tavolo si’, ma in che punto ? Ripeto poi la misura facendola nello stesso punto, ma la sera. Trovo che l’intervallo ora é 12.327 e 12.328. Che succede ? Evidentemente il tavolo sta soffrendo di effetti di dilatazione termica. Pertanto di nuovo la definzione é manchevole. La domanda giusta da porre é quant’è lungo il tavolo a quella temperatura ? Ma c’è di più ancora. Prendo un altro strumento “uguale” (un altro esemplare dello stesso strumento) e misuro sullo stesso punto alla stessa ora: ottengo l’intervallo 12.319 e 12.320. Allora ? Probabilmente é accaduto che gli esemplari dei due strumenti sono scalibrati. Il valore vero di questa grandezza (lunghezza del tavolo) é dunque “elusivo” per tante ragioni. Che cos’è il valor vero ? La definizione metrologica é: valore vero = “un valore compatibile con la definizione della grandezza”. Come abbiamo visto, affinché sia univoco, deve essere ben definito. Ricapitoliamo le varie ragioni di incertezza che abbiamo incontrato nell’esempio visto. 13 (a) Limitazione dello strumento (che rimane anche quando prendo uno strumento molto “migliore”) dovuta alla spaziatura tra le divisioni. (b) Problema della calibrazione (infatti devo aver confrontato il mio regolo con il campione di riferimento in qualche modo). Ma se non l’ho fatto ? O se nel frattempo qualcosa del mio strumento é cambiato ? (c) Cattiva definizione di quello che misuro (lunghezza del tavolo dove ?, a che ora ?) (d) Effetti non considerati che alterano la cosa che sto misurando (dilatazione termica del tavolo). Si noti che tra le ragioni di incertezza elencate, la (c) si applica non a tutte le grandezze fisiche. Alcune grandezze infatti hanno un carattere “universale” e sono perfettamente definite: la velocità della luce nel vuoto, la massa del protone, la costante di Planck etc.. La misura di queste grandezze é dunque affetta da errori di misura tutti inerenti il metodo di misura (inteso in senso lato) ma non é affetta da errori di misura relativi alla definizione della grandezza. Per ora concludiamo questa prima analisi delle incertezze accennando al fatto che ci possono essere altre cause. Tra queste: (e) Limitazione nella conoscenza di altre cose che mi servono per arrivare al mio risultato (per esempio alcune costanti fondamentali, o il risultato di altre misure). (f) Limitatezza del campione (qui la parole campione ha un significato diverso da quella di unità campione), cioè limitatezza delle informazioni disponibili (è il discorso dei conteggi cui abbiamo già accennato). In ogni caso l’esito del processo di misura é un numero: il valore misurato μ. Nel nostro caso sarà per esempio il centro dell’intervallo tra gli estremi del quale cade la misura. Ma per quanto detto finora il risultato non può limitarsi a quel numero proprio perché la mia conoscenza é comunque incerta. Sembra (dagli esempi visti) molto più sensato dare un intervallo di valori che in sostanza mi dice entro quali valori io penso sia il valore vero. Diamo allora le seguenti definizioni: L’Incertezza, é la stima data dallo sperimentatore della larghezza dell’intervallo” nel quale lui “crede” debba essere il valor vero. Qui il termine “crede” é ambiguo ma verrà precisato in seguito. In genere viene data come metà dell’intervallo. La Stima del valor vero (miglior valore, valore centrale) é il valore centrale, quello che mi convince di più. In genere é il centro dell’intervallo per cui il modo più tipico di dare il risultato sarà: valore centrale ± incertezza. L’Errore di Misura é invece la differenza tra valor vero e valore misurato: non accessibile sperimentalmente (se lo sapessi saprei il valor vero) Si noti la differenza tra i termini errore ed incertezza che spesso nell’uso comune sono ugualmente usati. Usando correttamente i termini diciamo: in virtù dell’esistenza di errori di misura, lo sperimentatore deve valutare l’incertezza di misura e dare il risultato della sua misura come intervallo tra due valori della grandezza. L’errore di misura in generale ha tanti contributi con caratteristiche diverse (alcuni che posso far diminuire quando aumento le informazioni a mia disposizione, altri no). L’incertezza deve stimare tutti i contributi possibili. Nel caso della misura della lunghezza del tavolo fatta con il calibro avente una divisione minima di 10 μm, vi sono 4 contributi: (1) l’incertezza dovuta alla limitazione della lettura (~ 10 μm), (2) quella dovuta alla calibrazione assoluta dello strumento (una stima é la differenza tra la misura fatta da 2 esemplari dello stesso strumento ~ 40 μm), (3) quella dovuta all’effetto della temperatura (~ 30 μm) ed infine (4) quella dovuta alla definizione del misurando (in che punto misuro ~ 30 μm). Si tratta come si vede di un caso complesso in cui “convivono” diverse sorgenti di incertezza dello stesso “ordine di grandezza”, nessuna veramente “trascurabile”. 14 Ricapitolando: poiché le misure sono affette da errori di misura occorre stimarne le incertezze. Non si può mai dare un solo numero come risultato, occorre dare un intervallo nel quale io dico debba cadere il valore vero. E la determinazione di tale intervallo deve contenere una stima di tutte le possibili sorgenti di errore che posso pensare. Fare un esperimento significa essenzialmente fare questo. La bravura dello sperimentatore consiste nel progettare l’esperimento e nel realizzarlo in modo che le incertezze siano “piccole” rispetto alla precedente conoscenza della grandezza in misura. Accenniamo qui al fatto che in molti casi é opportuno utilizzare l’incertezza relativa, cioè il rapporto tra la larghezza dell’intervallo, ovvero l’incertezza ed il valore centrale dell’intervallo. L’incertezza relativa ha il pregio di permettere un confronto tra le incertezze di misure diverse. Per esempio se io misuro una con una incertezza di un micron una lunghezza di 100 micron ho una misura al “percento”, perché il rapporto 1 μm / 100 μm = 0.01 = 1%. Se invece misuro sempre con una incertezza di un micron una lunghezza di 1 m, ho una incertezza relativa di 10-6 m / 1 m =10-6, cioè sto misurando una lunghezza con una incertezza di una parte su un milione. Nei due casi illustrati le incertezze assolute sono le stesse (1 μm) ma le incertezze relative sono molto diverse (di ben 4 ordini di grandezza). Nel gergo dei fisici si usano spesso espressioni del tipo, “misura al percento” oppure “al permille”. Con tali espressioni si indica l’incertezza relativa della misura. (1.3) Esempi di valutazioni “qualitative” di incertezza Vediamo ora alcuni semplici esempi di stima dell’incertezza nel caso di misure dirette. Non si tratta di apprendere regole da applicare ma di imparare il metodo con cui i fisici generalmente discutono i vari casi che si presentano. (1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento In molti casi fare una misura si riconduce alla lettura o di un display (lettura digitale) o della posizione di un ago su una scala graduata (lettura analogica). In cosa si distinguono il digitale e l’analogico (parole, la prima in particolare, usate anzi abusate oggi). In generale uno strumento che dà una risposta digitale é uno strumento che fornisce solo un insieme “discreto” di possibili risposte; lo strumento analogico dà un insieme “continuo” di possibili risposte. Consideriamo separatamente i due casi: (1) Lettura di un display. Se leggo un numero 5407.1 e questo numero é stabile (le cifre non cambiano nel tempo) l’unica conclusione che posso trarre é che il valore della misura sarà compreso tra 5407.05 e 5407.15. Infatti se fosse stato 5407.16 sarebbe stato approssimato a 5407.2 e cosi’ via. Posso dire niente di più ? Direi di no. Non so per esempio se é più ragionevole 5407.08 o 5407.09 per me sono tutti ugualmente plausibili e ragionevoli. Dunque posso dare un intervallo 5407.10 ± 0.05. Si noti che taluni strumenti possono usare diversi tipi di approssimazioni. Per esempio possono approssimare all’intero inferiore. In tal caso il nostro 5407.1 sarebbe equivalente ad un intervallo compreso tra 5407.1 e 5407.2 e il risultato potrebbe scriversi come 5407.15 ± 0.05. (2) Lettura di un ago fisso su una scala graduata. Ci sono intanto alcune cose da definire. La divisione é la distanza tra 2 tacche contigue; il fondo scala é il valore in corrispondenza del quale l’ago si porta all’estremo della scala. Più in là non si può andare. Proviamo a leggere la misura in questo caso. Devo dare una interpolazione tra divisioni; fino a che punto ci si può spingere ? Se do come intervallo le 2 tacche intorno all’ago certamente do un intervallo corretto. Sono certo che la misura sta li’. Tuttavia in questo caso posso fare meglio. Posso stabilire a quale delle 2 divisioni l’ago si é avvicinato di più, ci sono delle zone in cui é più plausibile situare il valore vero. Posso provare a stimare il più piccolo intervallo nel quale si situa con certezza il valore della misura. Nel corso della Esercitazione 1 cercheremo di stimare la capacità di interpolare tra le divisioni. Per ora ci limitiamo a stimare la capacità di interpolazione guardando i 5 esempi di Fig.1.1. 15 Fig.1.1 Esempi di aghi analogici su scale graduate. Lo studente può tentare una prima interpolazione “a occhio” e poi controllare con i valori veri dati qui di seguito (sarebbe bene coprire questi numeri mentre si interpola con lo stesso metodo della prima esercitazione di laboratorio). [valori veri: 12.2210 / 12.7087 / 12.3500 / 12.5840 / 12.8630 ] In generale fin qui ho stimato un intervallo massimo ovvero il più piccolo intervallo tale che sono “sicuro” che il valor vero della misura sia là dentro. Non ho specificato se alcune parti dell’intervallo sono più plausibili di altre. Nel caso del display digitale come abbiamo visto non c’è modo di fare di più. Nel caso della scala analogica invece posso fare qualcosa di più. Infatti ad alcune zone dell’intervallo credo di più che ad altre. Posso per esempio dire che la misura “non é” sulla divisione, oppure che é nella prima o nella seconda metà dello spazio tra le due divisioni. (1.3.2) Caso dei conteggi. Vi é un tipo di misura di grandissimo interesse ma che sfugge ai 2 schemi presentati nel precedente paragrafo. E’ il caso del conteggio cioè di una misura che si riconduce alla conta di un numero di volte in cui vi é una certa cosa. Appartengono alla classe dei conteggi i seguenti fenomeni: misure di radioattività (conto il numero di eventi radioattivi in un dato tempo), misure di concentrazione di una data specie, incidenza di una malattia in una popolazione, sondaggi e tutto il resto delle “misurazioni sociologiche”. Si tratta di tutti quei fenomeni in cui sono interessato al numero di occorrenze indipendentemente dall’ordine con cui queste si presentano. Possono essere nel dominio del tempo o dello spazio o di qualsiasi altra variabile. In ogni caso il risultato del conteggio é un numero intero (la variabile é dunque discreta non continua). Supponiamo di voler sapere quanti studenti si iscrivono al corso di laurea in fisica nella nostra Università. Li contiamo e troviamo 206. Cosa posso dire di questo numero ? Uno potrebbe dire che essendo un numero intero vale la regola del digit e dire 206.0 ± 0.5 ma evidentemente direbbe una sciocchezza. In realtà se la domanda che ci poniamo é quanti studenti si sono iscritti a fisica la risposta é 206 con incertezza nulla (a meno di non aver banalmente sbagliato il conteggio). Il problema sorge se vogliamo usare questo numero per stabilire quanti studenti in media si iscrivono a fisica in questi anni, oppure quanti possiamo prevedere se ne iscriveranno l’anno prossimo. Anche supponendo che le condizioni sociali non cambino e che gli orientamenti studenteschi rimangano immutati, nessuno direbbe mai che se ne iscriveranno di nuovo esattamente 206, ma tutti sappiamo che questo numero é destinato a fluttuare. Ma a fluttuare quanto ?é ragionevole supporre che se ne 16 iscriveranno 50 o 2000 ? Intuitivamente direi di no. La teoria della probabilità e la statistica permettono in effetti di trattare le modalità di fluttuazione dei conteggi quando certe condizioni molto generali sono verificate. Le vedremo con un certo dettaglio nei prossimi capitoli. (1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. Supponiamo ora che il display o l’ago non sono fissi ma si muovono, magari vibrano come spesso accade. Siamo in presenza di fluttuazioni, cioè del fatto che per certe ragioni, il risultato della misura presenta una variazione casuale e non predicibile nel tempo (1) Lettura display con una o più cifre che cambiano (le cifre di destra evidentemente cambiano più rapidamente di quelle di sinistra, la cifra che si trova all’estrema destra é anche detta “digit meno significativo”). In tal caso si cerca di capire quant’è il massimo e quant’è il minimo assunti dal display al passare del tempo. Tali due valori cosi’ ottenuti forniscono un “rudimentale” intervallo massimo. Si noti però che se io aspetto un po’ per trovare massimo e minimo nessuno mi garantisce che aspettando un po’ di più io non trovi un numero fuori dall’intervallo. Cioè non sono completamente certo in questo caso che la misura sia là dentro. Anzi, l’estensione dell’intervallo é qualcosa che in generale cresce al passare del tempo (sicuramente non decresce), e dipende anche da fluttuazioni anomale (per esempio uno sbalzo della rete può dare un valore completamente sbagliato che non ha molto significato includere nella mia valutazione). Fatte salve queste considerazioni, il centro dell’intervallo ± la sua semiampiezza é comunque una stima ragionevole. (2) Lettura di un ago che vibra su una scala graduata. Si può applicare lo stesso metodo discusso sopra per il display digitale con le stesse “critiche” fatte. (3) Nel caso in cui sono in condizioni di ripetere la misura (naturalmente devono essere immutate le condizioni) e se ogni volta ottengo un numero diverso (per esempio fotografo ad intervalli regolari il mio ago che vibra, oppure leggo il display ad intervalli regolari o acquisisco i suoi valori tramite calcolatore) posso usare tutto il complesso di numeri ottenuto per tentare una stima un po’ più approfondita di come vanno le cose. I dati che ho ottenuto costituiscono una sequenza di numeri (registrati su computer o scritti su logbook), cioè una tabella tempo-valore, in cui il valore si può riferire a qualunque grandezza fisica (una massa, un numero di persone..). Approfondiamo con il prossimo paragrafo cosa si può fare in questo caso. (1.3.4) Analisi grafica della sequenza di numeri. Intanto chiamiamo campione l’insieme dei dati ottenuto. Questo termine ha qui un significato diverso da quello che abbiamo usato in metrologia. Sta ad indicare semplicemente un insieme di dati sperimentali. Vediamo come rappresentare e descrivere il campione, utilizzando dei metodi grafici. Si tratta di “ridurre” una sequenza di tanti numeri a quelle informazioni che sono rilevanti ai fini della comprensione del problema. Ci accorgiamo subito che a tale scopo la rappresentazione grafica é estremamente efficace. Una prima cosa da fare é un grafico del risultato in funzione del tempo (o di altre variabili rilevanti). Questo grafico infatti permette di fare una analisi delle fluttuazioni e di chiedersi in particolare se queste sono “casuali” o se c’è piuttosto una “tendenza”. Qui si può fare una prima analisi “a occhio” per capire. In generale l’occhio tende a confrontare la variazione della grandezza con le dimensioni delle fluttuazioni e tende a giudicare se una tendenza in un grafico é o no “significativa”. In altre parole il nostro occhio tende a distinguere tra un andamento (che é la cosa significativa che vogliamo studiare) e una serie di fluttuazioni casuali che semplicemente rendono i valori misurati più dispersi. Per questo confrontiamo le Fig.1.2 e Fig.1.3. In entrambe le figure sono riportate sequenze di 20 misure. Nel primo caso non si osserva alcun andamento ma solo delle 17 fluttuazioni. Nel secondo caso invece, si ha una chiara tendenza all’aumento, sebbene sovrapposta ad una “banda” di fluttuazioni. In entrambe le figure sono disegnate due tipi di curve: delle spezzate cioè dei segmenti che uniscono i vari punti, ed un unica curva continua che dà l’idea dell’”andamento medio”. Si noti che mentre le spezzate non hanno molto significato (infatti non fanno altro che seguire delle fluttuazioni irrilevanti), le curve continue danno una idea chiara dell’andamento dei dati che in un caso (Fig.1.2) é piatto, nell’altro (Fig.1.3) é invece a crescere. Un secondo tipo di grafico é l’istogramma delle misure. Vediamo come si costruisce l’istogramma dei valori. Si divide l’intervallo di valori possibili in sottointervalli (vengono detti bin). Poi si conta il numero di valori che cadono in ciascun sottointervallo (contenuto del bin) e si fa una barra per ciascun intervallo di altezza proporzionale al contenuto del bin. La scelta del binning cioè delle dimensioni del bin deve essere ben calibrata. Ci sono infatti 2 estremi da evitare, ambedue sbagliati: bin troppo piccolo e bin troppo grande. Ciò é esemplificato dalle Fig.1.4 e 1.5 dove uno stesso campione di dati é rappresentato con binnaggi molto diversi. La scelta del binnaggio dipende essenzialmente dalle seguenti 3 considerazioni: (1) dalla “dispersione” delle misure cioè da quanto é largo l’intervallo nel quale sono distribuite; (2) dal numero di valori che si ha nella sequenza: se i valori sono tanti uno tende a restringere il bin, in caso contrario bin troppo stretti alzano le fluttuazioni tra i contenuti dei sottointervalli; (3) dalla scala delle variazioni della grandezza a cui sono interessato. La Fig.1.5 illustra un caso in cui la considerazione (3) gioca un ruolo molto rilevante. E’ utile discutere quale binnaggio sia il migliore tra quelli provati alla luce delle considerazioni svolte sopra. In generale nel passare dal grafico dell’andamento all’istogramma ho perso informazioni. Infatti una volta messi i valori nei bin non so più con che sequenza sono arrivati. Inoltre tutti i valori che cadono in un bin a questo punto sono uguali (associabili al centro del bin). Fig.1.2: Grafico della variabile in funzione del tempo per una sequenza di 20 misure. (a) grafico semplice, (b) grafico con una spezzata cioè con una linea che unisce i punti e (c) grafico con sovrapposta una retta che esprime un andamento “piatto” medio dei punti. 18 Fig.1.3: Come per la figura 1.2 solo che stavolta si ha un andamento molto chiaro e in (c) tale andamento é indicato con una retta di coefficiente angolare positivo. Fig.1.4 Campione di 2000 valori istogrammato in 3 modi diversi con diversa scelta del binning. Si noti come sono diverse le informazioni che si hanno a occhio. Il caso intermedio sembra comunque costituire la scelta più sensata. 19 4000 3500 3000 2500 2000 1500 1000 500 0 600 650 700 750 800 850 900 950 1000 M(ππ) (MeV) 40000 35000 30000 25000 20000 15000 10000 5000 0 600 650 700 750 800 850 900 950 1000 M(ππ) (MeV) Fig.1.5. Esempio di uno stesso istogramma in due diversi binnaggi. Nella figura in alto l’istogramma ha un binnaggio di 1.2 MeV, nel secondo di 12 MeV. Si tratta di un caso in cui l’istogramma con binnaggio più largo non permette di evidenziare delle “strutture fini” come i 2 picchi alla destra della distribuzione, che invece sono evidenziati dal primo binnaggio. L’istogramma si chiama anche distribuzione delle misure. Se anziché riportare il numero di eventi per bin riporto il numero di eventi nel bin diviso per il numero totale di eventi, sto facendo una distribuzione di frequenze. Si definisce frequenza infatti la frazione di volte in cui un evento cade in un dato sottointervallo. E’ un numero che mi dice quanto spesso, se ripeto la misura, questa cadrà all’interno di quel bin. E’ qualcosa che può fornire indicazioni per eventualmente scommettere su dove finirà la misura. Si noti che nei casi discussi sopra (digit o ago fermi) i grafici non “aiutavano” molto: avremmo avuto un unico bin e una sequenza di numeri tutti uguali. Facciamo ora alcune considerazioni sui grafici. A cosa serve un grafico ? In generale serve per “far capire bene una certa cosa”. Quindi la sua principale proprietà deve inevitabilmente essere la chiarezza. Originariamente i grafici venivano fatti a mano utilizzando la carta millimetrata . Oggi l’uso dei computer rende la carta millimetrata “obsoleta”. Tuttavia fidarsi solo dei computer é per molti versi pericoloso come abbiamo già visto. Per questo é opportuno usare come primo approccio ai grafici proprio la carta millimetrata. Di cosa dobbiamo preoccuparci quando facciamo un grafico: - sapere quali sono la/le grandezze nei 2 assi e quali sono le (eventuali) unità di misura; - riuscire a capire quali sono le scale; la scala definisce il massimo ed il minimo di ciascun asse coordinato e le loro “divisioni”. Deve essere indicata in modo che sia comprensibile. A tale scopo é opportuno mettere “numeri semplici” sugli assi, non “numeri strani” (vedremo meglio questo nelle esercitazioni); - i “punti sperimentali” devono essere chiaramente visibili e deve essere facile individuarne i valori numerici usando la scala. 20 Fig.1.6 Tre esempi di istogrammi. Per ciascuno sono indicati i valori dei 3 descrittori globali che abbiamo introdotto nel testo: media, moda e mediana. Le 3 linee sono disegnate in corrispondenza delle mediane. 140 120 100 80 60 40 20 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 cos(θ) 5000 4000 3000 2000 1000 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 cos(θ) Fig.1.7. Due esempi di distribuzioni angolari molto diverse definite però nello stesso intervallo (-0.7:0.7). Sono indicati gli intervalli x ± s e x ± 2s. In entrambi i casi l’intervallo x ± 2sé sufficiente per includere tutta la distribuzione e costituisce pertanto un intervallo di certezza. L’intervallo x ± sé invece parziale e racchiude il 61% degli eventi nel grafico in alto ed il 58% in quello in basso. 21 (1.3.5) Caratteristiche riassuntive di una sequenza di numeri Oltre ai grafici voglio però dare dei numeri riassuntivi al fine di stimare appunto il miglior valore e l’incertezza. Voglio definire dei “descrittori globali” del mio campione. Æ Media aritmetica: si tratta di una nozione intuitiva che indica il valore che meglio rappresenta il campione. L’operazione di media aritmetica é “elementare” e “naturale” nel senso che anche senza se non ce ne accorgiamo la facciamo spesso. Come si fa la media ? Se ho fatto N misure e ho ottenuto i valori x , x ,..., x definisco media 1 2 N aritmetica la quantità: N x= ∑x i =1 i N Tuttavia la quantità cosi’ definita non sempre corrisponde al “valore centrale” o a quello “più probabile” della distribuzione. Ci sono esempi di distribuzioni in cui la media aritmetica non é né l’una ne l’altra delle due cose. In Fig.1.6 sono riportati degli esempi di istogrammi di misure con i valori corrispondenti della media. Si vede immediatamente che solo in caso di istogrammi simmetrici la media ha il significato intuitivo di valore centrale e più probabile. Si possono definire altre misure: la Moda é il valore più probabile della grandezza ovvero il picco più alto dell’istogramma; la Mediana é quel valore della grandezza tale che la frequenza che venga di meno é uguale alla frequenza che venga di più. Quando l’istogramma é simmetrico come nel caso del primo dei 3 riportati in Fig.1.6 le tre misure dette sostanzialmente coincidono. Negli altri 2 casi invece la media aritmetica non corrisponde al centro dell’istogramma. Se ho dei valori istogrammati posso raggruppare i valori e allora posso definire Nb x = b ∑n x k k =1 b k Nb ∑n k =1 k in cui Nb é il numero di bin, n è il contenuto del k-esimo bin ed x k b è il centro del k-esimo bin. Si k noti che Nb é diverso da N. Le due definizioni di media aritmetica sono leggermente differenti. Infatti nel secondo caso in realtà finisco per attribuire a ciascuna misura il centro del bin cui appartiene. Quindi si “perde” informazione. La seconda definizione può dunque portare a distorsioni del valore della media, distorsioni tanto più grandi quanto maggiore é la dimensione del bin scelta. Notiamo inoltre che, da quanto detto, occorre fare attenzione al fatto che la media ha un significato chiaro solo se non ci sono andamenti sovrapposti alle fluttuazioni. In generale infatti la dispersione dell’istogramma totale ha una componente dovuta alle fluttuazioni ed una componente che dipende dal tempo dovuta proprio all’andamento (questo si applica in particolare ai dati di Fig.1.3). La media quindi in questo caso dipende da dove e quanto campioniamo. Oltre alla posizione voglio stimare la dispersione (che é legata all’incertezza sulla misura) cioè la larghezza dell’istogramma o della banda di fluttuazione nel grafico. Æ Posso fare ( massimo – minimo ) / 2 ottenendo cosi’ un intervallo massimo. Ciò corrisponde a quanto detto sopra per il caso di misure digitali con cifre fluttuanti o nel caso di un ago in moto. Si presta alla critica fatta allora. Abbiamo bisogno di un metodo più “stabile”. Æ Deviazione Standard Campionaria. Allo stesso modo con cui ho definito la media aritmetica come stima del valore centrale, posso definire come stima della dispersione, la “media degli scarti dalla media”. Tuttavia mi accorgo immediatamente che se definisco 22 ∑ (x − x) N s= i i =1 N cioè la media degli scarti, ho una variabile identicamente nulla. Infatti si ha: N s= ∑x i =1 N i Nx = x−x =0 N − per definizione. In effetti ciò significa che la media aritmetica é proprio quel valore di x rispetto al quale é nulla la media degli scarti. Una definizione più appropriata di dispersione si ottiene considerando la media degli scarti al quadrato ∑ (x − x) N s = 2 i =1 2 i N e poi prendendone la radice quadrata (per avere anche una grandezza omogenea dimensionalmente a x): ∑ (x − x) N s= 2 i i =1 N Si tratta di una grandezza sempre positiva che prende il nome di deviazione standard campionaria o anche semplicemente deviazione standard. Il suo quadrato é detto varianza campionaria o semplicemente varianza. Il suo significato é chiaramente intuitivo (quanto scarto in media dalla media). Rispetto alla stima dell’intervallo massimo, ha il vantaggio di usare tutti i dati e di essere meno sensibile ad eventuali fluttuazioni anomale. Nel seguito del corso vedremo più approfonditamente il suo significato. Per ora essa é una stima della “dispersione delle misure”. Si noti che in base alla definizione appena fatta, c’è un secondo modo di calcolare la deviazione standard campionaria. Infatti essa può essere espressa come (consideriamo prima la varianza campionaria): ∑ (x − 2x x + x ) N s = 2 i =1 2 N 2 i i N = ∑x i =1 N N 2 i −2 x∑ x i =1 N i +x =x −x 2 2 2 cioè come la differenza tra la media dei quadrati e il quadrato della media. Si noti che tale differenza non é 0 in generale ma é per definizione una quantità positiva. Cosi’ definita, la deviazione standard può essere valutata senza aver prima valutato la media aritmetica. Dal punto di visto del calcolo, significa che anziché fare 2 “loops” sulle misure, é sufficiente farne 1. Se definisco un intervallo centrato nella media e di semilarghezza pari alla deviazione standard, questo intervallo non é un intervallo massimo. Rappresenta solo una parte della larghezza. Non sono certo che la misura cada là dentro. Tuttavia é una misura proporzionale alla larghezza. Fig.1.7 mostra per alcuni istogrammi, l’intervallo centrato sulla media delle misure e avente la deviazione standard come semilarghezza. Si può osservare (si tratta di una osservazione su base puramente empirica per la quale troveremo una giustificazione nel seguito del corso) che costruendo intervalli di semilarghezza pari a 3 volte la deviazione standard, si ottengono intervalli all’interno dei quali praticamente tutti i valori sono contenuti. Nel seguito chiameremo tali intervalli, intervalli di quasicertezza. Nel seguito vedremo anche che la deviazione standard come l’abbiamo definita deve essere corretta per tenere conto del fatto che nel considerare gli scarti tra ciascuna misura e la media aritmetica, in realtà sto usando 2 volte ciascuna misura: infatti ciascuna misura compare sia nella media, che come singola misura. Questo fatto si traduce nella seguente definizione: 23 ∑ (x − x) N s= 2 i i =1 N −1 in cui viene sottratta una unità al denominatore. Nel seguito chiameremo deviazione standard s appena definita e chiameremo s Anche per s vale una forma analoga a quella vista per s campionaria la quantità s = 2 ( N x −x N −1 2 2 ) N quella con N al posto di N-1. N Infine per la deviazione standard campionaria si può dare una definizione sull’istogramma come per la media, nella forma: Nb s= ∑ n (x k b k − x )2 k −1 k =1 Nb ∑n k =1 per la quale valgono le stesse considerazioni fatte per la media. Ricapitolando: sono andato riducendo i dati cercando di mantenere le informazioni rilevanti: dalla sequenza di numeri ho ricavato il grafico in funzione del tempo, quindi l’istogramma dei valori (prima perdita di informazioni), infine ho imparato a valutare la “posizione” e la “dispersione” del campione (seconda perdita di informazioni). Fig.1.8: Sequenza di 1000 misure ripetute ogni 10 secondi. Nella figura di sotto sono riportate le medie fatte ogni 20 misure. Si noti il restringimento della banda di fluttuazioni. 24 Fig.1.9: Per la sequenza illustrata in Fig.1.3 facciamo l’istogramma delle prime 100 misure, quello di tutte le 1000 misure ed infine l’istogramma delle medie fatte ogni 20 misure. Si noti Æ aggiungendo statistica la distribuzione mantiene sostanzialmente la stessa larghezza; Æ l’istogramma delle medie é “molto più stretto”. (1.3.6) Stima di intervalli. Consideriamo ancora il caso in cui ho N misure ripetute di una grandezza fisica secondo le modalità viste nel precedente paragrafo. Dopo averle studiate graficamente e averne calcolato le “caratteristiche riassuntive” media e deviazione standard campionaria, voglio concludere dando in forma compatta il risultato della misura sotto forma di un valore centrale e di un’incertezza. Che informazione voglio dare con questo intervallo di incertezza ? Il mio obiettivo rimane quello di dire qualcosa riguardo il valor vero, cioè di dare un intervallo in cui deve trovarsi il valor vero. Ma al tempo stesso la mia affermazione deve anche essere predittiva. Cioè devo predire la cosa seguente: se io o un’altra persona ripetiamo la misura in quale intervallo cadrà tale misura ? In questa prospettiva devo subito distinguere tra 2 possibilità: (a) Stimo un intervallo tale che la prossima misura cada là dentro. (b) Stimo un intervallo tale che se rifaccio N misure la loro media cada là dentro. Occorre distinguere bene i 2 casi, cioè il caso in cui sono interessato alla incertezza sulla singola misura (caso (a)) e il caso in cui sono interessato all’incertezza sulla media (caso (b)). A questo proposito é interessante fare l’esercizio illustrato dalla Fig.1.8. E’ illustrato il grafico dell’andamento di 1000 misure ripetute ad intervalli regolari di 10 secondi di una certa grandezza fisica. Ogni punto nel grafico in alto é dato da una singola lettura dello strumento. Se raggruppo i dati M a M (con M evidentemente < N e L=N/M numero dei gruppi) e grafico l’andamento delle L medie di ciascun gruppo, osservo che le medie fluttuano meno rispetto alle singole misure. In altre parole l’operazione di media ha il potere di “smorzare” le fluttuazioni. Questo fatto é di estrema importanza. Si trova che (lo dimostreremo più avanti nel corso) vale la regola: s( x ) = s ( x) M 25 Cioè le medie fluttuano M volte meno di quanto fluttuano le singole misure. Mi aspetto quindi che facendo la media di tutte le N misure, questa fluttui N volte meno della singola misura. Si noti tuttavia che la deviazione standard della singola misura ( s per intenderci) non diminuisce al crescere delle misure ma semplicemente si stabilizza, cioè l’istogramma presenta sempre la stessa forma, ma le fluttuazioni tendono a diminuire come é ben illustrato dal confronto tra i 2 istogrammi in alto della Fig.1.9. Viceversa la deviazione standard della media diminuisce come appunto mostrato nel terzo istogramma di Fig.1.9. La deviazione standard di quest’ultimo istogramma é proprio ≈ M volte più piccola di quella fatta usando la singola misura. Tornando dunque al nostro problema di definire un intervallo per la singola misura (caso (a)) e per la media delle N misure, potrò procedere nel modo seguente: Æ caso (a) x ± s Æ caso (b) x ± s / N che esprime il fatto che mentre mi aspetto che una successiva N+1-esima misura sia distribuita secondo la Fig.1.9(2), la media di un altro set di M misure sarà distribuita secondo la Fig.1.9(3). In definitiva se voglio dare la migliore stima di un intervallo per il valor vero é corretto utilizzare il caso (b) con il quale uso tutte le informazioni in mio possesso nel modo più efficace. Concludiamo il paragrafo con un paio di osservazioni. Î Osservazione 1: confrontiamo il caso che abbiamo appena visto, con quello di una misura che non cambia (digitale o analogica che sia). La situazione in cui le misure cambiano sembra paradossalmente migliore. In effetti é proprio cosi’. Il fatto é che se le misure fluttuano, aumentarle di numero aiuta perché permette di conoscere sempre meglio la media e di veder diminuire la deviazione standard come 1 / N . Se invece ottengo sempre lo stesso valore evidentemente non posso andare aldisotto della mia capacità di interpolare tra le divisioni o al digit più significativo. Questo apparente paradosso ci insegna che occorre scegliere opportunamente il passo minimo (la risoluzione) del nostro strumento di misura sulla base delle fluttuazioni della misura stessa. Î Osservazione 2: l’uso della deviazione standard della media mi permette di dare un intervallo per il valor vero. Quale é il significato “probabilistico” di questo intervallo ? Come abbiamo già visto, la risposta a questa domanda verrà dalla seconda parte del corso. Per ora possiamo dire solo 2 cose: (1) in generale non si tratta di un intervallo “massimo”; (2) il contenuto probabilistico dell’intervallo dipende da come sono distribuite le misure, cioè dalla forma dell’istogramma e dal numero di misure effettuate; (3) un intervallo di semilarghezza pari a 3 deviazioni standard (intervallo di quasi-certezza definito in precedenza) ha un significato probabilistico che in ogni caso é di quasi certezza. È interessante stimare il contenuto probabilistico di una deviazione standard direttamente dai dati (quanti degli N valori sono fuori dall’intervallo x ± s ) per gli istogrammi delle varie figure mostrate (in particolare Fig.1.7). (1.3.7) Errori sistematici Dalle considerazioni fatte in precedenza sorge una domanda: ma allora se aumento N a piacere mando la larghezza del mio intervallo a 0. E’ vero ? In linea di principio si. In realtà accade che oltre un certo valore di N aumentare il numero di misure non serve più. Infatti a un dato punto entrano in gioco altri errori dovuti ad una delle cause che abbiamo indicato all’inizio della nostra discussione sulle incertezze, e che in generale possono non dipendere da quante misure facciamo. Possono dipendere da: Æ Calibrazione degli strumenti. Æ Condizioni non sotto controllo. 26 Rientrano in questa categoria gli errori sistematici. Il termine errore sistematico é un termine forse non del tutto appropriato. Nasce dal fatto che tendenzialmente si tratta di errori che hanno una “direzione fissa”. Per esempio nel caso della taratura, uno strumento starato lo é in una direzione. In molti casi il costruttore dello strumento che stiamo usando fornisce nel libretto di istruzioni, l’indicazione dell’errore sistematico dovuto ai vari possibili effetti. In tal caso é possibile trovarsi in una situazione in cui anche se lo strumento sembra molto buono (per esempio é possibile apprezzare molti digits che non cambiano quando ripeto la misura), in realtà la sua accuratezza può essere molto cattiva fino a dominare l’incertezza complessiva della misura. In generale dunque é opportuno riferirsi alla seguente distinzione tra due categorie di errori: Æ Errori sistematici (se aumento il campione questi non diminuiscono). Se li conosco posso correggere il mio risultato, se non li conosco devo stimare un intervallo nel quale sono contenuti. Æ Errori casuali (posso mandarli a 0 nel limite di campione infinito). Si trattano con i metodi propri della statistica di cui abbiamo visto alcuni esempi. In definitiva l’errore sistematico é quello che rimane nel limite di campione di dimensione infinita. (1.4) Sequenze di “coppie” di misure Passiamo ora ad un diverso problema. Immaginiamo di avere una sequenza di coppie di valori di 2 grandezze fisiche, cioè una tabella con 2 colonne e N righe, e ciascuna riga rappresenta il risultato della misura simultanea delle 2 grandezze che stiamo studiando. In taluni problemi infatti, i fenomeni devono essere descritti non solo da una variabile casuale, ma da più variabili casuali. Non sempre ci si trova in condizioni di poter trattare in modo separato ciascuna variabile casuale. Nell’esperienza della molla vediamo che T ed M ma anche δx ed M sono tali che al variare dell’una varia l’altra. Un esempio diverso dal precedente si ha quando consideriamo una misura di superficie, fatta misurando i due lati con lo stesso strumento caratterizzato da una dipendenza dalla temperatura o da altri parametri che spostano la sua calibrazione. E’ chiaro che in tal caso gli errori di misura di un lato e dell’altro lato non sono indipendenti, ma hanno un andamento “analogo”. In entrambi gli esempi fatti siamo in presenza di grandezze fisiche correlate cioè tali che i valori assunti dall’una e dall’altra non sono indipendenti ma sono legati da una qualche forma di dipendenza. Si deve tuttavia distinguere tra due casi (per evitare confusioni): (a) il caso in cui sono correlate le grandezze; (b) il caso in cui sono gli errori di tali grandezze ad essere correlati. Il caso della molla é del primo tipo. Infatti T é correlato ad M ma non sono correlate la misura di T con quella di M. Nel secondo caso invece i valori dei 2 lati non sono correlati, ma gli errori di misura che faccio nel misurare le 2 cose sono invece chiaramente correlati. La correlazione tipo (a) rientra nell’ambito delle dipendenze funzionali tra grandezze fisiche, dovute proprio alla “fisica del fenomeno”, ed é quindi oggetto di studio (come vedremo nel terzo capitolo). La correlazione del tipo (b) é invece una caratteristica dell’”apparato di misura”, ed in generale é non voluta. Bisogna tuttavia tenerne conto nell’interpretare i risultati delle misure. Ci occupiamo a questo punto del caso (b), cioè del caso in cui due o più grandezze fisiche presentano una correlazione dovuta al modo con cui le misuro. Il modo più semplice per mettere in evidenza il fenomeno della correlazione tra 2 grandezze A e B é quella di ripetere N volte la misura simultanea delle 2 grandezze nelle stesse condizioni e di 27 riportare su un grafico N punti ciascuno avente per ascissa la grandezza A e per ordinata la Fig.1.10 Esempio di grafico di correlazione tra 2 variabili fortemente correlate (qui ρ=0.9). Sotto sono poi mostrati gli istogrammi delle proiezioni sui due assi. Fig.1.11 Altro esempio di grafico di correlazione nel caso in cui ρ=0. Si noti che gli istogrammi delle 2 proiezioni sono simili a quelli di Fig.1.10. Ciò indica che la correlazione non può essere desunta da semplici istogrammi di correlazione ma necessita di grafici di correlazione. grandezza B. Si tratta di un grafico bi-dimensionale o grafico di correlazione. Le proiezioni sui 2 assi A e B di questo grafico, altro non sono che i 2 istogrammi mono-dimensionali delle 2 28 grandezze dai quali possiamo ricavare media e deviazione standard secondo i ben noti metodi. Due esempi sono illustrati nelle Fig.1.10 e 1.11. Le figure mostrano un caso chiaro di correlazione e un caso chiaro di non correlazione. Nel primo caso i punti tendono a disporsi sul grafico lungo la bisettrice del primo e terzo quadrante, nel secondo caso invece il grafico si presenta come una ”palla”. Nel primo caso si ha dunque una correlazione, cioè le fluttuazioni di una grandezza sono “correlate” alle fluttuazioni dell’altra. Quando A fluttua positivamente anche B lo fa. Nel secondo caso invece questo chiaramente non succede. La distribuzione di B é indipendente da A. Si noti che nei 2 casi, gli istogrammi delle proiezioni sono equivalenti. Questo ci dice che il grafico bidimensionale porta informazioni in più che l’analisi delle singole proiezioni tende a mascherare. In analogia a quanto fatto per la sequenza di numeri, definiamo una nuova grandezza che caratterizza lo stato di correlazione tra le 2 grandezze che stiamo considerando. La covarianza campionaria tra due grandezze x1 ed x2 definita come: ∑ ( x − x )( x − x ) N cov( x , x ) = 1 i i 1 i =1 1 2 2 N −1 2 Per determinare questa grandezza sperimentalmente occorre misurare una sequenza di N coppie di valori di x1 e di x2 in condizioni di ripetibilità della misura, e da questi applicare la definizione. Un modo equivalente per esprimere la covarianza campionaria é dato da: ∑ (x x − x x − x x + x x ) N cov( x , x ) = 1 i =1 i i 1 2 1 i i 2 1 2 1 N −1 2 2 = N (x x − x x N −1 1 2 1 2 ) da cui si vede come la covarianza campionaria costituisce una generalizzazione della varianza campionaria (che chiamiamo Var(x) intendendo con ciò s2 ). Infatti Var ( x ) = cov( x, x ) cioè la varianza campionaria altri non é che la covarianza calcolata tra una grandezza e se stessa. Per la covarianza delle medie tra 2 campioni vale che: cov( x , x ) = 1 2 cov( x , x ) N 1 2 cioè, come per la varianza campionaria, la covarianza tra medie diventa sempre più piccola al crescere della dimensione del campione. Si definisce infine anche il coefficiente campionario di correlazione: i i ( x − x )( x − x2 ) ∑ 1 1 2 i =1 N r(x , x ) = 1 2 2 2 i i ( x − x ) ( x − x ) ∑ ∑ 1 1 2 x i =1 i =1 N N che é sempre definito tra –1 ed 1 ed esprime in forma adimensionale il grado di correlazione tra 2 grandezze. Si noti come queste definizioni campionarie, costituiscono una espressione in forma “quantitativa” di quanto graficamente é espresso dai grafici visti. Per comprendere il significato del coefficiente di correlazione r é utile riferirsi al grafico di Fig.1.12. Dividiamo il grafico di correlazione in 4 quadranti intorno ad un punto di coordinate date dai 2 valori medi come in figura. I punti appartenenti a ciascun quadrante sono caratterizzati da diversi segni delle fluttuazioni rispetto al valore medio e sono indicati come ++, --, +-, -+. Riferendosi all’espressione di r appena data, vediamo che i 4 quadranti danno i seguenti segni ad r: +, +, -, -. Quindi il prevalere dei punti su un dato quadrante fa prevalere un segno in r. Nel caso della figura il prevalere dei punti nei quadranti (++) e (--) fornisce un valore positivo di 0.9. Quando i 4 quadranti hanno mediamente lo stesso numero di punti (è il caso della “palla” di non correlazione), r sarà mediamente 0. Si noti che nel caso di mancanza di correlazione non dobbiamo aspettarci 0 esattamente, ma un numero abbastanza prossimo a 0. Quanto prossimo deve essere dipende dal numero N di misure. 29 Esiste un metodo detto test di correlazione per stabilire su basi quantitative la correlazione tra grandezze (tale test sarà trattato nei corsi successivi di laboratorio). Fig.1.12 Stesso grafico di correlazione con r=0.9 mostrato nella Fig.1.10 suddiviso nei 4 quadranti. (1.5) Terminologia È bene fare chiarezza sul significato di alcuni termini che si usano quando si parla di strumenti e di misure. Facciamone un elenco (alcune cose le abbiamo già definite): Æ sensibilità : quanto la variazione del misurando, fa cambiare l’uscita dello strumento Æ risoluzione : minima differenza tra le possibili uscite di uno strumento che sia “apprezzabile”. E’ la sensibilità in forma “quantizzata”. E’ il digit nel caso digitale. Æ precisione : quanto sono vicini i risultati di una misura quando la ripeto. Æ accuratezza : vicinanza tra valore vero e valore misurato, nel limite in cui ho un campione di dimensione infinita; é collegata chiaramente a quello che abbiamo chiamato errore sistematico. Æ tolleranza : entro quale intervallo i valori di una tale grandezza sono accettabili. E’ una “specifica” del costruttore di uno strumento o di un qualche componente. Æ ripetibilità : sono in condizioni di ripetibilità quando posso ripetere la misura senza che cambino quelle condizioni che possono alterarne l’esito. Æ riproducibilità : sono invece in condizioni di riproducibilità quando un dato risultato viene ottenuto da esperimenti diversi. In genere, l’accettazione di un dato risultato passa attraverso la verifica di tale proprietà. Un risultato che non viene riprodotto o che non può essere riprodotto é infatti “sospetto” e generalmente non accettato dalla comunità scientifica. È da notare che questo “glossario” non é univoco (dipende dai testi). Quello che usiamo noi risponde alle più recenti norme metrologiche. (1.6) Cifre significative 30 Come si scrivono i numeri in fisica ? I numeri in fisica sono i risultati di una misura oppure sono il risultato di una predizione teorica. In generale i numeri in fisica hanno un significato diverso da quello che hanno i numeri in matematica. Di questo occorre tener conto. Vediamo come. Capita a volte di trovarsi di fronte a numeri del tipo 1.342607 (per esempio possiamo leggere un numero del genere sul display della nostra calcolatrice). Impariamo a contare le cifre di questo numero. Quante cifre ha ? Un numero cosi’ fatto ha 7 cifre significative ed é scritto con una notazione per la quale ha 6 decimali cioè 6 cifre dopo la virgola. Prendiamo invece 0.022. In questo caso sono 2 le cifre significative perché gli zeri a sinistra non contano. Che gli zeri a sinistra non contano, lo vediamo per il semplice fatto che questo stesso numero io posso scriverlo come 22x10-3 o 2.2x10-2 cioè con 2 cifre. Viceversa il numero di decimali dipende da come lo scrivo. 0.022 ha 3 decimali, 22x10-3 o 2.2x10-2 ne hanno rispettivamente 0 e 1. Quindi : il numero di cifre significative é una caratteristica intrinseca del numero, il numero di decimali dipende da come lo scrivo cioè da dove metto la virgola. La notazione esponenziale serve essenzialmente ad evitare le cose tipo 0.0000000011 o 132000000. Quando gli 0 sono inutili, quando sono a sinistra o a destra, conviene toglierli dopo averli contati e messo l’esponente di 10. Torniamo al nostro problema del significato dei numeri. Poiché, come abbiamo detto, il significato dei numeri in fisica é diverso da quello che si ha in matematica, occorre fare attenzione. Scrivere 1 o 1.0 o 1.00 dal punto di vista del matematico significa scrivere lo stesso numero. Dal punto di vista del fisico no. I numeri in fisica, essendo risultati di misure, portano informazioni. Pertanto occorre limitarsi a quelle cifre che rispecchiano informazioni reali alle quali “credo”. Dunque quando scrivo un numero devo tener conto di quanto sono incerto su quel numero. Esempio. Leggo una sequenza di 6 misure consecutive da un display digitale a 8 cifre. I numeri sono (prima colonna della tabella): 21.045277 21.045 21.047410 21.047 21.046389 21.046 21.043976 21.044 21.045608 21.046 21.043578 21.044 Che significato hanno le settime e ottave cifre di ciascun numero ? Evidentemente la grandezza sta variando sulla cifra 5. Le prime 4 sono significative, la 5 anche perché pur fluttuando, alcuni valori sono più frequenti di altri. Dalla numero 6 in poi non significano più nulla. Quindi sarà bene riportare la sequenza nella forma indicata nella colonna di destra. Si noti che nel passare dalla colonna di sinistra a quella di destra ho dovuto troncare i numeri, e nel farlo ho approssimato l’ultima cifra al valore inferiore nelle prime tre righe e a quello superiore nelle ultime tre. Il motivo é evidente. Infatti se la cifra successiva (la prima che tolgo) é 0,1,2,3 o 4 allora approssimo al valore inferiore. Nel caso in cui tale cifra sia 6,7,8 o 9 approssimo al superiore. E se é 5 ? 5é proprio lo spartiacque tra i due casi, ma evidentemente se il valore é un po’ più di 5 (vedi ultima riga della tabella) allora siamo aldisopra dello spartiacque. L’unico caso in cui non so che fare é quando la cifra successiva é 5 con tanti 0 alla sua destra oppure é 5 e non so cosa c’è dopo. In tal caso la cosa migliore é forse lasciare il 5. Torniamo al nostro problema delle cifre. Generalizzando quanto visto diciamo che: non hanno “significato”, non aggiungono “informazioni” quelle cifre che stanno più a destra della prima cifra sulla quale sono incerto. Quindi il fatto che non aggiungono informazioni implica che devo ometterle nella presentazione del risultato. Cosa succede quando moltiplico o divido ? Analizziamo questa circostanza con un semplice esempio. Supponiamo di voler determinare la velocità della nostra auto misurando con un cronometro il tempo impiegato a percorrere una 31 distanza di 36 km (distanza tra due uscite dell’autostrada secondo la segnaletica). Con il cronometro manuale fermo lo stop al valore 1894.3 s. Faccio il calcolo con la calcolatrice: 19.004382 m/s. Come do il risultato ? Devo considerare quanto bene conosco i 36 km della distanza e quanto bene conosco il tempo impiegato a percorrerla. Supponiamo che i 36 km siano approssimati a 100 m (cosa ragionevole), allora posso dire che la distanza é 36.0 ± 0.1, cioè é un numero che conosco al più fino alla terza cifra. Viceversa conosco il tempo di percorrenza fino alla quinta cifra. D’altra parte la calcolatrice mi fornisce un risultato fino a 8 cifre. Quante di queste 8 cifre sono significative ? Facciamo la seguente considerazione: se uso 36.1 km o 35.9 km e lascio inalterato il tempo, ottengo i numeri indicati nelle prime due righe della tabella dove osservo variazioni sulla terza cifra. 35.9 18.951592 36.1 19.057172 36 19.0(0) 1894.2 19.005385 1894.4 19.003378 1894.3 19.004(4) Allo stesso modo se fisso 36 km e uso 1894.2 o 1894.4 ottengo variazioni sulla quinta cifra. Dunque il risultato varia a partire dalla terza cifra per via della variazione della distanza e a partire dalla quinta per via della variazione del tempo. In conclusione oltre la terza cifra (facciamo la quarta per tenerci larghi) il risultato perde di informazione. Pertanto scriverò il risultato come nella terza riga della tabella. Nel prodotto (o nel rapporto) vale dunque la regola: Æ il risultato di un prodotto o di un rapporto va dato con il numero di cifre del fattore dato con il minor numero di cifre. Cosa succede invece nel caso della somma (o della differenza) ? Altro esempio. Considero la distanza tra 2 punti nella stanza. Con il metro misuro la distanza tra una parete e la superficie della lavagna: 5.620 m. Poi con il calibro misuro lo spessore della lavagna: 32.480 mm. La somma é indicato in tabella. Misura 1 5.620000 m Misura 2 0.032480 m Somma 5.652480 m Somma troncata 5.652(5) Mi accorgo subito che le ultime 3 cifre non hanno molto significato. Infatti se il 5.620 diventa 5.621 ottengo una variazione sulla quartultima cifra della somma. Quindi qui conta non il numero di cifre significative ma il numero di decimali, cioè la posizione “assoluta” della prima cifra che varia. La regola può essere pertanto espressa come: Æ il risultato di una somma o di una sottrazione va troncato alla posizione della prima cifra variante che si incontra nei due addendi partendo da sinistra. Facciamo ora alcune osservazioni. Î Osservazione 0: se ho la stima dell’incertezza su un dato numero, si usa dare l’incertezza con 1 o 2 cifre significative (non di più, oltre 2 cifre non ha molto significato dare il numero) e si tronca il valore centrale alla cifra corrispondente all’ultima cifra dell’incertezza. Esempio. Trovo un valore centrale pari a 1.5467 con una incertezza di 0.3456. Il risultato si può scrivere come 1.55±0.34 (incertezza a 2 cifre) oppure 1.5±0.3 (ad 1 cifra). Certamente scrivere 1.5467±0.3456é sbagliato. Î Osservazione 1: i numeri interi hanno un numero di cifre infinito. Quando in una formula divido per N o per 2 queste hanno infinite cifre. Lo stesso vale per numeri come π o e (purché riportati con un numero di cifre appropriato). 32 Î Osservazione 2: caso della media aritmetica. E’ lecito darla con più cifre delle singole misure ? Si. Supponiamo di mediare una sequenza di 10 misure ciascuna data con 3 cifre: 1.10 1.07 1.24 1.31 1.09 1.21 1.15 1.34 1.02 1.18 Media 1.171 La somma di questi 10 numeri é 11.71 che scrivo con 4 cifre data la regola delle cifre nella somma. Quando divido per 10 (infinite cifre) ottengo 1.171 che mantengo a 4 cifre. Quindi nel gioco ho “guadagnato” una cifra. Se avessi mediato 100 numeri ne avrei guadagnate 2 e cosi’ via. Questo non ci sorprende. L’operazione di media ha il potere di aumentare la conoscenza sul valore. Î Osservazione 3: si noti che il numero di cifre significative di un dato numero é strettamente legato alla sua incertezza relativa. Un numero dato a 3 cifre é un numero incerto tra il permille ed il percento. Î Osservazione 4: le regole date si riferiscono a come riportare i risultati. Nei calcoli naturalmente si possono utilizzare tutte le cifre che si vogliono. (1.7) Caso di misure indirette: cenni alla propagazione Collegata al problema del numero delle cifre significative é la questione della misura indiretta. Supponiamo che per misurare una grandezza y, io debba ricorrere alla misura di x per poi ricavare y con l’operazione y = a x2 in cui a é una costante oppure y = b √x. Ora, x sarà misurato con una certa incertezza e allora mi chiedo quale sarà l’incertezza su y ? Se supponiamo che a e b siano costanti note con un numero infinito di cifre (per esempio π o un numero intero) il problema é “unidimensionale” (cioè stiamo parlando di una funzione di una singola variabile) e può essere illustrato per via grafica (vedi Fig.1.13). Fig.1.13 Due esempi di misure indirette: (sinistra) Misura della profondità raggiunta da un sasso in un pozzo dalla misura del tempo impiegato a scendere. Se misuro 5.5 ± 0.5 s quanto bene conosco la profondità ? (destra) Misura del periodo di oscillazione di un pendolo dalla misura della lunghezza dello stesso. Qui misuro 0.75 ± 0.05 m. Quant’è il periodo ? 33 Nei due casi riportati in figura si ha nel primo una dipendenza tipo a x2 nel secondo b√ x. Si può notare che l’incertezza sulla x si “traduce” in una incertezza sulle y in modo diverso nei 2 casi. Si dice che l’incertezza si propaga. Nel caso di sinistra sembra aumentare nel caso di destra sembra diminuire. Da cosa dipende ? Certamente dalla “pendenza” della curva nell’intorno del mio x. Poiché x e y sono in generale variabili di diverse dimensioni fisiche per confrontarne le incertezze dovrò ricorrere all’incertezza relativa che, come sappiamo é: s x x Nel nostro caso (quello in figura) si vede, confrontando le variazioni sugli assi delle ordinate, che in un caso l’incertezza relativa raddoppia, nell’altra si dimezza. Come é possibile ciò ? Vale in effetti in generale la seguente regola che dimostreremo in seguito: se la dipendenza é di tipo xα, si avrà per l’incertezza relativa: sy s =α x y x Si tratta di una proprietà che ha una chiara interpretazione. Più alto l’esponente, più “rapidamente cambia la curva”. Un secondo problema simile a questo é quello cui abbiamo già accennato nella nostra discussione delle cifre significative. Supponiamo ad esempio di voler misurare la densità di un oggetto misurandone volume e peso e poi facendo il rapporto. Abbiamo visto che sul risultato, a dominare sarà l’incertezza dovuta a quello tra massa e volume la cui misura é caratterizzata da una incertezza su una cifra che sta più a sinistra, ovvero, detto con il linguaggio dell’incertezza relativa, a quello con l’incertezza relativa più grande. Sempre riferendoci ai casi discussi nel precedente paragrafo, se devo invece sommare o sottrarre, a dominare sarà quello la cui incertezza assoluta é più grande, cioè in somme e differenze non contano le incertezze relative ma quelle assolute. Da tutto questo emerge una considerazione generale. Quando si progetta una misura di questo tipo e si sceglie una strumentazione é fondamentale “dosare” bene gli strumenti. E’ chiaro ad esempio che se misuro i volumi con un calibro supersensibile e poi li peso con una vecchia bilancia da salumiere, la scarsa sensibilità di quest’ultima vanificherà la straordinaria sensibilità del calibro. Lo stesso se uso un calibro per lo spessore della lavagna, e poi misuro il resto con strumenti poco sensibili. Resta da vedere tuttavia come andranno combinate le incertezze quando nessuna delle due é trascurabile, quando cioè sono dello stesso ordine di grandezza. Lo vedremo nel seguito quando avremo a disposizione mezzi di statistica più adeguati. (1.8) Nozione di significatività Accenniamo brevemente a questo punto del corso alla nozione di significatività. Si tratta di uno dei concetti più importanti del metodo scientifico ed é bene che gli studenti imparino a saper discutere problemi di questo tipo già dall’inizio del corso di laurea. Molte questioni in fisica si riconducono ad affermazioni del tipo: abbiamo osservato che A>B oppure che A>0. In tutti questi casi, dire > (o equivalentemente <) corrisponde a dire “significativamente maggiore” o “significativamente minore”. Se io misuro la velocità di una particella e trovo un valore maggiore di quello della velocità della luce nel vuoto, posso dire che v(part)>c ma prima di dire che é “significativamente” >c devo sapere quanto bene ho misurato v(part), altrimenti nessuno ci crederà (data anche la rilevanza straordinaria dell’eventuale scoperta). Allo stesso modo se io trovo un bilancio energetico >0 di un processo in un sistema isolato (violante pertanto la conservazione dell’energia), per dire che ho scoperto la violazione della legge di 34 conservazione dell’energia devo dimostrare che tale valore é “significativamente” >0. Allo stesso modo infine prima di dire che se il 52% degli intervistati in un sondaggio si pronuncia per una certa cosa, allora la maggioranza degli italiani é favorevole a quella cosa, devo sapere se quel 52%é significativamente maggiore del 50%. Un’altra classe di problemi riguarda il caso in cui affermo che A=B oppure che A=0. Qui le cose sono leggermente diverse. Infatti io non troverò mai (misurando per esempio il bilancio energetico della reazione di cui sopra) esattamente A=0, oppure non troverò mai o quasi mai v(part)=c, ma troverò un valore che sarà “compatibile” con 0. O allo stesso modo troverò che A é compatibile con B. È evidente che in entrambi i casi “significatività” e “compatibilità” sono nozioni che hanno a che fare con i valori trovati ma anche con le incertezze con cui questi valori sono conosciuti. Quindi diremo che A é “significativamente” >0 se lo é “oltre l’incertezza” su A o, più esplicitamente se il valore 0 della grandezza A é “fuori” dall’intervallo nel quale ritengo debba trovarsi il valore vero sulla base del mio esperimento. Oppure diremo che A é “compatibile” con 0 se lo é “entro l’incertezza” su A cioè se il valore 0é interno allo stesso intervallo. Pertanto se la mia misura della velocità della particella é 30.010 ± 0.032 cm/ns allora mi tranquillizzo perché evidentemente il valore c=29.979.. cm/ns é contenuto nell’intervallo della mia misura. Viceversa se il mio bilancio energetico mi fornisce il valore –0.54 ± 0.09 J comincio a preoccuparmi, perché la quantità di energia che ho perduto é “significativa”. Allora dovrò pormi il problema di capire cosa é successo, se nell’analisi del mio esperimento non ho tenuto conto di qualche effetto oppure se effettivamente in quel processo l’energia non si conserva. Naturalmente la conclusione dipende dal significato probabilistico dell’intervallo. Cioè posso concludere che A é significativamente > B se B é fuori un intervallo di “quasi certezza” di A. Vedremo nel seguito come si possono definire tali intervalli. A proposito delle nozioni esposte si può proporre una digressione filosofica. E’ la stessa cosa chiedersi se 2 cose sono uguali o ha invece più senso chiedersi se sono diverse ? Detto in altri termini: le due affermazioni (a) A>B o (b) A=B hanno lo stesso significato logico ? La risposta é no. Sul piano logico, il metodo scientifico permette di stabilire la diversità ma non l’uguaglianza. Si può solo dire che entro le incertezze A=B (affermazione di tipo (b)), ma si tratta comunque di una affermazione che potrebbe cambiare il giorno in cui le incertezze su A e su B diminuissero. Nel caso dell’esempio precedente, se migliorassi il mio sistema di misura delle velocità fino a ridurre di un ordine di grandezza l’incertezza complessiva, potrei ottenere 30.010±0.002 che é significativamente >c. D’altra parte l’affermazione (a) é in un certo senso “definitiva”. Se l’esperimento non é sbagliato una riduzione dell’incertezza non può che confermare il precedente risultato, rafforzandolo. Il progresso della Scienza procede dunque attraverso lo stabilire la diversità tra le cose, non la loro uguaglianza. Si tratta del celebre tema della “falsificazione” e della “corroborazione” dovuto a K.Popper. A titolo di esempio in Fig.1.14 e Fig.1.15 sono mostrate le evoluzioni temporali dei valori di due grandezze fisiche di grande importanza (si tratta delle due grandezze che caratterizzano la violazione di una simmetria fondamentale nelle interazioni tra particelle elementari). Ogni punto corrisponde al risultato di un esperimento e per ognuno é indicata una barra che rappresenta l’incertezza stimata dallo sperimentatore come deviazione standard ed avente pertanto il significato di intervallo che contiene il valore vero con una probabilità del 68.3% (secondo quanto vedremo nel seguito). Si noti che solo ad un certo punto (il 1999 in un caso ed il 2001 nell’altro) é stata stabilita la diversità da 0 del valore della grandezza. Prima di allora lo stato di conoscenza su ciascuna delle due grandezze era tale da far concludere che entro le incertezze non si osservava alcuna differenza da 0, cioè che ambedue le grandezze erano compatibili con 0. Il progresso degli esperimenti progettati per la misura di queste grandezze ha portato ad una progressiva riduzione dell’incertezza e quindi ad una sempre maggiore possibilità di scoprire una significativa differenza da 0 che, una volta trovata, é stata poi ampiamente riprodotta e confermata. 35 Fig.1.14 Valori pubblicati della variabile Re(ε’/ε) in funzione dell’anno di pubblicazione. Si noti come gli esperimenti intorno al 1990 davano un risultato “compatibile” con 0 e come quelli intorno al 2000 danno risultati “compatibili” con i risultati del 1990 ma significativamente diversi da 0. Le barre di incertezza sono barre di incertezza standard. Fig.1.15 Valori pubblicati della variabile sin2β in funzione dell’anno di pubblicazione. Valgono considerazioni analoghe a quelle fatte per la Fig.1.14. 36 (1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. In alcune delle precedenti discussioni abbiamo visto come l’espressione grafica del risultato di un esperimento sia in certi casi di importanza cruciale. In tutti gli esempi visti finora, i dati sono sempre riportati in grafici caratterizzati da scale lineari. Con ciò si intende che in ambedue gli assi del grafico, spazi uguali tra le divisioni corrispondono a intervalli uguali della grandezza fisica che viene rappresentata in quell’asse. Per intenderci, in un grafico che usa una scala temporale lineare, se un segmento di asse lungo 1 cm corrisponde a un intervallo di 6.2 s, un segmento lungo 2 cm corrisponde ad un intervallo di 12.4 s, un secondo segmento lungo 6 cm a un intervallo di 37.2 s e cosi’ via dicendo. Ci occupiamo ora di quei casi (alcuni dei quali incontreremo da vicino in laboratorio) in cui é conveniente utilizzare scale con diverse proprietà. p (m) (1.9.1) La scala quadratica. Riprendiamo in considerazione la misura della profondità del pozzo di cui abbiamo parlato nel paragrafo (1.7) (illustrato dalla Fig.1.13). Supponiamo ora di disporre un certo numero di pozzi di profondità diverse e note (cioè misurate in modo indipendente), e di misurare per ciascuno, il tempo di caduta del sasso. A questo punto i miei dati sono costituiti da una sequenza di N (N=numero di pozzi) coppie di valori (pi, ti) dove i va da 1 a N, con pi le profondità e ti i tempi. Posso mettere questi dati in un grafico con le profondità in ordinata e i tempi in ascissa. Il grafico é riportato in Fig.1.16a dove per semplicità non sono riportate le incertezze di misura. La cinematica ci dice che la relazione tra profondità e tempo deve essere del tipo p = ½ g t2, dove g=9.81 m/s2é la accelerazione di gravità alla superficie terrestre. Tuttavia dal grafico é difficile capire se effettivamente l’andamento é rispettato. Allora uso il seguente artificio: anziché graficare le pi in funzione dei ti, riporto le pi in funzione dei ti2 (Fig.1.16b). In questo secondo caso, se la cinematica é rispettata, devo aspettarmi un andamento rettilineo che é certamente più 500 400 300 200 100 0 2 4 6 8 10 p (m) t (s) 500 400 300 200 100 0 0 20 40 60 80 100 2 t (s) Fig.1.16 (a) Misure di profondità dei pozzi in funzione dei tempi di caduta dei sassi e (b) misure di profondità in funzione dei tempi di caduta al quadrato. La (b) permette di verificare la linearità della relazione cinematica. facilmente controllabile a occhio. Non solo, la “pendenza” della retta (il suo coefficiente angolari) dovranno essere proprio uguali a 1/2g, e quindi semplicemente prendendo un righello, tracciando 37 una retta e misurandone la pendenza, posso desumere il valore di g e vedere se é “più o meno” il valore che mi aspetto. (1.9.2) La scala logaritmica. Il tipo di scala non lineare più frequentemente utilizzata é la scala logaritmica. Si tratta di riportare sull’asse di una variabile x, non già direttamente x, ma il logaritmo del suo valore numerico: log(x/u) dove u é l’unità di misura di x. In altre parole, con riferimento alla scala temporale presa sopra ad esempio, il valore t = 6.2 s si trova, in scala logaritmica, nella posizione 1.82, il valore t = 12.4 nella posizione 2.52 ed infine il valore t = 37.2 nella posizione 3.62. Come si vede, la spaziatura delle 3 posizioni non rispetta più la partizione 1 / 2 / 6 della scala originaria. Ciò é un modo per dire che la scala risultante é non lineare (si noti che ho usato qui il logaritmo a base naturale, ma come vedremo nel seguito e come si può provare facilmente, la conclusione cui si giunge é la stessa qualunque sia la base che voglio utilizzare). La scala logaritmica viene utilizzata per 2 motivazioni principali. La prima motivazioni segue la stessa linea di pensiero della discussione fatta nel precedente paragrafo a proposito della carta quadratica. Infatti sono molti i fenomeni fisici che si lasciano descrivere da andamenti esponenziali, cioè del tipo: y = Ae − x / λ in cui x ed y sono 2 grandezze fisiche tra le quali ci si aspetta una relazione funzionale esponenziale con A e λ parametri (troveremo numerosi esempi di fenomeni di questo genere nel seguito). Prendendo il logaritmo di ambo i membri si ottiene: log[ y ] = log A − x λ dunque la relazione funzionale esponenziale tra y e x, si traduce in una relazione lineare tra log[y]e x in cui logA svolge il ruolo di intercetta all’origine e soprattutto -1/λ svolge il ruolo di pendenza. Graficando log[y] in funzione di x anziché y in funzione di x, potrò meglio verificare che l’andamento é esponenziale. In più anche in questo caso, una rapida misura della pendenza della retta risultante mi permette di ricavare λ. La seconda motivazione per usare scale logaritmiche entra in gioco quando si vuole rappresentare una grandezza fisica che assume valori diversi per svariati ordini di grandezza. In tal caso una scala lineare tende a compattare tutti i valori e finisce per rendere illeggibile il grafico. Il fenomeno é illustrato in Fig.1.17. In che modo lo stesso grafico in scala logaritmica diventa decisamente più leggibile ? Il motivo sta in definitiva nella seguente, ben nota, proprietà dei logaritmi: log[ab] = log[a ] + log[b] Ogni volta che moltiplico a per un numero b, al log[a] devo aggiungere log[b], cioè nel mondo dei logaritmi, il moltiplicare per qualcosa diventa un sommare qualcos’altro, il prodotto si traduce in somma. Sull’asse logaritmico dunque, 2 intervalli di uguale lunghezza non corrispondono all’aggiunta di 2 intervalli di uguali entità in x, ma a 2 moltiplicazioni per lo stesso fattore. Per esempio i valori x = 2 cm, x = 20 cm e x = 200 cm vanno in scala logaritmica nelle posizioni 0.693, 2.995 e 5.298 cioè danno luogo a 2 uguali intervalli [5.298 – 2.995 = 2.995 – 0.693 = 2.302]. La spaziatura é chiaramente pari a log[10] cioè al logaritmo del fattore che c’è tra i 3 valori di x. Come abbiamo accennato sopra la base del logaritmo é irrilevante. Infatti un’altra proprietà dei logaritmi ci dice che i logaritmi di x calcolati in 2 basi diverse (diciamo a e b) sono uguali a meno di un fattore indipendente da x: log a [ x] = log b [ x] log a [b] e dunque il cambio di base non fa altro che spostare tutta la scala di un fattore arbitrario. In Fig.1.18 mostriamo un esempio di carta semi-logaritmica, nella quale l’asse orizzontale é in scala lineare, quello verticale in scala logaritmica. Alcune considerazioni pratiche. 38 4000 3500 3000 2500 2000 1500 1000 500 0 300 400 500 600 700 800 900 1000 300 400 500 600 700 800 900 1000 10 3 10 2 10 1 Fig.1.17. Lo stesso istogramma in carta lineare (sopra) e semi-logaritmica (sotto). Si noti come la carta semilogaritmica consente di apprezzare la zona al di sotto di 600, cosa impossibile nel grafico in carta lineare. 10 2 10 1 10 -1 0 10 20 30 40 50 60 70 80 90 100 Fig.1.18 “Foglio” di carta semi-logaritmica. Le decadi sono state identificate con i valori 0.1, 1 10 e 100. 39 10 2 10 1 10 -1 10 -1 1 10 10 2 Fig.1.19 “Foglio” di carta doppio-logaritmica con la stessa suddivisione in decadi dell’asse verticale della Fig.1.18. La scala verticale é divisa in decadi: ogni intervallo rappresenta un ordine di grandezza. E’ possibile dunque per ogni separazione di decade mettere i numeri 1, 10, 100, oppure 0.001 o 10-24 o cosi’ via (nell’esempio in figura le decadi sono 0.1, 1 e 10). Nella scala logaritmica non esiste lo 0. Sotto ad ogni decade ce ne é un’altra, e cosi’ via fino all’infinito (del resto il log tende a 0 quando il suo argomento va a -∞). Una volta stabilita la scala (cioè individuate le decadi) per disporre i punti correttamente sull’asse non occorre prendere la calcolatrice e calcolare il logaritmo. La scala é fatta anche per evitare questo. Esistono infine le carte doppio-logaritmiche in cui ambedue gli assi sono in scala logaritmica (vedi Fig.1.19). L’uso di questi tipi di grafici é legato all’esistenza di fenomeni che si lasciano descrivere da una relazione tra le 2 grandezze x ed y di tipo “potenza”: y = Ax b In tal caso prendendo i logaritmi di ambedue i membri si ha: log[ y ] = log[A] + b log[x] Come si vede si ha una relazione lineare tra log[y] e log[x]. E’ b (l’esponente che regola la legge di potenza) in questo caso a rappresentare la “pendenza” dell’andamento in questione. Un esempio particolarmente interessante di fenomeno fisico messo in risalto da un grafico in carta doppiologaritmica é dato in Fig.1.20. 40 Fig.1.20 Questo grafico mostra il complesso delle misure disponibili nel settembre 2005 del flusso di raggi cosmici in funzione dell’energia. Il grafico é in carta doppio-logaritmica. Ciò permette di vedere insieme misure riferite ad ordini di grandezza molto diverse. Inoltre il cambio di pendenza intorno ai 1016 eV (il cosiddetto knee cioè ginocchio dello spettro) che costituisce uno dei fenomeni più studiati della fisica dei raggi cosmici é ben messo in evidenza da questa modalità grafica. 41 Esercizi relativi al Capitolo (1) 1.1) Dai dati della Fig.1.1: determinare per ognuno dei 5 grafici il miglior valore. Usando i valori veri determinare i 5 scarti. 1.2) Ancora dai dati di Fig.1.1: valutare scarto medio e deviazione standard degli scarti. A che frazione di una divisione corrisponde ? 1.3) Un elettrone viene accelerato attraverso una differenza di potenziale di V=1.2kV. Sapendo che la carica elettrica di un elettrone é q =1.6 x 10-7 pC e sapendo che l’energia acquistata da una carica elettrica q accelerata attraverso una differenza di potenziale Vé E = q V, calcolare quanti J di energia acquista l’elettrone. (1J = 1 Joule = 1 V x 1 C = 1 Volt x 1 Coulomb). 1.4) Voglio misurare la densità di un fluido tramite misure di massa e di volume. Lo dispongo in un contenitore e ottengo una massa M = 13.5 g tramite una bilancia digitale. La massa del contenitore é M0 = 0.322 g (misurata usando una seconda bilancia di inferiore portata ma di maggiore sensibilità). Per il volume ottengo V = 62 ml. Esprimere il valore della densità in g/cm3 dando solo le cifre significative. 1.5) Si vuole stabilire se diversi gruppi di campioni di utensili preistorici scoperti in due diverse zone (zona A e zona B), appartengono alla stessa epoca. A tale scopo si procede alla misura della vita media di ciascun campione con il metodo del 14C. Si ottengono i seguenti risultati. Reperti zona A: 10 campioni (5300, 5650, 5820, 5460, 4920, 5110, 5400, 5710, 4770, 5320) anni Reperti zona B: 15 campioni (6050, 5820, 6110, 5760, 5890, 6220, 5840, 5920, 6000, 5610, 6010, 6220, 6140, 5950, 5740) anni a) Fare gli istogrammi dei reperti delle 2 zone b) Calcolare medie e deviazioni standard per ambedue i gruppi di reperti Un anziano archeologo dando una rapida occhiata ai dati afferma: i 2 gruppi di reperti sono contemporanei. Ha ragione ? 1.6) Ad una molla é appesa una massa M nota con incertezza trascurabile; la costante di elasticità k della molla é nota solo al 5%. Quanto bene conosco il periodo delle piccole oscillazioni T ? Si ricordi che il periodo delle piccole oscillazioni di una molla di costante k é T = 2 π √M/k . 1.7) Si ha una bilancia a lettura digitale in cui l’ultimo digit corrisponde a 1 g. Applico questa bilancia ad un kg campione e leggo sul display 1022. Ripeto la misura e mi accorgo che leggo sempre 1022. Cosa posso concludere su: risoluzione, precisione e accuratezza della bilancia ? 1.8) Uno strumento per la misura di spessori ha una risoluzione di 1 μm ed una precisione di 52 μm. Per misurare uno spessore raccolgo 100 valori successivi. Non osservo andamenti nel tempo. Determinare la larghezza di un intervallo di quasi certezza per la misura. 1.9) Uno strumento per misure di velocità ha una precisione relativa dello 0.2 %. Viene applicato ad un campione di 9150 raggi γ emessi da una sorgente radioattiva. La media delle misure é 2.99814 x 108 m/s. Cosa possiamo dire della accuratezza dello strumento ? [Si ricordi che c=2.99792458 x 108 m/s] 1.10) Una commissione é incaricata di stabilire se in un certo paese vi é una incidenza “anomala” della malattia X. Quali sono i numeri di cui la commissione ha bisogno per trarre una conclusione “scientificamente fondata” ? 42 1.11) Calcolare il lavoro fatto per spingere di 24.2 cm un pistone attraverso un cilindro di area 152.4 cm2. La pressione esercitata dal pistone é di circa 12 atm. Dare il risultato in unità del S.I. con le corrette cifre significative. [si ricordi che L = pΔV e che 1 atm = 101325 Pa ] 1.12) Con lo stesso strumento dell’esercizio 1.8) voglio vedere se effettivamente la posizione della trave che regge il mio palazzo si sta spostando nel tempo. Ripeto a distanza di un anno la misura della posizione, in entrambi i casi (la prima misura e quella effettuata ad un anno di distanza) prendendo 1000 valori e facendone la media. Trovo uno spostamento di 48 μm. E’ significativo ? 1.13) Uno strumento per misure di lunghezze con risoluzione di 1/10 di mm, viene calibrato rispetto ad un metro campione. Il risultato é: 1002.6 mm con incertezza trascurabile. Successivamente uso questo strumento per la misura di una lunghezza e, fatte 100 misure, ottengo un valor medio di 914.1 mm con una deviazione standard campionaria di 3.2 mm. Dare al meglio il risultato della misura. Indicare le ipotesi utilizzate. 1.14) Munendosi di atlante, calcolare l’ordine di grandezza della densità di popolazione delle città di Roma e di Londra. Sono significativamente diverse ? 1.15) Un chimico annuncia di aver scoperto che il soluto X nel solvente Y ha una concentrazione anomala rispetto al 20% in volume atteso. Lui ha misurato 5 campioni di solvente da 3 l ciascuno ed ha ottenuto i seguenti valori per il soluto X: 607, 641, 638, 702, 619 cm3 . E’ fondata la sua conclusione ? 1.16) Voglio vedere se la variabile X é significativamente > 0. Riesco a misurarla con una precisione di 67x10-4 . Faccio 2000 misure, e ottengo una media di 0.1x10-4. Cosa posso concludere ? 1.17) Due diversi modelli prevedono per la variabile X rispettivamente i valori 0 e 10-5. Sapendo che la precisione della mia misura di X é 67 x 10-4, quante misure devo fare per discriminare tra i 2 modelli ? 1.18) Misura di velocità: in 1032.8 s ho percorso lo spazio tra la indicazione di 32.4 e 36.8 km della strada statale. Quanto sono andato veloce in media ? 1.19) Un razzo che si muovo alla velocità di 15.6 km/sé partito 10 giorni fa da terra. Dove é arrivato ? 1.20) Un navigatore ha valutato che il 10% circa del volume di un iceberg emerge dal pelo dell’acqua. Quant’è la densità di quell’iceberg ? [ ρ (iceberg) = ρ (acqua) f in cui fé la frazione di volume sommerso e ρ (acqua) = 1.00 g/cm3] 1.21) Viene presentata un auto nuova che in 10.00 s passa da 0 a 154 km/h. Calcolare l’accelerazione media in numero di g. [g = 9.81 m/s2, a = Δv/Δt ] 1.22) Nella finale dei 100 m delle olimpiadi di Seoul del 1988, Ben Johnson vince con il tempo di 9.79 s, Carl Lewis é secondo con il tempo di 9.92 s. Quanto distava Lewis dall’arrivo al momento dell’arrivo di Johnson ? [specificare le ipotesi] 43 1.23) Nella misura della profondità del pozzo dal tempo di caduta del sasso leggo sul display del cronometro per i 20 diversi sassi che lancio, i seguenti valori: 6.2 6.6 6.4 6.7 6.2 6.3 5.9 6.4 6.5 6.2 6.3 6.4 6.0 6.3 6.2 6.6 6.1 6.3 6.5 7.0 (tutti in s). Fare l’istogramma delle misure, calcolare media e deviazione standard campionaria. Dare la migliore stima di un intervallo di quasi certezza per la profondità del pozzo. [ h = ½ g t2 ] 1.24) Una ripetizione dell’esperienza di Millikan vuole vedere se esistono cariche elettriche pari a ½ e ( e é la carica dell’elettrone ) . Lo strumento utilizzato ha una precisione sulla misura della carica di 0.7 x 10-7 pC. Quante cariche ½ e devo osservare per poter dire che si tratta effettivamente di cariche ½ e e non di elettroni ? [la carica dell’elettrone é e = 1.60217733 x10-7 pC] 1.25) Sono prese misure di radioattività ad intervalli regolari di 1/2 ora. Nell’arco di 8 ore (dalle 12 alle 20) vengono registrati i seguenti valori (in conteggi al secondo): 16.24 / 16.38 / 16.31 / 16.42 / 16.30 / 16.29 / 16.36 / 16.94 / 17.21 / 17.26 / 17.14 / 17.31 / 17.24 / 17.32 / 17.16 / 17.25. a) Discutere qualitativamente i dati a disposizione eventualmente utilizzando grafici b) Stabilire quantitativamente se si é osservata una variazione significativa della radioattività 1.26) Per un campione di 100 distributori di benzina sparsi sul territorio nazionale sono stati registrati i prezzi del Gasolio in due momenti: il 1/6/2003 ed il 1/10/2004. Facendo gli istogrammi dei 2 insieme di dati si ha (prezzi in euro/litro): 1/6/2003 1/10/2004 0.800-0.820 1 0.960-0.980 1 0.820-0.840 12 0.980-1.000 25 0.840-0.860 27 1.000-1.020 48 0.860-0.880 31 1.020-1.040 26 0.880-0.900 19 1.040-1.060 0 0.900-0.920 9 0.920-0.940 1 a) Disegnare gli istogrammi e determinare media e deviazione standard di ogni campione. b) I dati sono compatibili con un aumento tendenziale del 10.2% su base annuale ? 1.27) Misuro il raggio di un cuscinetto a sfera di acciaio con un calibro a lettura digitale. Ottengo il valore 30.335 mm. Ruotando la sfera il valore del raggio non cambia. Dare la migliore stima della massa del cuscinetto con la sua incertezza (la densità del tipo di acciaio utilizzato per i cuscinetti viene data come intervallo standard 7.85±0.05 g/cm3). 1.28) Si é misurata la carica elettrica di una nuova particella. Su di un campione di 218 esemplari di tale particella, la distribuzione della carica é ben descritta da una distribuzione di Gauss con valore centrale 1.48 x 10-19 C con deviazione standard 0.28 x 10-19 C. Si può concludere che questa nuova particella ha una carica significativamente minore di quella elementare ? (la carica elettrica elementare é q = 1.6021773 x 10-19 C.) 44 45 (2) La probabilità e le variabili casuali (2.1) Concetto di probabilità Abbiamo visto nel capitolo precedente che la nozione di probabilità entra in gioco in modo del tutto naturale nella discussione dei problemi relativi alla interpretazione del significato delle misure. Finora tuttavia la nostra nozione di probabilità é stata solo intuitiva. Abbiamo in particolare introdotto la nozione di intervallo di probabilità (quanto crediamo all’intervallo che abbiamo fornito per il valor vero della misura). Abbiamo inoltre visto che nella costruzione di un istogramma, il numero di volte con cui viene ottenuto un dato valore (che abbiamo chiamato frequenza) é in qualche modo legato alla probabilità che quel dato valore sia ottenuto. La nozione di probabilità fa parte del modo con cui l’uomo analizza l’ambiente in cui vive. E’ una delle categorie che più o meno consciamente utilizziamo nella nostra vita quotidiana. Ci inoltriamo ora in una teoria matematica (la teoria della probabilità) all’interno della quale la nozione di probabilità é definita, e che ci permette anche di fare operazioni e di mettere in relazioni probabilità associate a diversi fatti o eventi. Cominciamo a discutere la “definizione” di probabilità. Il problema della definizione della probabilità é estremamente dibattuto ed aperto. In generale possiamo dire che ci sono 2 approcci di diverso tipo. Vediamo di descriverli entrambi senza partecipare alle accese polemiche tra i sostenitori di ciascuna delle due. (a) Probabilità “ontologica”: la probabilità é una proprietà del fenomeno, il quale può presentarsi sotto diverse modalità in determinate frazioni di casi. La probabilità é dunque una proprietà della realtà, del mondo, di come si svolgono le cose. E’ una visione che qualcuno (in modo non completamente appropriato) chiama oggettiva. (b) Probabilità “epistemica”: la probabilità é una proprietà che noi associamo ad un fenomeno sulla base delle nostre conoscenze di come il fenomeno si manifesta. E’ una proprietà che appartiene al modo con cui noi conosciamo il fenomeno, che dunque può non appartenere al fenomeno stesso. E’ naturalmente detta, in contrapposizione alla precedente definizione, soggettiva. Senza accettarne una come nostra, tentiamo di definire in modo intuitivo cosa facciamo noi quando usiamo la probabilità. Il nostro pensiero seleziona cose vere, cose false, e cose sul cui contenuto di verità siamo incerti. Ma le cose incerte non sono completamente ignote, diciamo che c’è una “scala” naturale che ha per estremi proprio il vero da una parte ed il falso dall’altra. Probabilità é la quantificazione di questa scala: quantifica dunque lo stato di incertezza rispetto al contenuto di verità di una affermazione. In inglese si dice “degree of belief” ovvero grado di credito. La mente umana sviluppa in modo naturale questo concetto. E’ naturale introdurre una scala tra 0 e 1 spesso espressa in percentuali. Quanto detto si avvicina maggiormente alla definizione (b) che molti fisici non accettano perché apparentemente va contro il paradigma dell’oggettività. In realtà come abbiamo visto, l’oggettività dell’indagine scientifica resta garantita dal fatto (non logico ma sperimentale) che osservatori diversi alla fine “si mettono d’accordo” sempre sui risultati ottenuti, quando questi sono sufficientemente “solidi”. E’ come se la pretesa oggettività sia in definitiva una forma di “intersoggettività”. (2.2) Alcuni metodi di calcolo Abbandoniamo la discussione filosofica ed intraprendiamo lo studio dei metodi di calcolo delle probabilità (sui quali non ci sono grossi dibattiti). Storicamente la probabilità ha assunto interesse in 2 aree: l’area delle scommesse e l’area delle assicurazioni. Si tratta evidentemente di 2 esigenze diverse. Nel primo caso voglio sapere dove é conveniente puntare, nel secondo caso per stabilire le modalità di una polizza assicurativa occorre conoscere quanto é probabile che accada una certa cosa. A partire da tali due esigenze si sono sviluppati empiricamente 2 metodi di calcolo della probabilità. Tali metodi sono a volte 46 - erroneamente chiamate definizioni. In realtà, come vedremo, nessuno dei due costituisce da solo una definizione esauriente: Metodi di calcolo: Combinatorio (derivazione da scommesse): supponiamo di trovarci di fronte ad un problema che si può decomporre in varie possibilità che potremmo chiamare “casi possibili”. Un dato evento sarà definito dall’occorrenza di certi “casi favorevoli” tra tutti quelli possibili. Allora diciamo che la probabilità del nostro evento é: prob = - Num ( casi − favorevoli ) Num ( casi − possibili ) si noti che perché questa definizione abbia significato, occorre che i casi possibili siano tutti “equiprobabili”. Il che mette in luce il problema di principio insito nell’uso della definizione combinatoria come definizione di probabilità (uso nella definizione del concetto che si vuol definire). Oltre a ciò si noti che non tutte le applicazioni della probabilità sono riconducibili ad un problema di casi favorevoli rispetto a casi possibili. Frequentista (derivazione da assicurazioni): supponiamo invece di trovarci nella possibilità di misurare la frequenza con cui un dato evento ha luogo. Allora definisco probabilità il limite della frequenza per un gran numero di prove: prob = lim f dove con f indichiamo n →∞ n n la frequenza dell’evento in questione ottenuta dopo n prove. Tale definizione si fonda sul fatto sperimentalmente osservato che al crescere del numero di prove le frequenze tendono a “stabilizzarsi”. Per esempio se lancio tante volte una monetina regolare, la frequenza con cui ottengo testa si avvicina al 50% sempre di più al crescere del numero di prove. Tale fatto empirico é quello che costituisce il cosiddetto Principio di Stabilità della Frequenza. Non si tratta comunque di definizioni logicamente soddisfacenti. Inoltre ci sono casi che sfuggono ad entrambi questi metodi di calcolo. Esempi di applicazione semplice del metodo di calcolo combinatorio sono forniti dal lancio della monetina o del dado, dall’estrazione di una carta da un mazzo di carte. Si tratta di esempi in cui é agevole individuare quali sono i casi possibili e quali i casi favorevoli, e di conseguenza si tratta di contare quanti sono. Nell’applicare questa definizione occorre tuttavia fare attenzione alla richiesta di equiprobabilità dei casi possibili. Non tenerne conto significa sbagliare la determinazione. Si provi a calcolare la probabilità di avere 2 volte testa lanciando due volte la monetina. Si potrebbe pensare di dire che ci sono 3 casi possibili: 2 volte testa, 2 volte croce, 1 testa e 1 croce da cui prob=1/3. In realtà non sfugge ad un esame attento del problema che i casi possibili sono 4, poiché 1 testa e 1 croce vale doppio comprendendo anche il caso 1 croce 1 testa. E dunque prob=1/4. Esempi di applicazioni del metodo frequentista sono altrettanto comuni. La probabilità che un nato sia maschio o femmina, viene valutata contando la frazione dei casi in cui si manifestano le due modalità, e in generale tutte le “statistiche” che quotidianamente ci vengono illustrate su giornali e televisioni si fondano sull’idea che misurando una frequenza di occorrenza di una certa cosa si possa dire quant’è la probabilità che quella cosa accada. Si é sviluppata una branca della matematica, il calcolo delle probabilità appunto, che si occupa di definire le operazioni e i metodi di calcolo. (2.3) Regole della teoria delle probabilità. Passiamo ora a descrivere la teoria della probabilità. Utilizziamo le cose viste cercando di formalizzarle. Cominciamo con i termini del linguaggio. (2.3.1) Spazio degli eventi 47 Che cosa é un Evento. E’ una modalità possibile con cui un dato fenomeno si manifesta. L’insieme degli eventi costituisce quello che chiameremo spazio degli eventi e che può essere rappresentato come una parte di un piano. Nell’usare questa rappresentazione, facciamo riferimento alla ben nota teoria degli insiemi che ha il pregio di essere intuitiva. Chiamiamo Ω l’intero spazio degli eventi, cioè l’insieme di tutti gli eventi, ovvero l’insieme di tutte le modalità con cui un dato fenomeno si può svolgere, e 0 l’evento nullo, cioè il non verificarsi di alcuna modalità. - - (2.3.2) Eventi composti Come nel caso della teoria degli insiemi, definiamo un certo numero di importanti operazioni tra eventi. Dati due eventi A e B definiamo somma logica (OR) A ∪ B quell’evento che può manifestarsi o secondo la modalità A o secondo la modalità B; prodotto logico (AND) A ∩ B quell’evento che si manifesta quando si manifestano sia A che B eventi incompatibili quei due eventi A e B tale che il manifestarsi dell’uno implica il non manifestarsi dell’altro e viceversa, cioè le modalità dei due eventi sono tali da farli escludere reciprocamente. Evidentemente la condizione di incompatibilità si può esprimere come A∩ B = 0 eventi opposti quei 2 eventi A e B incompatibili tali che la loro somma logica sia uguale a Ω. L’evento opposto di A si indica anche come A ; vale dunque: A ∪ A = Ω un evento A é incluso in B, quando tutte le modalità di A sono anche modalità di B: A ⊂ B Tutte le definizioni date hanno un corrispettivo grafico che é facilmente caratterizzabile utilizzando i ben noti diagrammi della teoria degli insiemi. (2.3.3) Definizione assiomatica della probabilità Definiamo il simbolo P(E) (probabilità dell’evento E) in modo del tutto formale, come una caratteristica di E avente le seguenti proprietà(definizioni assiomatiche di Kolmogorov): Æ positività: 0 ≤ P ( E ) ≤ 1 la probabilità associata ad un evento é un numero reale e positivo non superiore a 1; Æ certezza: P (Ω ) = 1 e P ( 0) = 0 quella dell’evento nullo é 0; Æ unione: se A e B sono incompatibili la probabilità dell’intero spazio degli eventi é pari a 1 e P ( A ∪ B ) = P ( A) + P ( B ) Si noti che si tratta di una definizione “formale” che non dice nulla riguardo il significato di questa operazione P(E) che associa un numero reale ad un evento. Si chiama appunto definizione assiomatica perché stabilisce delle regole a partire dalle quali possono essere dedotte tutte le altre proprietà. (2.3.4) Probabilità condizionata Nello scrivere il simbolo P(E) intendiamo dire la probabilità dell’evento E. Si noti tuttavia anche per le considerazioni fatte sulle misure nella prima parte del corso, che ha senso chiedersi della probabilità di un evento solo quando sono specificate le condizioni all’interno delle quali l’evento é definito. Dunque é più generale esprimere la probabilità di E come la probabilità di E date le condizioni H. Scriveremo pertanto P(E/H). Il simbolo P(E/H) esprime quella che si chiama probabilità condizionata. Per quanto detto dunque la probabilità é sempre condizionata. Si noti che il simbolo P(E/H) non é la stessa cosa di P ( E ∩ H ) come si potrebbe pensare a prima vista. Tutto va come se la condizione H definisse il nuovo spazio degli eventi su cui calcolare la probabilità di E. Si tratterà dunque di calcolare 48 P( E / H ) = P( E ∩ H ) P( H ) cioè calcolare il prodotto logico tra E ed H e poi “normalizzarlo” alla probabilità di H stesso. Si può dire che la probabilità condizionata restringe lo spazio degli eventi a cui far riferimento dallo spazio completo Ω al suo sottospazio H. Un esempio del significato di questi due simboli ci é fornito dal caso in cui mi chiedo quale sia la probabilità che esca testa al secondo lancio quando nel primo é già uscita testa. In tal caso P ( E ∩ H ) e P(E/H) sono differenti. Infatti nel secondo caso non devo contare la probabilità che sia uscito testa la prima volta, essendo questo dato per “certo”, mentre nel primo devo calcolarlo. L’espressione data sopra é evidentemente simmetrica rispetto ad E ed H , quindi E ed H possono essere invertiti e la formula può essere rigirata. Avremo dunque: P( E ∩ H ) = P( E / H ) P( H ) P( E ∩ H ) = P( H / E ) P( E ) Le due espressioni date costituiscono il teorema delle probabilità composte che serve per calcolare la probabilità di eventi composti, cioè di eventi che avvengono in coincidenza. Si noti che P(E/H) può essere > < o = a P(E). Ciò dipende infatti dal tipo di relazione esistente tra la condizione H e l’evento E. Nel caso dei 2 lanci della monetina che abbiamo citato poco sopra, entrambi le probabilità sono uguali e pari a ½. Ciò riflette il fatto che l’esito del primo lancio non ha alcun effetto sull’esito del secondo (a differenza di quello che credono coloro che puntano sui numeri del lotto sulla base del loro ritardo nell’uscita). Ma si possono costruire anche esempi in cui l’esito del primo evento condiziona l’esito del secondo. Se ho un urna con 5 palline bianche e 5 nere e ad ogni estrazione non reintroduco la pallina estratta, evidentemente la probabilità di estrarre bianco al secondo lancio cambia se specifico la condizione “al primo lancio ho estratto una bianca”. Il caso particolare che si ha quando P(E/H) = P(E) (come nell’esempio della monetina), cioè il caso in cui la condizione data dall’evento H non ha alcuna rilevanza circa la probabilità di E corrisponde al fatto che i 2 eventi sono indipendenti o scorrelati. Il verificarsi dell’uno non ha alcun effetto sulla probabilità di verificarsi dell’altro. Quando invece P(E/H) é diversa da P(E) allora si dice che i 2 eventi sono dipendenti o correlati. Nel caso di eventi indipendenti si ha: P ( A ∩ B ) = P ( A) P ( B ) regola della moltiplicazione delle probabilità di eventi indipendenti. Dunque come regola generale, quando devo considerare l’OR tra eventi incompatibili sommo le probabilità quando devo fare l’AND tra eventi indipendenti devo moltiplicarle. Si noti che la nozione di indipendenza non va confusa con quella di incompatibilità sopra definita. Si vede immediatamente che se 2 eventi sono incompatibili cioè se il verificarsi dell’uno implica il non verificarsi dell’altro, allora i 2 eventi sono massimamente dipendenti. (2.3.5) Alcune proprietà delle probabilità Deriviamo alcune importanti proprietà della probabilità che useremo in seguito. Si tratta di conseguenze degli assiomi nel senso che possono essere derivate formalmente usando solo gli assiomi dati. Le vediamo facendo per ognuna riferimento al suo significato grafico nell’ambito del modello insiemistico. Æ Dato un evento A ed il suo opposto A si ha A∪ A = Ω e dunque essendo A ed A incompatibili ed usando gli assiomi di unione e certezza: P( A ∪ A) = P( A) + P( A) = P(Ω) = 1 si ha la regola (peraltro intuitiva): 49 P( A) = 1 − P( A) . Æ A ed il suo opposto A costituiscono una “partizione completa” di Ω e pertanto qualsiasi evento B può essere scritto nella forma: B = ( B ∩ A) ∪ ( B ∩ A) come OR di 2 eventi incompatibili per cui la probabilità di B sarà: P( B) = P( B ∩ A) + P( B ∩ A) Si tratta di una decomposizione che viene utilizzata in molte delle dimostrazioni formali dei teoremi che vedremo nel seguito. Æ Proprietà di inclusione. Vale la proprietà anch’essa intuitiva che se A⊆ B allora P ( A) ≤ P ( B ) Tale proprietà é facilmente dimostrabile decomponendo l’evento B nell’OR tra l’evento A (che é per ipotesi incluso in B) e il resto di B che é esprimibile come AND tra B e l’opposto di A B = A ∪ ( B ∩ A) Applicando al solito l’assioma dell’unione si ottiene: P( B) = P( A) + P( B ∩ A) ≥ P( A) essendo comunque per l’assioma della positività P( B ∩ A) ≥ 0 Æ Da ultimo vediamo come si generalizza l’assioma dell’unione al caso in cui i 2 eventi non siano incompatibili. Se considero 2 eventi A e B decompongo il loro OR nell’OR tra A senza B, B senza A e A e B insieme (3 eventi chiaramente incompatibili). Esplicitamente, A ∪ B = ( A ∩ B) ∪ ( A ∩ B) ∪ ( A ∩ B) da cui usando l’assioma dell’unione P( A ∪ B) = P( A ∩ B) + P( A ∩ B) + P( A ∩ B) Analogamente posso decomporre sia A che B in eventi incompatibili per modo che valgono le: P( A) = P( A ∩ B) + P( A ∩ B) P( B) = P( A ∩ B) + P( A ∩ B) Sottraendo membro a membro ed eliminando i termini uguali otteniamo l’importante teorema: P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) all’interno del quale l’assioma dell’unione é compreso come caso particolare di eventi incompatibili. Si noti che tale teorema ha un chiarissimo significato grafico. (2.3.6) Il teorema di Bayes Dimostriamo ora un ulteriore teorema che deriva dalla definizione assiomatica e che riveste un ruolo particolarmente rilevante nei problemi di “inferenza”. Vediamo prima il teorema e poi vedremo la sua interpretazione. Consideriamo lo spazio degli eventi Ω suddiviso in N eventi tutti tra loro incompatibili e tali da costituire una “partizione completa” di Ω. Chiamiamo Ai l’i-esimo evento. Si ha per definizione: Ω=∪ A i i ∀i, j ( A ∩ A ) = 0 i j Con tale decomposizione la probabilità dell’evento B può essere scritta nella forma: 50 P( B) = ∑ P( B ∩ A ) = ∑ P( B / A ) P( A ) N N i i =1 i i =1 i dove abbiamo anche usato il teorema delle probabilità composte. D’altra parte, sempre sulla base del teorema delle probabilità composte scritto usando simmetricamente A e B posso derivare la relazione: P( A / B) = P ( B / A) P ( A) P( B) Applicando questa relazione all’evento B ed al generico Ak ed usando per P(B) la decomposizione sopra descritta, otteniamo: P( A / B) = k P( B / A ) P( A ) ∑ P( B / A ) P( A ) k k N i =1 i i Tale espressione esprime il Teorema di Bayes. Si tratta evidentemente di una conseguenza degli assiomi della probabilità. Proviamo a “leggere” questo teorema. Supponiamo che il fenomeno che sto studiando può aver luogo secondo N modalità diverse (gli N eventi Ai). Supponiamo inoltre di aver osservato l’evento B e di essere interessati a sapere quale o quali tra le N modalità Ai siano plausibilmente le “cause” di B. O, detto in termini più espliciti, se osservo l’effetto B e questo può essere dovuto a N cause diverse Ai, voglio, dall’osservazione dell’effetto stabilire la probabilità di ciascuna causa. Cosi’ formulato si tratta di un problema di straordinaria generalità. Infatti il procedimento dello sperimentatore consiste proprio nel registrare un effetto (il valore misurato) e nello stabilire un intervallo di probabilità per il valore vero che significa trovare quale tra le possibili cause é più plausibile. Il teorema di Bayes consente dunque di calcolare la probabilità delle cause, dato l’effetto osservato. Per fare ciò ho bisogno di 2 ingredienti: Æ conoscenza di tutte le P ( Ak ) cioè delle cosiddette “probabilità a priori” delle cause. Si tratta di una informazione che racchiude tutta la conoscenza a priori sul fenomeno che sto studiando. Se non ho nessuna conoscenza queste P ( Ak ) immagino che siano uniformi cioè che tutte le cause possibili siano equiprobabili. Æ conoscenza di tutte le P ( B / Ak ). Si tratta per ogni Ak della probabilità di osservare l’effetto B se la causa che lo origina é Ak. Si chiama anche funzione di verosimiglianza (likelihood in inglese). E’ una funzione che racchiude tutte le conoscenze che ho sulla relazione tra causa ed effetto. Nel caso di un esperimento é la mia conoscenza dell’apparato di misura (precisione, errori sistematici, accuratezza, ripetibilità...) Il teorema di Bayes permette dunque di passare dalle probabilità per gli effetti alle probabilità per le cause. Può essere usato come base per il processo dell’inferenza che consiste proprio nel fare affermazioni sulle cause (i valori veri) dati gli effetti. (2.4) Il Calcolo Combinatorio. Vediamo ora alcune interessanti regole di calcolo che sono molto utilizzate nel calcolo delle probabilità, in particolare nella determinazione del numero dei casi favorevoli e di quello dei casi possibili che entrano nel metodo combinatorio di valutazione della probabilità. Parliamo del calcolo combinatorio. E’ importante sottolineare l’importanza del calcolo combinatorio in Fisica. Esso infatti entra in gioco non solo come vedremo nel calcolo delle probabilità, ma svolge un ruolo essenziale anche nella Meccanica Statistica, cioè in quel settore della Fisica Teorica nel quale vengono studiate le proprietà dei sistemi costituiti da molti elementi. I problemi di calcolo combinatorio di cui ci occuperemo qui, possono in generali essere tutti posti nel modo seguente. Supponiamo di avere un certo numero (diciamo n) di elementi, e supponiamo di avere la possibilità di disporre questi elementi in un certo numero (diciamo k) di caselle, un elemento a casella, secondo certe modalità date per costituire degli oggetti. Allora mi chiedo: quant’e il numero di oggetti che posso costituire o, detto in altri termini, il numero di modi in cui posso disporre gli n elementi nelle k caselle ? 51 In generale la regola é: se nella i-esima casella posso scegliere 1 tra ni degli n elementi, il numero totale di oggetti che posso costruire é pari a n1*...*ni*...*nk cioè devo moltiplicare tra loro tutti i numeri di scelte possibili. Distinguiamo ora i vari casi che si incontrano e facciamo dunque una classificazione dei problemi di calcolo combinatorio, sulla base delle modalità di disposizione. (1) Disposizioni di n elementi in k caselle. Se gli n elementi che ho a disposizione sono tutti disponibili e possono essere usati ciascuno più di una volta, allora in ciascuna casella posso disporre effettivamente n elementi. Il prodotto n1*n2*...*nk tra il numero di elementi che posso mettere in ogni casella sarà dato dal prodotto k volte degli n elementi, ovvero da : n k È il caso che si pone quando posso usare più volte lo stesso elemento e allo stesso tempo, la sequenza nelle k caselle é importante. L’esempio più classico é quello della schedina di totocalcio. Ho 13 caselle da riempire con 3 elementi. Il numero di modi con cui posso farlo é evidentemente 313 . (2) Disposizioni semplici (cioè senza ripetizioni) di n elementi in k caselle. Questo caso differisce dal precedente nel fatto che ora una volta che ho messo un elemento in una casella, non posso più riutilizzarlo. Cioè viene mantenuta l’individualità di ciascun singolo elemento. E’ evidente che in tal caso deve essere n > k, perché in caso contrario non potrei riempire le k caselle. Contiamo in questo caso il numero di modi in cui posso disporre gli elementi. Evidentemente posso mettere n elementi nella prima casella. Quando sono alla seconda ne potrò mettere solo n-1 perché uno me lo sono già “giocato” alla casella precedente. Alla terza potrò metterne n-2, e cosi’ via, fino alla k-esima, quando ne potrò mettere n-k+1. Il numero di oggetti sarà dunque: n(n − 1)....(n − k + 1) = n! (n − k )! si noti che anche in questo caso come nel precedente, la sequenza con la quale gli elementi sono disposti nelle caselle, é rilevante. Cioè se prendo gli stessi elementi e li dispongo in un ordine diverso, questo costituisce un altro modo che é contato. Come esempio consideriamo un concorso a cui partecipano 100 persone per 10 posti, e calcoliamo il numero di graduatorie dei primi 10 classificati che si possono ottenere. In questo caso, n=100, k=10, ed evidentemente non posso mettere un candidato in 2 diverse posizioni. Si noti a questo punto la differenza tra i casi (1) e (2). Nel caso (2) gli elementi sono distinguibili, cioè hanno ciascuno una identità ben definita nel caso (1) no. La distinzione distinguibile – indistinguibile svolge un ruolo determinante nel passaggio tra Fisica Classica e Fisica Quantistica. Anzi fu proprio attraverso la comprensione di questo passaggio che furono mossi i primi passi ai primi del ‘900 nel passaggio alla nuova Fisica. (3) Permutazioni di n elementi. Si tratta delle disposizioni semplici quando n=k. Si ha un numero di oggetti pari a n! Siamo cioè nel caso in cui il numero di elementi uguaglia il numero di caselle. Ho evidentemente un solo modo di scegliere quali elementi mettere perché devo prenderli tutti. Tuttavia mi resta la libertà di definire in quale sequenza metterli nelle caselle. Le permutazioni sono dunque i modi con cui posso scambiare gli elementi per creare diverse sequenze. 52 (4) Combinazioni di n elementi presi k a k. Qui il problema é un po’ diverso. Come nel caso (2) n > k. Solo che stavolta, tra n elementi devo sceglierne k e disporli nelle k caselle, ma non sono interessato a sapere come li dispongo, sono solo interessato a sapere quali ho scelto. In altre parole devo ancora contare le disposizioni semplici, ma devo contare solo una volta, quelle disposizioni che sono fatte dagli stessi elementi ma sono solo ordinate in modo diverso. Devo quindi dividere il numero di disposizioni semplici per il numero di permutazioni dei k elementi scelti. ⎛n⎞ n! 1 n! = =⎜ ⎟ ( n − k )! k! ( n − k )!k! ⎝ k ⎠ Il risultato ottenuto é detto coefficiente binomiale per ragioni che saranno chiare nel seguito. Rappresenta il numero di combinazioni di n elementi presi k a k, cioè il numero di modi in cui posso scegliere k tra n elementi, indipendentemente dall’ordine con cui li dispongo. (2.5) Variabili casuali (2.5.1) Considerazioni generali La nozione di evento finora utilizzata risulta piuttosto astratta e difficilmente applicabile alle misure, alle quali siamo interessati. Apparentemente quindi le cose viste nella prima parte del corso non trovano una connessione diretta con quanto stiamo vedendo riguardo le probabilità degli eventi. L’applicazione della teoria della probabilità ai risultati di misure, diventa evidente quando introduciamo le variabili casuali. Quando l’evento può essere schematizzato come l’occorrenza di un numero, rispetto ad una molteplicità di numeri possibili, si dice che quel numero costituisce una variabile casuale: intendendo con ciò “un modo dell’evento”. E’ l’evento in forma quantitativonumerica. L’insieme di tutti i valori che tale variabile può assumere costituisce lo spazio degli eventi Ω . Si può trattare dell’insieme di tutti i numeri reali, oppure di tutti gli interi positivi, oppure degli interi tra 0 e 100 o quello che si vuole. Perché le variabili casuali sono importante in fisica ? Essenzialmente perché le grandezze fisiche che costituiscono l’oggetto delle misure, si presentano in generale come variabili casuali. Negli esempi che abbiamo visto nella prima parte del corso e nella prima esercitazione, abbiamo notato che il risultato di ogni misura può essere un numero diverso e dunque il risultato di una misura può considerarsi a tutti gli effetti come un evento all’interno dello spazio dei possibili risultati. Le sequenze di numeri che abbiamo visto sono perciò insiemi di eventi, cioè di occorrenze di una variabile casuale. Si noti che in questo contesto, l’aggettivo “casuale” non vuol dire completamente a caso, ma vuol dire che si tratta di una variabile che può assumere valori con certe caratteristiche. Vediamo alcuni esempi. a) Testa-Croce. Qui la variabile può assumere 2 valori (lo spazio Ω è uno spazio con 2 eventi soltanto) che possiamo chiamare 0 e 1. I 2 eventi sono evidentemente equiprobabili di probabilità 1/2 b) 1 Dado. Qui lo spazio é costituito dai numeri interi da 1 a 6, tutti equiprobabili (p=1/6) c) 2 Dadi. Qui lo spazio é costituito dagli interi da 2 a 12 ma questi non sono equiprobabili. Il contenuto di probabilità di ciascun evento é facilmente calcolabile con il metodo combinatorio. Si ottiene una probabilità massima per n=7 e minima per n=2 o 12 (vedi costruzione in Fig.2.1). 53 frequenza Fig.2.1 Funzione di distribuzione della variabile discreta somma dei 2 dadi, ottenuta applicando il metodo combinatorio. 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 frequenza Somma dei 2 dadi 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 frequenza Somma dei 2 dadi 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 Somma dei 2 dadi Fig.2.2 Esempi di distribuzioni “campionarie” della variabile (somma dei 2 dadi) per diversi numeri di lanci (2.5.2) Distribuzioni di probabilità di variabili casuali 54 Emerge da questi esempi in modo naturale la nozione di distribuzione di probabilità: ogni evento, ovvero ogni occorrenza di un possibile elemento dello spazio Ω é caratterizzato da una certa probabilità (che posso stimare a priori sulla base delle mie conoscenze del fenomeno). La distribuzione ci dice quanto vale p(E) cioè quant’è la probabilità che associamo a ciascuno degli eventi possibili. Questa distribuzione ha evidentemente una sua caratterizzazione grafica, nella quale la variabile casuale viene posta sull’asse delle ascisse, e la probabilità viene posta sull’asse delle ordinate. La forma ottenuta, esprime in definitiva tutte le proprietà note del fenomeno in esame. Tale forma é detta anche popolazione. Nel caso della Fig.2.1 abbiamo dunque la popolazione della variabile “somma di 2 dadi”. Se prendo 2 dadi e faccio un numero finito di lanci, e disegno l’istogramma dei valori ottenuti (vedi Fig.2.2 dove sono riportati 3 istogrammi per 3 diversi numeri di lanci) riportando sull’asse delle ordinate le frequenze con cui ciascun valore si é manifestato, ho ottenuto la descrizione di un campione preso dalla popolazione in esame. Nel limite in cui il numero di misure é elevato, sappiamo che la frequenza tende alla probabilità di occorrenza di quel risultato, ovvero, usando un linguaggio più appropriato, il campione tende ad approssimare la popolazione. Vediamo dunque che tra frequenza e probabilità vi é una “relazione” molto importante, che é la relazione che c’è tra l’istogramma e la distribuzione ovvero quella che c’è tra campione e popolazione. (a) (b) Distinguiamo subito tra 2 tipi di variabili casuali: variabili discrete: i valori assunti possono essere solo interi compresi tra n1 ed n2. variabili continue: i valori assunti possono essere numeri reali compresi tra a e b (2.5.3) Variabili discrete. Il caso delle variabili discrete é sostanzialmente semplice. Per ogni n ho p ( n ) ovvero la probabilità che “esca” il numero n. Nel caso del dado, p(1)=p(2)=...=p(6)=1/6. Se voglio sapere la probabilità che esca un numero compreso tra n1 ed n2 farò: n2 p (n ≤ n ≤ n ) = ∑ p(i ) 1 2 i = n1 infatti ogni uscita é incompatibile con l’uscita simultanea di un altro numero. Naturalmente per soddisfare l’assioma della certezza dovrà essere: ∑ p (i ) = 1 N 1= 0 se [0,N]é l’intervallo di definizione della variabile. (2.5.4) Variabili continue Nel caso di variabile continua, notiamo subito che esiste una novità fondamentale. Infatti noi sappiamo che i numeri reali costituiscono un insieme “comunque denso”. Un numero reale é a rigore, un numero che ha infinite cifre significative. Noi sappiamo bene in effetti che quando si fanno delle misure non ha molto significato chiedersi quant’è la probabilità che esca il numero reale 45.72. E’ più sensato chiedersi, quant’è la probabilità che esca un numero reale compreso tra 45.715 e 45.725. Si noti che nel caso delle variabili discrete questo problema non si pone. La probabilità che esca 10, é perfettamente definita. Nel caso dei numeri reali invece la probabilità che esca proprio x é a rigore “nulla”, non nulla é invece la probabilità che esca un numero compreso tra x e x+Δx. Per trattare il caso delle variabili casuali rappresentate da numeri reali, si ricorre ai metodi dell’analisi matematica, in particolare quelli del calcolo differenziale ed integrale. Vediamo di illustrare il procedimento logico di tali metodi senza pretendere di essere rigorosi. A questo scopo immaginiamo di dividere l’insieme di definizione della variabile reale x in intervalli (bins) larghi Δx, ciascuno centrato in un dato valore di x, diciamo xk, e di mettere in corrispondenza di ciascun bin una barra di altezza pari alla probabilità che x cada nell’intervallo 55 compreso tra xk -Δx/2 e xk +Δx/2. Sostanzialmente abbiamo costruito un istogramma, abbiamo cioè “discretizzato” una variabile continua rendendola simile ad una discreta. Chiamiamo Pk l’altezza di ciascuna barra e f(xk) il rapporto f ( x ) = P / Δx k k La probabilità associata al generico intervallo [a,b] sarà data dalla somma sugli N bin contenuti nell’intervallo [a,b]: p ( a < x < b ) = ∑ p ( x − Δ x / 2 < x < x + Δx / 2 ) = ∑ P = ∑ f ( x ) Δ x N k =1 N k k k =1 N k k =1 k Tale espressione costituisce una approssimazione alla probabilità che stiamo cercando di calcolare. Se ora diminuisco sempre di più le dimensioni del mio bin, aumentando proporzionalmente il numero di bins, cioè se faccio il limite per Δx -> 0 l’approssimazione diventa sempre più buona. L’analisi mi insegna che sotto certe ipotesi sulla funzione, il limite della sommatoria esiste, e si chiama integrale della funzione. Scriveremo perciò: b p(a < x < b) = ∫ f ( x)dx a La funzione f ( x ) é detta densità di probabilità. Si tratta di una funzione che non ha né il significato né le dimensioni di una probabilità, ma il cui valore in una certa zona di x ci dice quanta é la “probabilità per unità di x” che x esca in quella zona. Per fissare le idee disegniamo una f( x ) qualsiasi (vedi Fig.2.3). Dal punto di vista grafico, la probabilità in questo caso é dunque l’area sottesa alla curva tra a e b come illustrato in Fig.2.3. Il simbolo dx indica l’intervallo infinitesimo della variabile x, cioè il limite per N grande di Δx. Quindi il segno di integrale appena definito ha il significato di una somma di prodotti dei valori della funzione per la dimensione dell’intervallino, quando ho implicitamente pensato di mandare all’infinito il numero di intervallini. Fig.2.3 Esempio di densità di probabilità f(x) della variabile casuale continua x definita nell’intervallo (0,10). L’area complessiva sottesa alla curva é pari a 1. Per determinare la probabilità che x sia compresa tra i 2 valori a e b, (pari rispettivamente a 3 e 5 in questo caso) si deve valutare l’area indicata. Con questo linguaggio l’assioma della certezza si tramuta nella: x max ∫ f ( x)dx = 1 x min 56 dove [xmin,xmax] costituiscono l’insieme di definizione della variabile casuale x. Per quanto detto, le densità di probabilità ha le dimensioni di un inverso di x essendo il prodotto f(x)dx uguale ad una probabilità che é adimensionale. Le funzioni di distribuzione sia di n che di x possono dipendere da uno o più parametri, i cui valori determinano le caratteristiche della funzione. La notazione che si usa é p ( n/θ ) o f ( x/θ) intendendo con θ un insieme di parametri. La notazione adottata fa capire che la dipendenza dal parametro é una forma di condizionamento della probabilità. Si tratta cioè di dire la funzione di distribuzione di x quando θ vale un certo valore. Accanto alla funzione di distribuzione si definisce la funzione cumulativa (o di ripartizione) cosi’ definita: P ( n / θ ) = ∑ p (i / θ ) n i = n1 ovvero F ( x / θ ) = ∫ f ( x' / θ )dx' x x min Dalla definizione risulta chiaro il significato delle funzioni cumulative. E’ una funzione monotonamente crescente che parte da 0 e arriva a 1. La funzione di distribuzione cumulativa corrispondente alla funzione di distribuzione di Fig.2.3é data in Fig.2.4. Nel caso di variabile continua, dai teoremi del calcolo differenziale e integrale otteniamo che f ( x /θ ) = dF ( x / θ ) dx cioè la densità di probabilità é la derivata della funzione cumulativa. Come illustrato graficamente nella Fig.2.4, il calcolo della probabilità che x sia compreso tra a e b, può essere effettuato a mezzo della distribuzione cumulativa secondo la formula: P (a < x < b) = F (b) − F ( a ) Fig.2.4 Distribuzione cumulativa della densità di probabilità mostrata in Fig.2.3. Il calcolo della probabilità che x assuma un valore compreso tra a e b (3 e 5 in questo caso specifico), può essere ottenuta calcolando F(a) ed F(b) e facendone la differenza. Si noti che la cumulativa tende ad 1 all’estremo dell’intervallo di definizione della variabile x (0,10 in questo caso). 57 (2.5.5) Momenti di una distribuzione Le caratteristiche di una funzione di distribuzione sono determinate dalla forma della distribuzione e dai parametri che la determinano. E’ molto interessante ed utile introdurre anche dei numeri che caratterizzano la distribuzione, cioè delle misure complessive della distribuzione. Si tratta dell’analogo di quanto visto per le frequenze nella prima parte del corso: dall’istogramma alle caratteristiche numeriche quali la media e la deviazione standard. ~ (o ~ Si definisce in generale Momento di ordine k intorno al valore n x nel caso di variabile continua) della distribuzione, la quantità: Μ ( k ) (n~ ) = n2 ∑ (n − n~) k p ( n) n = n1 nel caso di distribuzione di variabile discreta e Μ (~ x ) = ∫ (x − ~ x ) f ( x)dx x max (k ) k x min nel caso di distribuzione di variabile continua. Ogni momento é evidentemente un numero. Di particolare interesse sono i seguenti momenti: Æ Valore atteso: si tratta del momento primo (k=1) intorno allo 0 ( ~ x n2 = 0 ): Μ (0) = E[ n] = ∑ np ( n) (1) n =n1 x max Μ (0) = E[ x] = ∫ xf ( x) dx (1) x min il suo significato é quello di “valore centrale” o “valore medio” della distribuzione. In effetti nella corrispondenza istogramma-distribuzione che più volte abbiamo considerato, é strettamente legato alla media di un istogramma. Si noti che la definizione di valore atteso per una variabile discreta é esattamente la media fatta sull’istogramma (definita nel Cap.(1)). Æ Varianza: é il momento secondo (k=2) intorno al valore atteso ( ~ x n2 = E[ x ] ): Μ ( E[ n]) = Var[ n] = ∑ ( n − E[ n]) p (n) (2) 2 n =n1 x max Μ ( E[ x]) = Var[ x] = ∫ ( x − E[ x]) f ( x) dx (2) 2 x min qui evidentemente l’analogia é con la nozione di deviazione standard campionaria, o meglio, con il suo quadrato. E’ utile anche scrivere la varianza usando il simbolo dell’operatore valore atteso: Var[ x] = E[( x − E[ x]) ] = E[ x − 2 xE[ x] + ( E[ x]) ] = 2 2 2 = E[ x ] − 2( E[ x]) + ( E[ x]) = E[ x ] − ( E[ x]) 2 2 2 2 2 Si definisce anche deviazione standard della popolazione (con che a questo punto chiameremo l’altra deviazione standard campionaria) la sua radice quadrata: σ [ x] = Var[ x] che si indica con la lettera sigma. Æ Tra i momenti successivi di particolare interesse sono il momento terzo intorno al valore atteso detto skewness ed il momento quarto sempre intorno alla media, dal quale si ricava il cosiddetto kurtosys. In particolare, a partire da skewness e kurtosys si definiscono i 2 coefficienti rispettivamente di simmetria e di appiattimento : 58 Μ ( E[ x]) A = ( Μ ( E[ x]) ) (3) s (2) 3 Μ ( E[ x]) −3 A = (Μ ( E[ x])) (4) a (2) 2 Si noti che si tratta di coefficienti resi adimensionali nella definizione. In generale infatti il momento n-esimo ha dimensioni [x]n e pertanto la media ha dimensioni [x] e la varianza ha dimensioni [x]2. Naturalmente le definizioni date, in particolare quelle di valore atteso e di varianza, si estendono a combinazioni e funzioni di una o più variabili casuali. Vedremo nel seguito come si trattano questi casi. (2.5.6) Densità di probabilità di una funzione di variabile casuale Se x é una variabile casuale (l’argomento vale anche per il caso discreto), una qualsiasi funzione di x, y=y(x) risulta anch’essa una variabile casuale, nel senso che l’occorrenza di diversi valori di x secondo le modalità della sua funzione di distribuzione, determina anche l’occorrenza dei valori di y secondo le modalità di una funzione di distribuzione che dipenderà dalla distribuzione di x e dalla funzione y(x). Senza entrare nei dettagli matematici vediamo come si ricava la densità di probabilità di y, data quella di x e data la funzione y=y(x). Chiamiamo f(x) la densità di probabilità di x e g(y) quella di y. Supponiamo per semplicità che la funzione y(x) sia monotona nell’intervallo di definizione della variabile x. In tal caso l’inversione della funzione, cioè il passaggio dalla y(x) alla x(y), avviene senza difficoltà e la funzione x(y) é una funzione “monodroma” ovvero per ogni y vi é un solo x. Data la relazione tra x ed y dovrà essere per ogni valore di x (che chiamiamo x ): p ( x < x < x + dx) = p ( y ( x ) < y < y ( x + dx)) = p ( y ( x ) < y < y ( x ) + dy ) e dunque f ( x ) dx = g ( y ) dy da cui la relazione cercata: g ( y) = dx( y ) f ( x( y )) dy dove il modulo é stato inserito per assicurare la positività della nuova densità di probabilità cosi’ ottenuta. Si tratta pertanto di invertire la funzione y(x), di calcolare la derivata della x(y) e di moltiplicarne il modulo per la funzione f(x) in cui al posto della x mettiamo esplicitamente la x(y). La g(y) cosi’ ottenuta é anche automaticamente normalizzata b y (b) a y(a) 1 = ∫ f ( x)dx = ∫ g ( y )dy = 1 se risulta normalizzata la f(x) di partenza. In Fig.2.5é illustrato graficamente il caso in cui da una variabile x uniforme tra 0 e 1, si passa ad una y=αx2 . Il fatto che la y in questo caso non mantenga la stessa distribuzione della x uniforme é comprensibile osservando che se considero i 2 intervalli [0,1/2] e [1/2,1] equiprobabili in x, questi danno luogo a due intervalli di diversa grandezza in y ma che devono restare equiprobabili. Dunque la y non può essere uniforme. Le definizioni di valore atteso e varianza si estendono banalmente. Il valore atteso può essere espresso nella forma: y (b) b y(a) a E[ y ] = ∫ yg ( y )dy = ∫ y ( x) f ( x)dx 59 1 f(x) y(x) cioè può essere valutato sia integrando in y che in x. 0.9 0.8 0.7 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0.6 0 0.25 0.5 0.75 1 x 0.5 g(y) 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 0.25 x 0.5 0.75 1 y Fig.2.5 Passaggio da una variabile casuale x distribuita uniformemente (in alto a destra) ad una y ottenuta da questa come y = x2 (vedi grafico a sinistra in cui sono mostrati intervalli di equiprobabilità in x che si trasformano in intervalli di equiprobabilità in y). In basso a destra é mostrata la densità di probabilità della y g(y). (2.5.7) La media e la deviazione standard come variabili casuali Un caso molto particolare di funzione di variabile casuale che vogliamo introdurre a questo punto é quello della media aritmetica x e del quadrato s2 della deviazione standard campionaria che abbiamo già introdotto nel Cap.(1) e che ora vogliamo analizzare come “funzioni di variabili casuali”. Infatti se x é una variabile casuale di valore atteso E[x] e varianza Var[x]é interessante chiedersi quali siano le proprietà di x e di s 2 ottenuti a partire da un campione di dimensione N della variabile x. Per fare ciò premettiamo una proprietà fondamentale (di cui omettiamo la dimostrazione). Data una combinazione lineare di variabili casuali y = ∑a x N i =1 i i si hanno le seguenti proprietà di linearità per valore atteso e varianza: E[ y ] = ∑ a E[ x ] N i i =1 i Var[ y ] = ∑ a Var[ x ] N 2 i i =1 i che discendono dal fatto che i momenti sono operatori lineari. Utilizzando queste espressioni calcoliamo ora il valore atteso e la varianza della media aritmetica. N E[ x] = E[ ∑x i =1 i N 1 ∑ E[ x ] = E[ x ] N ]= N N Var[ x] = Var[ ∑x i =1 N i i =1 i ]= 1 1 ∑ Var[ x ] = Var[ x] N N N 2 i =1 i Il risultato ci dice che: Æ il valore atteso della media é lo stesso della variabile: l’operazione di media non cambia valore atteso, ovvero la media é un buon estimatore del valore atteso di x; 60 Æ la varianza della media é (1/N) volte la varianza della variabile: la media ha dunque una varianza minore della variabile. Questo fatto giustifica l’uso di s N per la deviazione standard della media, che abbiamo usato tante volte. Quindi la media aritmetica risulta essere un estimatore “potente” perché al crescere del numero di misure diminuisce la sua varianza. Si noti come questo risultato sia indipendente dalla densità di probabilità della x. Esso costituisce pertanto un risultato di grande generalità. Quanto ad s 2 , calcoliamo ora il suo valore atteso. Qui il calcolo é leggermente più complesso. Lo svolgiamo esplicitando tutti i passaggi rilevanti. E[ s ] = E[ 2 1 1 E[ ∑ ( x − E[ x ] + E[ x ] − x ) ] = ∑ ( x − x) ] = N −1 N −1 N N 2 i i =1 i =1 2 i 1 E[∑ ( x − E[ x ]) + ∑ ( E[ x ] − x ) + 2∑ ( x − E[ x])( E[ x ] − x )] = N −1 1 = E[∑ ( x − E[ x ]) + N ( E[ x ] − x ) + 2( E[ x ] − x )∑ ( x − E[ x])] = N −1 1 = E[∑ ( x − E[ x]) + N ( E[ x] − x) + 2( E[ x] − x) N ( x − E[ x])] = N −1 1 = E[∑ ( x − E[ x]) − N ( E[ x] − x) ] = N −1 1 = (∑ E[( x − E[ x]) ] − NE[( E[ x] − x) ]) N −1 1 1 NVar[ x] = ( NVar[ x] − )= ( N − 1)Var[ x] = Var[ x] N −1 N N −1 Dunque il valore atteso di s é pari a Var[x] come deve essere. Dunque il quadrato = N i =1 i 2 N 2 2 2 2 2 i i i N i =1 i i =1 N i =1 i =1 i N i =1 N 2 i =1 N i =1 N 2 2 2 i 2 della nostra deviazione standard campionaria é un buon estimatore della varianza della popolazione. Si noti che se avessimo adottato s 2 avremmo avuto un 1/N in luogo di un 1/(N-1) davanti a tutto e N dunque alla fine avremmo avuto E[ s ] = 2 N N −1 Var[ x] N cioè una stima “distorta” della varianza. Questo giustifica l’uso dell’N-1 a denominatore che avevamo a suo tempo dato senza spiegazione chiara. Infine é interessante vedere quanto vale la “varianza della varianza”. Il calcolo risulta complesso, tuttavia il risultato é interessante: 2(Var[ x]) Var[ s ] = N −1 2 2 (2.6) Variabili casuali notevoli. Passiamo a considerare alcuni casi notevoli di variabili casuali, che si prestano alla descrizione di vaste classi di fenomeni. (2.6.1) Distribuzione uniforme 61 Si ha quando tutti i valori possibili della variabile hanno la stessa probabilità di essere ottenuti, ovvero quando la probabilità di un intervallo é pari al rapporto tra la larghezza dell’intervallo e la larghezza totale dell’intervallo di definizione della variabile. Detti rispettivamente N il numero di valori possibili nel caso di variabile discreta ed [a,b] l’insieme di definizione della variabile continua, si ha: p ( n) = 1 N f ( x) = 1 b−a Si noti che non si possono avere variabili con distribuzioni uniformi tra -∞ e+∞ né discrete né continue. La definizione di p(n) e di f(x) per variabili discrete e continue uniformi sono fatte in modo tale che le variabili in questioni siano normalizzate. N oltreché b ed a sono i parametri. Esempi di distribuzioni uniformi si hanno sia per le variabili discrete (tombola, lancio di 1 dado) che per variabili continue (è il caso del display digitale dove immaginiamo una distribuzione uniforme tra i 2 estremi dell’intervallo). E’ interessante calcolare valore atteso e varianza. Lo facciamo per il caso di variabile continua. Per il calcolo della varianza é conveniente fare la sostituzione t = x – E[x] 1 1 1 x b −a b+a = = E[ x ] = ∫ x dx = ∫ xdx = 2(b − a ) 2 b−a b−a b−a 2 b b a a 2 b 2 2 a 1 1 1 t Var[ x] = ∫ ( x − E[ x]) dx = ∫ t dt = b−a b−a b−a 3 b b− E [ x ] 2 3 b−a 2 2 a−E [ x ] a (b − a ) (b − a ) = = 12(b − a ) 12 3 = a −b 2 2 da cui si deducono i 2 importanti risultati: Æ il valore atteso di variabile casuale avente una densità di probabilità uniforme é il centro dell’intervallo; Æ la varianza é invece pari all’ampiezza dell’intervallo al quadrato diviso 12 e la deviazione standard della popolazione é ampiezza dell’intervallo / √12. Quindi nel caso in cui la mia variabile abbia una distribuzione uniforme tra a e b posso stimare valore medio e deviazione standard dando centro dell’intervallo ± ampiezza / √12. Quale é il significato probabilistico di un intervallo dato in questo modo ? Possiamo calcolarlo nel modo seguente: p( E[ x] − σ [ x] < x < E[ x] + σ [ x]) = = E [ x ] +σ [ x ] ∫σ E [ x ]− [ x ] dx = b−a 2σ [ x] 2(b − a) 2 = = = 0.577 12 (b − a) 12 b−a cioè si tratta del 57.7%. Tale valore può essere confrontato con il ~ 70% che avevamo trovato dai dati della prima esercitazione. Tra poche lezioni capiremo il significato di quel valore. Per ora é interessante notare che il contenuto di probabilità di un intervallo standard, dipende dalla forma della distribuzione. Nel caso dell’esercitazione avevamo visto che moltiplicando per 3 l’intervallo standard ottenevamo un intervallo di “quasi-certezza” (entro il quale stava il ~ 99% dei dati). In questo caso per avere un intervallo di quasi-certezza basta ricorrere a ± semiampiezza che fornisce un intervallo di “certezza”. 62 (2.6.2) La distribuzione binomiale La distribuzione binomiale si applica ai cosiddetti processi di Bernoulli. Si tratta di quei processi in cui 2 sono i possibili risultati incompatibili (0 o 1), che chiamiamo successo ed insuccesso caratterizzati da probabilità diverse p(0)=p (1)=1-p (questo esprime l’incompatibilità dei 2 eventi). Molti processi sono schematizzabili in questo modo. Dal punto di vista delle applicazioni alla fisica (tralasciando dunque dadi e monetine) il caso più interessante é quello della misura dell’efficienza di un rivelatore. Consideriamo infatti un rivelatore di radiazione posto in prossimità di una sorgente di radiazioni. Ad ogni passaggio della radiazione proveniente dalla sorgente, il rivelatore può dire Ok (se é efficiente) o non dire nulla (se inefficiente). Il fenomeno é schematizzabile come un processo di Bernoulli nel quale il successo si ha con l’Ok e l’insuccesso con il nulla. Ora, supponiamo che il rivelatore sia stato attraversato da N radiazioni, e di volere sapere quanto é la probabilità di avere avuto n volte Ok e N-n volte nulla. n costituisce dunque la variabile casuale (discreta) di questo problema definita nell’intervallo 0<n<N, mentre il numero di prove N e la probabilità del successo p sono i parametri che dipendono dalle caratteristiche del problema. In particolare la probabilità di successo p é proprio l’efficienza del rivelatore. Costruiamo la funzione di distribuzione di n usando le regole di combinazione della probabilità e le regole del calcolo combinatorio. Intanto osserviamo che ciascuna delle N prove costituisce una prova indipendente dalle altre, e dunque la probabilità di avere n successi e N-n insuccessi sarà data dal prodotto delle probabilità: p ( n) = ppp... p (1 − p )(1 − p )...(1 − p ) n volte p(n) = p (1 − p) n N-n volte N −n Tuttavia tale probabilità caratterizza solo una data sequenza, cioè per esempio quella in cui i primi n sono successi e i restanti N-n sono insuccessi. Invece a me non interessa la sequenza. Infatti sono interessato a sapere la probabilità che escano n successi indipendentemente dal loro ordine. Tengo conto di ciò moltiplicando la probabilità p(n) appena scritta per il numero di possibili sequenze di n successi e N-n insuccessi. Si tratta evidentemente del numero di combinazioni di N elementi presi n a n. Dunque avremo p(n) = ( ) p (1 − p) N n N −n n La formula trovata costituisce l’espressione della distribuzione binomiale. Questa dunque permette di calcolare la probabilità di avere n successi su N prove quando la probabilità del successo della singola prova é p. Vediamo alcuni esempi. Nel caso del testa o croce la probabilità di avere n teste in N lanci é: p (n) = ( )⎜⎛ 1 ⎞⎟ ⎝2⎠ N N n Si noti la forma della distribuzione in questo caso. Vi é un fattore indipendente da n (1/2)N che costituisce la probabilità di una qualsiasi sequenza. Il coefficiente binomiale fornisce poi il numero di sequenza che posso costruire con n successi. Quindi se faccio 10 lanci e confronto le due sequenze TTTTTTTTTT TCTTTCCTCT osservo che queste due sequenze sono esattamente equiprobabili p=(1/2)10. Invece se confronto i due risultati N=10, n=10 N=10, n=6 Il secondo ha una probabilità maggiore perché ad esso corrispondono molte più possibili sequenze: 63 10 p =( 10 p =( 10 1 2 10 )⎛⎜ 1 ⎞⎟ = 1 × 9.8 ⋅ 10 ≈ 0.1% ⎝2⎠ )⎜⎛ 1 ⎞⎟ = 210 × 9.8 ⋅10 ≈ 21% ⎝ 2⎠ −4 10 6 −4 Sono illustrati in Fig.2.6 e Fig.2.7 esempi di distribuzioni binomiali per diversi p a due fissati valori di N ed in Fig.2.8 per diversi N ad un dato p. Si nota chiaramente lo spostamento del “picco” al variare di p e il restringimento e la simmetrizzazione della distribuzione al crescere di N. La distribuzione binomiale non é in generale simmetrica (lo é solo se N e p hanno valori particolari e in condizioni limiti che vedremo) e dunque moda, media e mediana non sono coincidenti. Fig.2.6. Esempi di distribuzione binomiale per N=10 e 5 diversi valori di p. Si noti come solo nel caso p=0.5 la distribuzione sia simmetrica. Si noti inoltre che i casi 0.25 e 0.75 e i casi 0.1 e 0.9 presentano forme uguali ma semplicemente “ribaltate”. 64 Fig.2.7 Come per la Fig.2.6 nel caso N=30 Fig.2.8 Esempi di distribuzioni binomiali a p fissato (p=0.2) e diversi N. Si noti al crescere di N la simmetrizzazione e il restringimento della distribuzione. È interessante il caso in cui p sia o molto prossimo a 0 o molto prossimo a 1 (è chiaro che le due situazioni sono “simmetriche” dato che successo ed insuccesso sono evidentemente intercambiabili). Infatti come si vede dalle Fig.2.6 e 2.7 le due distribuzioni sono “addossate” in un 65 caso a n=0 e nell’altro ad n=N. Nel limite pÆ0 o pÆ1 si ottengono evidentemente due distribuzioni “banali” in cui p(n=0)=1 e p(n>0)=0 (ovvero p(n=N)=1 e p(n<N)=0 nel caso simmetrico). Verifichiamo che la binomiale soddisfa la condizione di normalizzazione. A tale scopo ricordiamo la formula del binomio di Newton, utile per il calcolo della potenza n-esima di un generico binomio (a+b): (a + b) = ∑ ( )a b N N n =0 N n N −n n i cui coefficienti binomiali, possono essere calcolati usando la costruzione del cosiddetto triangolo di Tartaglia. Ora, applicando appunto il binomio di Newton, si ha: N ∑ n=0 ( ) p (1 − p) = ( p + 1 − p) = 1 = 1 N N −n n N N n Calcoliamo ora valore atteso e varianza della binomiale N N E[n] = ∑ np (n) = ∑ n n =0 ( )p n =0 N n n (1 − p) N −n nN ! pp n −1 (1 − p) N − n = n =1 n!( N − n)! N =∑ M ( N − 1)! M! p n −1 (1 − p) N −1−( n −1) = Np ∑ p k (1 − p ) M − k = k = 0 k!( M − k )! n =1 ( n − 1)!( N − n)! N = Np ∑ = Np Nel secondo passaggio ho usato il fatto che nella sommatoria il termine con n=0 si annulla poiché c’è un n a moltiplicare e dunque posso far partire da 1 la sommatoria, quindi ho messo a fattore comune N e p e infine ho osservato che ponendo k=n-1 e M=N-1 ottenevo la condizione di normalizzazione. Per calcolare la varianza calcolo E[n2] : N N E[n 2 ] = ∑ n 2 p (n) = ∑ n 2 n =0 n =0 ( )p N n nnN ! pp n −1 (1 − p ) N − n = n =1 n!( N − n)! N n (1 − p ) N − n = ∑ M n( N − 1)! (k + 1) M ! k n −1 N −1− ( n −1) = Np ∑ p (1 − p ) = Np ∑ p (1 − p ) M − k = n =1 ( n − 1)!( N − n)! k = 0 k!( M − k )! N M M k =0 k =0 = Np ∑ kp(k ) + Np ∑ p (k ) = NpE[k ] + Np = NMp 2 + Np = Np (1 + ( N − 1) p ) Quindi mettendo insieme il risultato per E[n] e per E[n2] si ottiene: Var[ n] = E[ n ] − ( E[ n]) = Np (1 + ( N − 1) p ) − ( Np ) = Np − Np = Np (1 − p ) 2 2 2 2 Ricapitolando per la distribuzione binomiale si ha: E[n] = Np Var[n] = Np (1 − p) Quando la probabilità p assume valori molto piccoli o molto grandi (qui molto grandi vuol dire prossimi a 1) la distribuzione perde la sua proprietà di simmetria e risulta addossata a 0 o a 1 come mostrato in Fig.2.6 e 2.7. (2.6.3) Il processo di Poisson: limite del processo di Bernoulli. Il Processo di Poisson costituisce la schematizzazione statistica di una vastissima classe di fenomeni. In particolare si possono schematizzare secondo il processo di Poisson la gran parte dei fenomeni di conteggio. L’esempio più classico é quello del conteggio della radioattività. Ma sono descrivibili in termini di fenomeni di Poisson tanti fenomeni della vita quotidiana. In generale tutte 66 le volte che conto degli eventi che si presentano in modo “casuale” cioè senza una struttura temporale determinata, la distribuzione di Poisson permette di caratterizzarne le proprietà più rilevanti. Introduciamo il processo di Poisson in due modi diversi. Dapprima lo consideriamo come caso limite del processo di Bernoulli, poi lo introdurremo in modo autonomo sulla base delle caratteristiche del processo stesso. Consideriamo dunque un processo di Bernoulli in cui facciamo crescere il numero di prove N e facciamo diminuire la probabilità del singolo successo p. Facciamo ciò mantenendo però fisso il prodotto Np che come sappiamo é il valore atteso della distribuzione binomiale. Cosa significa fare questo limite ? In sostanza il limite corrisponde a considerare il caso in cui sono tantissimi gli “oggetti” ai quali può accadere qualcosa (sono N) ma questa cosa che può accadere accade poco probabilmente. Immaginiamo una situazione di questo genere. Abbiamo un campione di N atomi ciascuno dei quali ha una probabilità p di dare luogo ad un decadimento radioattivo nell’intervallo di tempo Δt. E’ chiaro che se si tratta di un campione macroscopico (~1020 atomi per fissare le idee) e se il nuclide radioattivo ha una “vita media” di milioni di anni saremo in una situazione in cui Né molto grande e p é molto piccola. Ma non solo, infatti N oltre ad essere molto grande é anche di difficile determinazione ed in fondo quanto sia non interessa nemmeno tanto. Tuttavia in una situazione del genere se io ho un contatore di radioattività, io conto un certo numero di decadimenti nell’unità di tempo Δt e il valore medio di tale conteggio é qualcosa che posso misurare ed é dunque quella la variabile che mi interessa. Passiamo ora esplicitamente al limite binomiale per NÆ infinito p Æ 0. Chiamo λ=Np. N! p (1 − p) lim n!( N − n)! n N →∞ , p →0 N −n N! ⎛λ⎞ = lim ⎜ ⎟ n!( N − n)! ⎝ N ⎠ N →∞ , p →0 (1 − λ n ⎛ λ⎞ ⎜1 − ⎟ ⎝ N⎠ N −n = ) N ( N − 1)( N − 2)...( N − n + 1) λ N = lim n! N (1 − λ ) N n N →∞ , p →0 N n n lim N →∞ , p →0 (1 − λ ) N ( N − 1)( N − 2)...( N − n + 1) λ N N n! (1 − λ ) N n N n n Dopo aver riscritto la binomiale in questo modo e avendo introdotto λ, passo ad effettuare i limiti. Intanto osservo che il fattore λ n n! non dipende da N e da p e dunque esce fuori dal limite e va messo a fattore comune. Il rapporto N ( N − 1)( N − 2)...( N − n + 1) N n non dipende da p ma da N. Per N Æ infinito va come Nn/Nn e pertanto tende a 1. Il fattore (1 − λ N ) n dipende solo da N e tende anch’esso a 1 avendo l’unica dipendenza da N a denominatore. Resta l’ultimo fattore per risolvere il quale facciamo ricorso al limite fondamentale (noto dall’analisi) 67 1 lim(1 + ) = e x x x→∞ in cui e é il numero di Nepero (e=2.718...). Il limite a cui siamo interessati é riconducibile al limite fondamentale di cui sopra, facendo la sostituzione 1/x=-λ/N : ⎛ ⎛ 1⎞ ⎛ λ⎞ ⎛ 1⎞ lim⎜1 − ⎟ = lim⎜1 + ⎟ = ⎜⎜ lim⎜1 + ⎟ ⎝ N⎠ ⎝ x⎠ ⎝ ⎝ x⎠ −λx N N →∞ x →∞ x →∞ x −λ ⎞ ⎟⎟ = e ⎠ −λ In conclusione abbiamo ottenuto la funzione di distribuzione di Poisson: p ( n) = λe n −λ n! Si tratta della funzione di distribuzione della variabile casuale discreta n definita per valori tra 0 e ∞ ed avente come unico parametro λ. Si può dimostrare che la funzione cosi’ definita é normalizzata. In Fig.2.9é mostrato il grafico della poissoniana per diversi valori di λ. Si noti che si tratta di una funzione in generale non simmetrica, ma che tende a simmetrizzarsi nel limite di grandi λ. Fig.2.9. Esempi di distribuzioni di Poisson per diversi valori di λ. Il significato di λ risulta evidente quando calcoliamo il valore atteso e la varianza di n. Calcoliamo E[n] ed E[n2]: ∞ λe n −λ ∞ = λ∑ λ e n −1 −λ =λ (n − 1)! λe λ e λe = λ∑ n = λ ∑ (k + 1) = λ (λ + 1) E[ n ] = ∑ n (n − 1)! n! k! E[ n ] = ∑ n n! n=0 2 ∞ n =0 n 2 n =1 −λ ∞ n =1 n −1 −λ ∞ k −λ k =0 68 in cui come in altre circostanze abbiamo spostato la somma da n=0 a n=1 e abbiamo osservato che la sommatoria rimasta fattorizzata é uguale a 1 in virtù della proprietà di normalizzazione. Otteniamo dunque per la varianza: Var[n] = E[n ] − ( E[n]) = λ (λ + 1) − λ = λ 2 2 2 Pertanto la distribuzione di Poisson ha λ sia come valore atteso che come varianza. Si tratta di un fatto di estrema importanza. Una popolazione poissoniana é dunque caratterizzata da una deviazione standard pari a σ [n] = λ In altre parole se effettuo un conteggio schematizzabile come poissoniano e trovo in media un certo valore λ il risultato del conteggio é caratterizzato da una fluttuazione pari a √λ. Si noti che il parametro λ non é necessariamente un numero intero. Infatti il numero medio di conteggi nel tempo può anche essere un numero frazionario. E’ invece un numero intero la variabile casuale n che può assumere tutti gli interi da 0 a ∞. (2.6.4) Il processo di Poisson: definizione generale. Non sempre il processo di Poisson si può schematizzare a partire da una binomiale. Se per esempio conto quante macchine passano sotto casa mia tutti i giorni feriali tra le 8 e le 9, non so bene come schematizzare questo processo in termini di N e di p. O anche se contiamo il numero di studenti che ogni anno si immatricolano al corso di laurea in fisica all’Università “La Sapienza”, é altrettanto difficile stabilire chi é p e chi é N. Ma nonostante ciò conto in media un certo valore che sarà caratterizzato da certe fluttuazioni. Allora possiamo definire in modo più generale come processo di Poisson un processo di conteggio che abbia alcune proprietà ben definite che ora vediamo di specificare. Si immagini a questo scopo di contare il numero di volte in cui si verifica un certo evento (di qualsiasi tipo purché ben definito) in un intervallo di tempo finito Δt; e si immagini di suddividere tale intervallo in intervallini di tempo δt “sufficientemente piccoli”. Il processo é poissoniano se posso trovare una dimensione di intervallino δt per cui valgono le seguenti proprietà: (a) la probabilità di avere un unico conteggio in un tempo δt é proporzionale a δt; (b) la probabilità di avere più di un conteggio in un tempo δt é << della probabilità di avere un solo conteggio nello stesso δt; (c) il numero di conteggi che osservo in δt é indipendente dal numero di conteggi che osservo in un altro intervallo da questo disgiunto. Le proprietà viste sono prese nel “dominio del tempo” cioè ho immaginato di contare in intervallini δt, ma in realtà possono essere anche date in un altro dominio (per esempio dello spazio se conto il numero di auto lungo 1 km di autostrada ad un certo tempo, o il numero di molecole entro volumetti di un certo gas). Riflettiamo sul significato della definizione data, cercando di capire quando un fenomeno di conteggio sia da considerare poissoniano o no. Le proprietà (a) e (b) in sostanza indicano che non sono poissoniani quei processi in cui “arrivano improvvisamente tanti eventi insieme”. Gli eventi devono verificarsi senza strutture temporali precise. Per esempio non sono poissoniani quegli eventi che si manifestano “a gruppi” in cui cioè il singolo evento non é indipendente dagli altri. La proprietà (c) ci dice invece che non sono poissoniani quei processi in cui il verificarsi dell’evento avviene con regolarità (processi periodici). In effetti se conto il numero di battiti cardiaci in 1/2 secondo, se osservo 0 una volta é molto probabile che la volta dopo osservi 1 e quindi la proprietà (c) cade. Quando gli eventi si presentano in modi “correlati” la poissoniana non li descrive adeguatamente. La poissoniana va bene per quegli eventi che si presentano nel modo più casuale possibile. 69 Per tali processi dunque la funzione di distribuzione del numero di conteggi sarà data dalla p(n) sopra vista ed un solo parametro λ basta a descrivere il processo. λ determina in sostanza quanto frequentemente gli eventi si presentano in media e la sua radice quadrata indica quanto quel conteggio medio fluttua. Il valore di λ dipende tuttavia dall’intervallo di tempo Δt nel quale conto. Se in un certo intervallo Δt = 1 s conto in media λ = r, in un intervallo generico Δt conterò λ = r Δt. La quantità r ( conteggi al s ) é dunque indipendente dall’intervallo scelto e costituisce la misura della velocità di conteggio ( rate in inglese ) del fenomeno. Noto r, il λ di qualsiasi intervallo si ricava da λ = r Δt. È interessante vedere cosa ci aspettiamo per la distribuzione dei tempi di attesa tra un conteggio ed il successivo nel caso di un processo di Poisson. Calcoliamo la probabilità che, a partire da un certo tempo iniziale arbitrario, dopo un tempo T non sia ancora avvenuto alcun conteggio. A tale scopo immaginiamo di dividere il tempo T in N intervallini δT = T / N, ciascuno caratterizzato da una probabilità di successo (ovvero di conteggio) p. Dalla definizione del processo di Poisson so che se δT é sufficientemente piccolo p é proporzionale a δT , p = α δT . Ci siamo ricondotti in questo modo ad un processo di Bernoulli di N prove indipendenti ciascuna con probabilità di successo data da α δT. La probabilità di dover attendere un tempo t >T per avere un conteggio sarà (applico la distribuzione binomiale per il caso n=0): p(t > T ) = (1 − p) N Se facciamo il limite N Æ ∞ otteniamo: lim(1 − αδT ) = lim(1 − N N →∞ N →∞ αT N ) =e N −αT in cui di nuovo abbiamo usato il limite fondamentale cui abbiamo già fatto ricorso sopra. Da ciò ricavo la probabilità che il conteggio sia avvenuto per un tempo di attesa t compreso tra 0 e T F (T ) = p (0 < t < T ) = 1 − p (t > T ) = 1 − e − αT che costituisce la cumulativa della densità di probabilità della variabile casuale t = tempo di attesa per avere un conteggio. Pertanto la densità di probabilità cercata é: f (t ) = dF (t ) = αe −αt dt che costituisce la densità cercata, correttamente normalizzata. L’unico parametro da cui tale densità di probabilità dipende é α. Si tratta di una probabilità di conteggio per unità di tempo, e ha le dimensioni dell’inverso di un tempo. Per comprenderne il significato, torniamo allo schema binomiale delle N prove nel tempo T. Sappiamo che: λ = lim Np = lim Nαδt = lim NαT / N = αT N →∞ N →∞ N →∞ da cui deduciamo che α si identifica con la velocità di conteggio r che abbiamo sopra definito. Tale identificazione discende dal fatto che quando λ << 1, λ si identifica con la probabilità di avere un conteggio nell’intervallo, come si vede dalla forma stessa della poissoniana: P(1) = λe −λ → λ quando λ << 1. Infine notiamo che l’inverso di r, τ = 1 / r é detto costante di tempo. Si dimostra che E[t ] = τ cioè τ ha il significato di tempo di attesa medio. Fig.2.10 mostra un esempio di distribuzione di tempi d’attesa. 70 f(t) (1/s) f(t) (1/s) 5 4.5 4 1 3.5 3 2.5 10 2 -1 1.5 1 10 0.5 0 0 0.5 1 1.5 2 2.5 t (s) -2 0 0.5 1 1.5 2 2.5 t (s) Fig.2.10 Esempi di densità di probabilità esponenziali negative di tempi d’attesa di Poissoniane in scala lineare (a sinistra) e semilogaritmica (a destra). Le 3 curve si riferiscono a valori di τ pari a 1 s , 0.5 s e 0.2 s. Individuare le 3 curve. (2.6.5) La distribuzione di Gauss Possiamo costruire ed inventare tutte le variabili casuali che vogliamo ciascuna con la sua funzione di distribuzione per descrivere un certo fenomeno. Esiste tuttavia una distribuzione che assume un ruolo particolare nelle applicazioni scientifiche in genere tanto da essere chiamata la distribuzione normale. Essa fu introdotta per primo da Karl Frederich Gauss ed é pertanto nota come distribuzione di Gauss e una qualsiasi variabile che segue una tale distribuzione é detta variabile gaussiana. Tale distribuzione fu introdotta da Gauss quando questi, a partire da osservazioni astronomiche, vide che le modalità con cui le misure “fluttuavano”, erano ben descritte da un andamento del tipo: ~e −( x − μ )2 in cui x é appunto il valore della misura che fluttua rispetto al “valore medio” μ.Tale funzione presenta il ben noto andamento a “campana” illustrato in figura Fig.2.11. Si tratta cioè di una funzione simmetrica intorno a μ e caratterizzata da un picco ben definito che si trova in corrispondenza del valore di μ e da delle code che si estendono fino a – e a + ∞. La coincidenza di picco e media indica che moda mediana e media sono coincidenti per questo tipo di distribuzione e pari a μ. 71 Fig.2.11 Esempi di funzioni di distribuzione di Gauss per 3 scelte dei parametri μ e σ. Per dare alla funzione di Gauss il significato di densità di probabilità di una variabile casuale x qualsiasi occorre: Æ rendere adimensionale l’esponente; Æ rendere la funzione normalizzata (cioè ad integrale 1 tra – e + ∞). A tale scopo introduciamo un secondo parametro che chiamiamo σ avente le stesse dimensioni di x e scriviamo la funzione nella forma più generale: 1 f ( x) = e 2π σ − ( x − μ )2 2σ 2 che risulta correttamente normalizzata ad 1 (omettiamo la dimostrazione). Si tratta dunque di una variabile casuale continua definita tra – e + ∞ caratterizzata dai 2 parametri μ e σ . I due parametri cosi’ definiti risultano essere (anche in questo caso omettiamo la dimostrazione) rispettivamente il valore atteso e la deviazione standard della variabile x E[ x ] = μ Var[ x ] = σ 2 Come già detto il massimo della funzione coincide con μ come si vede ponendo a 0 la derivata prima. Ponendo a zero la derivata seconda si ottengono invece i due flessi in corrispondenza di μ ± σ . Ciò fa vedere che il significato della deviazione standard é la distanza tra il massimo e i 2 flessi. Per avere una idea “grafica” della σ di una gaussiana basta osservare che la “larghezza a metà altezza” (FWHM = full width at half maximum) é pari a 2.36 σ . Ciò fornisce un metodo rapido per la valutazione della larghezza di una gaussiana. La distribuzione di Gauss non ha una primitiva esprimibile analiticamente, pertanto i valori della funzione cumulativa (che sono poi quelli che servono ai fini della valutazione delle probabilità) sono in genere forniti sotto forma di tabelle. Naturalmente non é opportuno avere una diversa tabella per ogni coppia di valori μ e σ. A tale scopo si introduce la variabile gaussiana standardizzata o semplicemente normale cosi’ definita: 72 m= x−μ σ Si tratta di una variabile adimensionale che ha una funzione di distribuzione data da: 1 f ( m) = e 2π − m2 2 e che corrisponde ad una variabile gaussiana con valore atteso 0 e varianza 1. La forma della densità di probabilità per la variabile gaussiana standardizzata, si ottiene semplicemente applicando le considerazioni di (2.6.4) dove m é la y e dunque |dx/dm|=σ che cancella la σ a denominatore nella f(x). Le tabelle forniscono in genere i valori relativamente alla variabile m della seguente quantità: a P(a) = ∫ f (m)dm −∞ che risulta essere una funzione di a. Dati i valori in tabella possono poi essere valutati tutti i possibili intervalli di probabilità. Se infatti si vuole determinare la probabilità che il valore cada tra a e b, si avrà: P ( a < m < b ) = P (b ) − P ( a ) Per passare da un intervallo relativo alla variabile standardizzata m all’intervallo corrispondente per la variabile x, basterà usare la trasformazione inversa. Quindi se per esempio data una distribuzione di Gauss di valore atteso μ e varianza σ2 voglio conoscere il contenuto di probabilità dell’intervallo compreso tra i due valori di x x1 ed x2 dovrò procedere nel modo seguente: calcolare gli estremi nella variabile m corrispondenti a x1 e x2 (diciamo m1 ed m2) quindi calcolare F(m2)-F(m1) usando le tavole della variabile standardizzata. Si noti che usualmente le tabelle contengono solo i valori di F(a) per a positivi. Tuttavia, data la simmetria della distribuzione di Gauss si avrà: P (− a ) = 1 − P (a ) Di particolare interesse sono i contenuti di probabilità dei 3 intervalli μ±σ , μ± 2σ e μ± 3σ. Si ottengono i valori: P ( μ − σ < x < μ + σ ) = P ( −1 < m < 1) = 68.3% P ( μ − 2σ < x < μ + 2σ ) = P( −2 < m < 2) = 95.5% P ( μ − 3σ < x < μ + 3σ ) = P (−3 < m < 3) = 99.7% si tratta dei valori che abbiamo trovato per via “empirica” a partire dai dati “simulati” della prima esercitazione. In effetti in quel caso le sequenze di 51 valori erano state ottenute estraendo da distribuzioni gaussiane con μ e σ diverse. Troviamo dunque che i contenuti di probabilità di intervalli di ampiezza proporzionale a σ rispetto a μ non dipendono dai parametri ma sono “universali”. Dato lo straordinario valore della distribuzione di Gauss nell’ambito della descrizione degli errori di misura, questi numeri devono essere tenuti in considerazione. 73 Tabella della gaussiana standardizzata. Per valori positivi di z, sono tabulate le P(z)=P(-∞<m<z). Si ricordi che per ricavare P(-z) basta fare 1-P(z). (2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss. Introduciamo a questo punto alcune ulteriori variabili casuali derivate dalla gaussiana che svolgono un ruolo di grande importanza nei problemi di inferenza. In generale l’importanza delle variabili casuali derivate dalla gaussiana si basa sull’importanza della distribuzione di Gauss che verrà precisata in modo più chiara nel prossimo capitolo. Æ Variabile χ2 Consideriamo N variabili gaussiane x1,x2,...,xN e per ciascuna di esse costruiamo la variabile standardizzata corrispondente: m1,m2,...,mN. La somma dei quadrati di queste N variabili gaussiane standardizzate, χ = ∑m 2 N k =1 2 k costituisce una variabile casuale definita positiva (cioè definita nell’intervallo 0,+∞) di funzione di distribuzione nota. Si tratta della variabile detta appunto χ2 (si legge del chi quadro). 74 La funzione di distribuzione di una variabile χ2é caratterizzata da un unico parametro dato dal numero N di variabili gaussiane standardizzate incluse nella somma. Tale valore é detto numero di gradi di libertà e si indica in genere con il simbolo ν. La funzione di distribuzione é la seguente: f (χ ) = 1 2 ν 2 Γ(ν / 2) ( ) 2 (χ ) e 2 ν −1 2 − χ2 2 Nella formula abbiamo introdotto la funzione Γ detta di Eulero definita come: ∞ Γ(t ) = ∫ e x dx −x t −1 0 che costituisce una generalizzazione del fattoriale al campo reale. Il valore atteso e la varianza della variabile χ2 dipendono dal numero di gradi di libertà secondo le: E[ χ ] = ν 2 Var[ χ ] = 2ν 2 La funzione di distribuzione della variabile χ2é mostrata in Fig.2.12 per alcuni valori del parametro ν. Fig.2.12 Funzione di distribuzione della variabile χ2 per 3 diversi valori dell’unico parametro ν. L’importanza della variabile χ2 deriva dal fatto che la variabile N ∑ i =1 ( x − x) 2 i σ 2 è anch’essa una variabile χ2 con parametro ν=N-1 gradi di libertà. Si noti che a differenza della definizione della variabile χ2 data sopra, in questo caso non siamo di fronte ad una somma di variabili normali standardizzate, ma ad una somma di scarti quadratici dalla media campionaria, divisa per la varianza. Il fatto che il numero di gradi di libertà sia ridotto di una unità corrisponde al 75 fatto intuitivo, che la media é una funzione delle N variabili in gioco e dunque l’uso della media riduce di una unità il grado di libertà complessivo della variabile. In ogni caso l’osservazione fatta permette di caratterizzare la funzione di distribuzione della varianza campionaria della quale abbiamo già stabilito valore atteso e varianza. Infatti se considero la variabile ( N − 1) s 2 σ 2 questa é evidentemente una variabile χ2 con N-1 gradi di libertà , e dunque la variabile s2é a meno di una costante (N-1)/σ2 descritta da una variabile χ2. Ritroviamo allora i risultati già visti per valore atteso e varianza: σ E[ s ] = 2 2 E[ χ ] = σ 2 N −1 σ N −1 2 N −1 ( N − 1) = σ 2σ 2( N − 1) = Var[ s ] = Var[ χ ] = ( N − 1) ( N − 1) ( N − 1) 2 σ 2 4 2 N −1 2 4 4 2 Æ Variabile t-Student Un’altra variabile derivata dalla gaussiana e di particolare interesse perché di funzione di distribuzione nota é la cosiddetta variabile t di Student. Supponiamo di nuovo di avere una variabile normale standardizzata m e di avere costruito una variabile χ2 a partire da un insieme di variabili normali standardizzate con ν gradi di libertà. Se consideriamo la variabile t= m χ 2 ν questa é caratterizzata dalla seguente funzione di distribuzione (anche in questo caso νé l’unico parametro con lo stesso significato per il caso della variabile χ2): ν +1 Γ( ) ⎛ t ⎞ 2 f (t ) = ⎜1 + ⎟ πν Γ(ν 2 ) ⎝ ν ⎠ 2 − (ν +1 ) 2 in cui di nuovo si fa uso della funzione Γ di Eulero. La variabile t é definita in tutto l’asse reale tra – e +∞ e la sua funzione di distribuzione é simmetrica intorno all’origine come mostrato in Fig.2.13. Si tratta di una funzione di distribuzione in molto assomigliante alla distribuzione di Gauss. La differenza sta nel fatto che le code risultano più estese. Valore atteso e varianza della variabile t di Student sono: E[t ] = 0 Var[t ] = ν ν −2 definita quest’ultima evidentemente solo per ν >2 (al di sotto di 2 l’integrale della varianza diverge). 76 Fig.2.13 Distribuzione della variabile t di Student per 4 diversi valori dell’unico parametro ν. Al crescere di ν la distribuzione si restringe e si alza. La variabile t rappresenta lo scarto di una misura da un valore atteso, relativamente “ad uno scarto medio” dato dal χ2 a denominatore. La rilevanza di questa variabile nasce dal fatto che può essere applicata alle proprietà della media aritmetica. Infatti la variabile (x − μ) s N è una variabile t in base alle considerazioni fatte sopra a proposito della variabile χ2. Infatti la posso scrivere come: (x − μ) (x − μ) σ = σ s N 2 2 σ N χ 2 =t N −1 N −1 N −1 Dunque gli scarti della media aritmetica dal valore atteso gaussiano corrispondente sono descritti da una variabile t con N-1 gradi di libertà. Questo ci fa capire che l’uso di un intervallo di ampiezza 3s / √N per l’incertezza sulla stima del valore vero basato sulla media aritmetica, ha un significato gaussiano solo quando Né sufficientemente grande. Torneremo su questo punto nel terzo capitolo. (2.7) Proprietà notevoli delle variabili casuali 77 (2.7.1) Contenuto di probabilità di intervalli di variabili casuali. Dall’analisi degli esempi di variabili casuali visti finora, desumiamo che i contenuti di probabilità che associamo ad un intervallo costruito come “valore atteso±deviazione standard” non é uguale per tutte le distribuzioni, ma dipende dalla forma della distribuzione. Abbiamo visto per esempio che nel caso della distribuzione di Gauss tale valore é prossimo al 68% mentre nel caso della distribuzione uniforme é di circa il 58%. Valori ancora diversi si ottengono per la distribuzione triangolare (il 65%) e per altre distribuzioni ancora. Per quanto riguarda le distribuzioni binomiali e poissoniane tale numero non é ben definito, perché dipende dai valori dei parametri. Oltre a ciò anche la moltiplicazione per 2 o per 3 della dimensione dell’intervallo dà luogo a risultati aventi contenuti probabilistici diversi. Tuttavia in tale apparentemente confusa situazione si possono riscontrare alcune regolarità. Enunciamo a tale scopo la disuguaglianza di Chebychev (di cui omettiamo la dimostrazione): P( x − E[ x] > kσ [ x]) < 1 k 2 La probabilità che la variabile scarti dal valore atteso per più di k deviazioni standard limitata superiormente da 1/k2. Questa disuguaglianza non é di grande interesse pratico. Ci dice infatti per k=1 che la probabilità che la variabile scarti più di una deviazione standard é <1 (bella scoperta verrebbe da dire !) per k=2 ci dice che la probabilità che la variabile scarti dal valore atteso più di 2 sigma é < 25% e per k=3 minore del 11% e cosi’ via. Vediamo che i 3 numeri in questione per il caso della gaussiana rispettano ampiamente la disuguaglianza, infatti sono 32% 5% e 0.3%. Nel caso della uniforme i 3 numeri sono 42% 0% e 0%. Tuttavia il significato concettuale di tale disuguaglianza é estremamente importante. Ci dice infatti che una variabile casuale, qualunque sia la forma della sua distribuzione, é sostanzialmente contenuta entro poche deviazioni standard. Quindi un intervallo di quelli che noi abbiamo chiamato di “quasi-certezza” cioè pari a 3 deviazioni standard e che nel caso della gaussiana corrisponde ad una certezza a meno dello 0.4% nel caso di distribuzione qualsiasi é una certezza a meno di meno del 11%. (2.7.2) Il teorema del limite centrale Nell’introdurre la distribuzione di Gauss abbiamo accennato al fatto che tale distribuzione fu introdotta da Gauss come descrizione degli scarti dal valor medio di un certo campione di misure. L’osservazione di Gauss é solo il primo esempio di un tipo di osservazione che quotidianamente i fisici fanno nei loro laboratori, e che anche voi avete (anche se ancora in modo embrionale) fatto nelle vostre prime esperienze di laboratorio. L’osservazione é la seguente: la distribuzione (istogramma) di misure ripetute in condizioni di ripetibilità normalmente ha una forma a campana ben approssimata da una distribuzione di Gauss. Questo fatto “empirico” ha in realtà una sua giustificazione teorica attraverso il teorema del limite centrale, che costituisce forse il più rilevante risultato della teoria delle distribuzioni di variabili causali. Enunciamo il teorema: date N variabili casuali x1, x2, ... , xN di distribuzione qualsiasi purché caratterizzate da valori attesi finiti e inoltre di varianze finite e tutte “dello stesso ordine di grandezza”; una qualsiasi combinazione lineare y di tali variabili, y = ∑a x N k =1 k k tende, al crescere di N, ad una distribuzione gaussiana di parametri μ = ∑ a E[ x ] N k =1 k k σ = ∑ a (Var[ x ]) 2 N k =1 2 k 2 k 78 L’importanza di tale teorema é evidente. In tutti quei casi infatti in cui una misura é caratterizzata da un certo numero di cause di fluttuazione indipendenti, il valore della misura può essere pensato come la somma di tali fluttuazioni. Il teorema del limite centrale ci dice che in tal caso il risultato della misura costituisce una variabile con fluttuazioni di tipo gaussiano, cioè una variabile gaussiana. La generalità di questo teorema é dovuta al fatto che nel caso degli errori di misura ci si trova quasi sempre in condizioni di questo tipo, cioè nella situazione in cui cause diverse di errore si sommano per dare la fluttuazione complessiva. Si noti l’importanza della condizione “varianze tutte finite e dello stesso ordine di grandezza”. Se infatti tra le cause di fluttuazione ce ne fosse una preponderante di tipo non gaussiano, allora questa dominerebbe le fluttuazioni della misura che dunque avrebbe quella forma. La Fig.2.14 illustra con un esempio simulato il teorema del limite centrale. Inoltre la Fig.2.15 mostra un caso in cui pur sommando tante variabili, se ce n’è una con varianza molto più grande delle altre, la forma di questa continua a determinare la forma della distribuzione complessiva che dunque non diventa gaussiana. Il teorema del limite centrale sancisce l’importanza della distribuzione di Gauss come migliore approssimazione degli istogrammi dei dati in condizioni di errori casuali. Fig.2.14 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte estratte da distribuzioni uniformi tra 0 e 1 (di valore atteso 0.5 e varianza 1/12). A partire dal caso n=4 ad ogni distribuzione é sovrapposta una distribuzione di Gauss per mostrare il buon accordo. Nel caso n=10 la distribuzione di Gauss “corrispondente” ha valore atteso 5.0 e deviazione standard 0.91 in accordo con il teorema del limite centrale. 79 Fig.2.15 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte con distribuzione uniforme tra 0 e 1 eccetto la prima che ha una distribuzione sempre uniforme ma tra 0 e 10. Si noti come non venga raggiunto in questo caso il limite gaussiano con la somma di n=10 variabili. Resta il “ricordo” della variabile con varianza di un ordine di grandezza più grande delle altre. Una importante conseguenza del teorema del limite centrale riguarda la media aritmetica di un campione di N misure. Questa é infatti una combinazione lineare di N variabili casuali tutte aventi la stessa distribuzione e dunque stesso valore atteso e stessa varianza. Qualunque sia la distribuzione di x, la distribuzione di x é dunque normale, e lo é tanto più quanto più grande é N. (2.7.3) Limite gaussiano Da ultimo osserviamo che tra tutte le distribuzioni viste, molte dipendono da uno o più parametri aventi il significato di numero di misure. E’ il caso della binomiale (il numero di prove N) e della poissoniana (il parametro λ) ma anche delle 2 variabili derivate dalla gaussiana χ2 e t che dipendono dall’unico parametro ν . Tutte queste variabili godono della seguente importantissima proprietà limite: esse tendono ad una distribuzione di Gauss quando il numero di misure (nel senso appena detto) diventa sufficientemente grande. Non procediamo alla dimostrazione di questo teorema ma ci limitiamo ad illustrarlo graficamente confrontando per le citate distribuzioni, la distribuzione stesso con la gaussiana corrispondente al crescere del numero di misure. Occorre fare attenzione al caso della binomiale in cui oltre ad N compare il parametro p. Affinché il limite gaussiano sia raggiunto occorre in quel caso non solo un alto valore di N ma anche un valore di p “sufficientemente lontano” dagli estremi 0 e 1. Le fig. 2.16 e 2.17 illustrano il limite gaussiano per il caso della distribuzione poissoniana e per il caso di quella di t di Student rispettivamente. In tutti i grafici mostrati, la distribuzione viene confrontata con una gaussiana corrispondente, cioè con una gaussiana avente stesso valore atteso e stessa varianza. Tale proprietà limite risulta di straordinaria importanza. Per esempio nel caso di conteggi “poissoniani” questo implica che posso dare intervalli di probabilità al 68% al 95% e al 99.7% esattamente come per il caso gaussiano se il numero medio di conteggi é di almeno 20-30. Nel caso della t di Student significa che le fluttuazioni della media dal valore atteso in unità di deviazioni standard campionarie della media, sono gaussiane nel limite di elevato numero di misure. 80 Fig.2.16 Stessi esempi di distribuzioni di Poisson della Fig.2.9 per valori del parametro λ da 0.2 a 50.0. Ad ogni distribuzione é sovrapposta una gaussiana di parametri μ=λ e σ=√λ. Fig.2.17 Stessi esempi di variabili t di Student vista in Fig.2.13 per valori del parametro ν tra 3 e 50. Ogni distribuzione é confrontata con una gaussiana di parametri μ=0 e σ=√ν/(ν−2). (2.8) Variabili casuali multiple. (2.8.1) Impostazione del problema 81 In (1.6) abbiamo accennato al fatto che in molte circostanze un fenomeno deve essere trattato considerando più di una variabile casuale. A tal fine occorre utilizzare un formalismo che consenta di caratterizzare la densità di probabilità di più variabili casuali. (2.8.2.) Probabilità congiunta e covarianza Per trattare correttamente i casi in cui siano in gioco più grandezze misurate simultaneamente ed eventualmente caratterizzate da errori correlati é utile utilizzare il formalismo delle funzioni di più variabili casuali. Formalizziamo il problema limitandoci per semplicità al caso in cui si abbiano 2 variabili casuali x1 ed x2 ed una terza, y, legata a queste tramite la relazione y=y(x1,x2). Nel caso di una singola variabile casuale, abbiamo definito la densità di probabilità f(x). Nel caso in cui sono in gioco 2 variabili casuali, possiamo ancora definire una densità di probabilità per le due variabili f(x1,x2) detta probabilità congiunta o densità di probabilità congiunta. Si tratta di una funzione di due variabili casuali che contiene sia le informazioni sulla densità di probabilità dell’una e dell’altra, che le informazioni sul grado di correlazione tra le due. E’ la funzione che descrive la popolazione delle due grandezze. La condizione di normalizzazione é espressa nel modo seguente: b1 b 2 ∫ ∫ f ( x , x )dx dx = 1 1 a1 a 2 2 1 2 in cui ho chiamato rispettivamente a1 e b1 gli estremi della variabile 1 e a2 e b2 quelli della variabile 2. Per imporre la condizione di normalizzazione sono dovuto evidentemente ricorrere ad un integrale doppio sulle due variabili. La doppia integrazione corrisponde alla successione di due integrazioni semplici. Immaginando la funzione f(x1,x2) come l’equazione di una superficie nello spazio, l’integrale doppio é il calcolo del volume sottostante la superficie. Se invece integriamo solo in una delle due variabili (lasciando cioè l’altra come parametro da cui dipende il risultato): b2 f ( x ) = ∫ f ( x , x )dx 1 1 a2 1 2 2 otteniamo una funzione solo dell’altra variabile, corrispondente alla densità di probabilità di x1. Si noti che quest’ultima operazione corrisponde al passare dal grafico bidimensionale a quello monodimensionale (all’istogramma vedi Fig.1.10 e 1.11 nel primo capitolo), cioè si tratta di fare una proiezione sull’asse x1. Si estendono in modo naturale le definizioni dei momenti ed in particolare di valore atteso e varianza: b1 E[ x1 ] = ∫ x1 f1 ( x1 )dx1 = a1 b2 b 2 b1 ∫∫ x1 f ( x1 , x2 )dx1dx2 a 2 a1 b1 b 2 E[ x2 ] = ∫ x2 f 2 ( x2 )dx2 = ∫ ∫ x2 f ( x1 , x2 )dxdx21 a2 a1 a 2 b1 Var[ x1 ] = ∫ ( x1 − E[ x1 ]) 2 f1 ( x1 )dx1 = a1 b 2 b1 ∫∫ ( x1 − E[ x1 ]) 2 f ( x1 , x2 )dx2 dx1 a 2 a1 b2 b1 b 2 a2 a1 a 2 Var[ x2 ] = ∫ ( x2 − E[ x2 ]) 2 f 2 ( x2 )dx2 = ∫ ∫ ( x2 − E[ x2 ]) 2 f ( x1 , x2 )dx1 dx2 in cui compaiono integrali doppi sulle due variabili, semplici estensioni degli integrali singoli. Risulta altrettanto naturale estendere la definizione di varianza introducendo una misura di quanto le due variabili risultano “legate”. Si fa ciò definendo la covarianza tra le due variabili: b1 b 2 cov[ x , x ] = ∫ ∫ ( x − E[ x ])( x − E[ x ]) f ( x , x )dx dx 1 2 a1 a 2 1 1 2 2 1 2 1 2 82 Si tratta di un numero avente le dimensioni [x1][x2]. Se la densità di probabilità congiunta é pari al prodotto delle probabilità di ciascuna variabile, cioè se, come si dice, la densità di probabilità congiunta si fattorizza: f (x , x ) = f (x ) f (x ) 1 2 1 1 2 2 la covarianza sopra definita si annulla. Infatti, b1 b 2 cov[ x , x ] = ∫ ∫ ( x − E[ x ])( x − E[ x ]) f ( x ) f ( x )dx dx = 1 2 1 a1 a 2 1 b1 2 2 1 1 2 2 1 2 b2 ∫ ( x − E[ x ]) f ( x )dx ∫ ( x − E[ x ]) f ( x )dx = 0 a1 1 1 1 1 1 2 a2 2 2 2 2 essendo i 2 ultimi integrali ambedue nulli per la definizione di valore atteso. Quando la probabilità congiunta si esprime come prodotto delle probabilità singole, si dice che le 2 variabili sono indipendenti. In caso contrario si dice che sono correlate. La covarianza é dunque una misura della correlazione tra le variabili, cioè di quanto la variazione dell’una incide sulla variazione dell’altra. Per tornare all’analogia con le probabilità viste sopra, il caso di indipendenza corrisponde all’essere P ( A ∩ B ) = P ( A / B ) P ( B ) = P ( A) P ( B ) . A partire dalla covarianza si introduce una quantità adimensionale detta coefficiente di correlazione: ρ[ x , x ] = 1 2 cov[ x , x ] Var[ x ]Var[ x ] 1 2 1 2 che é come dire la covarianza normalizzata alle varianze. Si dimostra che il coefficiente di correlazione può assumere solo valori compresi tra –1 ed 1: − 1 < ρ[ x , x ] < 1 1 2 quando vale 1 si dice che le due grandezze sono completamente correlate, quando vale –1 si dice che sono completamente anticorrelate. Il caso 0é il caso di non correlazione ovvero di indipendenza. Le definizione date per una generica popolazione delle 2 variabili x1 ed x2, hanno evidentemente il corrispettivo campionario nelle variabili introdotte nel capitolo (1.6). (2.8.3) Calcolo di E[y] e Var[y] L’importanza di quanto visto nel paragrafo precedente risulta particolarmente evidente quando ci poniamo il problema della propagazione delle incertezze, cioè del problema cui abbiamo già accennato nel cap(1.9) di come l’incertezza su una variabile si propaga quando si calcola una funzione di questa variabile. Tale problema, nel linguaggio delle variabili casuali si traduce nel chiedersi: data le distribuzioni di x1 e di x2, e dati in particolare i loro valori attesi E[x1] ed E[x2] e le loro varianze Var[x1] e Var[x2], quale é la distribuzione di y=y(x1,x2) ed in particolare quanto valgono E[y] e Var[y] ? Diamo qui i risultati senza dimostrazione. La dimostrazione fa uso dello sviluppo in serie di Taylor della funzione y intorno ai valori E[x1] ed E[x2] troncata al primo ordine. Pertanto risulta a rigore valida solo nel limite in cui i termini del secondo ordine sono trascurabili, ovvero nel limite in cui la funzione é approssimativamente lineare in un intervallo delle 2 variabili pari alle 2 deviazioni standard. Si ottiene (qualunque sia la forma delle funzione di distribuzione di x1 e di x2): E[ y ] = y ( E[ x ], E[ x ]) 1 ⎛ ∂y Var[ y ] = ⎜⎜ ⎝ ∂x ⎛ ∂y + 2⎜⎜ ⎝ ∂x 2 2 ⎞ ⎛ ∂y ⎟ Var[ x ] + ⎜ ⎟ ⎜ ∂x ⎠ ⎝ ⎞⎛ ∂y ⎞ ⎟⎜ ⎟ cov[ x , x ] ⎟⎜ ∂x ⎟ ⎠⎝ ⎠ 1 1 E [ x 1 ], E [ x 2 ] 1 E [ x 1 ], E [ x 2 ] 2 E [ x 1 ], E [ x 2 ] 1 2 ⎞ ⎟ Var[ x ] + ⎟ ⎠ 2 2 2 E [ x 1 ], E [ x 2 ] 83 dove sono stati introdotti i simboli di derivata parziale che sono propri del calcolo differenziale per le funzioni di più variabili. Le derivate parziali, come espresso esplicitamente nella formula, sono calcolate in corrispondenza di E[x1] e di E[x2]. Vediamo il significato delle due relazioni date che valgono, giova ripeterlo, solo nel limite in cui posso trascurare gli infinitesimi del secondo ordine, ovvero nel limite in cui nella regione della funzione y in questione, questa presenta variazioni “piccole”. Æ Il valore atteso di y é la stessa funzione y calcolata per i 2 valori attesi delle 2 variabili. Si tratta effettivamente di quanto ci si aspetta. Æ La varianza di y si ottiene sommando le varianze delle 2 variabili, ciascuna “pesata” per il quadrato della derivata parziale della y rispetto a quella variabile. A ciò si aggiunge un termine di covarianza data dal prodotto della covarianza delle 2 variabili per il prodotto delle derivate. Si noti che nel caso di 2 variabili indipendenti (secondo quanto detto sopra) il terzo termine si annulla e rimane la somma in quadratura pesata delle due varianze. Il caso di una sola variabile ci restituisce il risultato già visto per via intuitiva. Estendiamo questa definizione al caso di una funzione di N variabili casuali: E[ y ] = y ( E[ x ],...., E[ x ]) 1 Var[ y ] = ∑ N i , j =1 N ∂y ∂y cov[ x , x ] ∂x ∂x i i j j in cui abbiamo adottato una forma compatta per le varianze secondo cui cov[xi,xi]=Var[xi]. per qualunque i, (2.8.4) Propagazione delle incertezze Come si propagano dunque le incertezze ? Intanto la prima osservazione é che la propagazione avviene a livello di varianze non di deviazioni standard. Dunque la propagazione é “quadratica” non “lineare”. In secondo luogo le varianze sono “pesate” con i quadrati delle derivate, cioè con quanto é ripida la dipendenza da quella variabile in quell’intorno. Se ho 2 variabili le cui popolazioni hanno varianze Var[x1] e Var[x2] e considero la funzione più semplice che posso costruire, cioè la somma y=x +x 1 2 (naturalmente in questo caso le due variabili devono avere le stesse dimensioni fisiche), avrò che, essendo =1 ambedue le derivate, Var [ y ] = Var[ x1 ] + Var[ x2 ] + 2 cov[ x1 , x2 ] Distinguiamo 3 casi: (a) (b) (c) x1 ed x2 sono indipendenti: x1 ed x2 sono completamente correlate x1 ed x2 sono completamente anti-correlate Nel caso (a) cov[x1,x2]=0 e dunque Var[ y] = Var[x ] + Var[ x ] 1 2 cioè si ha una semplice somma in quadratura. Si noti che nella somma in quadratura domina il più “forte” più che nella somma lineare. I casi (b) e (c), abbiamo visto, significano che ρ[ x , x ] = ±1 1 2 cov[x , x ] = ± Var[ x ]Var[ x ] 1 2 1 2 e si traducono in 84 Var[ y ] = Var[ x1 ] + Var[ x2 ] ± 2 Var[ x1 ]Var[ x2 ] ovvero in termini di deviazioni standard σ 2 [ y] = σ 2 [ x1 ] + σ 2 [ x2 ] ± 2σ [ x1 ]σ [ x2 ] = (σ [ x1 ] ± σ [ x2 ])2 Cioè: nel caso in cui le due variabili siano completamente correlate la deviazione standard della somma é pari alla somma delle deviazioni standard, si ritrova cioè il risultato della propagazione lineare (quella cosiddetta dell’errore massimo che qualcuno ha visto alle scuole superiori) σ [ y] = σ [ x ] + σ [ x ] 1 2 Nel caso (c) completamente anticorrelato si ha invece σ [ y ] =| σ [ x ] − σ [ x ] | 1 2 risultato questo che dice che se le due sigma sono uguale la y é priva di varianza. I tre casi sono schematizzati nelle Fig. 2.18 2.19 e 2.20 che illustrano i tre casi (a) (b) e (c). Fig.2.18 Stesso grafico di correlazione tra 2 variabili non correlate (ρ=0.) aventi entrambi varianza unitaria, di Fig.1.11. Sotto é mostrato l’istogramma della somma delle 2 variabili. Si noti come la deviazione standard campionaria (RMS nel riquadro) sia prossima al valore √2 come atteso dalle considerazioni fatte. 85 Fig.2.19 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente correlate (qui ρ=1.). L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria prossima a 2 come atteso. Fig.2.20 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente anticorrelate (qui ρ=-1.). L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria “nulla”, dal momento che la somma dei 2 valori é sempre pari allo stesso valore (=0 nel nostro caso). Altrettanto interessante é il caso della funzione 86 y=x −x 1 2 per il quale valgono “quasi” esattamente gli stessi risultati visti sopra. Infatti si ha: ρ [ x , x ] = 0 ⇒ Var[ y ] = Var[ x ] + Var[ x ] ρ [ x , x ] = ±1 ⇒ σ [ y ] =| σ [ x ] m σ [ x ] | 1 2 1 2 1 1 2 2 cioè nel caso della differenza tra 2 variabili correlate, il segno della correlazione gioca in senso opposto rispetto a come gioca per il caso della somma. 87 Esercizi relativi al Capitolo (2) 2.1) Un’urna contiene 5 palline numerate da 1 a 5. Estraendole una ad una senza reintrodurle ogni volta, quant’è la probabilità di ottenere la sequenza 1-2-3-4-5 ? E se ogni volta reintroduco la pallina estratta quanto vale la probabilità di ottenere la stessa sequenza ? Infine quanto cambiano le 2 probabilità se anziché cercare la sequenza 1-2-3-4-5 cerco la sequenza 2-5-4-1-3 ? 2.2) Disegnare la distribuzione di probabilità della variabile casuale data dalla differenza tra il valore di 2 dadi lanciati simultaneamente. Quanto vale la probabilità che lanciando per tre volte consecutive una coppia di dadi io abbia tutte e tre le volte una differenza pari a 0 ? 2.3) Il 10% degli abitanti dell’isola di Pasqua soffre di daltonismo. Un test del daltonismo funziona in modo tale che su 100 pazienti daltonici, 98 sono individuati, mentre su 100 pazienti non daltonici 16 sono individuati erroneamente come daltonici. Se faccio il test su un individuo qualsiasi della popolazione dell’isola e ho responso positivo, quant’è la probabilità che sia effettivamente daltonico 2.4) Un bimbo maschio di 4 anni ha un peso di 22.5 kg. Dalla tabella dei “percentili” i suoi genitori desumono che si trova al 90-esimo percentile. Il cugino avente la stessa età ma avente un peso di 18.2 kg si trova al 40-esimo percentile. Determinare μ e σ della popolazione gaussiana descrivente i pesi dei bambini di 4 anni (si definisce percentile la probabilità che un valore sia minore del valore dato secondo la popolazione in questione). 2.5) La radioattività ambientale standard, misurata con un certo contatore é caratterizzata da un valor medio r=1.8x10-3 conteggi al secondo. Metto quel contatore a casa mia e lo lascio contare per un giorno intero. Se ottengo N=404, devo preoccuparmi ? 2.6) L’incidenza alla nascita della sindrome genetica X é dell’ 0.12% per età della madre inferiore ai 30 anni e del 0.28% per età superiore a 30 anni. La signora Y ha 10 figli di cui 3 avuti prima dei 30 anni e 7 dopo i 30 anni. Quant’è la probabilità che nessuno sia affetto da sindrome X ? 2.7) Il nucleo di valutazione di rischio delle centrali nucleari ha stabilito il tempo medio di attesa per avere un incidente in una centrale nucleare di un certo tipo é di 20000 anni. Il governo di un certo paese nel quale stanno per entrare in funzione 98 centrali di quel tipo é chiamato a rispondere in parlamento circa la probabilità di non avere alcun incidente nei prossimi 100 anni. Quanto vale tale probabilità ? 2.8) Un certo rivelatore che si propone di distinguere una radiazione di tipo A da una radiazione di tipo B, ha due possibili risultati che chiamiamo α e β. Viene portato in prossimità di una sorgente di tipo A, e si trova che, nel 98% dei casi dà il risultato α e nel 2% dà il risultato β. In prossimità della sorgente di tipo B dà nel 10% risultato α e nel 90% il risultato β. Viene in seguito portato nell’ambiente entro il quale si vuole distinguere i 2 tipi di radiazione. A priori non si sa nulla circa la quantità relativa delle 2 radiazioni. Quant’è la probabilità che ottenuto il risultato α questo corrisponda alla radiazione A ? Come cambia il risultato se da misure precedenti si sa che B é il doppio più frequente di A ? 2.9) Dopo anni di esperienza é nota che la distribuzione della concentrazione di rame nel sangue umano é ben descritta da una distribuzione di Gauss di parametri μ = 3.2 x 10-5 cm-3 e σ = 2.2 x 10-6 cm-3. All’ultimo esame del sangue trovo 9.2 x 10-5 cm-3. Devo preoccuparmi ? 88 2.10) Un medico mi spiega che l’intervallo di accettabilità del valore del colesterolo tra 150 e 220 mg/dl , corrisponde ad un intervallo di probabilità del 90% calcolato su una popolazione gaussiana. Determinare μ e σ di tale distribuzione. 2.11) In un referendum svolto su tutto il territorio nazionale, i SI hanno vinto con una percentuale finale del 52.67%. Sapendo che nel paese X vi sono 1654 aventi diritto al voto, quant’è la probabilità che in quel paese i SI siano minoritari ? Specificare le ipotesi essenziale per arrivare al risultato. 2.12) Un dispositivo elettronico conta i segnali che provengono da un rivelatore. Tuttavia tale dispositivo ha il problema di bloccarsi allorché rimane fermo (cioè non riceve segnali) per un tempo superiore a 10 s. Sapendo da misure indipendenti che la poissoniana del fenomeno in questione costruita su un intervallo di 100 s ha λ=38.4, dire quante volte in un ora il dispositivo si blocca. 2.13) Il test dell’epatite C ha una probabilità di successo del 90% (cioè la probabilità che un paziente effettivamente affetto dal virus ottenga P al testé del 90% e che uno non affetto dal virus ottenga Né pure del 90%). Un individuo si sottopone a 3 test indipendenti, e ottiene la sequenza PNP. Quant’è la probabilità che sia positivo ? Se invece avessi ottenuto la sequenza PPP ? 2.14) Un allenatore per i mondiali ha a disposizione una rosa fatta da 3 portieri, 6 difensori, 7 centrocampisti e 6 attaccanti. Considerando che in una squadra di calcio trovano posto 1 portiere, 4 difensori, 4 centrocampisti e 2 attaccanti, quante formazioni diverse può preparare ? 2.15) Disegnare la distribuzione di probabilità della variabile “valore più grande dei 2 dadi tirati simultaneamente”. 2.16) Quant’è la probabilità che su una famiglia di 5 figli, 2 siano maschi ? Quale tra le 3 sequenze é meno probabile (FFMFM, FFFFM, FFFFF) ? 2.17) Nei risultati degli esami del sangue vengono indicati “intervalli normali” dei valori misurati ottenuti dalla popolazione sana, imponendo che il 95% dei sani siano inclusi nell’intervallo. Quant’è la probabilità che una persona sana sia fuori intervallo per l’esame X e per almeno uno dei 2 esami Y1 e Y2 ? 2.18) Quante sono le possibili cartelle della tombola ? (90 numeri in totale, 15 numeri a cartella) 2.19) Il reparto ostetrico di un piccolo paese ha un solo posto e dunque può gestire non più di un parto al giorno. Negli ultimi anni é stato visto che si ha un parto nel paese circa una volta la settimana. Quant’è la probabilità che domani arrivino 2 o più donne per partorire e quindi una o più di una debba essere mandata altrove ? 2.20) Misuro l’efficienza di un rivelatore basandomi su 1250 particelle incidenti. Sapendo che la distribuzione del numero di successi ha una deviazione standard relativa del 2 %, quant’è l’efficienza ? 2.21) Discutere se le seguenti variabili casuale discrete sono caratterizzabili da una distribuzione Poissoniana ed eventualmente in quali ipotesi. (a) Il numero di stelle in volumi dell’universo di 1 parsec3 ,(b) il numero di battiti cardiaci in 15 s, (c) il numero di studenti che si iscrive ogni anno al corso di laurea in Fisica dell’Università “La Sapienza”, (d) il numero di persone che trovo in fila nell’ufficio X il martedì’ mattina alle 10. 89 2.22) Un test del virus HIV é caratterizzato dalle seguenti prestazioni: p(+/infetto)=99.0% , p(-/non infetto)=99.3% . Calcolare quant’è la probabilità che facendo un test e risultando positivo una persona sia effettivamente infetta in 2 casi: (1) il testé fatto su tutta la popolazione nazionale italiana (per la quale il ministero della salute stima una frazione di infetti dello 0.2% circa); (2) il testé fatto solo su un campione “a rischio” in cui ci si aspetta che circa la metà delle persone testate sia infetta. 2.23) Dai dati dell’esercizio precedente (caso(1)): Quanto cambia la probabilità di essere infetto se ripeto 3 volte il test e per tre volte la persona risulta positiva ? 2.24) Quante auto possono essere immatricolate in Italia dato il tipo di targa che abbiamo adottato dal 1994 (2 lettere, 3 numeri 2 lettere) ? Quant’è la probabilità che in una targa le ultime 2 lettere siano una copia delle prime due (ad esempio CH 017 CH) ? 2.25) La password di una banca data é una parola di 6 lettere, dove per lettera si deve intendere o una lettera dell’alfabeto inglese o un numero. Quanti anni impiega a trovarla un calcolatore che impiega 1 ms per tentare ogni singola combinazione ? Quanto impiega invece se sa che sono una sequenza i cui primi 3 posti sono occupati da numeri e gli altri 3 da lettere ? 2.26) Una variabile casuale é caratterizzata da una distribuzione uniforme tra 0 e 10. Quant’è la probabilità di ottenere un numero maggiore di 8.2 ? Quant’è la probabilità che estraendo 3 volte, io ottenga sempre un numero maggiore di 8.2 ? 2.27) La distribuzione della variabile M (massa invariante di un sistema di particelle che escono da un esperimento di collisioni) é gaussiana con parametri μ = 138.2 MeV e σ = 4.58 MeV. Accetto solo gli eventi per i quali 129 < M < 149 MeV. Che frazione di eventi buoni rigetto (sinonimo di non accetto) ? Una simulazione dello stesso processo mi fornisce una variabile sempre gaussiana con lo stesso μ ma con σ = 3.96 MeV. Quanto é diversa la mia frazione di reiezione tra dati e simulazione ? 2.28) L’Alitalia dichiara che la probabilità di un ritardo maggiore di 1 ora sul volo Roma-Parigi delle 10:00é del 2.34%. Nei prossimi 2 anni dovrò andare una volta al mese ad una riunione a Parigi che inizia appena 1 ora dopo l’arrivo di quel volo. Quant’è la probabilità che io arrivi almeno una volta in ritardo (si trascuri il tempo di trasporto dall’aereo alla sede della riunione)? 2.29) Nel paese X si ha un decesso in media ogni 62 giorni. L’unica agenzia di pompe funebri decide di chiudere (per lutto) per un intero mese. Quant’è la probabilità che ci sia almeno un decesso durante questo periodo di chiusura ? 2.30) La distribuzione dell’età del corpo docente dell’Università “La Sapienza” di Roma é approssimabile con una distribuzione “triangolare” simmetrica tra 30 e 70 anni. Fare il grafico della distribuzione. Quant’è la probabilità che nei primi corsi del primo trimestre uno studente si trovi di fronte 3 persone tutte di età superiore ai 60 anni ? 2.31) Per un errore di produzione, su una partita di 2000 uova di Pasqua solo 1250 contengono la sorpresa. Per Pasqua abbiamo comprato 5 uova appartenenti a questa produzione. Quant’è la probabilità che almeno 3 di queste contengano una sorpresa ? 2.32) Tre contatori per raggi cosmici contano in media 256 eventi in un minuto. Quant’è la probabilità che almeno 2 contatori osservino un conteggio inferiore a 240 ? 2.33) La variabile casuale continua x ha una funzione di distribuzione uniforme tra –1.5 e 1.5. Viene estratto un campione di dimensione 5290 e viene fatto un istogramma di frequenza con passo 90 0.3 dei valori ottenuti. Quale é la probabilità di osservare in due intervalli un numero di valori superiore a 575 ? 2.34) Ad un torneo partecipano 10 squadre. Quante partite complessivamente saranno giocate se ogni squadra deve incontrare per 2 volte tutte le altre (gironi di andata e di ritorno) ? 2.35) Nello stato del Texas, i Repubblicani hanno avuto una maggioranza schiacciante alle ultime elezioni presidenziali: il 76.4% contro il 23.6% dei Democratici. Un sondaggio rivela che il 16.2% dell’elettorato Democratico é costituito da persone di colore, mentre solo il 2.5% di quello Repubblicano é costituito da persone di colore. a) Se incontro un elettore di colore, quant’è la probabilità che abbia votato Democratico ? b) Nella mia azienda ho 7 dipendenti tutti di colore: quant’è la probabilità che tra i miei dipendenti vi sia almeno un Repubblicano ? 2.36) Nella regione X si hanno in media 3.24 incidenti ogni notte tra il sabato e la domenica. a) Quant’è la probabilità che il prossimo sabato sera non si abbiano incidenti ? b) Qual è la distribuzione di probabilità del numero di incidenti in un anno ? c) Quanto vale la probabilità di avere in un anno meno di 150 incidenti ? [si ricorda che in un anno vi sono complessivamente 52 notti tra sabato e domenica.] 2.37) Si deve organizzare una riunione in un nuovo Centro Congressi la cui sala più grande contiene fino a 90 persone sedute. Analizzando i dati relativi alle stesse riunioni effettuate negli ultimi anni, si é trovato che il numero di presenze ha una distribuzione descritta da una poissoniana con valore centrale 78. Quant'è la probabilità che, quest'anno, qualcuno resti in piedi? 2.38) Cinque anni fa ho versato un bicchiere pieno d’acqua nel mare. Oggi mi trovo dall’altra parte del mondo e con un altro bicchiere prendo dell’acqua dal mare. Quant’e’ il numero medio di molecole nel nuovo bicchiere che erano anche nel bicchiere di cinque anni fa ? 91 (3) Introduzione all’inferenza Gli argomenti e gli esempi trattati nel capitolo precedente sono certamente interessanti. Tuttavia risulta evidente che essi da soli non giustificano il fatto che un fisico sperimentale debba studiarli cosi’ intensamente proprio all’inizio del suo corso di studi. In realtà il motivo per cui sono stati trattati é che si rivelano estremamente utili per risolvere i problemi di inferenza che abbiamo già in parte affrontato e per ora solo approssimativamente incontrato nel primo capitolo. Riformuliamo alcuni dei problemi che abbiamo incontrato nella prima parte del corso: (a) come dare il risultato di una misura, come dare la stima dell’intervallo e che significato ha questo intervallo nei seguenti casi: Æ risultato di una singola misura (analogica, digitale o numero senza altre informazioni); Æ risultato di una sequenza di numeri (qui abbiamo già alcune idee che vanno chiarite); Æ risultato di un conteggio (poissoniano): come dare la migliore stima di r ; Æ risultato di una misura di efficienza (binomiale); Æ combinazione di diverse misure indipendenti di una stessa grandezza; (b) come stimare l’incertezza di una misura indiretta: si tratta di applicare la propagazione delle incertezze cui abbiamo già accennato; (c) come stabilire la compatibilità tra diverse misure in modo più quantitativo, ovvero come stabilire che due misure sono “significativamente” diverse; (d) come determinare con la loro incertezza il coefficiente angolare e l’intercetta della retta che meglio approssima una dipendenza lineare tra due grandezze. Ciascuna delle questioni qui poste sono state incontrate in vario modo nelle esperienze di laboratorio. Per esempio nella prima esperienza abbiamo incontrato problemi del tipo (a) per ciascuna misura di massa e di volume e per la distribuzione delle densità, dei riflessi e della capacità di interpolazione, di tipo (b) per stimare l’incertezza della densità a partire da quelle su massa e volume e di tipo (c) per vedere se si hanno differenze tra i riflessi degli studenti, o tra la densità media e quella nota dell’alluminio. Nell’ esperienza della molla sono entrati in gioco anche i problemi di tipo (d) nei 2 tipi di fit che abbiamo fatto, per ora solo “a mano” e che intendiamo fare secondo una modalità meglio definita. Nell’ esperienza del contatore, oltre alle altre cose pure presenti, si é posto il problema di stimare la radioattività a partire da varie misure di conteggio. E cosi’ via. In questo capitolo dopo una breve introduzione di considerazioni generali sull’inferenza, vedremo alcune soluzioni per le 4 classi di problemi posti, soluzioni che evidentemente non esauriscono tutti i problemi immaginabili, ma che risultano utili in molte circostanze. Lasciamo dunque da parte urne con palline, o probabilità di malattie, e torniamo a parlare di misure. (3.1) Introduzione “formale” all’inferenza (3.1.1) Considerazioni generali L’inferenza é il processo attraverso il quale a partire da un insieme di dati “inferisco” sul valor vero di una o più grandezze. E’ dunque la procedura con cui in un modo o nell’altro facciamo l’induzione. Con il termine inferenza indichiamo dunque il metodo quantitativo dell’induzione e quindi del metodo sperimentale. Il risultato del procedimento consiste in generale nello stabilire le caratteristiche della funzione di distribuzione del valor vero della grandezza in esame o dei valori veri delle grandezze in esame, ed in particolare nella definizione di un intervallo, caratterizzato da un certo contenuto di probabilità, all’interno del quale si ritiene il valor vero debba stare. Si noti che intrinsecamente l’inferenza fa passare da una osservazione particolare ad una affermazione generale sulla o sulle grandezze. 92 Formalizziamo ora l’inferenza. Per fare ciò riprendiamo lo schema della prima parte del corso: valor vero, misurando e risultato della misura. Il misurando é caratterizzato da una popolazione (la sua funzione di distribuzione) che dipende sia dal processo che si sta studiando, che dalle caratteristiche dell’apparato di misura. La misura si riferisce invece ad un campione, che costituisce una realizzazione finita della popolazione. Dunque tra popolazione e campione vi é un rapporto di natura statistica. Il valore vero invece non dipende dall’apparato di misura, ma solo dal fenomeno. La differenza tra valore vero e valore misurato (l’errore dunque) può sempre essere espresso come somma di 2 contributi: Æ differenza tra valore osservato e valore atteso del misurando (errore casuale) Æ differenza tra valore atteso del misurando e valore vero (errore sistematico) Decomponiamo dunque l’errore complessivo δ nella forma: δ = x − x = ( x − μ ) + (μ − x ) = δ + δ v m v m sist cas in cui, con ovvio significato di simboli, xv é il valor vero, xm quello misurato, e μ il valore atteso del misurando. Nel limite in cui il campione approssima bene la popolazione (per esempio altissimo numero di osservazioni), l’errore casuale tende ad annullarsi in base alla legge della stabilità della frequenza. In tale caso rimane la seconda sorgente di errore soltanto. L’errore sistematico é dunque quello che rimane dell’errore, nel limite di statistica infinita. Si noti che stiamo parlando di errori, non di incertezze. Lo sperimentatore non “vede” il misurando, né “vede” il valore vero. Tuttavia deve stimare quanto sono questi errori dando degli intervalli di probabilità per la grandezza. (3.1.2) L’inferenza bayesiana Ci sono vari metodi generali per l’inferenza cioè per fare il passaggio da xm a μ e da questo a xv. Uno di questi é il metodo dell’inferenza bayesiana al quale accenniamo ora brevemente. Utilizzando le definizioni appena date, possiamo chiamare f(μ/xm) la funzione di distribuzione di μ dato xm, che descrive la popolazione del misurando μ , condizionata all’essere stato ottenuto xm come risultato della misura. Allo stesso modo chiameremo g(xm/μ) la funzione di distribuzione di xm dato il parametro μ. Il problema é posto in modo tale che si può interpretare μ come la “causa”, cioè la popolazione, e xm come l’effetto, ovvero il campione. La forma della popolazione del misurando determina cioè il risultato della misura, con un meccanismo tipo causa-effetto. La situazione é simile a quella che abbiamo visto in occasione del teorema di Bayes. Li’ avevamo una formula che ci permetteva di passare dalle probabilità degli effetti date le cause, alle probabilità delle cause dati gli effetti. Adattiamo la formula di Bayes al sistema popolazione - campione, passando dalle probabilità di eventi alle densità di probabilità di variabili casuali continue, secondo quanto visto nel precedente capitolo: f (μ / x ) = m g ( x / μ ) f (μ ) 0 m ∫ dμg ( x / μ ) f ( μ ) b a m 0 A numeratore vi é il prodotto della funzione g detta verosimiglianza per la funzione f0 che costituisce la probabilità a priori del valore del misurando. A denominatore lo stesso prodotto é integrato in dμ tra a e b che sono gli estremi dell’intervallo in cui μ è definito. L’integrale a denominatore svolge il ruolo della sommatoria nella formula di Bayes per le probabilità. Se conosco la verosimiglianza, cioè se conosco come é fatta la distribuzione del campione data la popolazione (che dipende da come é fatto l’apparato di misura), e se ho una probabilità a priori (eventualmente uniforme se non ho alcun “pregiudizio”) posso ricavare la funzione di distribuzione del misurando. Il valore atteso di tale distribuzione, o il valore più probabile qualora la distribuzione fosse in buona misura simmetrica, costituiscono la migliore stima del misurando. Il passaggio poi al valore vero viene fatto usando tutte le conoscenze a disposizione relativamente agli eventuali errori sistematici, e applicandoli come correzioni alla stima fatta del misurando. 93 (3.1.3) Il principio di massima verosimiglianza La formula di Bayes permette di giustificare il cosiddetto principio di massima verosimiglianza. Infatti se la probabilità a priori di μ è uniforme tra a e b e pari a k=1/(b-a), si ha: f (μ / x ) = m g ( x / μ )k m k ∫ dμg ( x / μ ) b m a = g(x / μ) I m dove con I abbiamo indicato l’integrale che compare a denominatore, che é comunque un numero indipendente da μ avendo noi integrato in μ. Quindi si ha che la funzione di distribuzione di μ dato xm é proporzionale alla verosimiglianza. f (μ / x ) ∝ g ( x / μ ) m m In particolare se la f é una distribuzione simmetrica, cioè tale che la moda e la media coincidono, il massimo della g rispetto a μ corrisponde al valore più probabile di μ. Di qui il principio della massima verosimiglianza: la migliore stima di μ è quella per cui é massimo il valore della funzione di verosimiglianza. La funzione di verosimiglianza (likelihood in inglese) é data in generale dalla densità di probabilità congiunta dei dati sperimentali, data la popolazione del misurando. Questo principio (che applicheremo in seguito) fornisce un utile metodo per stabilire quale é il valore più probabile del misurando μ secondo il nostro campione xm. Il valore più probabile di μ è dunque quello per cui é massima la verosimiglianza. (3.2) Inferenza sul valore vero Passiamo ora ad affrontare i casi che si incontrano nel processo di misura, per arrivare a dare metodi operativi. In questo paragrafo affrontiamo i casi che abbiamo elencato sotto (a) nel paragrafo introduttivo di questo capitolo. Consideriamo dunque i vari casi presentati sopra. Nel seguito usiamo la seguente notazione: x̂ ed in generale ogni simbolo con il cappuccio indica la stima del valor vero, ovvero la stima dei parametri della densità di probabilità del misurando. Per il momento assumiamo l’assenza di errori sistematici che richiedono una trattazione a parte, e dunque nella trattazione che segue, identificheremo il valor vero xv con μ, valore atteso del misurando. La trattazione é svolta ad un livello elementare ed intuitivo, ed ha come obiettivo quello di fornire metodi di analisi e non di dare una trattazione esauriente e generale dell’inferenza. Per una discussione generale della teoria degli stimatori e dell’inferenza si rimanda ai corsi successivi. (3.2.1) Caso di una singola misura Se la mia misura si traduce in un unico numero xM, (il che accade per esempio quando non sono in condizioni di ripetibilità e non ho alcuna informazione sull’incertezza da attribuire ad xM), devo avere informazioni indipendenti. Con un solo numero non si riesce a dare una misura sensata. O devo poter ripetere la misura o devo sapere qualcosa su come funziona il mio esperimento. Se invece sappiamo che la distribuzione del misurando μ (la popolazione da cui xM proviene) é gaussiana con varianza σ2 , allora l’intervallo cosi’ costruito: x − σ < μˆ < x + σ M M costituisce un intervallo al 68.3% di probabilità per il valore atteso μ del misurando. Infatti in questo caso la verosimiglianza é: 1 g(x / μ) = e 2π σ − ( xM − μ ) 2 2σ 2 M e, se la probabilità a priori é uniforme, la densità di probabilità di μ è data da f (μ / x ) = g ( x / μ ) M M (in cui il fattore di proporzionalità é 1 essendo la gaussiana già normalizzata) e dunque si ha che: 94 P ( x − σ < μ < x + σ ) = 68.3% M M Si noti il procedimento seguito, che é consistito nell’individuare la densità di probabilità di μ a partire dalla verosimiglianza. Nel caso in cui il valore xM proviene da una misura diretta letta su una scala “analogica” sappiamo che si tratta di stimare al meglio la precisione di interpolazione. Si potrebbe pensare di usare una misura come quella fatta in laboratorio per il nonio (aumentando magari il numero di osservazioni) come misura della popolazione della variabile δx scarto del valore misurato dal valore vero. Se tale popolazione si rivela essere gaussiana caratterizzata da valore atteso nullo e varianza σ2 si può procedere come nel caso appena trattato dando un intervallo gaussiano di semilarghezza σ. In questi casi é evidente che per avere un intervallo del tipo di quelli chiamati di “quasi certezza” nel capitolo 1, occorrerà moltiplicare per 3 la larghezza dell’intervallo portando cosi’ il contenuto probabilistico dell’intervallo al 99.7%. Se invece la misura in questione proviene da un display digitale fisso e Δx é l’ampiezza dell’intervallo corrispondente all’ultimo digit centrato in xM, posso affermare che, per quel che posso sapere, la densità di probabilità di μ è uniforme tra xM - Δx/2 e xM + Δx/2. Non ho nessun elemento infatti per privilegiare una parte dell’intervallo rispetto ad un’altra. In tal caso la migliore stima del valore vero e della sua incertezza, avente il significato di deviazione standard della distribuzione di x (vedi cap.(2.4)) é μˆ = x ± M Δx 12 corrispondente ad un intervallo di probabilità del 57.7%. In questo caso un intervallo di certezza é ovviamente ± Δx / 2. Bisogna comunque sempre tenere presente che non esiste un metodo generale. Si tratta di usare tutte le informazioni a disposizione e, se non si hanno informazioni sufficienti, in generale non si potrà dare una stima sensata di un intervallo. (3.2.2) Caso di una misura ripetuta N volte. Se invece ho un campione di dimensione N (sequenza di numeri) posso calcolare x ed s . Di nuovo però é interessante distinguere tra due casi, cioè tra il caso in cui ho informazioni aggiuntive al mio campione e il caso in cui tutte le mie informazioni sono date dal campione. Supponiamo allora di conoscere a priori che x ha una distribuzione gaussiana con valore atteso μ e varianza σ2 : la variabile x−μ σ N è una gaussiana standardizzata, e dunque, applicando le stesse considerazioni fatte per il caso della singola misura, un intervallo x− σ N < μˆ < x + σ N è caratterizzato da un intervallo di probabilità del 68.3%. Infatti se il misurando è caratterizzato da una popolazione gaussiana, la media di N misure estratte da questa popolazione é (a maggior ragione) gaussiana e d’altra parte sappiamo che la sua varianza é la varianza di x diviso N. Allora posso ripetere il ragionamento fatto per la singola misura e scrivere come risultato: 95 μˆ = x ± σ N che ha il significato di un intervallo di probabilità del 68.3% per il valor vero C’è poi il secondo caso. Supponiamo di sapere che x ha una distribuzione gaussiana ma di non conoscere σ2 : allora devo ricorrere a: μ̂ = x ± s N Tuttavia sappiamo già che un tale intervallo (che peraltro abbiamo già ampiamente usato nella prima parte del corso) non caratterizza un intervallo al 68.3%. Infatti sappiamo che, detto μ il valore atteso gaussiano della popolazione, la variabile x−μ s N in tutto analoga a quella che abbiamo costruito nel caso precedente con l’unica differenza che ora compare s al posto di σ, non é una variabile gaussiana standardizzata, ma é piuttosto una t di Student con N-1 gradi di libertà che tende ad una gaussiana solo nel limite di grande N. Per cui se vogliamo un intervallo di probabilità confrontabile con quello gaussiano, per esempio al 68.3%, dobbiamo trovare quel valore della variabile t con N-1 gradi di libertà, diciamo tΝ−1(68.3%) tale che: P (−t (68.3%) < N −1 x−μ < t (68.3%)) = 68.3% s N N −1 I valori di questi tN-1 per diverse probabilità (tra cui il 68.3%) sono dati nella tabella data qui di seguito. Dalla tabella si nota che al crescere di N i valori di t tendono a quelli “gaussiani” come deve essere per le proprietà limite della variabile t di Student. Quindi l’uso della variabile t é importante solo quando si stanno considerando medie di campioni di bassa statistica estratti da popolazioni gaussiane di σ non nota. Si scrive dunque il risultato per un intervallo di probabilità α qualsiasi: μˆ = x ± t (α ) N −1 s N 96 Tabella con i valori di t(N-1) introdotti nel testo, per dare intervalli di probabilità corretti nel caso di un numero limitato di misure. Si noti che gli 1-α della tabella corrispondono agli α del testo. La tabella deve essere usata anche per fissare gli estremi degli intervalli di accettabilità nel contesto dei test di ipotesi (vedi seguito). Si noti che il valore di t fa aumentare le dimensioni dell’intervallo rispetto al caso gaussiano. In un certo senso si sta pagando la non conoscenza della σ e il fatto che si sta introducendo anche l’incertezza su s, stima di σ. (3.2.3) Caso dei conteggi poissoniani. Supponiamo di volere stimare il “rate” di conteggio di un certo tipo di eventi. Devo stimare il parametro λ di un fenomeno poissoniano relativo ad un intervallo di tempo Δt, dato una certa misura di conteggio N nel tempo Δt. La trattazione esatta del problema, richiede l’uso del teorema di Bayes in caso di verosimiglianza poissoniana. Qui consideriamo solo il caso in cui il numero di conteggi osservato é sufficientemente grande. In tal caso infatti, ma solo in tal caso, il numero di conteggi diventa una variabile gaussiana, e pertanto si possono costruire intervalli di probabilità gaussiani. Supponiamo allora di avere contato N conteggi nel tempo Δt e di volere stimare la “radioattività ambientale” r. Nel limite in cui N é “grande” (per N maggiore di 10-20 tale limite é già in pratica raggiunto) si trova che la migliore stima di λ è fornita dall’unico valore trovato N. λ̂ = N e pertanto rˆ = N Δt Se ho validi motivi per ritenere che la popolazione sia poissoniana, posso ragionevolmente assumere che la radice quadrata di N sia una buona stima della deviazione standard, e pertanto avrò: rˆ = N N ± Δ t Δt in cui evidentemente ho assunto trascurabile l’incertezza su Δt. Si noti che (caratteristica distintiva dei processi poissoniani) al crescere di N l’incertezza cresce, ma più lentamente di N e dunque l’incertezza relativa su r decresce 97 s ( rˆ) 1 = rˆ N qui abbiamo indicato con s(r) l’incertezza sulla stima di r. Dunque la stima del “rate” di un evento é tanto migliore quanto più alto é il numero di conteggi ovvero, a parita’ di rate, quanto maggiore é il mio tempo di osservazione Δt. Consideriamo ora l’esperienza del contatore. Sono stati fatti diversi conteggi a tempo fissato (per esempio N=50 conteggi da δt=100 s l’uno) e i miei dati sono una sequenza di conteggi: n(i),i=1,N. In tal caso la migliore stima della radioattività può essere ottenuta in due modi tra loro equivalenti. (a) Calcolo la media n e la deviazione standard campionaria s(n) dei 50 conteggi (n(i),i=1,N). Uso la proprietà della media e scrivo: rˆ = n s ( n) ± δt N δt che, assumendo di essere nel limite gaussiano, corrisponde ad un intervallo di probabilità del 68.3%. (b) Sommo tutti i conteggi fatti e li divido per la somma di tutti gli intervalli pari evidentemente a Nδt, cioé agendo come se avessi fatto un unico conteggio per un tempo Nδt. N N rˆ = ∑ n (i ) i =1 Nδ t ± ∑ n(i) i =1 Nδt e assumo la radice del totale dei conteggi come stima della deviazione standard. I 2 approcci sono esattamente uguali per quel che riguarda il valore centrale, essendo infatti N n = ∑ n(i ) / N , mentre per quel che riguarda l’incertezza sono uguali solo se la deviazione i =1 standard campionaria é pari poissoniana. n. Ciò é verificato solo se la distribuzione é effettivamente Quindi ricapitolando quanto detto per il caso dei conteggi poissoniani nel limite gaussiano: se la distribuzione é poissoniana é opportuno sommare tutti i conteggi fatti ed assumere come incertezza la radice di tale numero; se invece si hanno dubbi sulla poissonianità, é opportuno suddividere il tempo di misura in sottocampioni e controllare che la deviazione standard campionaria sia in accordo con la radice della media aritmetica. Se ciò é ragionevolmente verificato si può procedere come nel caso poissoniano. Altrimenti si deve concludere che il fenomeno non é poissoniano (perché ad esempio alcune delle ipotesi non sono verificate) e assumere la deviazione standard della media come incertezza. Il caso di pochi conteggi (in cui il limite gaussiano non é verificato) é estremamente importante ma richiede una trattazione che esula dagli obiettivi di questo corso. (3.2.4) Caso dei conteggi binomiali. Supponiamo di aver contato n successi su N prove e di volere stimare p. Si tratta di un tipico caso di inferenza, nel quale voglio passare da un valore misurato n caratteristico di un campione “estratto” dalla popolazione, al parametro che descrive la popolazione. L’esempio più tipico é quello della misura di efficienza di un rivelatore. Anche in questo caso ci limitiamo al limite gaussiano. La migliore stima di p sarà data dalla frequenza con cui ho ottenuto il successo pˆ = n N 98 che corrisponde al fatto che in una binomiale E[n]=Np. La deviazione standard é ottenuta prendendo la deviazione standard della popolazione e sostituendo a p il suo valore stimato: pˆ (1 − pˆ ) 1 1 s( pˆ ) = Var[n] = Np(1 − p) = N N N Anche in questo caso giova ricordare che al di fuori del limite gaussiano la trattazione data non é adeguata. Ricordiamo che nel caso della distribuzione binomiale il limite gaussiano é raggiunto quando N é sufficientemente elevato e quando p é sufficientemente lontano da 0 e da 1. (3.2.5) La “barra di incertezza” Fig.3.1 Alcuni esempi di dati sperimentali espressi su di un grafico con la (o le) barre di incertezza. Si noti che la barra esprime sempre una stima dello sperimentatore di un intervallo di probabilità del quale deve essere specificato il contenuto. In caso non si abbia una tale stima, é bene presentare il dato senza barra. In tutti i casi visti, il risultato della misura può essere espresso come un valore ± una incertezza stimata. Se la misura di cui stiamo parlando viene messa in un grafico in cui é espressa in funzione di un altra grandezza per evidenziare un eventuale andamento (è il caso di molte delle misure viste in laboratorio), allora sarà opportuno riportare sul grafico non solo un punto, ma un punto con due barre di incertezza: una per la misura della grandezza in ascisse, e l’altra per la misura della grandezza nelle ordinate, secondo quanto mostrato nella figura illustrativa (Fig.3.1). Si tratta di una espressione grafica molto utilizzata perché estremamente utile alla comprensione del grafico. Di norma le barre di incertezza rappresentano incertezze standard e quindi il loro significato é che il valore vero cade là dentro con una probabilità che nel caso gaussiano é del 68.3%. Come vedremo, nella valutazione degli andamenti, l’uso delle barre di incertezza si rivela di cruciale importanza. (3.3) Misure indirette: la propagazione delle incertezze (3.3.1) Riformulazione del problema Dopo aver fatto una lista di casi di misure dirette, torniamo al caso delle misure indirette. Possiamo ora applicare la formula che abbiamo ricavato nel capitolo precedente. 99 Riformuliamo il problema. Supponiamo di aver misurato le 2 grandezze x1 ed x2 e di avere ottenuto x̂1 e x̂2 con le loro incertezze standard s( xˆ1 ) e s( xˆ 2 ) e di avere anche stimato una covarianza tra le 2 grandezze. Vogliamo trovare una stima di y che é una funzione di x1 ed x2 , y(x1 , x2) e una stima della sua incertezza s ( yˆ ) . Nel capitolo precedente abbiamo imparato a calcolare il valore atteso e la varianza della popolazione della variabile causale y. Ora però per utilizzare quella formula, dobbiamo applicarla a campioni di x1 e di x2 non alle popolazioni. Per fare ciò identifichiamo i valori attesi di y di x1 e di x2 con le rispettive stime di y, x1 ed x2, e le varianze con i quadrati delle incertezze standard, secondo il procedimento che abbiamo già usato nel precedente paragrafo. Identifichiamo infine la covarianza della popolazione delle 2 variabili con la covarianza campionaria. Naturalmente questo passaggio richiede una identificazione campione-popolazione che é lecita solo nella misura in cui i campioni “rappresentano” ragionevolmente bene le popolazioni, cioé nel limite di errori casuali piccoli. (3.3.2) Propagazione delle incertezze Utilizzando le formule viste nel capitolo precedente, ed applicandola ai valori campionari, abbiamo allora per la stima di y e per la stima della sua varianza: yˆ = y ( xˆ , xˆ ) 1 2 2 2 ⎛ ∂y ⎛ ∂y ⎞ ⎛ ∂y ⎞ ⎛ ∂y ⎞ ⎜⎜ ⎟⎟ s ( yˆ ) = ⎜⎜ ⎟⎟ s ( xˆ ) + ⎜⎜ s ( xˆ ) + 2⎜⎜ ⎟⎟ x x x ∂ ∂ ∂ ⎝ ⎠ xˆ1 , xˆ2 ⎝ ∂x ⎠ xˆ1 , xˆ2 ⎝ ⎝ ⎠ xˆ1 , xˆ2 2 2 2 1 2 1 2 1 2 ⎞ ⎟⎟ cov( xˆ , xˆ ) ⎠ xˆ1 , xˆ2 1 2 Soffermiamoci su questa formula. Vi compaiono 2 categorie di elementi: da un lato le derivate della funzione y calcolate in corrispondenza dei valori stimati di x1 e di x2, che non hanno nulla a che vedere con le incertezze delle variabili x; dall’altra appunto le incertezze standard delle variabili x e la covarianza tra queste, che sono invece grandezze indipendenti dalla forma di y, ma legati alla nostra conoscenza sulle due variabili x ed anche al loro grado di correlazione. Sono questi 2 elementi a determinare l’incertezza propagata. È utile a questo punto applicare la formula trovata al caso della misura indiretta delle densità dei pesetti, per verificare se la deviazione standard delle misure di densità del campione di pesetti é in accordo con il valore stimato in base alla propagazione. In primo luogo calcoliamo le derivate della funzione y, poi prendiamo dai dati i valori stimati delle deviazioni standard delle misure di massa e volume. Osserviamo dunque che le 2 misure non sono correlate (nel senso che non sono correlati gli errori di bilancia e calibro). Concludiamo dando una formula di propagazione molto utile nelle applicazioni, valida nel caso in cui la funzione y sia una funzione ‘monomia’, cioè del tipo y = kx x ... α β 1 2 esprimibile come prodotto delle variabili x elevate a esponenti (anche negativi). In caso di non correlazione si ha: 2 2 ⎛ s ( yˆ ) ⎞ ⎜ ⎟ =α y ˆ ⎝ ⎠ 2 ⎛ s ( xˆ ) ⎞ ⎜⎜ ⎟⎟ + β x ˆ ⎝ ⎠ 1 1 2 ⎛ s ( xˆ ⎜⎜ ⎝ xˆ 2 2 2 )⎞ ⎟⎟ + ... ⎠ Si noti il ruolo determinante degli esponenti α e β con cui x1 e x2 compaiono nella formula. Essi determinano in effetti quanto “fortemente” y dipende da x1 e da x2. (3.4) Nozione di consistenza e significatività: test d’ipotesi 100 (3.4.1) Consistenza tra risultati di esperimenti Abbiamo dunque visto come in casi semplici si possono attribuire degli intervalli al valor vero sia che si tratti di una misura diretta sia che si tratti di una misura indiretta. Supponiamo ora di aver misurato una certa grandezza in laboratori diversi e con apparati diversi. Può essere, per esempio, che diversi gruppi sperimentali siano impegnati in diversi esperimenti che intendono tuttavia misurare una stessa grandezza per fare luce su un certo problema di fisica. Al termine di questi esperimenti la comunità scientifica ha a disposizione N risultati diversi uno per ciascun esperimento. Prima di qualunque altra cosa ci si chiede se i risultati ottenuti dai diversi esperimenti siano tra di essi consistenti. La domanda é evidentemente di straordinaria rilevanza. Infatti la consistenza tra diversi esperimenti, “rafforza” la conoscenza complessiva del fenomeno, mentre una eventuale inconsistenza può significare che qualcuno degli esperimenti stia stimando male la propria incertezza oppure che gli esperimenti stiano misurando grandezze diverse. Quest’ultimo é il caso in cui uno o più degli esperimenti sono caratterizzati da errori sistematici fuori controllo che fanno si’ che il misurando non rappresenti correttamente il valore vero. Nel primo capitolo abbiamo accennato ad un confronto tra risultati basato sulla distanza in “numero di deviazioni standard”. Quanto abbiamo detto allora é sostanzialmente corretto. Ora vogliamo soltanto rendere più quantitativa la discussione fatta. Supponiamo che i 2 esperimenti che vogliamo confrontare (A e B) danno il loro risultato sotto forma di intervallo standard gaussiano del tipo x ± σ. Posso considerare la variabile casuale Δ=xAxB. Faccio allora la seguente ipotesi: i 2 campioni A e B provengono da due popolazioni gaussiane caratterizzate da uno stesso μ e da varianze pari a quelle date da ciascun esperimento σA e σB. In tale ipotesi la variabile Δ è anch’essa gaussiana. Il suo valore atteso sarà 0 e la sua varianza si otterrà dalla formula della propagazione. Assumendo assenza di correlazione tra i 2 esperimenti (circostanza ragionevole) avremo σ =σ +σ 2 2 2 Δ A B e dunque la variabile Z= Δ σ Δ deve essere una variabile gaussiana standardizzata. A questo punto testare l’ipotesi di partenza corrisponde a testare quanto é verosimile che la variabile Z cosi’ definita sia gaussiana standardizzata (l’uso del termine verosimile in questo contesto non ha esattamente lo stesso significato della definizione di verosimiglianza data sopra, ma ha un significato analogo). Per fare ciò calcolo Z e vado a vedere nelle tabelle della distribuzione di Gauss normalizzata quant’è P(Z ) = P((m > Z ) ∪ (m < − Z )) cioè quanto é probabile che io ottenga un valore oltre Z in entrambi le code della gaussiana. Evidentemente, più piccolo é il valore di questa probabilità più inverosimile é il fatto che Z provenga da una popolazione gaussiana standardizzata. Quanto detto corrisponde ad un esempio particolarmente semplice di test di ipotesi. Il procedimento logico fatto può essere cosi’ ricapitolato: Æ si definisce una variabile casuale, detta statistica campionaria, funzione dei dati (la variabile Z nell’esempio dato sopra) tale che se l’ipotesi é verificata la sua funzione di distribuzione é nota (una gaussiana standardizzata nell’esempio dato sopra); Æ si calcola il valore di questa variabile; Æ si stima quant’è “verosimile” che il valore misurato provenga dalla distribuzione aspettata (nell’esempio dato sopra calcolare P (Z ) sulla base delle tabelle). 101 In alcuni casi si può procedere nel modo seguente: viene fissato un certo valore di probabilità di soglia. Se P(Z ) é inferiore a questo valore, l’ipotesi viene rigettata: in caso contrario viene accettata. La scelta della probabilità di soglia é in qualche misura arbitraria. Scelta tipiche possono essere il 10% o il 5% o anche l’1%. Si noti che la scelta di questa soglia dipende da quanto vogliamo essere ‘severi’. Certamente assumere il 10% come soglia significa essere piuttosto severi, ma comporta il rigettare il 10% dei casi buoni come se fossero cattivi. Viceversa, scegliere l’1% significa ridurre questa eventualità all’1% ma significa anche aumentare la possibilità di prendere come buoni casi cattivi. Si tratta dunque di trovare un compromesso che dipende dalla natura del problema in questione. (3.4.2) Consistenza tra esperimento e modello Un caso simile al precedente che pure abbiamo incontrato nelle nostre esperienze di laboratorio é quello in cui vi é un valore atteso per il risultato di una certa misura, valutato sulla base di un modello o sulla base di una ipotesi che si fa sulla grandezza che stiamo misurando. Nel caso delle misure di densità l’ipotesi é che i cilindretti siano tutti fatti di alluminio puro e dunque la densità attesa é la densità dell’alluminio, assunta nota con incertezza trascurabile. Muovendoci secondo quanto detto nel paragrafo precedente, e facendo di nuovo l’ipotesi che la nostra misura provenga da una popolazione gaussiana, costruiamo la seguente statistica campionaria: Z= xˆ − μ σ in cui x é il risultato della misura, σ la stima della sua deviazione standard gaussiana ed infine μ è il valore atteso. Da questo punto in poi si segue il ragionamento fatto sopra. Essenzialmente, dato il valore di Z si tratterà di calcolare sulla base delle tabelle quanto vale P (Z ) e sulla base di tale valore prendere una decisione. Nel seguito vedremo un altro esempio di test di ipotesi quando discuteremo i fit. E’ opportuno sottolineare che in ogni caso l’accettazione o il rigetto di una ipotesi non costituisce mai una conclusione certa, ma sempre una conclusione di natura probabilistica. Giova ribadire qui quanto già detto sopra, vale a dire che la scelta della probabilità di soglia determina la “severità” del test. Maggiore é tale probabilità di soglia, maggiore é la nostra tendenza a rigettare i casi, nel senso che l’accettazione dell’ipotesi si ha solo se l’accordo é molto buono. Ma proprio in questo caso diventa più alta la probabilità di rigettare come falsa un ipotesi vera. (3.4.3) Combinazione di diverse misure: la media pesata. Supponiamo ora di avere verificato che i risultati di due esperimenti relativi alla grandezza x siano consistenti, cioè che il test dell’ipotesi di consistenza abbia dato esito positivo. A questo punto ci poniamo il problema di combinare i due risultati utilizzando tutte le informazioni a nostra disposizione. Fare la media aritmetica tra i due risultati costituisce un approccio che ha un evidente problema. Infatti il risultato della media sta appunto a metà tra i due. Supponiamo che uno dei due risultati sia caratterizzato da una incertezza molto minore dell’altra. E’ naturale dare più credito a quel risultato e fare le cose in modo tale che il risultato finale sia più vicino a quello tra i due che ha incertezza minore. Si tratta cioè di fare una media pesata: x = p xˆ p + xˆ p p +p 1 1 1 2 2 2 in cui p1 e p2 sono appunto due pesi. In base a quanto detto i 2 pesi devono essere legati alla incertezza di ciascuna misura o meglio al suo inverso. Si dimostra che con la scelta p= 1 s ( xˆ ) 2 102 la media pesata ottenuta é la “migliore stima” di x sulla base delle informazioni a disposizione. Pertanto, generalizzando alla combinazione di N risultati diversi, diamo la definizione di media pesata: xˆ s ( xˆ ) x = 1 ∑ s ( xˆ ) N ∑ i =1 i 2 i p N i =1 2 i Si dimostra inoltre che la deviazione standard della media pesata é data da: s2 (xp ) = 1 N ∑s i =1 2 1 ( xˆi ) Si noti che nel caso di incertezze tutte uguali si ritorna alla media aritmetica e alla deviazione standard della media. Giova ricordare che questo procedimento é applicabile solo al caso in cui si é preventivamente verificato che le misure in questione sono campioni provenienti dalla stessa popolazione. Nel caso questa ipotesi fosse rigettata questa combinazione non avrebbe significato, e allora occorre procedere in modo diverso. Nel corso della discussione del fit (prossimo paragrafo) otterremo una dimostrazione della formula della media pesata per il caso generale di N misure indipendenti. (3.5) Analisi delle dipendenze funzionali: il fit L’ultimo argomento che trattiamo in questo corso affronta uno degli aspetti più importanti dell’indagine scientifica, in un certo senso il punto d’arrivo di ogni indagine sperimentale. Come abbiamo detto nell’introduzione al metodo scientifico, il progresso conoscitivo si sviluppa attraverso il confronto tra i risultati degli esperimenti e le predizioni dei modelli. In fisica i risultati degli esperimenti sono espressi come misure, cioè come valori numerici di grandezze fisiche opportunamente definite, mentre le predizioni dei modelli sono espresse o come valori numerici di grandezze o come relazioni matematiche tra grandezze. Concentriamoci su questo secondo caso. Formuliamo ora il problema in modo generale. Nel seguito risolveremo il problema solo in un caso particolare, che tuttavia risulta essere di notevole rilevanza e generalità. (3.5.1) Il fit: formulazione del problema Supponiamo che il nostro esperimento consista nel misurare, al variare di una certa grandezza x, una seconda grandezza, diciamo y. Effettuiamo N misure in corrispondenza di N diversi valori di x. Avremo pertanto gli N valori di x x1,x2,...,xN e, in corrispondenza di questi gli N valori di y y1,y2,...,yN. Naturalmente sia per quel che riguarda le x che le y, si tratta di misure e dunque ciascun valore é affetto di una incertezza o, più in generale, costituisce un campione da una popolazione caratterizzata da una certa funzione di distribuzione. Supponiamo poi che le due grandezze x ed y siano legate, secondo un certo modello, da una relazione funzionale del tipo y = y ( x,θ ) cioè da una formula che esprime la dipendenza funzionale tra le due grandezze e che a sua volta dipende da un certo numero, diciamo M, di parametri θ . Questo simbolo indica un insieme di parametri. Per fissare le idee, il caso in cui l’andamento atteso dal modello sia di tipo rettilineo, la funzione y sarà data da: y = mx + c 103 in cui evidentemente il coefficiente angolare m e l’intercetta all’origine c sono i parametri. I parametri possono assumere valori che hanno significato nell’ambito del modello in questione. Ad esempio nel caso della dipendenza allungamento molla – massa del pesetto, sappiamo bene che la dipendenza rettilinea prevista da una semplice applicazione delle leggi della statica, comporta che il coefficiente angolare sia il rapporto g/k tra l’accelerazione di gravità g e la costante elastica della molla k, e dunque si tratta di un numero rilevante nell’ambito del modello che stiamo applicando. Lo sperimentatore che ha effettuato queste misure si pone allora i due seguenti problemi: la dipendenza funzionale attesa dal modello descrive bene i dati ? (a) (b) quali sono i valori degli M parametri θ per i quali si ha il miglior accordo possibile tra modello ed esperimento ? Si tratta di due diverse questioni. La questione (a) é del tipo di quelle di cui abbiamo parlato a proposito dei test di ipotesi. La questione (b) é invece una questione “nuova” che in realtà abbiamo affrontato in laboratorio in modo grafico: tracciando cioè la migliore curva (una retta nei casi da noi visti) e poi valutando graficamente coefficiente angolare ed intercetta. Nella pratica sperimentale normalmente le due questioni si pongono contestualmente. Cioè lo sperimentatore si pone entrambi le questioni. Vuole capire se la descrizione del modello é soddisfacente o se é necessario introdurre altri termini (correzioni) al modello per avere una descrizione più adeguata. Allo stesso tempo lo sperimentatore vuole ricavare i migliori parametri dato che spesso questi hanno significati fisici rilevanti. Nel seguito descriviamo un metodo che permette di affrontare e risolvere entrambi i problemi. Chiamiamo questo procedimento fit, parola inglese che traduciamo con “adattamento”, intendendo il fatto che vogliamo adattare al meglio il modello ai nostri dati. (3.5.2) Ipotesi di lavoro Descriviamo questo metodo restringendoci al caso in cui sono verificate alcune ipotesi che ora elenchiamo e che vedremo entrare in gioco nei vari passaggi della descrizione del metodo. Le ipotesi che facciamo in realtà non sono molto restrittive, nel senso che si applicano ad una vasta categoria di situazioni. Vediamole: Æ le misure della variabili y provengono da popolazioni tutte gaussiane di varianze σ 2 ; i Æ le misure della variabile x provengono da popolazioni qualsiasi, ma le loro deviazioni standard sono “trascurabili” rispetto alle corrispondenti per le y; qui occorre fare attenzione circa il senso di questa affermazione. Infatti per trascurabile intendiamo che l’incertezza di x “propagata” su y sia molto minore dell’incertezza di y. Se y(x) é la funzione questo vuol dire dy σ ( x) << σ ( y ) dx graficamente il significato di questo confronto é illustrato nella Fig.3.2. Æ le misure delle y sono tutte indipendenti, ovvero per ogni coppia i,j cov[ y Æ la dipendenza attesa é del tipo y = mx + c : i , y ] = 0; j m é il coefficiente angolare e c é l’intercetta all’origine; 104 Fig.3.2 Lo stesso punto sperimentale con σy=0.5 e σx=0.1 in 2 situazioni diverse: in un caso la dipendenza tra le 2 variabili nell’intorno del punto é espressa come y=x (dy/dx=1) nell’altro caso come y=7x (dy/dx=7). Le frecce tratteggiate indicano il contributo dell’incertezza sulle x all’incertezza sulle y. Nel primo caso dunque l’ipotesi descritta nel testo é verificata nel secondo chiaramente no. Come si vede, le ipotesi sono abbastanza generali. Si noti che l’ultima ipotesi, quella dell’andamento rettilineo, vale anche quando l’andamento non é direttamente rettilineo, ma può essere “linearizzato”, cioè reso rettilineo con un semplice cambio di variabili. E’ il caso del grafico T -√m nella molla, il grafico t2 – s nel caso del volano scarico ed infine tutti i casi in cui l’andamento atteso é esponenziale si prende in considerazione la carta semilogaritmica. (3.5.3) Il fit: derivazione delle formule per le stime dei parametri Utilizziamo il principio di massima verosimiglianza che abbiamo formulato nel par.(3.1.3). A tale scopo dobbiamo costruire la funzione di verosimiglianza, cioè la densità di probabilità congiunta delle y, dato il modello e i parametri m e c della retta. Osserviamo a questo scopo che essendo le N misure di y indipendenti, la densità di probabilità congiunta delle y può essere espressa come il prodotto delle densità di probabilità di ciascuna misura. Utilizzando le ipotesi fatte di gaussianità delle y si ha: ⎛ ( y − mx − c) 1 L( y / m, c) = ∏ f ( y /m, c) = ∏ exp⎜⎜ − 2π σ 2σ ⎝ N N i i =1 i i 2 i =1 i i 2 ⎞ ⎟⎟ ⎠ cioè la densità di probabilità congiunta (che abbiamo indicato con L da likelihood) é il prodotto di densità di probabilità gaussiane, ciascuna con valore atteso dato dal modello (mxi+c) e varianze σ 2 . i Trattiamo le xi come fossero delle costanti, in base alle ipotesi fatte. Il principio di massima verosimiglianza ci dice che le migliori stime di m e di c sono quelle per cui L é massima. Per affrontare in modo più semplice la matematica del problema procediamo con un semplice artificio. Prendendo il logaritmo naturale di L otteniamo una nuova funzione l = ln(L ) che tuttavia, date le proprietà di monotonia della funzione logaritmo assumerà il massimo in corrispondenza degli stessi valori di m e di c che massimizzano L. Calcoliamo dunque l 105 ( y − mx − c) 1 l = − ∑ ln(2πσ ) − ∑ 2 2σ N i i i =1 2 N 2 i 2 i =1 i Dal momento che sono interessato a calcolare il massimo rispetto ad m e a c, osservo subito che il primo termine é costante rispetto ad m e a c, e dunque posso non considerarlo. Rimane da massimizzare 1 ( y − mx − c) l=− ∑ σ 2 2 N i i 2 i =1 i ovvero da minimizzare (cambio segno e tolgo l’1/2 che di nuovo non cambia il massimo della funzione) la quantità ( y − mx − c) χ =∑ N 2 i i σ i =1 Ho chiamato χ 2 2 2 i la quantità da minimizzare non per caso. Infatti, nel caso in cui le ipotesi fatte sono tutte verificate, essa risponde proprio alla definizione di variabile χ 2 data a suo tempo, come somma di variabili gaussiane standardizzate. Per minimizzare, procediamo nel modo standard: poniamo uguale a 0 le derivate prime della funzione χ 2 rispetto ad m e a c. Si noti come la funzione χ 2 è una funzione di m e di c a questo punto mentre i valori sperimentali yi e xi sono diventati delle costanti fissate. Dovrò quindi cercare quei valori di m e di c che risolvono il sistema lineare dato da: ∂χ =0 ∂m ∂χ =0 ∂c 2 2 Svolgiamo le derivate. Cominciamo dalla derivata parziale rispetto ad m. Ricordiamo che nel fare la derivata parziale rispetto a m si deve pensare c come una costante. ∂ ⎛ ( y − mx − c) ∂χ ⎜∑ = σ ∂m ∂m ⎜⎝ 2 2 i i i 2 i =1 ⎞ − x 2( y − mx − c) ⎟⎟ = ∑ = σ ⎠ N N i =1 i i 2 i i ⎛ xy x x ⎞ 1 − 2⎜⎜ ∑ − m∑ − c ∑ ⎟⎟ = −2(xy − m x − c x )∑ σ σ ⎠ σ ⎝ σ 2 N N i i =1 i 2 i N i i =1 i 2 i i =1 2 i 2 N i =1 2 i nell’ultimo passaggio ho definito le medie “pesate” sia del prodotto xy che di x ed ho messo in evidenza la somma dei pesi (che come sappiamo dal precedente paragrafo ha il significato di inverso della varianza della media pesata. Poiché il risultato della derivata va uguagliato a 0 posso togliere il –2 e la sommatoria dei pesi che sono indipendenti da m e da c. Pertanto la prima equazione cui siamo pervenuti é del tipo: m x + c x = xy 2 Procediamo ora con la seconda derivata, rispetto a c con m costante: 106 ∂χ ∂ ⎛ ( y − mx − c) = ⎜⎜ ∑ σ ∂c ∂c ⎝ 2 2 N i i 2 i =1 i =1 i N N i i 2 i =1 2 i =1 i i i =1 i 2 i ⎛ y x 1 − 2⎜⎜ ∑ − m∑ − c ∑ σ σ ⎝ σ N ⎞ − 2( y − mx − c) ⎟⎟ = ∑ = σ ⎠ N i 2 i ⎞ 1 ⎟⎟ = −2( y − m x − c )∑ σ ⎠ N i =1 2 i da cui ricaviamo, sempre uguagliando a 0 la derivata ed eliminando anche in questo caso i fattori comuni: mx + c = y Siamo dunque pervenuti ad un sistema lineare di 2 equazioni in 2 incognite, che riscriviamo: m x + c x = xy 2 mx + c = y Risolviamo questo sistema con il metodo di Cramer. A questo scopo calcoliamo prima il determinante d della matrice dei coefficienti: d =x −x 2 2 che ha l’ovvio significato di “varianza campionaria della variabile x”, e quindi rappresenta quanto sono “sparse” le misure di x. Nel seguito lo chiameremo “braccio di leva” e capiremo il significato molto intuitivo di questa espressione. Quindi per ricavare m e c abbiamo bisogno degli altri 2 determinanti che chiamiamo dm e dc rispettivamente: dm = xy − x y dc = x y − x xy 2 e procediamo a scrivere le formule risolutive (secondo il metodo di Cramer): xy − x y x − x x y − x xy cˆ = x − x mˆ = 2 2 2 2 2 Con queste formule abbiamo risolto il problema (b) posto all’inizio del capitolo: dato un insieme di N “punti sperimentali”, ciascuno dato dalla misura di una grandezza y in corrispondenza di un valore della grandezza x, nelle ipotesi fatte, le migliori stime dei parametri m e di c che descrivono il supposto andamento rettilineo di y in funzione di x, sono date dalle formule sopra ricavate. Operativamente si tratterà quindi di calcolare le medie (pesate con gli inversi delle varianze delle singole misure) delle x delle y dei prodotti xy e dei quadrati delle x. Dalla combinazione di tale medie otteniamo le stime di m e di c. Prima di procedere al calcolo delle varianze di queste stime, facciamo alcune considerazioni sulle formule ricavate. Æ Ricordando la definizione di varianza e covarianza campionaria, osserviamo che la stima di m si puo’ scrivere nella forma: mˆ = cov( x, y ) Var ( x) dunque m é strettamente legato alla correlazione tra le 2 grandezze. Il caso di non correlazione corrisponde all’essere m=0 (è il caso visualizzabile come la “palla” secondo la discussione della correlazione che abbiamo fatto). Inoltre il segno di m é legato al segno della covarianza tra y e x (essendo la varianza di x definita positiva). Come abbiamo visto negli esempi dati per la 107 correlazione, covarianze positive e negative identificano pendenze positive e negative. Si noti tuttavia che cov( x, y ) e Var (x) in questo caso indicano rispettivamente covarianza tra le variabili e varianza delle x (il “braccio di leva”) e non covarianza delle incertezze o incertezza sulla x. Æ La formula di c é meno intuitiva di quella di m. Diventa intuitiva nel caso in cui x = 0 . Infatti in tal caso c = y . Si tratta del caso in cui i punti sono distribuiti sull’asse x in modo che tanti sono a destra quanti sono a sinistra (il baricentro dei punti é a 0). In tal caso evidentemente l’intercetta all’origine c diventa la media pesata delle y. Æ Notiamo che in tutte le formule compaiono medie pesate. Questo vuol dire che gli N punti non sono tutti uguali. Il fit “pesa di più” quelli che hanno incertezza minore. Nel caso in cui tutte le incertezze sulle y fossero uguali, allora le medie diventano automaticamente medie aritmetiche. Æ Ultima osservazione. Non é necessario verificare il segno delle derivate seconde per stabilire se il risultato trovato corrisponde ad un massimo o ad un minimo (infatti per ora abbiamo solo richiesto derivate prime nulle). Infatti si dimostra (ma é ampiamente intuitivo) che il problema posto non ammette massimi. Ciò in virtù del fatto che la possibilità di allontanarsi dai punti é “illimitata”. (3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza Affrontiamo ora il secondo problema altrettanto importante del primo: trovare una stima delle incertezze da attribuire alle stime trovate di m e di c. Osservando le formule trovate, notiamo che le stime di m e c, possono essere pensate come variabili casuali, funzioni a loro volta di variabili casuali. Infatti sono funzioni dei valori delle x e delle y che altro non sono che realizzazioni di grandezze che dobbiamo trattare come variabili casuali appunto. Dunque applichiamo alle 2 stime trovate il metodo della propagazione delle incertezza. Dal momento che, per le ipotesi fatte, le x hanno incertezze trascurabili, allora dovremo propagare solo le incertezze sulle y, che peraltro conosciamo. Per procedere con la formula di propagazione delle incertezze, mi manca di calcolare le derivate parziali di m e di c rispetto a ciascuna yi. x ∂mˆ ∂ ⎛ xy − x y ⎞ 1 ⎛x ⎜⎜ − = ⎜ ⎟= ∂y ∂y ⎝ x − x ⎠ Var ( x) ⎝ σ σ i 2 2 i i 2 2 i i ⎞ 1 ⎟⎟ ⎠ ∑ 1σ N i =1 2 i x x⎞ 1 ∂cˆ ∂ ⎛ x y − x xy ⎞ 1 ⎛x ⎜⎜ − ⎟ = ⎜ ⎟= ∂y ∂y ⎝ x − x ⎠ Var ( x) ⎝ σ σ ⎟⎠ ∑ 1 σ 2 2 i 2 2 i i 2 2 i i N i =1 2 i Applico ora la formula di propagazione usando l’ipotesi di non correlazione tra le varie y. Per la m 2 ⎛ ∂mˆ ⎞ ( x − x) Var ( mˆ ) = ∑ ⎜⎜ ⎟⎟ Var ( y ) = ∑ σ = 1 σ (Var ( x)) ( ∑ σ ) ⎝ ∂y ⎠ 2 N N 2 i i i =1 4 i =1 i i 1 N (Var ( x)) ( ∑ 1 ) σ 2 N i =1 N 2 2 i 2 ∑ i =1 ( x − x) i σ 2 i 2 = 2 2 i =1 i 1 (Var ( x)) (∑ 1 ) σ 2 N i =1 i Var ( x) 2 i in cui ho osservato che N ∑ i =1 ( x − x) i σ 1 ∑ i =1 2 = Var ( x) i N σ 2 2 i 108 Ottengo dunque per la varianza di m Var (mˆ ) = 1 Var ( x) ∑ 1 N σ i =1 2 i Si noti che nel caso in cui tutte le varianze degli N valori di y siano uguali, la formula si semplifica ed assume una forma più “familiare”: σ Var (mˆ ) = 2 NVar ( x) cioè la varianza di m va come 1/N e quindi l’incertezza su m va pure come l’inverso della radice di N. Passo ora alla varianza della stima di c. 2 ⎛ ∂cˆ ⎞ ( x − x x) Var (cˆ) = ∑ ⎜⎜ ⎟⎟ Var ( y ) = ∑ σ = 1 y ∂ Var x σ ( ( )) ( ) ∑ ⎝ ⎠ σ 2 2 N N 2 i i i =1 4 i =1 i 2 2 i 2 2 N i i =1 2 2 i N ∑ i =1 i =1 2 i i =1 i =1 2 i N i =1 2 i =1 i i N i =1 2 2 2 2 2 2 i x⎞ ⎟ = ⎟ ⎠ i ⎛ x(x − x )⎞ ⎜1 + ⎟ = Var x ( ) ⎠ σ ) ⎝ i 2 2 i ⎛ (x − x ) + x (x − x ) ⎜1 + 2 x Var ( x) Var ( x) ) ⎜⎝ σ 2 1 ∑ σ (∑ 1 N 2 2 2 i 2 1 σ (∑ 1 N σ i ⎛x −x +x −x ⎜ Var ( x) ) ⎜⎝ σ 2 N 2 i =1 ( x − x + x − x x) 1 =∑ ∑ σ (Var ( x)) (∑ 1 ) σ (∑ 1 N N 2 i i 2 2 2 ⎞ ⎟= ⎟ ⎠ i Arrivati a questo punto spezzo in tre termini l’espressione in parentesi e opero la sommatoria, osservando che il secondo termine dà un contributo nullo: 2 1 x 1 + = Var (cˆ) = ( ∑ 1 ) Var ( x)(∑ 1 ) (∑ 1 σ σ σ N i =1 N 2 i =1 i 2 N 2 i i =1 ⎛ x ⎞ ⎜⎜1 + ⎟ ) ⎝ Var ( x) ⎟⎠ 2 i da cui Var (cˆ) = x 2 Var ( x )( ∑ 1 N σ ) i =1 2 i che costituisce la formula cercata. Si noti nel caso di varianze tutte uguali, l’espressione diventa: ⎛ x ⎞σ Var (cˆ) = ⎜ ⎟ Var ( x ) ⎝ ⎠N 2 2 in cui, come nel caso della varianza di m, compare il termine σ2/N che caratterizza la “scala” dell’incertezza sui parametri. Facciamo alcune osservazioni sulle formule trovate per Var(m) e Var(c). 109 Æ Abbiamo già visto come in ambedue le formule compare il termine σ2/N. Questo implica che aumentare il numero di punti e diminuire l’incertezza sui punti, migliora la nostra conoscenza di m e di c (sarebbe strano se fosse vero il contrario). Æ In entrambi i casi la varianza va come l’inverso di Var(x). Quindi aumentare il “braccio di leva” cioé lo sparpagliamento delle misure in x é un altro fattore di miglioramento del fit. Æ Nel caso di Var(c) compare anche la media dei quadrati delle x, che é una misura di “dove” si trovano i punti, rispetto all’origine dell’asse X (notiamo che x 2 è il momento secondo intorno all’origine), mentre in Var(m) questo termine non compare. Ciò significa che mentre l’incertezza su m non dipende dalla scelta dell’origine dell’asse X (è, potremmo dire, invariante per traslazioni), l’incertezza su c vi dipende fortemente e diventa minima quando l’origine dell’asse X corrisponde al baricentro dei punti. Ciò ha un significato intuitivo illustrato in Fig.3.3. Più lontano é l’asse Y dai punti, più grande é l’estrapolazione che devo fare per determinare c. Æ Da quanto detto si può dire che in un fit, mentre m ha un significato assoluto, c dipende dalla scelta degli assi. Fig.3.3 Esempio di fit rettilineo su punti molto “lontani” dall’origine dell’asse x. Si noti come l’indeterminazione sul coefficiente angolare m si ripercuota direttamente sull’indeterminazione dell’intercetta c. Da ultimo osserviamo che m e c sono ricavati a partire dagli stessi dati, e sono pertanto delle funzioni delle stesse grandezze misurate. Quindi anche se, come nelle ipotesi fatte, le y sono tutte indipendenti, in generale m e c sono correlate. Per calcolare la covarianza tra m e c, occorre utilizzare la formula della propagazione per più funzioni che non abbiamo trattato. Dunque diamo direttamente la formula. 110 cov(mˆ , cˆ) = − x Var ( x)(∑ 1 N σ ) i =1 2 i che diventa, nel caso di varianze sulle y tutte uguali: x σ cov(mˆ , cˆ) = − Var ( x) N 2 in cui di nuovo compare il termine σ2/N e si ha la dipendenza inversa dal “braccio di leva”. Si noti come tale covarianza sia nulla solo nel caso in cui la media pesata delle x dei punti sia 0. Ovvero quando l’origine dell’asse X é scelta in modo da farla coincidere con il baricentro dei punti. Nel caso illustrato in Fig.3.3 tale covarianza é evidentemente diversa da 0, infatti un cambiamento di m si riflette chiaramente in un cambiamento di c. Ma se in quell’esempio traslassimo l’asse y di circa 16 unità di X facendo combaciare l’origine con il baricentro, la covarianza sarebbe nulla. (3.5.5) Valutazione della bontà del fit: test del χ2. Finora abbiamo utilizzato il metodo della massima verosimiglianza per rispondere solo alla domanda (b), cioè abbiamo calcolato le migliori stime dei parametri della retta, ed abbiamo stimato le varianze di tali stime. Ora vogliamo porci il problema (a). Quanto bene l’andamento rettilineo “descrive” i dati ? In Fig.3.4 sono riportati alcuni esempi di confronto tra i dati e la migliore retta ottenuta con il metodo appena descritto. Possiamo individuare 4 casi differenti tutti illustrati nella figura. I dati sono rappresentati come punti nel piano y-x corredati da barra di incertezza esclusivamente sulla y dato che abbiamo supposto trascurabili le incertezze sulle x. Caso (1): i punti mostrano un andamento rettilineo ma le incertezze sono molto piccole per cui i punti scartano dalla retta per “molte deviazioni standard”; il numero di deviazioni standard é calcolato come il rapporto tra lo scarto tra punto e retta e la deviazione standard della misura; Caso (2): i punti mostrano un andamento rettilineo ma le incertezze sono molto grandi, per cui i punti scartano dalla retta solo per “frazioni di deviazione standard”; Caso (3): i punti mostrano un andamento diverso da quello lineare. Gli scarti dei punti dalla retta hanno a loro volta un andamento; Caso (4): i punti mostrano un andamento rettilineo con le incertezze tali per cui i punti scartano per “frazioni di deviazione standard” o al piu’ per “qualche deviazione standard”;. Per rendere quantitativa questa discussione chiamiamo residuo lo scarto punto retta: res = y − mˆ x − cˆ i i i In Fig.3.5 sono mostrati per gli stessi 4 esempi della precedente figura gli andamenti dei residui in funzione di x corredati con la stessa incertezza della y. Si osserva in modo più chiaro quanto detto sopra. Concludiamo che: nei casi (1) e (2) l’andamento rettilineo é ragionevole, ma sono mal stimate le incertezze dei punti. In verità nel caso (1) potrebbero anche esserci effetti tali da dare un andamento molto irregolare ma ciò é molto inverosimile. Nel primo caso la media del modulo dei residui é molto maggiore e nel secondo molto minore delle singole σ stimate dai dati. Nel caso (3) occorre prendere in considerazione un andamento diverso da quello lineare. L’andamento dei residui può essere sintomo di “nuova fisica” cioè di effetti nuovi che il modello non spiega, oppure di effetti strumentali non capiti. Infine il caso (4) é quello “buono”, cioè l’andamento é rettilineo e le incertezze sono ben stimate. 111 Fig.3.4. Sono i 4 casi di fit rettilineo descritti nel testo. Nei riquadri sono riportati per ogni fit il valore del χ2 , di N-2 e dei 2 parametri della retta, rispettivamente c ed m ottenuti dal fit. Per rendere quantitativo il giudizio per ora solo visivo (che peraltro é molto più potente di qualsiasi test di ipotesi immaginabile), dobbiamo procedere come per i test di ipotesi che abbiamo visto: dobbiamo costruire una statistica campionaria funzione dei dati, tale che se il modello é valido e se le incertezze sono correttamente stimate, questa sia caratterizzata da una certa funzione di distribuzione nota. Sulla base delle ipotesi fatte (popolazioni gaussiane per le y e y indipendenti), la variabile N ∑ i =1 ( y − mˆ x − cˆ) i 2 i σ 2 i 112 Fig.3.5. Andamento dei residui per i 4 casi di fit rappresentati in Fig.3.4. Le barre di incertezza riportate sono quelle della variabile in ordinata. è una variabile χ2 . Si tratta della variabile che abbiamo minimizzato. Essa é la somma dei quadrati dei residui normalizzati alla varianza, in altri termini la somma dei quadrati del “numero di deviazioni standard” di ciascun punto. E’ qualcosa quindi che ci dice proprio quanto i punti scartano dalla retta in termini delle loro deviazioni standard. Il numero di gradi di libertà di questa variabile non é N ma é N-2. Infatti m e c sono stati stimati dai dati e pertanto in questo abbiamo perso 2 gradi di libertà. E’ come se 2 dei dati siano utilizzati due volte e dunque non contano nella somma. Pertanto il test consiste nel calcolare il valore di questa variabile e poi confrontarlo con le tabelle del χ2. Ricordiamo che il valore atteso della variabile χ2 é pari al numero di gradi di libertà, cioè N2 in questo caso. Dunque valori molto diversi da questo indicano già un problema. Consideriamo i 4 casi enunciati, per ciascuno dei quali i valori del χ2 corrispondenti sono indicati nei riquadri di Fig.3.4 e in ogni caso é N-2=10-2=8. 113 Fig.3.6 Fit parabolico a 3 parametri liberi per gli stessi dati del caso (3) rappresentato nelle Fig. 3.4 e 3.5. Il riquadro mostra oltre a χ2 e N-3=7, i valori ottenuti dal fit per i 3 parametri della parabola a, b e c (y=a+b*x+c*x**2). Nel grafico di sotto é mostrato l’andamento dei residui per questo nuovo fit. Caso (1). Qui ci aspettiamo di trovare un valore molto grande del χ2. Infatti i residui valgono molte deviazioni standard, e dunque la funzione sopra scritta assumerà valori molto maggiori di N-2, essendo ciascun termine della somma >> 1. In effetti il valore ottenuto é quasi 90 (>> 8) Caso (2). Qui l’opposto. χ2 << N-2 essendo ciascun termine << 1. Si ottiene 0.6 (<<8). Caso (3). Qui il valore di χ2sarà di nuovo >> N-2. Si trova addirittura 100. Caso (4). Il χ2 é come ci si poteva aspettare molto prossimo a N-2. In effetti ogni punto in media contribuisce per poco meno di una unità. Dal punto di vista del valore del χ2 il caso (3) é sostanzialmente equivalente al caso (1) ma in realtà da un semplice sguardo ai 2 grafici, si evince che i casi sono completamente differenti. In un caso infatti, l’ipotesi sbagliata non é l’andamento rettilineo, ma la stima delle incertezze; nell’altro le incertezze probabilmente sono stimate bene, ma é l’andamento che non va. Dunque il test del χ2 non é capace di distinguere i 2 casi. Per discriminare occorre usare altri metodi (in realtà l’occhio umano é sempre il più prezioso di questi metodi). Un procedimento corretto é comunque quello di 114 fare il test del χ2, e, in caso di disaccordo, tentare strade alternative. Ad esempio un polinomio di grado superiore al primo. La Fig.3.6 mostra il caso (3) con un fit parabolico. Si nota che il fit va molto meglio, il χ2 si é ridotto da 100 a 19 (contro N-3=10-3=7 perché ora il fit ha 3 parametri e non più 2). Il grafico dei residui mostra un andamento migliore del precedente. Tuttavia ancora forse si può vedere una dipendenza residua che potrebbe essere dovuta ad altri effetti ancora non presi in considerazione con il fit parabolico. Fig.3.7 Esempio di fit in cui un andamento chiaramente non rettilineo viene mascherato da un buon χ2 in virtù del fatto che le incertezze sono sovrastimate. Questo esempio mostra chiaramente che il test del χ2 non va mai fatto senza ispezionare visivamente il grafico. Resta da chiarire con che criterio decidiamo che un χ2 é buono o cattivo. Il procedimento é quello dei test di ipotesi. Detto χ2m il valore misurato, prendo le tabelle e calcolo P( χ > χ ) 2 2 m In questo caso essendo la statistica campionaria definita positiva, occorre considerare una sola coda. A questo punto possiamo mettere una soglia al valore di accettazione: per esempio, se questa probabilità é maggiore del 5% accetto l’ipotesi, in caso contrario la rigetto. In questo modo rigetto senz’altro il caso (1) ed il caso (3) nel caso di fit rettilineo. Invece accetto con altissima probabilità (il 98-99% o oltre) il caso (2). Questo però é un problema. Infatti come abbiamo visto il caso (2) 115 significa che abbiamo sovrastimato le incertezze. Dunque quando la probabilità del χ2 é molto alta é un campanello d’allarme per le incertezze. Quindi prima di concludere qualcosa riguardo l’andamento occorrerà tentare di stimare meglio le incertezze. Infine nel caso (4) il valore della probabilità del χ2 é intorno al 50% ed infatti l’andamento é giusto. Concludiamo questa discussione insistendo sul fatto che in ogni caso il valore del χ2 da solo non é in generale sufficiente per capire effettivamente se l’andamento proposto é corretto o no, ma occorre sempre ispezionare il grafico ed in particolare l’andamento dei residui. La fig.3.7 mostra un caso in cui pur avendosi un χ2 buono un andamento rettilineo in realtà non descrive bene i dati. E’ un caso in cui una sovrastima delle incertezze “maschera” un andamento diverso da quello lineare “inventando” un buon χ2. (3.5.6) Caso particolare: test della consistenza tra N misure indipendenti Un caso particolare si ha quando l’ipotesi che deve essere testata é quella dell’assenza di un qualsiasi andamento. Questo corrisponde, secondo quanto abbiamo detto, ad effettuare un fit con una funzione del tipo y=c in cui c é evidentemente l’unico parametro da determinare. Si noti come nel caso in questione la variabile indipendente x cessa di avere un qualunque ruolo. Infatti a questo punto il χ2 sarà dato da: χ =∑ N 2 ( y − c) i i =1 σ 2 2 i derivando rispetto a c e uguagliando a 0 si ottiene: N N N ( yi − c) yi ∂χ 2 1 = −2∑ = −2∑ 2 + 2c∑ 2 = 0 2 ∂c σi i =1 i =1 σ i i =1 σ i da cui: N cˆ = ∑ i =1 y i σ ∑ 1 2 i N i =1 σ 2 i che costituisce l’estensione della formula della media pesata al caso di N misure. Quanto visto costituisce dunque una dimostrazione della formula della media pesata data nel paragrafo precedente. Il valore del χ2 in questo caso ci permette di valutare la consistenza tra N misure della stessa grandezza fisica, per esempio effettuata da diversi esperimenti. Dopo aver calcolato la media pesata tra le misure, sulla base del valore del χ2 ottenuto posso testare l’ipotesi di consistenza tra le misure. Si tratta evidentemente di un χ2 con N-1 gradi di libertà (perché in questo caso ho stimato solo c) per il quale valgono le considerazioni viste nel paragrafo precedente. Infine se l’ipotesi é accettata, posso usare la media pesata come migliore stima della grandezza. La varianza di tale stima sarà evidentemente: Var (cˆ) = 1 ∑ 1 σ N i =1 2 i come si ottiene applicando la propagazione alla formula per c. (3.5.7) Il fit: come farlo operativamente Ricapitoliamo dunque brevemente quanto visto, per avere un quadro delle operazioni da fare. 116 Lo schema é quello visto. I dati sono costituiti da una tabella di N misure di y in corrispondenza di N valori di x. Schematizziamo la procedura da seguire. Effettuiamo il grafico y-x su carta millimetrata. Tracciando a matita una retta, valutiamo “a (a) occhio” se la dipendenza rettilinea é corretta e possiamo dare una prima stima di m. Date le incertezze sulle x e sulle y (determinate “al meglio”) ed il valore di m stimato, (b) valutiamo se si é nella condizione di “trascurabilità” delle incertezze sulle x secondo quanto detto. Calcoliamo m,c utilizzando le formule che qui riassumiamo: (c) xy − x y x −x x y − x xy cˆ = x −x mˆ = 2 2 2 2 2 e tracciamo la retta corrispondente. Si deve osservare che la retta “fitta” bene i punti. Occorre ricordare sempre che le formule non “inventano” nulla, si limitano a tradurre ciò che noi faremmo a occhio. Può essere utile a questo punto fare il grafico dei residui in funzione di x. Calcoliamo le incertezze su m e su c secondo le formule che riassumiamo: (d) s ( mˆ ) = 1 Var ( x)∑ ⎛⎜ 1 ⎞⎟ ⎝ σ ⎠ σ 1 Var ( x) N → 2 i x σ s (cˆ) = → Var ( x) N Var ( x)∑ ⎛⎜ 1 ⎞⎟ ⎝ σ ⎠ x 2 2 2 i in cui la freccia si riferisce al caso in cui le incertezze sulle y sono tutte uguali. Se necessario si può calcolare la covarianza tra m e c secondo la formula: cov(mˆ , cˆ) = − Var ( x)(∑ 1 N i =1 (e) x σ →− Var ( x) N ) 2 x σ 2 i Calcoliamo il χ2 del fit e, da questo con l’ausilio delle tabelle il valore della probabilità del χ2. Sulla base del valore trovato, e in considerazione dell’andamento visto, traiamo una conclusione riguardo al problema di partenza e cioè se l’andamento rettilineo riproduce bene i dati. Sono riportate di seguito le tabelle della distribuzione del χ2 (3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui Da ultimo esaminiamo il caso in cui non dispongo delle incertezze sulle y, cioè il caso in cui ho solo una serie di N coppie x-y. Ad un caso del genere ci si riconduce quando la stima delle incertezze sulle y si rivela poco credibile, per esempio i casi (1) e (2) sopra discussi, nei quali avevamo forti indicazioni di una sottostima (caso(1)) e di una sovrastima (caso (2)). L’andamento atteso offre comunque un metodo per stimare le incertezze sulle y. L’idea è di assumere lo scarto medio tra i punti e la retta, come misura dell’incertezza sulle mie misure di y. Posso dunque stimare la quantità: N s= ∑ res i =1 2 i N −2 117 Tabella della cumulativa della distribuzione del χ . Ogni riga corrisponde ad un diverso numero di gradi di 2 libertà (ngl) e le diverse colonne corrispondono a diversi valori α dell’integrale da χ 0 a infinito. I 2 numeri riportati sono i valori di χ 0. 2 e assumerla come stima della σ da usare nelle formule del fit (caso tutte le incertezze uguali). Tuttavia questo metodo può essere usato solo quando sono verificate alcune circostanze: Æé ragionevole assumere che tutte le incertezze siano uguali; Æ non si devono osservare andamenti “sovrapposti” a quello rettilineo (quindi lo si può applicare al caso (1) ma non al caso (3)); Æ non si può poi fare il test del χ2, infatti la definizione di s appena data, corrisponde a trovare quel valore di σ per cui il fit ha un χ2=N-2. Si tratta in definitiva di un metodo per trovare i parametri del fit, con incertezze ragionevoli, quando sono certo che l’andamento rettilineo sia giusto. In sostanza uso l’andamento come riferimento , come insiemi di valori veri. 118 119 Esercizi relativi al Capitolo (3) 3.1) Un brillante sperimentatore giapponese sostiene di aver scoperto che alla latitudine di Tokyo l’accelerazione di gravità g dipende dalla temperatura dell’atmosfera. I suoi dati sono: g (m/s2) T (oC) 9.8081 9.8116 9.8095 9.8130 9.8183 9.8117 9.8171 9.8241 9.8184 9.8205 9.8263 0 3 6 9 12 15 18 21 24 27 30 L’incertezza che lui fornisce per g é di 0.0025 m/s2 mentre la temperatura é per ogni misura fissata con una precisione di 10-4 oC. È corretta la conclusione dello sperimentatore giapponese ? 1) Il metodo dello sperimentatore giapponese consiste nel misurare l’allungamento di una molla di 2) costante di elasticità K nota, quando ad essa é stato appeso un peso noto e ripetendo la misura a diverse temperature. Quale effetto strumentale potrebbe simulare il fenomeno osservato ? 3.2) Con un rivelatore di raggi cosmici di superficie sensibile 10 m x 10 m conto 121 eventi in 1 ora. Il flusso medio di raggi cosmici a quella latitudine atteso su quel rivelatore é φ(R.C.) = (2.01 ± 0.01) x 10-4 / m2s Da informazioni indipendenti so che in quell’ora c’è stata l’esplosione di una supernova. Posso dire che l’ho osservata anch’io ? 3.3) Considero uno strumento che fa misure di lunghezza. Per tararlo uso delle lunghezze campione tra 0.5 e 3.0 mm date dal costruttore con una precisione di 1 μm. Ottengo la seguente tabella: Valore costruttore 500 1000 1500 2000 2500 3000 Valore misurato 512. 1022. 1535. 2061. 2579. 3107. Quali sono le caratteristiche dello strumento (precisione, accuratezza, errore sistematico) ? Leggo 2284 sullo strumento. Qual è la migliore stima del valore vero ? 3.4) Nel 2000 i dati sulla variabile R erano: Esperimento KteV NA48 NA31 Valore pubblicato 2.80±0.30 1.85± 0.45 2.30± 0.65 120 E731 0.74± 0.52 In cui ciascun esperimento ha fornito l’incertezza assumendo per R una distribuzione gaussiana. Posso dire che gli esperimenti sono complessivamente in accordo ? 3.5) In una ripetizione dell'esperimento di Joule uso un motorino dalla potenza di 10.0 ±0.1 W che aziona un mulinello inserito in un recipiente contenente un fluido di capacità termica C=3.41 ± 0.01 cal/K. Tenendo il motorino in funzione per un tempo Δ t registro la variazione di temperatura all'interno del fluido. Ripeto la misura per diversi valori di Δ t e ogni volta riporto la temperatura al valore ambiente T=21o. In tabella sono dati i risultati. Δt 10 20 30 40 50 60 T-21o 7.1 13.9 21.3 28.3 34.9 41.6 Il sensore di temperatura fornisce un valore con una incertezza di 0.5o, l'incertezza sull'intervallo dei tempi é trascurabile. Determinare l'equivalente meccanico della caloria. Discutere il risultato ottenuto. 3.6) Un ricercatore sostiene che nel suo laboratorio la radioattività ambientale dipende linearmente dalla umidità relativa h. A sostegno di tale tesi porta i seguenti dati: N(conteggi) 118 134 121 181 156 h(%) 42 48 51 58 63 Tutte le misure sono state fatte contando con lo stesso rivelatore in 1 ora di tempo (usando un cronometro manuale aventi 1 s come ultimo digit), con l’eccezione della quarta misura che, per distrazione, lo sperimentatore ha fatto andare avanti fino a 1h 18min e 24 s. Dire se i dati suffragano la tesi del ricercatore (si assuma trascurabile l’incertezza su h). 3.7) Uno strumento per misure di lunghezza ha una precisione nota, gaussiana di deviazione standard σ = 24.2 μm. Lo uso per misurare la posizione assoluta di una trave portante di un grattacielo. Il giorno X ho preso un campione di 128 misure e ho trovato un valor medio di L = 438.2 μm. Dopo una settimana trovo L = 426.8 μm da un campione di sole 8 misure. Ho stabilito a priori di far scattare l’allarme solo se le variazioni di tale posizione é significativa oltre il 90% di livello di probabilità. Faccio scattare l’allarme ? (assumere le 2 incertezze delle 2 misure non correlate). 3.8) Per la calibrazione assoluta di una sonda di temperatura ad alta precisione, uso una cella a punto triplo (0 oC). Faccio 5 letture a tempi diversi ed ottengo i seguenti valori: 0.012, 0.015, 0.019, 0.013, 0.022. Stabilire (1) se la sonda é scalibrate e (2) quale é la migliore stima della correzione da apportare. 121 3.9) Ho una sorgente luminosa isotropa. Ad una distanza r dalla sorgente l’intensità é I = α / r2. Sapendo che ad una distanza r = (1.000 ± 0.001) m misuro I = 3.12 ± 0.13 W/m2s, stimare α con la sua incertezza. 3.10) Un fit lineare di un grafico che riporta le velocità di allontanamento delle galassie in funzione della loro distanza dalla terra, fornisce un χ2 di 56.2. Il grafico é fatto raggruppando le 1624 galassie note in 30 gruppi di galassie ciascun gruppo caratterizzato da distanze circa uguali, e mettendo nel grafico le velocità medie di ciascun gruppo. Discutere la bontà del fit. 3.11) Per misurare l’efficienza di un rivelatore di raggi gamma invio 10000 raggi gamma sul rivelatore e vedo quante volte il rivelatore “li vede” . Ottengo 9438 ok. Stimare l’efficienza con la sua incertezza. Successivamente uso lo stesso rivelatore per misurare il flusso di raggi gamma di uguale energia ma provenienti da un’altra sorgente. In 1 h di tempo conto 318 conteggi. Quant’è il flusso in conteggi al secondo da quella sorgente ? 3.12) (preso da D’Agostini) Un politico, a cui piacciono molto i sondaggi di opinione, prima e dopo un’apparizione televisiva fa effettuare delle rapide interviste telefoniche per stimare la frazione della popolazione che é in accordo con la sua linea politica. Nel primo sondaggio erano state sentite 215 persone, delle quali 86 si erano dette dalla sua parte; nel secondo ottiene il consenso di 91 persone su 189. La sua apparizione televisiva é servita ad aumentare la sua popolarità ? 3.13) Per misurare l'indice di rifrazione di un blocco di materiale trasparente, sono stati misurati l'angolo di Brewster θB e l'angolo limite per riflessione totale θlim rispetto all'aria. Sono stati ottenuti i valori: θB =55.6 o θlim =43.1 o entrambi con una incertezza di σ(θ)=0.2o. Sulle tavole trovo per l'indice di rifrazione del quarzo il valore nqu=1.458 mentre per quello del plexiglass il valore npl = 1.49. Cosa si può concludere sulla natura del blocco ? (1) (2) (3) (4) (5) 3.14) Due diversi gruppi effettuano un esperimento con l’obiettivo di misurare la concentrazione di una certa sostanza nociva nella crosta terrestre. I due esperimenti (esp1 ed esp2) usano diverse tecnologie. Il primo analizza N1=950 campioni di roccia e rileva una deviazione standard campionaria tra le misure di s1=0.128 ppm. Il secondo analizza N2=100 campioni di roccia ma la deviazione standard campionaria che osserva tra le N2 misure é s2=0.051 ppm. I due esperimenti trovano come valori medi i valori: x1=1.03567 ppm x2=1.04598 ppm Nessuno dei 2 esperimenti fornisce una stima dell’incertezza sistematica. Si chiede: Quale dei 2 apparati di misura é più preciso ? Quali sono gli intervalli standard e di quasi-certezza per i 2 risultati ? Il modello X prevede una concentrazione di 1 ppm (perfettamente nota nell’ambito del modello). E’ ciascun risultato compatibile con questo modello ? I due risultati sono tra loro compatibili ? Se volessi raggiungere una incertezza standard relativa sotto l’1 permille quanto devo aumentare il numero di campioni analizzati nei 2 esperimenti ? 3.15) Nel suo lavoro del 1909 sulla carica elettrica elementare, Millikan diede una prima misura della carica elettrica elementare mediando i seguenti 4 valori (in unità di 10-19 C): 1.648 , 1.674 , 122 1.618 ,1.638. Egli tuttavia si limitò a fornire la media dei 4 valori, e non diede alcuna indicazione sulla incertezza. (a) A distanza di 94 anni, esprimiamo allora il suo risultato come intervallo di probabilità del 68.3%. (b) L’attuale valore della carica dell’elettrone é : (1.602176462 ± 0.000000063)x 10-19 C. Possiamo dire che il valore originario di Millikan sia in accordo con tale valore attuale ? 3.16) In un esperimento di diffusione alla Rutherford, dopo 2 ore e 32 minuti di presa dati vengono contate 52 particelle α deflesse ad un angolo maggiore di 25 gradi dalla lamina sottile di oro. Sapendo che il “rate” di particelle α spedite sul bersaglio é di 12.4 s-1, stimare la probabilità di avere una deflessione a più di 25 gradi per una particella α da nuclei di oro. La teoria dell’atomo di Thomson prevede che tale probabilità sia < 10-4. Il risultato ottenuto é compatibile con il modello di Thomson ? 3.17) Diversi satelliti in orbita a diverse quote misurano l’accelerazione di gravità con una incertezza di 7 parti su 1000. Vengono raccolti i risultati nella tabella: g (m s-2) 9.806 7.087 5.776 3.960 3.699 h (km) 0 1124 1902 3597 3851 in cui il valore misurato a 0, si intende misurato sulla superficie terrestre. (0) Fare il grafico dell’andamento di g in funzione di h. Sapendo che: Æ il raggio della terra é pari a RT=6360 km Æ l’accelerazione di gravità dipende dalla distanza R dal centro della terra secondo la relazione: g ( R) = Gm R T 2 Æ La costante di gravitazione universale é pari a G=(6.673 ± 0.010) x 10-11 m3 kg-1 s-2 (1) Linearizzare la relazione g=g(R) graficando g in funzione di 1 / R2. (2) Dal fit lineare dell’andamento ottenuto, determinare la massa della terra con la sua incertezza. (3) Valutare se la legge di gravitazione universale é in accordo con i dati. (4) Stimare la densità media della terra con la sua incertezza. 123 Soluzione degli esercizi proposti. Capitolo (1) Gli esercizi della prima parte del corso richiedono essenzialmente la capacità di saper trattare i risultati delle misure. Si richiede in modo particolare la scrittura corretta dei risultati per quel che riguarda le unità di misura, le cifre significative, la notazione esponenziale. Si richiede inoltre di saper costruire semplici grafici (di andamenti o istogrammi), di saper calcolare medie e deviazioni standard da campioni e di saper fornire intervalli standard o di quasi-certezza per i risultati di misure ripetute. In parecchi esercizi si richiede infine di giudicare la bontà di certe ipotesi (consistenza tra misure o tra misure e previsioni teoriche). A questo livello del corso queste ultime questioni sono affrontate ancora in modo semi-quantitativo. Gli stessi esercizi possono essere rivisti a fine corso alla luce dei metodi di test di ipotesi che saranno trattati nel terzo capitolo. (1.1) (1.2) (1.3) (1.4) (1.5) (1.6) (1.7) (1.8) (1.9) Qui la soluzione dipende da chi fa l’esercizio. In genere si rimane sorpresi dal fatto che la propria capacità di interpolazione é migliore di quanto ci si attenda (1/4 o 1/5 di divisione sono risultati tipici). C’è solo da applicare la definizione di deviazione standard campionaria e di riportarla alla dimensione della divisione minima (che é pari a 0.025 come si evince dalla figura). Occorre fare attenzione alle unità di misura, agli esponenziali ed alle cifre significative. Mantenendo 2 cifre (tenerne 3 non sarebbe comunque sbagliato) si ha E=1.9x10-16 CV = 1.9x10-16 J La densità del fluido é pari al rapporto tra la massa del fluido (M-M0) e il suo volume. Quest’ultimo é espresso in ml cioè in cm3 e le masse sono in grammi. Quindi si tratta di fare il rapporto. Si noti solo che M-M0 = 13.2 g (troncato al primo decimale) e dunque densità = 0.213 g/cm3 (a 3 cifre o anche a 2). In questo esercizio l’ipotesi da fare é che ciascun gruppo di campioni sia costituito da reperti contemporanei, e che la fluttuazioni dei valori misurati sia l’effetto della precisione (meglio della imprecisione) dell’apparato di misura. I valori che si ottengono sono: media reperti A = 5346 anni e media reperti B = 5952 anni. Il confronto tra questi 2 numeri da solo evidentemente non permette di trarre alcuna conclusione. Le deviazioni standard sono 340 anni per i reperti A e 180 anni per i reperti B (abbiamo usato la formula con N non con N-1 ma il risultato finale non é significativamente alterato da ciò) L’anziano archeologo dovrebbe prendere le 2 medie e vedere se entro le rispettive incertezze (sulle medie che dunque sono le deviazioni standard divise per √N dove N vale 10 per i reperti A e 15 per i reperti B) sono in accordo tra di loro. Se facesse cosi’ vedrebbe la cosa seguente: età reperti A = (5.35 ±0.11)x103 anni e età reperti B = (5.95 ±0.05) x103 anni. Senza fare alcun test di ipotesi (vedi Capitolo 3) si vede che sono incompatibili. Infatti la differenza tra i 2 risultati é di 600 anni mentre le incertezze sono di 110 e 50 anni rispettivamente. L’anziano archeologo ha torto. L’incertezza su T é del 2.5%, la metà di quella su M in virtù del fatto che T “va come la radice di M”. Usando le definizioni date dei termini metrologici si ha: risoluzione 1 g, precisione < 1 g e accuratezza caratterizzata da un errore sistematico di 22 g. Si tratta di uno strumento preciso ma poco accurato. Sarà bene controllarne periodicamente la calibrazione. L’intervallo di quasi-certezza é pari a 3x52μm /√100 = 16 μm (dato a 2 cifre). Calcoliamo in primo luogo l’incertezza di misura. Si ottiene: 0.002x2.99814x108/√9150 = 6.3x103m/s. Quindi la media delle misure per il campione di γé: (2.98814 ± 0.00006)x108 m/s. Si tratta ora di vedere se tale valore é “significativamente diverso” dal valore noto della velocità della luce nel vuoto. La differenza é pari a 22 x103 m/s, che é oltre 3 volte l’incertezza sulla misura. Dunque la differenza é significativa (anche se al limite). La misura é caratterizzata dunque da un errore sistematico di (22 ± 6) x 103 m/s. 124 (1.10) Si tratta di confrontare la frazione di persone affette da X con la sua incertezza (dovuta alla limitatezza statistica del campione) con la stessa frazione per un campione di popolazione normale anch’esso con la sua incertezza. E’ cruciale in questo genere di cose la scelta dei campioni che devono essere “omogenei” perché siano assenti altri motivi di differenza. (1.11) ΔV = 3.69x103 cm3 =3.69x10-3 m3; p = 1.2x106 Pa. Il lavoro é dunque L = 4.4 x 103 J. (1.12) L’intervallo di quasi certezza su ambedue le misure ripetute a distanza di un anno é 3x52μm /√1000 = 4.9 μm cioè é 10 volte più piccolo dello spostamento osservato. Dunque lo spostamento é decisamente significativo. (1.13) Dare al meglio il risultato della misura significa indicare la media come valore centrale e la deviazione standard campionaria della media come incertezza (eventualmente moltiplicando per 3 per dare un intervallo di quasi-certezza per la media). Per la misura in questione si ottiene: (914.1 ± 0.3) mm (lo 0.3 proviene dall’aver fatto 0.32/√100=0.32). In questo caso si ha una informazione in più sull’apparato di misura. Per utilizzarla occorre però fare delle ipotesi. C’è una scalibrazione di 2.6 mm oppure di un fattore 1.0026 (scalibrazione del 2.6 permille). Dobbiamo quindi scegliere se applicare la correzione “additiva” (sottraendo 2.6 mm) o “moltiplicativa” (dividendo per 1.0026). In entrambi i casi stiamo ipotizzando che a 914 mm la scalibrazione sia la stessa che a 1000 ( a volte alcuni strumenti possono anche avere curve di calibrazioni “bizzarre”). Facendo questa ragionevole ipotesi si ha: (911.5± 0.3) mm nel primo caso e (911.7± 0.3) mm nel secondo caso. I due risultati sono praticamente indistringuibili poiché 914é vicino a 1000. Tuttavia la correzione (una delle due) é significativa (maggiore dell’incertezza) e quindi va applicata. (1.14) Sul mio atlante (del 1992) trovo: abitanti Londra = 6.378x106, abitanti Roma = 2.693x106. Passo alle cartine dove stimo le superfici delle 2 città approssimandole a cerchi. Diametro cerchio Londra = 60 km, diametro cerchio Roma (GRA) = 20 km. Densità Londra = 2.3x103 abitanti / km2, densità Roma = 8.6x103 abitanti / km2. La differenza é significativa dal momento che l’approssimazione del calcolo (dominata dalla stima del diametro) anche fosse del 10-20% darebbe una incertezza del 20-40% circa sulla densità che rende comunque incompatibili i due risultati. Del resto per chiunque conosca le 2 città il risultato é tutt’altro che sorprendente. (1.15) Si tratta ancora di un problema di significatività che a questo punto del corso affrontiamo ancora con strumenti non rigorosi. Assumiamo che i 3 l dei recipienti siano privi di incertezza. In tal caso facendo media e deviazione standard campionaria della media delle 5 misure, otteniamo una concentrazione di (21.4 ± 0.5)%. Volendo dare un intervallo di quasi certezza avremmo (21.4 ± 1.5)% che include, sebbene al bordo dell’intervallo, il valore di 20% previsto. Dunque il chimico é quanto meno incauto nell’annuncio. Un fisico avrebbe ripetuto la misura un numero più consistente di volte (se ciò fosse stato possibile) altrimenti avrebbe detto che non c’era ancora una evidenza chiara dell’anomalia. E’ istruttivo vedere che la nostra analisi é come detto grossolana in un aspetto che sarà chiarito nella parte conclusiva del corso. Infatti un intervallo di questi certezza per un campione di poche misure (come le 5 in questo caso) é significativamente più largo di quello che si ottiene con il metodo qui utilizzato. (1.16) 67/√2000 = 1.5. Quindi il mio risultato é (0.1 ± 1.5)x10-4. Anche troppo compatibile con 0. (1.17) Qui il problema é inverso. Discriminare tra i 2 modelli significa poter misurare X con una incertezza molto minore della differenza tra i 2 valori prevista (10-5 nel nostro caso). D’altro canto l’unico modo per diminuire la nostra incertezza é quello di mediare su un numero N sempre maggiore di misure ripetute. Dovrà essere dunque : 67x10-4/√N << 10-5. Devo trovare quel valore di N a partire dal quale vale la condizione data. N >> 6702 = 4.5x105.Con il simbolo >> si intende molto maggiore. Per i nostri scopi può significare un fattore 10 (nel qual caso l’incertezza é 10-6 e quindi non si hanno dubbi sul risultato). (1.18) Assumiamo che il cronometro apprezzi 1/10 di secondo (assunzione ragionevole dato il modo con cui é dato il valore) e che le indicazioni autostradali sono date con incertezza di 125 (1.19) (1.20) (1.21) (1.22) (1.23) (1.24) (1.25) (1.26) (1.27) (1.28) 100 m (assunzione meno ragionevole probabilmente sono date al metro). In tal caso v = 4.4 km /1032.8 s = 15 km/h. Sono andato molto lento. Risultato a 2 cifre perché dominato dall’incertezza sullo spazio percorso. 15.6x10x86400 = 13.5x106 km (ammesso che non si sia schiantato sulla luna che si trova a distanze tra i 0.3 e i 0.4 x106 km (all’incirca). ρ(iceberg) = 1.00 x 0.9 = 0.9 g/cm3. Non più di una cifra. Attenzione alle unità di misura e alle cifre significative con cui dare i risultati. a = 4.28 m/s2 = 0.436 g. Grande gara. L’ipotesi da fare é che i 2 atleti abbiano viaggiato a velocità costante: vel(Carl Lewis) = 100/9.92 = 10.08 m/s. All’istante di tempo in cui Ben Johnson tagliava il traguardo (t = 9.79) Lewis si trovava alla posizione 10.08 x 9.79 m = 98.7 m, cioè 1.3 m dietro a Ben Johnson. Si noti che quando si hanno numeri a 3 cifre come 9.92 o 9.79 (molto prossimi a far scattare la quarta cifra) é come se avessero quattro cifre. Inoltre 100 m ha molte più cifre delle tre apparenti, essendo i 100 m della pista misurati con estrema precisione. Media e deviazione standard campionaria sono: 6.36 s e 0.25 s rispettivamente. Per dare la migliore stima dell’intervallo di quasi-certezza su h, si può ragionare nel modo seguente: calcolo prima l’intervallo di quasi certezza per t (tempo di caduta) misurato direttamente e poi “propago” questo risultato ad h. Si ottiene: t = (6.36 ± 0.17) s. Per passare ad h si deve calcolare h e propagare l’incertezza osservando che l’incertezza su g é trascurabile e che quella relativa su t (che é l’unica a determinare l’incertezza su h) va moltiplicata per 2 dal momento che t compare al quadrato nella formula. h = (198 ± 11) m. Per poter affermare di avere osservato un tale effetto (che avrebbe un impatto sconvolgente sulla fisica), uno dovrebbe far vedere che la carica media delle presunte cariche ½ osservate sia significativamente diversa dalla carica dell’elettrone. Poiché la carica dell’elettrone é 1.602 (in unità di 10-7 pC), l’incertezza con cui misuro questo campione deve essere molto minore della differenza tra la carica dell’elettrone e metà di questa cioè 0.8x10-7 pC. Deve essere allora: 0.7x10-7/√N << 0.8x10-7. In questo caso la richiesta é N>>1. Quindi per esempio con N=10 cariche osservate si può trarre una conclusione convincente. Giova qui ricordare che naturalmente una osservazione del genere dovrebbe essere accompagnata da molte altre misure di controllo per esempio far vedere che la misura della carica é accurata, che non ci sono errori sistematici, che non ci sono effetti che possono simulare il fenomeno. Quando il risultato é particolarmente importante, la scienza é particolarmente esigente. Graficando i valori della radioattività in funzione del tempo si osserva facilmente che a cavallo dell’ottavo punto vi é un “gradino”. Calcolando la media e la deviazione standard dei primi 7 punti e degli ultimi 8 punti si ottengono i valori: r(<8) = 16.33 ±0.02 e r(>8) = 17.24 ±0.02 decisamente incompatibili. Dunque si ha un effetto, si tratta di capire cosa é successo in quell’ora. Si tratta di calcolare media e deviazione standard della media dei 2 istogrammi, fare il rapporto tra le medie, valutarne l’incertezza e poi confrontare il rapporto con il valore atteso di 1.102. Si ottiene M = ( 918 ± 6 ) g La migliore stima della carica della particella misteriosa é ( 1.48 ± 0.02 )x10-19 C, incompatibile con il valore noto della carica dell’elettrone. Capitolo (2) Sono esercizi di calcolo combinatorio e di calcolo delle probabilità. In generale si tratta di ricondurre il problema in esame ad un caso noto. Per fare ciò é sempre importante indicare le ipotesi che vengono fatte (se ce ne sono). Nelle soluzioni numeriche le probabilità sono date 126 indifferentemente come % o come numero tra 0 e 1, e i coefficienti binomiali sono indicati come (N n) per non appesantire la notazione. (2.1) (2.2) (2.3) (2.4) (2.5) (2.6) (2.7) (2.8) (2.9) I 2 casi (con o senza reintroduzione della pallina nell’urna) sono evidentemente diversi. Nel caso con reintroduzione si hanno 5 estrazioni indipendenti, ciascuna delle quali ha una probabilità pari a 1/5. La probabilità di una data sequenza é dunque (1/5)5. Nel caso in cui non si reintroduce invece si ha una probabilità pari a 1/5 alla prima estrazione, poi ¼ alla seconda (si tratta della probabilità condizionata di estrarre il 2 quando alla prima estrazione é stato estratto 1), 1/3 alla terza (di nuovo probabilità condizionata di estrarre 3 quando alle prime due estrazioni sono state estratti 1 e 2) e cosi’ via. Complessivamente 1/5!. Naturalmente l’argomento vale per qualunque sequenza immaginabile. Applichiamo il metodo combinatorio di calcolo delle probabilità. Si hanno 36 casi possibili tutti equiprobabili (se vogliamo si tratta delle disposizioni di 6 elementi in 2 caselle, 62=36). Le possibili differenze hanno un intervallo di definizione tra –5 e 5. Contando per ciascuna possibile differenza il numero di casi possibili e dividendo per 36 si ha la seguente distribuzione: P(-5)=P(5)=1/36, P(-4)=P(4)=2/36, P(-3)=P(3)=3/36, P(-2)=P(2)=4/36, P(1)=P(1)=5/36, P(0)=6/36=1/6. La probabilità di avere una differenza pari a 0 in 3 estrazioni consecutive é (1/6)3 (i 3 lanci sono indipendenti) cioè il 0.46%. Si tratta di una tipica applicazione del teorema di Bayes. A priori sappiamo infatti che p(D)=0.1. La prendiamo come “probabilità a priori”. Gli altri dati sono: p(+/D)=0.98 e p(+/N)=0.16. Abbiamo indicato con + la positività al test e con D e N l’essere o no affetti dalla malattia. Applichiamo il teorema di Bayes per calcolare p(D/+) dai dati che abbiamo. Naturalmente p(N)=1-p(D)=0.9. Si ottiene P(D/+)=40.5%. Come si vede la bassa incidenza della malattia sulla popolazione fa si’ che applicando a tutti il test solo il 40% dei positivi sono realmente affetti dalla malattia. Cominciamo con lo stabilire a partire dalla tabella della gaussiana standardizzata a quanto corrispondono il 90-esimo de il 40-esimo percentile. Prendendo la tabella di pag.69 vedo che lo 0.90 si trova in corrispondenza di 1.28 mentre il 60% di 0.26 (dunque il 40% simmetrico rispetto al 60% corrisponderà a –0.26). Dunque avremo: (22.5-μ)/σ = 1.28 e (18.2-μ)/σ = -0.26. Siamo di fronte ad un sistema lineare di 2 equazioni in 2 incognite (μ e σ). Risolvendo si ottiene: μ = 18.9 kg e σ = 2.8 kg. In un giorno mi aspetto 1.8x10-3 x 86400 = 155 conteggi. Trattandosi di conteggi é ragionevole assumere una distribuzione poissoniana con λ = 155 per il numero di conteggi in un giorno che, dato il valore elevato di λ, posso approssimare ad una gaussiana con m = 155 e s = √155 = 12. Il valore osservato é assolutamente incompatibile con la distribuzione attesa essendo (N-μ)/σ = 20. Devo preoccuparmi. Trattiamo separatamente e indipendentemente i figli avuti prima dei 30 e dopo i 30 anni. Per i figli avuti prima dei 30, la probabilità di non essere affetto dalla sindrome X é (1-0.0012)3 = 0.996, per quelli dopo i 30 anni é (1-0.0028)7 = 0.980. Moltiplico le 2 probabilità ed ho p(0 figli con sindrome X) = 0.977. Occorre in primo luogo stimare la probabilità che una centrale abbia un incidente nei prossimi 100 anni. Se gli incidenti avvengono casualmente (cioè poissonianamente), con vita media 20000 anni, p(<100) = 100/20000 = 0.005 (abbiamo approssimato l’esponenziale della curva dei tempi d’attesa con una retta). La probabilità che nessuna delle 98 centrali abbia un incidente é (1-0.005)98 = 61.2% Ancora un tipico esempio di applicazione del teorema di Bayes. In questo caso la probabilità a priori é P(A)=P(B)=0.5, essendo specificato che non si ha alcuna informazione a priori. Gli altri dati ci dicono che: P(α/A)=0.98 P(β/A)=0.02, P(α/B)=0.10 e P(β/B)=0.90 (si noti come sono normalizzate le probabilità condizionate). Applicando Bayes si ottiene: P(A/α) = 0.91. La risposta é decisamente si’. Infatti (x-μ)/σ = 27 (x é il valore trovato). 127 (2.10) Problema inverso del precedente in un certo senso. Dobbiamo fare una assunzione sulle caratteristiche dell’intervallo. La cosa più naturale é assumere che sia simmetrico. Sarà ovviamente m = (150+220)/2 = 185 mg/dl. Quanto a σ, dobbiamo ricorrere alle tabelle (pag.69) dove però occorre fare attenzione al fatto che un intervallo simmetrico al 90% corrisponde ad un estremo al 95% a destra e al 5% a sinistra. Il valore in corrispondenza a 95%é 1.65 e quello al 5% sarà –1.65. Pertanto s = (220-185)/1.65 = 21 mg/dl. (2.11) Si tratta di calcolare la probabilità che su 1654 voti il numero di SI sia inferiore a 1654/2 = 827, sapendo che la probabilità di votare SI é del 52.67%. Nel trattare il problema in questo modo stiamo assumendo che il nostro paese sia “elettoralmente omogeneo” alla popolazione nazionale, che tutti i 1654 aventi diritto votino, che non ci siano schede bianche, e cosi’ via. Il problema é binomiale, ampiamente in limite gaussiano. Pertanto μ = Np = 1654 x 0.5267 = 871.2 e σ = √Np(1-p) = 20.3. p(x < 827) = p( m < -2.17) = 1.5% (guardando la tabella di pag.69). (2.12) Il fenomeno é caratterizzato da un rate di 38.4/100 = 0.384 s-1 e da una costante di tempo τ = 1/rate = 2.60 s. Usando la distribuzione dei tempi d’attesa si ha che P(t > t*) = exp(-t*/τ) cioè (t* = 10 s, τ = 2.60 s) P(t>10s) = 0.021. In un’ora il dispositivo si blocca un numero di volte dato da: rate x 3600 s x P(t > 10s) = 29. (2.13) I dati sono: P(P/C) = 90% e P(N/NC) = 90% in cui C e NC vuol dire affetto o non affetto da epatite C. Da questi deduciamo che P(N/C)=10% e P(P/NC)=10% per motivi di “normalizzazione”. Io sono interessato a sapere P(C/PNP) e P(C/PPP). Qui l’applicazione del teorema di Bayes é più complessa. Mi servono infatti in primo luogo P(PNP/C) e P(PPP/C), ma anche P(PNP/NC) e P(PPP/NC). Assumendo che i 3 test siano indipendenti, avrò: P(PNP/C) = P(P/C)2 x P(N/C) = 0.081 e P(PPP/C) = P(P/C)3 = 0.729, P(PNP/NC) = P(P/NC)2 x P(N/NC) = 0.009 e infine P(PPP/NC) = P(P/NC)3 = 0.001. Applichiamo Bayes ai 2 casi e otteniamo: P(C/PNP) = 90% e P(C/PPP) = 99.86%. (2.14) Problema di calcolo combinatorio. Per ciascun ruolo si tratta di calcolare il numero di combinazioni, dal momento che non posso avere ripetizioni (far comparire più volte nella squadra lo stesso giocatore), né mi interessa in che ordine i giocatori compaiono (avere come attaccanti Totti e Vieri o Vieri e Totti é la stessa cosa). Quindi (3 1) = 3 combinazioni di portieri, (6 4) = 15 di difensori, (7 4) = 35 di centrocampisti e, infine (6 2) = 15 di attaccanti. Infine moltiplico i 4 numeri = 23625 squadre. (2.15) Lasciamo il grafico al lettore. Si ha P(1) = 1/36, P(2) = 3/36, P(3) = 5/36, P(4) = 7/36, P(5) = 9/36 e P(6) = 11/36. (2.16) Problema binomiale. P(2 / N=5, p=0.5) = (5 2) (1/2)5 = 31/2%. Le 3 sequenze sono naturalmente equiprobabili p=(1/2)5 = 3.1%. (2.17) Per definizione di intervallo p(fuori / sano) = 0.05. Se i 3 test sono indipendenti posso calcolare P(fuori X) x P(fuori Y1 OR fuori Y2) = P(fuori X) x (P(fuori Y1)+P(fuori Y2) – P(fuori Y1)xP(fuori Y2))= 0.49%. (2.18) (90 15) = 4.6 x 1016 cartelle diverse. (2.19) Trattiamo questa situazione assumendo che i parti nel paese avvengano nel tempo in modo del tutto casuale, cosi’ da poter schematizzare come poissoniano il fenomeno. Il rate di questo fenomeno é 1/7 g-1 (secondo l’esperienza pluriennale) e dunque il λ associata ad un giorno é λ = 1/7 = 0.14. Si tratta di calcolare ora P(>1, λ = 0.14) = 1 – P(0) – P(1) = 1 – exp(-λ) – λexp(-λ) = 0.0089. Dunque la probabilità é al di sotto dell’1%. L’eventualità si verificherà 3-4 volte l’anno. (2.20) Problema inverso. Essendo N = 1250 e σ(n) / n = √Nε(1-ε) / Nε = 0.02 (qui εé l’efficienza), ricavo ε girando la formula: ε = 1 / (1 + (0.02)2 x 1250) = 0.67. (2.21) (a) NO le stelle si ammassano in galassie, le galassie in ammassi di galassie e cosi’ via. (b) NO come tutti i fenomeni periodici o quasi-periodici. (c) forse SI se si ammette che le condizioni “demografiche” e “sociali” che determinano le attitudini dei giovini siano 128 (2.22) (2.23) (2.24) (2.25) (2.26) (2.27) (2.28) (2.29) (2.30) (2.31) (2.32) (2.33) (2.34) (2.35) costanti nel tempo. (d) forse SI a meno che non vi siano periodi di maggiore frequenza per fatti specifici. Applichiamo il teorema di Bayes in un caso con probabilità a priori molto “disuniforme” (P(infetto) = 0.2% P(non infetto) = 99.8%) e nell’altro con probabilità a priori “uniforme” (P(infetto) = P(non infetto) = 50%). Si ottiene: (1) P(infetto / +) = 22% e (2) P(infetto / +) = 99.3%. In questo caso devo calcolare P(+++/infetto) = (P(+/infetto))3 = 97% assumendo i test indipendenti e P(+++/non infetto) = (P(+/non infetto)3 = 3 x 10-7. Le probabilità a priori sono evidentemente le stesse e dunque si ottiene: P(infetto/+++) = 99.98%. Come si vede le cose cambiano. Semplice problema di calcolo combinatorio. Si hanno 21 lettere (mancano I O e Q ma ci sono X Y e W) e 10 cifre. Quindi 212 x 103 x 212 = 2 x 108 targhe (200 milioni). Di queste, quelle in cui le ultime 2 lettere sono la copia delle prime 2 sono 212 x 103. La probabilità é 1 / 212 = 0.22%. Devo disporre 36 oggetti in 6 caselle ed ho la possibilità di ripetere le cifre e di mettere la stessa cifre in più caselle. Si ha: 366 = 2.2 x 109 combinazioni. Al massimo impiego per trovarla un tempo pari a 2.2 x 109 x 10-3 s / 3.15 x 107 s = 0.070 anni, poco meno di un mese. Nel secondo caso invece il numero di combinazioni é 263 x 103 = 1.7 x 107 da cui il tempo massimo é meno di 5 ore. P(>8.2) = 18%; p(3 volte > 8.2) = 0.58%. Mi riconduco alla gaussiana standardizzata. Per i dati: m1 = (129 – 138.2 ) / 4.58 = -2.01 e m2 = (149 – 138.2 ) / 4.58 = 2.35 mentre per la simulazione m1 = -2.32 e m2 = 2.72. Dalle tabelle si ottiene nei 2 casi P(m1 < m < m2) = 0.9684 per i dati e 0.9865 per la simulazione. Si passa da una reiezione del 3.2% nei dati ad una del 1.4% nella simulazione. Sono 24 prove e la probabilità del successo é 2.34% (se vogliamo chiamare successo il fatto di arrivare in ritardo). Uso la binomiale: P(0 successi) = (1-0.0234)24 = 57%. Ho una probabilità del 43% di arrivare almeno una volta in ritardo. Rate di decessi poissoniano = 1 / 62 g-1 da cui il λ per un mese (assunto medio di 30 giorni) é λ = 0.48. P(>0) = 1 – P(0) = 1 – exp(-λ) = 38%. L’altezza H della distribuzione triangolare deve soddisfare il criterio di normalizzazione: 40 x H / 2 = 1. Da ciò H = 0.05 anni-1 . La funzione a 60é per ragioni geometriche (basta disegnare la distribuzione per rendersene conto) H/2. Calcolo P(>60) = 10 x H/2 /2 = 12.5%. La probabilità che i primi 3 siano > 60é (assumendo che ogni docente sia preso a caso dal corpo docente) 0.1253 = 0.2% molto bassa. Classico problema binomiale. N = 5, p = 1250/2000 = 0.625. P(>2) = P(3) + P(4) + P(5) = 72.4%. Tre poissoniane indipendenti nel limite gaussiano. Per ciascuna P(<240) = P( m<-1) = (1 – 0.683 ) /2 = 0.1585. Affinché almeno 2 contino meno di 240 devo calcolare P(2)+P(3) di una binomiale con N=3 e p=0.1585. Si ottiene P(almeno 2) = 6.7%. Analogo al precedente. I 5290 eventi si distribuiscono in 10 bins. Il contenuto di ciascun bin viene approssimato ad una poissoniana di valor medio 5290/10=529 quindi nel limite gaussiano. In ciascun bin P(>575) = P( m > 2) = 0.025. Che su 10 bin 2 e solo 2 di questi dia più di 575 costituisce di nuovo un problema binomiale con N = 10 e p = 0.025. P(2) = 2.3%. Si noti che l’assunzione iniziale di poissonianità é in realtà una approssimazione. Infatti i contenuti di ciascun bin sono distribuiti a rigore secondo una distribuzione multinomiale che può essere descritta dal prodotto di poissoniane indipendenti quando il numero di bin é abbastanza elevato. N(N-1) = 90. Esempio tipico in cui si applica il teorema di Bayes. Con ovvio significato dei simboli: P(D/colore) = P(colore/D) P0(D) / [ P(colore/D) P0(D) + P(colore/R) P0(R) ] in cui evidentemente P0(D) e P0(R) sono le probabilità a priori che incontrando una persona questa sia democratica (il 23.6%) o repubblicana (il 76.4%), P(colore/D) e P(colore/R) sono i 129 risultati dei sondaggi (il 16.2% e il 2.5% rispettivamente). Mettendo i numeri si ottiene: P(D/colore) = 66.7% La probabilità che i miei sette dipendenti di colore siano tutti democratici é: [P(D/colore)]7 = 5.9%, dunque la probabilità che ce ne sia almeno uno repubblicano é 1-5.9% = 94.1%. (2.36) Trattiamo il fenomeno come poissoniano con μ = 3.24. (a) P(0) = exp(-3.24) = 3.9% (b) Il numero medio di incidenti in un anno é 3.24 x 52 = 168.5. La distribuzione é una poissoniana nel limite gaussiano con μ = 168 e σ = 13. (c) Ricorro alle tabelle della gaussiana standardizzata P(<150) = P(Z<-1.38) = 1 – P(Z<1.38) = 1 – 0.916 = 0.084 (l’8.4%). (2.37) Una poissoniana con valore centrale 78é nel limite gaussiano. Quindi di nuovo utilizziamo le tabelle della gaussiana standardizzata P(>90) = P(Z>1.36) = 1 – P(Z<1.36) = 1 – 0.913 = 8.7%. (2.38) Questione molto interessante. Occorre fare delle ipotesi naturalmente. Chiamiamo Nm il numero di molecole contenute in un bicchiere, Nb il numero di bicchieri di cui e’ fatto tutto il mare del mondo e assumiamo che dopo cinque anni tutte le molecole che ho versato in mare sono ancora tutte presenti nel mare (non sono evaporate o assorbite o altro) e sono distribuite in modo uniforme. A questo punto si tratta di un processo binomiale in cui faccio Nm prove (le Nm molecole che prendo con il secondo bicchiere) e la probabilita’ del successo e’ p=1/Nb (la frazione di molecole del mare appartenute al primo bicchiere). Il numero medio e’ Np = Nm/Nb. Provate a stimarlo. Troverete un risultato incredibile… Capitolo (3) Possono essere rivisti gli esercizi del capitolo (1) alla luce delle nuove conoscenze acquisite nel terzo capitolo. Quelli qui proposti sono più completi e alcuni sono riassuntivi di tutti gli argomenti del corso. (3.1) Problema molto interessante. In un caso di questo genere la prima cosa da fare é graficare l’andamento di g in funzione di T, riportando anche le barre di incertezza su g, dal momento che lo sperimentatore ne fornisce la stima. Già “a occhio” si può tentare di vedere se si osserva un andamento significativo. Per rendere quantitativa l’osservazione si può procedere in vari modi. Ne indichiamo 2. Si fa un fit lineare y = m x + c, si calcola m con la sua incertezza s(m) e si vede se m é significativamente diversa da 0, cioè per esempio se s(m) / m > 3. In questo caso il problema si riduce ad un test dell’ipotesi che m sia 0. Naturalmente perché il test sia sensato occorre che la stima di s(m) sia ragionevole. Per vedere ciò si può verificare che il χ2 del fit dia un valore “buono”. L’altro metodo consiste nel fare un fit con una costante y = c e vedere se il χ2 del fit é buono o cattivo. Se é buono vuol dire che i dati sono compatibili con assenza di dipendenza, se cattivo vuol dire che invece non sono compatibili e dunque c’è una dipendenza. Risultati numerici (vedi anche il grafico riportato di seguito). Metodo 1: m = ( 0.53 ± 0.06 ) x 10-3 m s-2 K-1 χ2 = 12.6 / 9 gdl; Metodo 2: χ2 = 56.8 / 10 gdl Conclusione: la dipendenza c’è, é significativa. Bisogna ora capire a cosa é dovuta. 130 (3.2) (3.3) In quell’ora misuro un flusso di 3.36 x 10-4 conteggi / m2 s, con una incertezza percentuale di 1 / √121 ~9%. Dunque φ(misurato) =(3.36 ± 0.30) x 10-4 cont / m2 s. Testo l’ipotesi di consistenza con il valore atteso φ(R.C.) = (2.01 ± 0.01) x 10-4 cont / m2s costruendo una variabile Z. Ottengo Z = 4.5: ho osservato la supernova. Lo strumento é evidentemente caratterizzato da un errore sistematico che cresce con il valore in misura. Per mettere in evidenza questa caratteristica dello strumento é utile graficare l’andamento di x(misurato) – x(“vero”) in funzione di x(“vero”). Si osserverà una crescita dell’errore sistematico. Se questo grafico mostra un andamento, si può fare un fit di questo andamento, ottenendo cosi’ una “curva di calibrazione” che può essere usata per correggere i valori letti. Quindi, letto 2284 devo sottrarre un numero che starà tra 61 e 79. Nel grafico sono riportati sia x(misurato) - x(vero) che la stessa cosa divisa per x(vero). Il secondo grafico ci mostra che l’errore sistematico é in prima approssimazione tra il 2% ed il 3% per tutti i valori. Quindi una correzione ragionevole potrebbe essere quella di moltiplicare ogni misura per 0.975. 131 (3.4) La media pesata dei quattro valori é 2.19; il χ2 rispetto all’ipotesi che siano in accordo fornisce il valore 12.5 per 3 gradi di libertà. Dalle tabelle si vede che tale valore si trova essenzialmente tra 0.005 e 0.01 quindi é arduo accettare l’ipotesi che i valori siano in accordo. Anche in questo caso é utile fare un semplice grafico dei 4 valori. Si vede chiaramente che il quarto valore é incompatibile con il primo e questo rende il χ2 inaccettabile. (3.5) L’equivalenza calore-lavoro ci suggerisce che il lavoro fatto (potenza x tempo) sia proporzionale al calore dissipato (capacità termica x variazione di temperatura). I valori misurati devono pertanto disporsi su di una retta il cui coefficiente angolare costituisce l’equivalente meccanico della caloria. Pertanto dal fit lineare di temperatura-tempo si ricava il coefficiente angolare che, moltiplicato per la capacità termica e diviso per la potenza fornisce l’inverso dell’equivalente meccanico cercato. Per determinare l’incertezza sulla quantità trovata occorrerà utilizzare la propagazione delle incertezze relative. Risultati numerici. Fit lineare: m = 0.69 ± 0.01 K/s; χ2 = 1.2 / 4 gdl. 132 (3.6) (3.7) (3.8) (3.9) (3.10) (3.11) (3.12) (3.13) Equivalente meccanico: (4.25 ± 0.07) J / cal Questo risultato é da confrontare con il valore 4.1855 J / cal che si trova nei libri di testo. Il nostro risultato é “fuori di una deviazione standard” dunque é sostanzialmente in accordo. Qui lo sperimentatore ci dice di fare attenzione nell’usare il quarto punto sperimentale. Basterà dividere per 1h 18 min e 24 s cioè per 4704 s anziché per un ora cioè per 3600 s. Inoltre a ciascun punto attribuiamo un’incertezza data da √N / tempo assumendo che si tratti di conteggi poissoniani. Quindi si tratta di testare l’ipotesi che non vi sia andamento. Facendo un fit con una costante si ottiene: χ2 = 6.8 / 4 gdl corrispondente ad una probabilità tra il 10 ed il 20% pertanto accettabile. Tuttavia rimane una certa indicazione di crescita (come si vede dal grafico riportato qui di seguito) e quindi vale la pena ripetere l’esperimento aumentando il tempo di osservazione per ridurre le incertezze statistiche relative. Costruisco per ciascuna delle 2 misure un intervallo di probabilità del 90%: prima misura: L1 = 438.2 ± 3.5 μm; valore seconda misura: L2 = 427 ± 16 μm (in questo secondo caso ho moltiplicato per 1.90 anziché per 1.65 per tenere conto che non sono ancora nel limite gaussiano). L’intervallo al 90% per la differenza é: L1 - L2 = 11 ± 16 μm. Dunque la variazione non é significativa oltre il 90% dunque l’allarme non dovrebbe scattare. Tutte le 5 misure effettuate sono positive, quindi ciò fa pensare che effettivamente possiamo essere scalibrati. Tuttavia dobbiamo mediare queste misure e ricavarne un intervallo di probabilità (per esempio del 95%) per stabilirlo quantitativamente. Risultato: T = 0.0162 ± 0.0052 oC (qui ho usato la tabella della t-Student essendo il numero di misure molto piccolo). Quindi lo strumento é scalibrato. Il valore trovato é anche la migliore stima della correzione. In tal caso é meglio usare una incertezza al 68% cioè: Tcorr = 0.0162 ± 0.0016 oC. α = I r2 = 3.12 ± 0.13 W / s Si tratta di vedere la probabilità associata ad un χ2 di 56.2 per 28 gradi di libertà. Dalle tabelle tale probabilità é pari a circa 0.001 cioè l’1 per mille. Il fit non é molto buono. L’efficienza é: ε = ( 94.4 ± 0.2 ) % (usando la formula per la binomiale). Per ottenere il flusso effettivo devo “correggere” per l’efficienza. φ = N / ( ε Δt ) = ( 94 ± 5) x10-3 s-1. La preferenza é passata da 86 / 215 = ( 40 ± 3 ) % a 91 / 189 = ( 48 ± 4 ) %. L’aumento di preferenze é pertanto ( 8 ± 5 )%. Quindi prima di rallegrarmi il politico farebbe bene a rendere statisticamente più consistente il suo campione. Ricordiamo le 2 relazioni: n = tanθB e n = 1 /sen θlim . Dalle 2 misure ricaviamo 2 diversi valori di n indipendenti ( che chiamiamo rispettivamente nB e nlim ). Utilizzando la 133 (3.14) (3.15) (3.16) (3.17) propagazione delle incertezze troviamo: nB = 1.460 ± 0.011 e nlim = 1.463 ± 0.005. Si noti che nell’utilizzare la propagazione abbiamo riportato il valore dell’incertezza sugli angoli da gradi a radianti ( × π / 180 ). I 2 valori sono chiaramente compatibili. La media pesata fornisce: n = 1.462 ± 0.004 che é distante una deviazione standard da nqu e 7 deviazioni standard da npl. Si tratta di quarzo dunque. Rispondiamo con ordine alle singole domande. (1) Il secondo esperimento é più preciso. (2) Gli intervalli standard e di quasi-certezza (cioè a 3 deviazioni standard) per i 2 esperimento sono: x1 = 1.036 ± 0.004 (0.012) e x2 = 1.046 ± 0.005 (0.015). (3) Sono chiaramente ambedue i risultati incompatibili con x = 1. (4) Sono compatibili tra di loro. (5) Poiché l’incertezza statistica diminuisce “come 1 / √N” dove Né il numero di campioni, per passare da una incertezza standard di 0.004 ( da 0.005) ad una di 0.001 dovrò aumentare il numero di campioni di un fattore 42 = 16 per l’esperimento 1 e 52 = 25 per l’esperimento 2. (a) q = ( 1.644 ± 0.014 ) × 10-19 C. (b) qMillikan – qoggi = ( 0.042 ± 0.014 ) × 10-19 C. Il risultato di Millikan dista 3 deviazioni standard dal valore che abbiamo oggi. Ai limiti dell’accettabilità. Rate( θ > 25° ) = ( 5.7 ± 0.8 ) × 10-3 s-1, da cui P( θ > 25° ) = ( 4.6 ± 0.6 ) × 10-4 . Il risultato é incompatibile con il modello di Thomson. È un esempio di come a volte graficando non direttamente l’andamento delle grandezze misurate, ma l’andamento di funzioni semplici di tali grandezze, si riesca ad avere una migliore comprensione del problema. In questo caso, guidati dalla legge di gravitazione universale, é conveniente graficare g in funzione di 1/R2, grafico che deve dare una retta. Tuttavia occorre definire per bene R come distanza dal centro della terra, non dalla superficie terrestre, R = h + RT. Dal fit lineare si ottiene il prodotto GmT e, da questo, dato G, la massa della terra mT. Infine mT / RT3 fornisce la densità media della terra. Risultati numerici: dal fit m = ( 404 ± 4 ) × 106 m s-2 km2 = ( 404 ± 4 ) × 1012 m3 s-2 con un χ2 pari a 3.01 / 3 gradi di libertà dunque molto buono. Da qui: mT = ( 6.05 ± 0.06 ) × 1024 kg e dunque ρT = mT / ( 4 / 3 π RT3 ) = 5.56 g / cm3. Abbiamo riportato le unità della densità a g / cm3 perché sono più facilmente comprensibili (in queste unità l’acqua ha densità 1, il piombo 11 e cosi’ via). 134