statistica
elaborare informazioni: come e soprattutto perché
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
2 marzo 2015
L'informazione non è fatta solo di notizie. È la struttura del mondo reale
C'è un modo pratico per classificare le informazioni:
• Su
Le informazioni possono essere • Per
• Come
qualcosa
Un'impronta digitale sulla scena di un delitto ci può
dire chi è l'assassino (informazione su qualcosa), può
essere utile per risolvere il caso (per qualcosa) e può
svelare la dinamica dell'omicidio (come è stato
commesso)
Luciano Floridi (2010), Information. A very short
introduction, Oxford University Press
Ma allora, che cos'è l'informazione?
L’informazione è una componente essenziale di tutto ciò che esiste: è il
mezzo attraverso il quale entriamo in contatto con la realtà esterna
«L'informazione ha un duplice aspetto. Può essere una componente
interna delle cose o essere una descrizione generale di una data tipologia
di cose» [Floridi, cit.]
Esempio
Ipotizziamo un oggetto (una t-shirt) esposto in una vetrina:
dà informazioni sul suo colore, sulla sua consistenza, sulle
finiture di quell'oggetto e, se lo compro, avrò proprio quello.
La stessa t-shirt in vendita nel Web: sul catalogo troviamo
informazioni generali, ma non su qualità come la consistenza
del singolo esemplare. E se la si compra non è proprio quella
della foto: solo una con le stesse caratteristiche
Una definizione in termini di processo di comunicazione
Informazione è un termine che ricorre spesso
nel linguaggio di tutti i giorni, ma non si presta
a definizioni univoche
Il principale ostacolo in tal senso nasce dal
fatto che questo termine è utilizzato nei
contesti più vari
Una descrizione precisa dei fenomeni in cui
interviene il concetto di informazione deve
quindi essere preceduta da un'analisi dei
fenomeni stessi, al fine di individuarne le
principali caratteristiche
Il processo di comunicazione
Il processo di comunicazione è uno schema interattivo tra
1. Una sorgente che ha la necessità o la potenzialità di
comunicare informazioni
2. Un canale (mezzo di trasmissione, media), attraverso cui il
messaggio si propaga e si diffonde
3. Un destinatario che riceve le informazioni
Il processo di comunicazione
Lo schema può essere reso più completo:
1.
La sorgente emette l’informazione utilizzando un trasmettitore
2.
Prima di inviare un messaggio lungo il canale, il trasmettitore traduce
l’informazione in forma adatta alla trasmissione. La traduzione
dell’informazione da parte del trasmettitore può essere fatta in modo tale da:
A.
proteggere l'informazione trasmessa (problema della criptatura)
B.
adeguare il linguaggio usato dalla sorgente al linguaggio del destinatario
3.
Il canale provvede al trasporto dell’informazione. In base alle proprie
caratteristiche fisiche il canale può trasportare una quantità di informazione più
o meno grande. Mentre viaggia all'interno del canale, l'informazione è
sottoposta ad una serie di fenomeni, indicati dal termine rumore, che tendono a
distorcerla
4.
Il messaggio giunge al ricevitore, che svolge le operazioni inverse a quelle svolte
dal trasmettitore e ritraduce il messaggio
5.
Il messaggio giunge al destinatario. Non sempre il messaggio in arrivo è uguale a
quello inviato originariamente
Il processo di comunicazione
All’interno di un processo di comunicazione, l’informazione è una
notizia (cioè un elemento cognitivo nuovo per il ricevente e in
quanto tale suscettibile di risolvere una condizione di incertezza)
codificata come testo scritto, discorso, sistema convenzionale di
segni, dato numerico, codice binario (bit)
In generale l’informazione è una sequenza di simboli: la sorgente
di un processo è una qualunque entità che può trasmettere
informazioni sotto forma di sequenze di simboli
Il canale è il mezzo attraverso il quale è trasmessa l'informazione
La caratteristica propria del canale è il fatto di produrre rumore (o
distorsione, o errore), una caratteristica presente in tutti i processi
di comunicazione
L’approccio in termini cognitivi
L’approccio cognitivo enfatizza le relazioni tra la realtà
fenomenica e la sua interpretazione da parte di un agente.
Congettura
Informazione
Agente
Output
Input
Controllo
Realtà
Teoria
Una teoria diffusa nell’ambito delle scienze cognitive è il c.d.
modello input/output:
Fenomeno/fatto/fenomenologia
L’uso scientifico del termine fenomeno fa riferimento ad
avvenimenti ed eventi che accadono intorno a noi (nel tempo
e nello spazio) e che siamo in grado di osservare
I «fenomeni» pertanto sono logicamente distinti dagli
«oggetti» che pure si trovano intorno a noi, ma che
mantengono nel tempo e nello spazio una sostanziale
identità
La definizione di fenomeno implica quindi un qualche tipo di
mutamento di stato nel tempo e/o nello spazio
Fenomeno/fatto/fenomenologia
Una parola spesso utilizzata come sinonimo di fenomeno è
fatto
Tuttavia l’uso di quest’ultimo termine è limitato a un singolo
evento, mentre il fenomeno indica un insieme di fatti in
qualche modo collegati tra loro
Esempio: un crollo di borsa è un fatto economico; i corsi azionari, le operazioni
di mercato, la produzione industriale sono fenomeni economici
In alcuni casi il collegamento tra fatti può essere stabilito in
maniera agevole e intuitiva attraverso l’osservazione. In altri
casi l’individuazione del legame può richiedere il passaggio
dall’osservazione all’esperimento
Fenomeno/fatto/fenomenologia
Con il termine fenomenologia indichiamo un insieme di fatti
e fenomeni posti convenzionalmente in relazione
Il mondo «reale» è caratterizzato dall’esistenza di oggetti e
dal verificarsi di processi, mutamenti, fatti e fenomeni
Le caratteristiche di «realtà» di tali elementi sono definite in
base a convenzioni, cioè ad accordi intersoggettivi tra
osservatori
L’attribuzione al fenomeno di qualificazioni quali «fisico», «biologico»,
«economico» implica sempre il riconoscimento di un contesto, di
caratteristiche comuni e, talvolta, l’esistenza di una descrizione scientifica
Dall’osservazione alla descrizione, dalla descrizione alla teoria
Nella vita di tutti i giorni siamo soliti descrivere i fenomeni
limitandoci ad evidenziarne le caratteristiche più evidenti
Queste descrizioni possono assumere il carattere di leggi
anche se sono espresse esclusivamente in forma verbale
Il problema nasce dal fatto che una descrizione verbale
potrebbe rivelarsi inadeguata in presenza di concatenazioni di
eventi particolarmente complesse, tanto da rendere
impossibili previsioni accurate
In questi casi è necessario definire meglio il fenomeno
indicando le grandezze suscettibili di misurazione e che ne
determinano l’evoluzione
Dall’osservazione alla descrizione, dalla descrizione alla teoria
I fenomeni possono essere descritti in forma parzialmente
unificata attraverso leggi empiriche, cioè relazioni tra le
grandezze che ne influenzano manifestazioni e dinamica
Il problema centrale nella descrizione scientifica di un
fenomeno risiede quindi nella definizione e misurazione di
tali grandezze, che prendono il nome di variabili
È importante notare che la descrizione di un fenomeno
attraverso leggi empiriche, fornendo indicazioni sulle sue
modalità di manifestazione, potrebbe consentirci di formulare
qualche tipo di previsione anche per fenomeni simili
Dall’osservazione alla descrizione, dalla descrizione alla teoria
Una più ampia capacità predittiva si ha tuttavia se più fenomeni
possono essere inquadrati in uno stesso schema teorico.
Una teoria, a differenza di una legge empirica, definisce un
mondo ideale che rappresenta il modello per descrivere e
spiegare i fenomeni osservati
In altri termini si elabora uno schema teorico per comprendere
perché il fenomeno ha luogo e perché si manifesta nel modo
osservato empiricamente
Dall’osservazione alla descrizione, dalla descrizione alla teoria
Gli schemi teorici sono generalmente espressi in forma di
relazioni funzionali tra variabili, il che rende necessaria l’adozione
di una notazione logico-matematica
Se il nostro obiettivo è verificarne la capacità esplicativa e
l’applicabilità nel mondo reale, tuttavia, prima o poi saremo
obbligati a “riportare la vita” nei nostri (più o meno) sofisticati
schemi teorici e sostituire quantità numeriche alle variabili
matematiche
Dall’osservazione alla descrizione, dalla descrizione alla teoria
Questo passaggio dall’astrazione teorica alla realtà non è
immediato come potrebbe sembrare
L’analisi di situazioni concrete richiede che queste ultime possano
essere individuate, definite e misurate
Possiamo svolgere queste operazioni su un fenomeno
considerato nella sua globalità o, più spesso, su un sottoinsieme
ristretto di sue manifestazioni, spesso individuate tramite
procedure di campionamento
Va notato che a differenza delle scienze sperimentali,
in cui l’esperimento può entro certi limiti essere
ripetuto, nelle scienze sociali la possibilità di
effettuare esperimenti in condizioni di laboratorio
rappresenta un’eccezione e non la regola
Organizzare e analizzare le informazioni
Formulare congetture, teorie, previsioni sul mondo circostante è
un’attività abituale dell’essere umano e non è confinata agli
operatori della conoscenza
L’essere umano è posto nella necessità di interpretare fatti e
fenomeni e risalire a concatenazione casuali che possono essere
molto complesse
In tale attività conoscitiva assume centralità il processo di
organizzazione e analisi delle informazioni raccolte
L’organizzazione e l’analisi delle informazioni è uno degli
obiettivi delle discipline statistiche
Breve storia delle discipline statistiche
La statistica nella sua evoluzione non si discosta dal percorso di
altre discipline scientifiche: nasce come attività pratica,
indirizzata alla soluzione di problemi concreti e contingenti, per
poi sistematizzarsi in una successiva fase metologica
In quanto disciplina scientifica, la statistica è relativamente
recente: le prime attività ad essa riconducibili risalgono al XVII
secolo e furono favorite dal grande sviluppo delle discipline
matematiche e del c.d. metodo scientifico
La pratica statistica nell’antichità
La pratica statistica si è sviluppata in epoche lontane. Ancora
prima che si evolvesse la scrittura, l’uomo incideva tacche al fine
di contare uomini, prodotti della caccia, animali allevati (cioè
forme elementari di censimento e di inventario)
Tali attività possono essere considerate le prime rudimentali
statistiche (intese come descrizione quantitativa di fenomeni di
interesse), nate dalla necessità di conoscere gli elementi rilevanti
dell’habitat esterno all’osservatore
La pratica statistica nell’antichità
Tracce di tali attività originarie sono evidenti nei sistemi numerici
in uso nell’antichità:
Sistema numerico
sumero
Sistema numerico
babilonese
Sistema numerico
egizio
La pratica statistica nell’antichità
Con l’affermazione delle prime grandi civiltà (cinese, babilonese,
egizia) nasce l’esigenza di raccogliere informazioni e sintetizzarle
attraverso semplici elaborazioni statistiche
La finalità prevalente delle rilevazioni pratiche è sempre stata
quella di reperire dati ed elementi per consentire il miglior
governo della cosa pubblica. In particolare, l’obiettivo di tali
rilevazioni era costituito dalla raccolta di informazioni su
•
•
•
•
la popolazione nel suo complesso;
gli uomini idonei alle armi;
la determinazione del gettito delle imposte;
la ripartizione della proprietà terriera
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Cina. L’impero cinese era caratterizzato da una popolazione numerosa e da
un vasto territorio. Era quindi fondamentale, per i suoi governanti,
conoscere la numerosità dei sudditi e l’estensione dell’impero
La fonte documentale di tali attività è uno dei testi sacri del confucianesimo,
lo Shu-King, che narra come, nel 2200 a.C., dopo una grave inondazione, il
ministro Yu dell’imperatore Yao, per conoscere i confini dell’impero e per
richiedere i tributi:
•
•
•
•
divide il territorio della Cina in 9 province;
ne misura l’estensione;
individua le produzioni economicamente rilevanti;
censisce la popolazione, classificandola per attività e mestieri esercitati
Successivamente si ha notizia di censimenti attuati circa ogni tre anni e,
durante l’epoca Ming (1368-1644), ogni dieci anni
Breve excursus delle rilevazioni statistiche svolte nell’antichità
India. Informazioni sulle pratiche statistiche realizzate in India si ricavano dal
Darmasastra, il codice civile e religioso compilato da Manu nel 1200 a.C.
Questo testo illustra le regole che «da tempo immemorabile riguardano la
condotta dei Principi», cioè quei principi di amministrazione del territorio
che presuppongono, da parte del sovrano, la conoscenza dei principali
elementi della vita economica della regione
Le rilevazioni, attuate secondo regole indicate dal testo stesso, consentivano
la disciplina delle industrie e dei commerci da parte dell’autorità statale
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Antico Egitto. Le notizie che abbiamo sulle attività statistiche nell’antico
Egitto sono per lo più di fonte greca e latina (Erodoto, Diodoro,Tacito)
Da tali autori apprendiamo che a partire dal 3000 a.C. si realizzarono
censimenti della popolazione per motivi fiscali, militari ma anche per sapere
quanta manodopera era disponibile per realizzare opere pubbliche
Gli Egizi attribuirono l’esecuzione di operazioni statistiche a Sefchet (o
Safhkit o Sashet), la dea dei libri e dei conti
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Mesopotamia. Presso i Sumeri sono state ritrovate tavolette di argilla in cui
sono riportate liste di uomini e di beni, quasi sicuramente compilate a fini
fiscali e risalenti al IV–III millennio a.C. Tali rilevazioni scritte sono fino ad
oggi le più antiche in nostro possesso
In Assiria, nella biblioteca del re Assurbanipal, erano custoditi documenti
statistici sulle gerarchie degli ufficiali amministrativi, sulle province
dell’impero e sulle principali produzioni di beni
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Ebrei. L’unica fonte documentale è la Bibbia
(Esodo 12,37) Narra del censimento degli uomini che partirono dall’Egitto e
quello ad un anno da tale partenza. Questo censimento fu attuato da Mosè e
da Aronne che utilizzarono l’esperienza acquisita alla corte del faraone
(Numeri 1, 1-4) Riporta le modalità di tale rilevazione, i nomi dei rilevatori e gli esiti. Furono così
censiti 603.550 uomini corrispondenti ad una popolazione di circa 2.000.000 di persone
(Numeri 26, 51) Alla fine dei quarant’anni nel deserto la popolazione fu nuovamente contata, e si
trovò un totale di 601.730 uomini. Tale censimento fu compiuto al fine di individuare i soldati
disponibili per la guerra volta alla conquista del territorio d’Israele
(Samuele 24 1ss.) Racconta il censimento voluto dal re Davide
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Antica Grecia. Si ha notizia del censimento di Solone, in relazione alla
riforma fiscale legata alla proprietà della terra e, in particolare, all’esigenza di
stilare una lista degli elettori basata sul valore della terra da loro posseduta
Tucidide applica semplici metodi statistici (in particolare la media aritmetica)
per risolvere alcuni semplici problemi di stima. Lo stesso storico mette poi in
guardia i lettori contro i dati riportati da Erodoto e Omero, che ritiene poco
attendibili
Gli ateniesi applicarono un sistema per rilevare nascite e morti: i parenti
avevano l’obbligo di offrire alla sacerdotessa di Minerva una misura d’orzo
(nel caso di nascita), una di frumento (in caso di morte) ed un obolo in
occasione di ogni nascita e di ogni morte. Il conteggio di tali oboli consentiva
quindi di risalire al numero dei nati e dei morti
Breve excursus delle rilevazioni statistiche svolte nell’antichità
Antica Roma. La società romana era organizzata su basi censitarie. I cittadini
erano così registrati congiuntamente ai loro beni nel «census», la radice
latina del termine «censimento»
La raccolta amministrativa di informazioni a Roma era basata sulla
rilevazione congiunta dei cittadini e dei loro beni
Ogni cittadino doveva dichiarare allo Stato
•
•
•
il proprio nome e il patronimico;
i nomi della moglie e dei figli;
l’entità dei propri beni
Tali dichiarazione erano in seguito registrate (censite) dall’amministrazione
statale. Tali registri servivano poi alla ripartizione delle imposte. A tale
compito erano preposti due «censores» - istituiti nel 443 a.C. - i più
importanti magistrati romani dopo i consoli
Le rilevazioni statistiche dal Medioevo al Rinascimento
Impero carolingio. Carlo Magno (808) istituisce nei possedimenti sottoposti
alla sua autorità il breviarium fiscalium per rilevare e aggiornare
•
•
•
l’entità e il valore delle terre poste sotto autorità imperiale;
I benefici della chiesa;
I benefici dei feudatari
Inventari dei latifondi regi e delle grandi proprietà terriere private furono poi
ordinati da Carlo il Grosso e da Lodovico il Germanico. Gli organismi
ecclesiastici quali abbazie e monasteri attivarono un «registro dei beni»
comprendente il numero degli abitanti e dei terreni ad essi soggetti, per
determinare le decime
Le rilevazioni statistiche dal Medioevo al Rinascimento
Inghilterra. In Inghilterra il re normanno Guglielmo il Conquistatore
costituisce il Doomsday-book o Domesday (1083-86) che descrive
•
•
•
•
le terre, il loro valore, il prezzo degli affitti ed i relativi proprietari;
il numero dei servi sassoni;
i mulini, gli stagni;
gli alveari, gli aratri, il bestiame
Da notare che il nome sassone domes daeg significa sia il giorno
dell’udienza, sia il giorno del giudizio
Le rilevazioni statistiche dal Medioevo al Rinascimento
Arabi. Nel periodo della loro espansione in Spagna svolsero molte rilevazioni
statistiche. Nel 702 d.C. il governatore di Cordova inviò al Califfo d’Africa una
descrizione particolareggiata
•
•
•
•
•
della geografia della Spagna;
del numero degli abitanti;
delle fabbriche, degli operai;
dei libri nelle biblioteche;
dell’ammontare delle rendite
Le rilevazioni statistiche dal Medioevo al Rinascimento
Repubblica di Venezia. La Repubblica Veneta tenta di organizzare le
informazioni necessarie al governo del territorio sin dai suoi primordi. Nel
978 la Repubblica stila un elenco delle persone soggette al pagamento delle
tasse e, nel 1171, una lista dei cittadini creditori verso lo stato (catasticus)
Nel XII secolo è istituito il registro dei forestieri e degli iscritti alle
corporazioni
Nel 1311 si svolge il censimento di Corone e Modone, città soggette al
dominio di Venezia, che costituisce il primo modello di rilevazione diretta,
nominativa e universale
Nel 1440 il Consiglio dei Dieci istituisce un piano di rilevazione che può
essere considerato il primo censimento moderno della popolazione, distinta
per età, sesso, professione, condizione sociale e nazionalità
Le rilevazioni statistiche dal Medioevo al Rinascimento
Le rilevazioni parrocchiali. Sul finire del 1400 si diffuse l’uso di compilare
«tavole genetliache» in cui venivano iscritti i nomi di tutti i battezzati, dei
loro genitori e dei padrini sia in Italia sia in Francia; furono pure introdotti i
“registri mortuari” nei quali venivano registrate le persone decedute
Il Concilio di Trento (1565) accoglie questa pratica ed obbliga i parroci alla
tenuta dei registri dei battesimi, dei matrimoni e delle morti
Anche la neonata Chiesa Anglicana, su ordine del cancelliere Thomas
Cromwell, impone ai suoi parroci, quasi contemporaneamente alla chiesa
cattolica, l’obbligo di svolgere tali rilevazioni
La nascita della statistica come metodologia
L’evoluzione delle scienze dopo Galileo coinvolge anche le rilevazioni
pratiche delle informazioni, che si avviano a diventare statistiche vere e
proprie. Difatti quando un’attività pratica diventa sempre più complessa e
frequente sorge la necessità di stabilire un metodo per la sua realizzazione.
La ricerca di un metodo proprio per la Statistica perseguì due scopi:
•
•
dare basi scientifiche alle indagini e alle rilevazioni per garantirne
l’affidabilità (la verosimiglianza)
sintetizzare in modo appropriato un insieme di dati per
identificare e leggere le caratteristiche del collettivo osservato
La nascita della statistica come metodologia
Nel XVII secolo non ci si limita più ad osservare dati di per sé “statici”, a fare
cioè pura e semplice contabilità, ma si inizia ad analizzare i dati
Da attività di conteggio, enumerazione ed anche di calcolo di semplici medie
su rilevazioni svolte per gli scopi più diversi, considerabili ancora ambito
dell’Aritmetica, si passa all’osservazione di proprietà di un insieme di dati, del
quale si cerca di studiarne i seguenti aspetti:
•
•
•
la possibilità di sintesi delle osservazioni attraverso il calcolo
di medie;
la variabilità dei dati rispetto alla media;
la dipendenza/indipendenza di due caratteri
Questo passaggio segna l’origine una nuova disciplina che verrà
successivamente denominata «statistica»
I precursori: John Graunt e William Petty
La nascita della statistica metodologica è
attribuita a John Graunt (1620-1674)
Commerciante di tessuti nominato capitano delle
milizie civiche e socio della Royal Society di
Londra, Graunt pubblicò nel 1662 la memoria
«Osservazioni naturali e politiche elencate
nell’indice seguente ed eseguite sui bollettini
della mortalità, dal capitano John Graunt,
cittadino di Londra, con riferimento al governo,
alla religione, al commercio, allo sviluppo, al
clima, alle malattie e ai vari mutamenti della città
di Londra»
I precursori: John Graunt e William Petty
Graunt utilizzò i dati pubblicati settimanalmente, e di solito letti o per pura
curiosità o per prevedere il sorgere di un’epidemia in città, e quindi prendere
le debite contromisure quali quella di rifugiarsi nelle campagne
Il scopo di Graunt era quello di ricavare da queste tavole regolarità
scientifiche, quali l’inurbamento della popolazione contadina, il legame tra
suicidio e professione, l’eccedenza delle nascite tra i due sessi
L’innovazione di Graunt consiste nell’utilizzare nelle scienze sociali oggetto
dei suoi studi, metodi logici e tecnici di tipo naturalistico, classificatorio ed
induttivo che costituiscono il primo abbozzo scientifico della Statistica
modernamente intesa
Amico di Graunt e continuatore della sua opera fu William Petty (1623-1687)
che con gli stessi metodi calcolò la popolazione di città come Londra e
Dublino, la sua crescita, la distribuzione uomini/donne, la valutazione di beni
e merci, nonché la prima stima del reddito nazionale inglese e francese
L’aritmetica politica
L’indirizzo di studi nato da Graunt e Petty fu denominato «Aritmetica
Politica», cioè «l’arte del ragionare per mezzo di cifre sulle cose aventi
attinenza col Governo» e fu caratterizzato dall’utilizzo del metodo empirico
induttivo, proprio delle scienze naturali, matematizzando i dati
dell’esperienza
Altri esponenti dell’aritmetica politica furono L. Huygens (1692-1695), de
Witt e Jan Hudde che fecero studi sulla valutazione delle rendite sulle tavole
di mortalità, speranza di vita, curva di mortalità. Anche Leibniz attuò ricerche
sulla vita media, vita probabile, popolazione stazionaria, calcolo della
fecondità.
L’aritmetica politica
L’astronomo inglese Edmond Halley (1656-1742) raccolse le tabelle di
mortalità della città di Breslavia per regolare il valore delle assicurazioni sulla
vita, fondando così la matematica assicurativa. Il suo metodo fu corretto da
Leonardo Eulero in modo tale da tener conto dell’eccesso delle nascite sulle
morti
Tra i fondatori della statistica ricordiamo anche Abraham De Moivre (16671754): matematico francese ugonotto, costretto all’esilio in Inghilterra,
sviluppa il calcolo della probabilità per sbarcare il lunario, consigliando i
giocatori d’azzardo inglesi. De Moivre pubblicò nel novembre 1733 un saggio
sulla distribuzione binomiale e sulla transizione concettuale delle colonne
dell’istogramma alla curva continua e formulò l’equazione della curva
normale
Nasce il termine «statistica»
Corning (1660-1681), professore di diritto pubblico a Gottinga, tenne un ciclo
di lezioni nelle quali descrisse ed esaminò le “cose notevoli” di uno stato
(senza dati quantitativi) e denomina la disciplina elaborata in tali corsi come
Notitia rerum publicarum o Staatskunde
Achenwell (1719-1772), anch’egli professore a Gottinga, diede una struttura
più organica alla disciplina iniziata da Corning definendo che “la conoscenza
dello Stato” di cui si occupa la nuova disciplina è quella della sua costituzione
nel presente. Tale disciplina prese il nome di Statistica universitaria
La Statistica Universitaria si configurava come descrizione, per lo più
qualitativa, dei fenomeni oggetto di studio: non era ancora volta alla ricerca
di leggi in grado di spiegare i fenomeni descritti
La statistica come disciplina autonoma
La Statistica nasce dalla confluenza della statistica universitaria tedesca e
dell’aritmetica politica inglese
A queste si aggiungono i contributi della corrente francese tramite lo
sviluppo del calcolo delle probabilità ad opera di Pascal e Fermat e l’opera
dell’architetto militare Vauban (1633-1707) che caldeggiò l’istituzione di
statistiche ufficiali e la necessità dei censimenti, svolti tramite un’articolata
modulistica
Gli strumenti concettuali e materiali che favorirono la nascita della statistica
furono la geometria analitica e l’analisi matematica, il calcolo delle
probabilità, il calcolo dei logaritmi e lo sviluppo delle prime macchine
calcolatrici, da quella di Pascal (1642) - che meccanizzava solo addizione e
sottrazione - a quelle di Morland (1625-1695) e Leibniz che erano in grado di
eseguire anche la moltiplicazione
Gli albori della statistica induttiva
Un posto a parte nella storia della statistica è occupato da Thomas Bayes
(1702-1761), uno dei precursori della statistica induttiva (o inferenziale) e
della teoria del campionamento
Nel suo saggio «Essay towards solving a Problem in the doctrine of chances»
(uscito postumo nel 1764) Bayes si preoccupò di stabilire una concordanza
tra le ipotesi enunciate a priori e le esperienze successive ed in particolare
di come queste esperienze potessero modificare l’ipotesi relativa ad una
situazione. In sostanza il Teorema di Bayes modellizza la verifica dinamica di
ipotesi e la loro correzione in funzione delle informazioni via via disponibili
La statistica nel XIX secolo
La statistica si struttura come una disciplina che offre un ampio campo
speculativo negli ambiti demografico, economico, matematico, attuariale
Notevole per lo sviluppo di questi filoni statistici il contributo matematico di
Laplace e di Gauss, legati in particolare all’uso della probabilità
Ricordiamo per la demografia il contributo di Malthus (1766-1834) che
imposta scientificamente i problemi, raccoglie personalmente documenti
demografici ed economici ed è tra i fondatori nel 1834 della Royal Statistical
Society a Londra
La statistica nel XIX secolo
Adolphe Quételet (1796-1864). Matematico ed astronomo belga, è
considerato da molti il fondatore della Statistica moderna. Egli si occupò di
calcolo delle probabilità e ne ricercò l’applicazione nel campo dei fenomeni
sociali
Nel 1846 Quételet pubblicò le «Lettres sur la théorie des probabilités
appliquée aux sciences morales et politiques», dove illustra come, in una
popolazione omogenea, i caratteri dei singoli individui si distribuiscano
secondo una curva, avente ordinate proporzionali ai successivi termini dello
sviluppo del binomio di Newton
La statistica nel XIX secolo
Già nel 1835 Quételet aveva formulato la teoria «dell’uomo medio» che
ipotizzava il tipo fisico di una popolazione ottenuto attraverso la media
aritmetica dei vari caratteri fisici dei suoi componenti
Quételet conclude che i caratteri umani si possono studiare con il calcolo
delle probabilità e che per essi vale la legge dei minimi quadrati formulata da
Gauss e Legendre per eliminare le discordanze tra le diverse misure di un
fenomeno fisico
Questa teoria era un’illusione che fu smentita dall’analisi sperimentale e
statistica delle scienze naturali; tuttavia gli studi di Quètelet posero le basi
per l’enorme sviluppo, in tutti i campi del sapere, della statistica
La statistica nel XIX secolo
Francis Galton (1822-1911). Biologo (e cugino di C.Darwin), criminologo
(propose la registrazione delle impronte digitali per individuare i delinquenti
fuggiti o recidivi) ed esploratore africano, propugnò l’introduzione di metodi
quantitativi in biologia, progettando scale di misurazione per tutte le
caratteristiche fisiche
Si occupò anche di meteorologia (suo è il termine “anticiclone” per indicare
una zona di alta pressione)
Nei suoi saggi (1886-1888), che si pongono sulla scia di Quételet, introduce
la regressione lineare e la correlazione
La statistica nel XIX secolo
Karl Pearson (1875-1936). Formula l’equazione della legge normale
multidimensionale, scopre la correlazione parziale, il test del χ² e il metodo
di costruzione di stimatori campionari noto come metodo della massima
verosomiglianza
Pearson si rende conto che esistono fenomeni che non si distribuiscono
affatto secondo la legge «normale» e pone le basi per il loro studio
Inoltre prende coscienza che se anche due variabili naturali si comportano
secondo una data funzione, ciò non prova affatto che vi sia un legame
effettivo che spieghi i relativi fenomeni
La statistica nel XIX secolo
La statistica, che agli inizi del XIX secolo si occupava ancora della raccolta e
della sistemazione dei «fatti illustranti la condizione e le risorse dello stato»,
nella prima metà del secolo amplia il proprio ambito analizzando la
condizione della popolazione, in particolare negli aspetti riguardanti la
povertà, il crimine e l’educazione
Verso la fine del secolo si strutturò come analisi e studio di fenomeni dotati
di variabilità attinenti a qualsiasi campo del sapere (botanica, agricoltura,
zoologia, medicina, fisica). Ciò avvenne grazie al fecondo periodo di studi
iniziato da Quételet e dagli altri studiosi che furono influenzati dal suo
approccio
La statistica entra nel «secolo breve»
Alla fine del XIX secolo si impone un nuovo indirizzo statistico, noto come
inferenza statistica, che ricerca metodi per ricavare da campioni di
osservazioni e da rilevazioni parziali conclusioni valide per la totalità della
popolazione oggetto di studio
In questi studi si distinse William S. Gosset (1876-1937). Chimico, lavorò
presso la fabbrica della birra Guinness a Dublino
Gosset individuò un metodo per trarre conclusioni consistenti da campioni
piccoli o addirittura piccolissimi e pubblicò i suoi studi sotto lo pseudonimo
Student (da cui la distribuzione nota come t di Student), non essendogli
permesso di firmare lavori scientifici extraprofessionali
La statistica entra nel «secolo breve»
Ronald A. Fisher (1890-1962). Matematico, astronomo e fisico. Ancora
studente, iniziò ad occuparsi di statistica, interessandosi prevalentemente
della distribuzione campionaria, della stima campionaria e della
programmazione ed interpretazione degli esperimenti
Riformulò la t di Student e costruì i metodi più comunemente usati per
l’analisi statistica, in particolare l’analisi della varianza (ANOVA) e il piano
degli esperimenti
Molti sono gli statistici di questo periodo che approfondirono e precisarono
gli strumenti ideati da Quételet, Galton, Pearson e Fisher, ma sarebbe troppo
lungo elencarli tutti. Per chi volesse approfondire questo aspetto più
propriamente tecnico rimando al testo seguente:
Sthephen M. Stigler (1990), The history of
Statistics. The Measurement of Uncertainty
before 1900, Belknap Press
Il metodo statistico
La statistica è l’insieme dei metodi logico-matematici per lo
studio quantitativo e qualitativo di un fenomeno
Tale disciplina studia i metodi attraverso i quali una realtà
fenomenica può essere sintetizzata e quindi compresa attraverso:
1. La raccolta e l’analisi di informazioni
2. La traduzione delle informazioni in dati
3. La verifica di ipotesi
La scienza statistica è comunemente suddivisa in due branche
principali:
A. statistica descrittiva
B. statistica inferenziale
L’approccio descrittivo
La statistica descrittiva è la branca della statistica che studia i
criteri di rilevazione, di classificazione e di sintesi delle
informazioni relative ad una popolazione oggetto di studio
La statistica descrittiva raccoglie le informazioni sulla
popolazione, o su una parte di essa (campione), in distribuzioni
semplici o complesse (almeno due caratteri) e le descrive
attraverso famiglie di indici: indici di posizione, indici di
variabilità, indici di forma, rapporti statistici, relazioni statistiche
I risultati ottenuti in tal modo si possono definire certi, a meno di
errori di misurazione che, se dovuti al caso, in media si annullano.
La statistica descrittiva ha come obiettivo quello di organizzare,
riassumere e presentare i dati in modo ordinato; i suoi
strumenti permettono quindi di sintetizzare i dati
L’approccio inferenziale
Inferenza: trarre conclusioni logiche a partire dai dati osservati
La statistica inferenziale ha come obiettivo quello di risalire alle
caratteristiche di una popolazione incognita, oggetto di studio,
dall’osservazione di un campione finito di sue manifestazioni, con
una possibilità di errore predeterminata dal ricercatore
Le inferenze possono riguardare il meccanismo generatore (la
legge probabilistica) del fenomeno che si osserva. La conoscenza
di tale struttura probabilistica permetterà poi di fare una
previsione (si pensi, ad esempio, che quando si afferma che
«l'inflazione il prossimo anno avrà una certa entità» ciò implica
l’esistenza di un modello dell'andamento dell'inflazione
formulato con tecniche inferenziali)
L’approccio inferenziale
La statistica inferenziale è fortemente legata alla teoria della
probabilità
Sotto questo punto di vista descrivere in termini probabilistici o
statistici un fenomeno aleatorio nel tempo, caratterizzabile
dunque da una variabile aleatoria, vuol dire descriverlo in
termini di densità di distribuzione di probabilità e dei suoi
parametri: media (o valore atteso) e varianza
La statistica inferenziale si articola poi in altri ambiti tematici, di
cui i più importanti sono la teoria della stima (stima puntuale e
stima intervallare) e la verifica (test) di ipotesi
Il concetto di grandezza
Uno dei principali ambiti di applicazione dei metodi statistici è il
confronto tra grandezze
Nell’uso corrente, il termine grandezza ha un significato intuitivo.
Tuttavia, da una rapida consultazione di un qualsiasi dizionario (il
Sabatini Coletti nel nostro caso) appare evidente che il concetto
sottostante non risulta affatto di immediata definizione
Infatti il termine grandezza può essere riferito a: 1. Dimensioni, mole di un oggetto
considerato in lunghezza, larghezza, altezza, volume (misurare la grandezza di
qualcosa; anche con riferimento a persona: un uomo di media grandezza); 2.
Eccedenza ed eccezionalità rispetto alle misure ritenute normali, anche in senso
figurato (la grandezza di Shakespeare; avere manie di grandezza: ostentare un alto
tenore di vita non adeguato alle reali possibilità finanziarie; grandezza d'animo:
magnanimità); 3. (mat., fis.) Classe di enti a ciascuno dei quali può essere assegnata
una misura; anche, la misura stessa: grandezze omogenee, commensurabili;
grandezza scalare, vettoriale
Il concetto di grandezza
Nell’ultima accezione il termine «grandezza» è indissolubilmente
legato alle operazioni di misura. Appare quindi utile aprire una
brevissima parentesi sulla sua definizione formale
Nei «Principia Mathematica» Russell e Whitehead propongono la
seguente definizione di grandezza:
esiste una certa coppia di relazioni indefinibili, maggiore o minore; queste
relazioni sono simmetriche e transitive e sono incompatibili l’una con l’altra.
Ognuna è l’inverso dell’altra nel senso che ogni volta che una è valida tra A e
B, l’altra è valida tra B e A. I termini che risultano suscettibili di queste
relazioni sono grandezze. Ogni grandezza ha una certa relazione particolare
con qualche concetto, espressa dicendo che essa è una grandezza di quel
concetto. Due grandezze che hanno questa relazione col medesimo concetto,
si dicono dello stesso genere; essere dello stesso genere è la condizione
necessaria e sufficiente per la relazione di maggiore e minore
Alfred N. Whitehead, Bertrand Russell (1910-12),
Principia mathematica, 3 Vol., Cambridge University
Press
Il concetto di grandezza
Tentiamo di rendere meno criptica questa definizione, partendo
dalla nozione di relazione di equivalenza
In matematica il concetto di relazione di equivalenza esprime
l’idea di similitudine tra oggetti. Formalmente, la relazione di
equivalenza è una relazione binaria (cioè una corrispondenza tra
due oggetti che indicheremo come ~ e leggeremo come
“equivalente a”)
Dato un insieme A, una relazione binaria ~ è una relazione di
equivalenza se è riflessiva (per ogni elemento a appartenente
all’insieme A, deve risultare che a~a); simmetrica (per ogni
coppia a, b di elementi di A, a~b implica b~a); transitiva (per ogni
terna (a, b, c ) di elementi di A, se a~b e b~c allora a~c)
Il concetto di grandezza
Due elementi tra i quali sussiste una relazione di equivalenza ~ si
dicono equivalenti, in quanto la proprietà di simmetria ci
consente di prescindere dall’ordine con cui quegli elementi
compaiono all’interno della relazione
Un sottoinsieme di A che contiene tutti e solo gli elementi
equivalenti a un qualche elemento a di A prende il nome di classe
di equivalenza di a, in simboli [a]~ o anche {a}~
Definiremo insieme quoziente per la relazione di equivalenza ~
l'insieme delle classi di equivalenza su A e indicheremo questa
particolare partizione su A con l'espressione A/~.
Il concetto di grandezza
Esempio
Un esempio di insieme quoziente è costituito dai numeri
razionali. I numeri razionali possono essere costruiti come
l’insieme delle classi di equivalenza di coppie di numeri interi (a,
b), con b diverso da zero, dove la relazione di equivalenza è
definita come (a, b) ~ (c, d) se e solo se ad = bc
In questo caso, la classe di equivalenza a cui appartiene (a, b) è
identificata con la frazione a/b.
Il concetto di grandezza
Con queste nozioni, siamo in grado di definire formalmente il
concetto di grandezza
Definiamo grandezza una classe di equivalenza di proprietà
misurabili. Condizione necessaria affinché una classe di
equivalenza di proprietà sia misurabile è che sia possibile stabilire
una relazione d’ordine fra quelle proprietà in sistemi diversi:
poter giudicare quale sistema presenta «più» proprietà dell’altro
Se il confronto si svolge tramite un rapporto fra le proprietà dei
due sistemi, allora la classe di equivalenza di quelle proprietà è
una grandezza
Il concetto di grandezza
In questo caso, è possibile scegliere la proprietà di un particolare
sistema ed eleggerla a unità di misura per quella grandezza
Fissata l’unità di misura, la quantità di tale grandezza per un
qualsiasi altro sistema potrà essere univocamente specificata da
un valore numerico ottenuto dal rapporto con la proprietà scelta
come campione di riferimento
Il concetto di grandezza
Esempio
Pensiamo al concetto di lunghezza. La lunghezza è una proprietà
astratta dello spazio. Il chilometro è un termine astratto che
partecipa del concetto di lunghezza; così pure il metro, il
centimetro, il micron, sono tutti termini compresi nel concetto di
lunghezza e quindi partecipano di quel concetto
I termini «chilometro», «metro», «centimetro», «micron» stanno
fra loro nel rapporto di maggiore o minore: infatti un chilometro
è maggiore di un metro, un centimetro è maggiore di un micron
ed è minore di un metro
Quindi chilometro, metro, centimetro, micron sono grandezze,
mentre la lunghezza è una classe di grandezze, riferita ad una
proprietà astratta dello spazio
Il concetto di grandezza
Torniamo adesso a quanto detto all’inizio della presente sezione
e domandiamoci qual è lo scopo del confronto fra grandezze
In generale, confrontiamo grandezze per cogliere le diversità
esistenti tra gli stati attraverso i quali un fenomeno si manifesta,
operazione indispensabile ai fini della conoscenza del mondo
reale
Il confronto fra grandezze è cruciale, anche quando non riguarda
grandezze omogenee o, comunque, direttamente confrontabili:
garantire coerenza e significatività ai risultati di un confronto,
quindi, implica affrontare e risolvere problemi complessi
Le scale di misura
Misurazione
Assegnazione di valori numerici ad eventi/oggetti, secondo regole
definite, che permette di rappresentare le proprietà di un
evento/oggetto con le proprietà del sistema numerico
Le regole tramite le quali i valori numerici sono assegnati agli eventi
determinano le caratteristiche della misura
Le scale di misura
Variabile: è la proprietà operativizzata, cioè rilevata sui casi attraverso
una procedura di «definizione operativa». Nel caso di caratteri
qualitativi (non definiti su spazi numerici) si parlerà di mutabile
Le variabili si classificano in
1.
2.
3.
4.
Qualitative (variano in genere) e quantitative (variano in grandezza)
Nominali, ordinali e cardinali
Dicotomiche e politomiche
Continue/discrete
Le scale di misura
Scala nominale
1. Permette di classificare eventi e oggetti in categorie
2. I differenti stati assunti dal fenomeno sono indicati da una qualità
non numerica (es. colore, genere). Gli stati stessi non possono
essere ordinati con un criterio del tipo maggiore/minore
3. Operazioni ammesse: uguale/diverso
4. Indicatori di sintesi: moda
Le scale di misura
Esempio di fenomeno definito su scala nominale
Ipotizziamo di domandare a 8 ragazzi di quale colore sceglieranno il
prossimo smartphone e di raccogliere le loro risposte nel seguente
prospetto:
Unità di rilevazione
Marco
Giorgio
Rebecca
Claudia
Alessia
Matteo
Vanessa
Nicholas
Colore
preferito
Nero
Bianco
Arancione
Bianco
Nero
Verde
Bianco
Bianco
Le scale di misura
Esempio di fenomeno definito su scala nominale
Possiamo sintetizzare le loro risposte in una tabella costruita nel modo
seguente:
Colore preferito
(X)
Nero
Bianco
Arancione
Verde
Totale
Frequenza
assoluta
( Nx )
2
4
1
1
Frequenza
relativa
( fx )
0,250
0,500
0,125
0,125
8
1,000
Le scale di misura
Scala ordinale
1. Dispone oggetti ed eventi in sequenza in base a un ordine
convenzionale (es. gradi militari)
2. Dà solo l’ordine degli oggetti/eventi
3. Operazioni ammesse:
– uguale/diverso
– maggiore/minore
4. Indicatori di sintesi: moda, mediana
Le scale di misura
Esempio di fenomeno definito su scala ordinale
Ipotizziamo di aver rilevato il livello di scolarità all’interno di un
collettivo di N = 100 dipendenti di una società multinazionale e di aver
sintetizzato i risultati della rilevazione nel seguente prospetto:
Livello di scolarità
(X)
Nessun titolo
Licenza elementare
Scuola media inferiore
Scuola media superiore
Laurea triennale
Laurea specialistica
Master/Dottorato
Totale
Frequenza
assoluta
( Nx )
0
1
4
40
35
15
5
Frequenza
relativa
( fx )
0,00
0,01
0,04
0,40
0,35
0,15
0,05
100
1,00
Frequenza
relativa
cumulata
( cx )
0,00
0,01
0,05
0,45
0,80
0,95
1,00
Le scale di misura
Scala intervallare
1. Lo zero della scala (l’origine del sistema di riferimento) è arbitrario
(es.: scala Celsius, scala Fahrenheit)
2. I confronti possono essere svolti solo tramite differenze
3. Operazioni ammesse:
– uguale/diverso
– maggiore/minore
– somma, sottrazione
4. Indicatori di sintesi: moda, mediana, media aritmetica, altri
parametri di forma
Esempio: 𝐹 = 32 + 1,8 ∙ 𝐶
Sistema di riferimento Celsius: Roma 10C° Milano 5C°
Sistema di riferimento Fahrenheit: Roma 50F° Milano 41F°
Le scale di misura
Esempio di fenomeno definito su scala intervallare
Ipotizziamo di aver registrato la temperatura alle ore 12 del 3 e del 4
marzo in alcuni capoluoghi italiani. Le informazioni potrebbero essere
organizzate nel seguente prospetto:
Unità di rilevazione
Roma
Milano
Torino
Bologna
Napoli
Bari
Palermo
Temperatura
rilevata alle 12
del 03/03/2015
( C° )
16
12
11
13
15
17
20
Temperatura
rilevata alle 12
del 04/03/2015
( C° )
17
14
12
14
16
18
21
Le scale di misura
Esempio di fenomeno definito su scala intervallare
Il relativo prospetto di sintesi potrebbe essere strutturato nel modo
seguente:
Temperatura
(X)
[10, 14)
[14, 18)
[18, 22]
Totale
Frequenza
assoluta
03/03/2015
( Nx )
3
3
1
Frequenza
assoluta
04/03/2015
( Nx )
1
4
2
Frequenza
relativa
03/03/2015
( fx )
0,429
0,429
0,143
Frequenza
relativa
04/03/2015
( fx )
0,143
0,571
0,286
7
7
1,000
1,000
Le scale di misura
Scala proporzionale (o di rapporti)
1. Lo zero della scala è reale (corrisponde all’assenza della variabile)
2. I rapporti fra i valori numerici hanno significato
3. Operazioni ammesse:
– uguale/diverso
– maggiore/minore
– addizione, sottrazione, moltiplicazione, divisione
4. Indicatori di sintesi: moda, mediana, medie di potenze, altri
parametri di forma, altri rapporti statistici
Le scale di misura
Esempio di fenomeno definito su scala proporzionale
Ipotizziamo di rilevare la retribuzione netta mensile all’interno del
collettivo di N = 100 dipendenti di una società multinazionale e di aver
sintetizzato i risultati della rilevazione nel seguente prospetto:
Retribuzione
netta mensile
(X)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500)
[2500, 3000]
Totale
Frequenza
assoluta
( Nx )
8
30
42
15
5
Frequenza
relativa
( fx )
0,08
0,30
0,42
0,15
0,05
100
1,00
Frequenza
relativa
cumulata
( cx )
0,08
0,38
0,80
0,95
1,00
Materiali per la preparazione dell’esame
•
•
•
Giuseppe Leti, Loredana Cerbara (2009), Elementi di statistica descrittiva, Il
Mulino, Bologna
Slides
Altro materiale (testi di esercitazioni, esercizi svolti, complementi) diffuso su
Moodle e sul gruppo di discussione di Facebook
Per ogni ulteriore chiarimento o esigenza informativa:
[email protected]
Scarica

statistica - Dipartimento di Scienze Sociali ed Economiche