Cominciamo a “fare” della Statistica: CLASSIFICAZIONE
Cioè Definizione del COLLETTIVO e delle UNITA’ STATISTICHE
TORNIAMO AL PROBLEMA DEL CONTEGGIO
RICORDATE LE ARANCE E I LIMONI?????
DOBBIAMO COMPIERE LE OPERAZIONI PRELIMINARI
Si tratta di stendere le clausole del contratto che ci porterà a
condividere la misura (statistica) di quello che ci interessa:
Come tutti i contratti sarà un po’ pedante e pignolo
Cioè dovrà contenere tutti i possibili casi che potremmo incontrare
Definiamo il collettivo: (Gli agrumi)
ad esempio la popolazione residente nella città di Bologna
Il contratto deve consentirci di decidere se, identificata una persona,
questa appartiene o no al collettivo, cioè se risiede a Bologna o no
Dobbiamo chiarire in modo non equivoco il concetto di residenza: es.
“iscritto all’anagrafe”, “domiciliato abitualmente” …..dipenderà dal perché
vogliamo contare
Definiamo cosa contare: (i singoli frutti)
Ad esempio i titoli di studio di ciascun residente
Valgono le stesse considerazioni precedenti: ad esempio “titolo di studio
ultimo conseguito”, “titolo per cui si sta studiando” , oppure “tipologia del
titolo”
Questa operazione richiede una precisazione
Nel caso dei titoli di studio scopriamo presto che l’unico modo per individuarli è
farne un elenco:
Questo genera il nostro punto di partenza, l’elenco dei titoli di studio dei
Bolognesi costituisce il cosiddetto protocollo elementare
Che è la sequenza {lic.elementare, media, diploma, diploma, laurea, media inf.,
laurea, lic.elementare, laurea, laurea,………..}
oppure
sequenza {Primaria, secondaria, terziaria}
ATTENZIONE NON SEMPRE IL PROTOCOLLO ELEMENTARE E’ UNA LISTA
VEDREMO
Se firmiamo il contratto, se siamo d’accordo ALLORA
Ogni residente a Bologna sarà caratterizzato da un titolo di studio
avremo, cioè, una lista di circa 380.000 titoli di studio ( il diluvio ) del tipo
{primaria, secondaria, primaria, terziaria, terziaria…….}
Il modo in cui ci ripariamo dal diluvio è considerare uguali i titoli di studio uguali, cioè ogni
cittadino sarà collocato in una scatola assieme a coloro che hanno lo stesso titolo di studio.
Poi contiamo il contenuto delle scatole
Gli statistici sono fissati con i simboli???? SI PERCHE’ SONO PIGRI
Alcune domande:
1. Come facciamo ad indicare in modo univoco tutti gli abitanti di Bologna?
Ci vorrebbe nome, cognome, indirizzo, paternità….. SCOMODO. Di solito costruiamo
(o ci immaginiamo) una LISTA NUMERATA e identifichiamo ogni unità con un numero.
Ignazio Drudi sarà, ad esempio, il numero 192.864 di una lista di circa 380.000
2. Come facciamo ad indicare le caratteristiche di ciascuno dei residenti???
Al solito potremmo fare la lista ordinata dei titoli di studio, cioè ogni titolo di studio
avrà un numerino che ci dice a chi appartiene.
Ignazio Drudi-Laureato sarà indicato più semplicemente con LAUREA-192.864
o per evitare confusione con
LAUREA192.864 O ancora più semplice L192.864
3. Ma così abbiamo perso la informazione che Laurea è una voce di una lista!!
Allora complichiamo un po’ il nostro linguaggio e scriviamo:
«il titolo di studio di Drudi è la laurea» Abbiamo le parole (i simboli) per quasi tutto
Drudi = 192.864 Laurea=L ci manca solo «titolo di studio»
Inventiamolo diciamo TS
allora «il titolo di studio di Drudi è la laurea»
Diventa :
TS192.864 = L
Vi ho fregato!!!!!!!
Adesso siete entrati in un mondo che forse non vi piace(va)
Perché?
Perchè adesso basta dire che quello che vale per il titolo di studio vale per qualsiasi
altra caratteristica delle nostre unità
Età, reddito, numero di figli, ……..
Allora se vale per qualsiasi caratteristica ogni valore relativo alle unità può essere
rappresentato in questo modo, quindi vorrò dire qualcosa su una caratteristica
qualsiasi non userò più il simbolo TS (titolo di studio) ma un SIMBOLO GENERICO che
vale per età, reddito, numero di figli… a seconda dei casi.
CHE SIMBOLO??? Facile il simbolo che indica tante cose e nessuna in particolare
la lettera X
E quando vorrò dire qualcosa di una persona qualsiasi userò un altro simbolo, in
questi caso la lettera i
Siccome quello che abbiamo fatto per il titolo di studio si farà anche per il genere
(maschile/femminile), per il numero di figli, per il colore degli occhi, per ……..
Posso descrivere il processo UNA VOLTA SOLA per tutti queste caratteristiche, ma
per farlo ho bisogno di un linguaggio che in un solo simbolo indichi tutte le
caratteristiche e tutte le persone (insieme e singolarmente)
Questo linguaggio è fatto così:
X i =L che significa la caratteristica X posseduta dal signor i
Esempio X=titolo di studio, i=192.864=Drudi
L=Laurea
Siccome le caratteristiche sono diverse da indivisuo a individuo le chiamiamo
«variabili»
Formalizzando:
“Classificare significa riunire ordinatamente entità svariate (persone, cose, fatti) in
gruppi o classi, sostituendo alla variabilità degli individui la pluralità di alcuni tipi. La
classificazione è basata sul riconoscimento che alcuni enti individuali si
rassomigliano secondo una o più caratteristiche, pur rimanendo per altri aspetti
diverse.”
In generale : protocollo elementare
La sequenza non ordinata x1 , x2 , ..., x j , ...xn
delle osservazioni individuali
del carattere X osservate per le n unità statistiche è detta protocollo elementare e si
indica sinteticamente con


x 
j
j  1,..., n
Esempi
A = “mese di nascita”
{gennaio, gennaio, luglio, febbraio, marzo, luglio, ……….}
X =”Reddito mensile”
{0.7, 0.2, 1.6, 2.5, 3.2, 0.1, 3.8, 1.3, 1.2, 1.7, 1.9, 0.8, 0.4, 1.8, 1.9, 3.2, 2.1, 0.1, ……. }
… si noti che con riferimento ad A (c. qualitativo), alcune unità assumono le stesse
modalità, mentre ciò è meno probabile con riferimento ad un carattere quantitativo
quale è X
Le variabili sono tutte di uno stesso TIPO? NO!
Si distinguono per le «operazioni» a cui possiamo sottoporle per sintetizzarle
SCONNESSE (non ordinate)
Variabili «qualitative» (non numeri)
ORDINATE
DISCRETE (solo numeri interi)
Variabili «quantitative» (rappresentate da numeri)
CONTINUE (qualsiasi numero)
QUALITATIVE (MUTABILI)
SCONNESSE (non ordinate)
Caratteristiche che NON sono numeriche e NON hanno un ordine RICONOSCIBILE
NB. Possono anche essere rappresentate da numeri, ma solo come ETICHETTE.
Non vale alcuna relazione aritmetica.
(es. genere, regione di residenza, corso di laurea….)
QUALITATIVE (MUTABILI)
ORDINATE (ordinabili)
Caratteristiche che NON sono numeriche e HANNO un ordine RICONOSCIBILE
NB. Possono anche essere rappresentate da numeri, ma solo come ETICHETTE.
VALE UNICAMENTE LA RELAZIONE «MAGGIORE DI»/»MINORE DI».
(es. Titoli di studio, qualifica professionale, ….)
QUANTITATIVE
DISCRETE (solo numeri interi)
Caratteristiche RAPPRESENTATE DA NUMERI INTERI.
Valgono le principali relazioni aritmetiche, (addizione, moltiplicazione) con qualche
eccezione SOTTRAZIONE, in generale NON VALE la DIVISIONE
(Es. figli, auto possedute, divorzi, condanne, processi…………. )
QUANTITATIVE
CONTINUE (qualsiasi numero)
Caratteristiche RAPPRESENTATE DA QUALSIASI TIPO di NUMERO REALE.
NB.: Vuol dire che si può immaginare qualsiasi risultato PRIMA della loro
misurazione, o meglio che fra un numero intero e il successivo si possono incontrare
infiniti valori
Valgono tutte le principali operazioni aritmetiche.
(es. Reddito, statura, peso, tasso di interesse, risparmio….)
Classificazione unidimensionale
La distribuzione di frequenza si costruisce raggruppando le n unità statistiche secondo le k
modalità del carattere.
Ad una (o più) modalità xj di un certo carattere si fa corrispondere il numero delle unità
statistiche - (le unità sono tutte caratterizzate dalla modalità xj )
Distribuzione di frequenza della variabile X
X
x1
x2
…
xj
…
xk
tot
ni
n1
n2
…
nj
…
nk
N
x j ; n j 
Si noti la diversità con il protocollo elementare:
x1 , x1 ,…, x1 , x1, x2, x2,…, x2,
n1 volte
n2 volte
ecc.
ecc.
Attenzione!!!! Qui il numerino NON indica più una persona, ma un MODO di presentarsi
della VARIABILE, è sempre un posto in una lista, MA LA LISTA E’ DIVERSA!!!!!!!
Esempio 1
Carattere: “posizione professionale”: 3 modalità (operaio, impiegato, quadro)
15 unità nel collettivo (occupati nell’impresa A).
Protocollo elementare (DATI)
{operaio, quadro, operaio, operaio, impiegato, impiegato, impiegato, operaio,
operaio, impiegato, operaio, impiegato, impiegato, operaio, operaio, impegato}
Conteggiamo la FREQUENZA delle varie modalità, cioè quante volte si presenta
ciascuna «voce»
posizione
Operaio
Impiegato
Quadro
Totale
8
6
1
15
Abbiamo costruito una tavola statistica!!!
Piccola ma importante precisazione quando vogliamo indicare la SOMMA di tutte
le voci di una lista Usiamo un simbolo greco (sigma maiuscolo)

Funziona così: Data una lista di K termini, ognuno indicato con il suo posto:
X
x1
x2
…
xj
…
xk
tot
ni
n1
n2
…
nj
…
nk
N
Ultimo posto della lista
K
n
i 1
i
 n1  n2  n3  .....  nk  N
Primo posto della lista
Risultato
Nel nostro caso
3
n
i 1
i
 n1 n2  n3  8  6  1  15
3
n
i 1
i
 15
Le solite complicazioni…. Immaginiamo una impresa B che ha queste posizioni
posizione
Operaio
Impiegato
Quadro
13
9
3
Totale
25
Domanda: è più «operaia» l’impresa A o l’impresa B?
Mettiamole vicine:
posizione
Operaio
Impiegato
Quadro
Totale
Impresa A
8
6
1
Impresa B
13
9
3
15
25
MMHHH gli operai sono di più in B, ma c’è qualcosa che non va.. O NO?
Già anche gli occupati in totale sono di più nell’impresa B, come facciamo?
C’è un caso in cui sapremmo rispondere senza problemi alla domanda:
se le imprese avessero lo stesso numero di occupati MA non è così
Gli statistici sono pieni di risorse, se una cosa non c’è se la inventano:
Immaginiamo due imprese FINTE che hanno lo stesso numero di occupati ad es. 100
Come facciamo a trasformare i 15 e 25 occupati di A e B in 100?
Facile con una operazione aritmetica:
Il 15 diventa 100 così:
(15:15) x 100 = 1 x 100 = 100
Il 25 diventa 100 così:
(25:25) x 100 = 1 x 100 = 100
Il numero NERO è quello DA TRASFORMARE, i ROSSI sono i TRASFORMATORI
Notiamo che uno dei due trasformatori è diverso per A e B
Vi ho fregato di nuovo!!!!!
Guardate cosa succede adesso. Naturalmente dobbiamo riservare lo
stesso trattamento a tutti i numeri che abbiamo nella tavola:
posizione
Operaio
Impiegato
Quadro
Impresa A
(8 : 15) x100 = 53,3
(6 : 15) x100 = 40,0
(1 : 15) x100 = 6,7
Impresa B
(13 : 25) x100 = 52,0
(9 : 25) x100 = 36,0
(3 : 25) x100 = 12,0
Totale
(15 : 15) x100 = 100,0
(25 : 25) x100 = 100,0
E’ più «operaia» l’impresa A anche se ha meno operai!
Notiamo anche che:
8+6+1= 15
come
53,3+40+6,7=100
Abbiamo «scoperto» l’acqua calda: la percentuale.
Il punto è che questa trasformazione ci ha permesso di confrontare due situazioni
che prima non erano confrontabili
Abbiamo «guadagnato» qualcosa, ma abbiamo pagato un prezzo:
Se conosciamo solo le percentuali non abbiamo alcuna informazione sulla
dimensione (numero di occupati) delle imprese. Per noi sarebbero uguali.
Vedremo che questo modo di procedere è TIPICO:
1. Definiamo una situazione «teorica» in cui il confronto è possibile
2. Trasformiamo le situazioni concreta in quella teorica mediante operazioni
aritmetiche
3. Confrontiamo le due situazioni teoriche
4. A meno di informazioni «originarie» il processo è irreversibile, cioè date le sole
situazioni teoriche NON è possibile ricostruire le situazioni concrete
Se sono riuscito a farvi ingoiare questo «rospo», adesso andiamo in discesa:
Spesso non fissiamo il numero «teorico» a 100 ma a 1
In questo caso non parliamo di percentuali ma di FREQUENZE RELATIVE.
posizione
fj
Operaio
impiegato
quadro
Somma
0.533
0.400
0.067
1
Tabella di
frequenze relative
In sostanza sono le percentuali divise per 100 oppure
Le percentuali sono le frequenze relative moltiplicate per 100
Riassumiamo:
Posizione
Operaio
Impiegato
Quadro
Totale
frequenze frequenze
assolute
relative percentuali
8
0,533
53,3%
6
0,400
40,0%
1
0,067
6,7%
15
1,000
100,0%
Terminologia:
“distribuzione degli occupati nell’impresa A secondo la posizione professionale”,
“distribuzione della variabile posizione professionale nell’impresa A”
“Occupati nell’impresa A secondo la posizione professionale”
– frequenze assolute / percentuali / relative
A quali «leggi» obbediscono le frequenze?
Proprietà formali
1) 0  n j  n,
cioè ogni frequenza ass. è compresa tra 0 e il Totale
k
2)  n j  n
cioè la somma delle fequenze ass. è il Totale
j 1
Per la distribuzione delle frequenze percentuali
pj 
nj
n
100,
avremo
1) 0  p j  100,
k
2)  p j  100
j 1
Per la distribuzione delle frequenze relative
avremo
1) 0  f j  1,
k
2)  f j  1
j 1
fj 
nj
n
Esempio: distribuzione dei voti validi espressi all’elezione della Camera dei Deputati anno 2013 - per lista – frequenze assolute e percentuali
Partiti
MoVimento 5 Stelle - beppegrillo.it
Partito Democratico (Pd)
Il Popolo della libertà (Pdl)
Scelta Civica con Monti per l'Italia
Lega Nord
Sinistra ecologia e libertà (Sel)
Rivoluzione Civile
Fratelli d'Italia
Unione di centro (Udc)
Fare per Fermare il Declino
La Destra
Centro Democratico
Futuro e libertà (Fli)
Grande Sud - Mpa
Südtiroler Volkspartei (Svp)
Altre liste
Totale
Frequenze
assolute
Percentuali
8.689.458
25,5
8.644.523
25,4
7.332.972
21,6
2.824.065
8,3
1.390.014
4,1
1.089.409
3,2
765.188
2,2
665.830
2,0
608.210
1,8
380.756
1,1
219.769
0,6
167.072
0,5
159.332
0,5
148.552
0,4
146.804
0,4
770.570
2,3
34.002.524
100,0
Scarica

Classificazione, tabulazione, frequenze