Cominciamo a “fare” della Statistica: CLASSIFICAZIONE Cioè Definizione del COLLETTIVO e delle UNITA’ STATISTICHE TORNIAMO AL PROBLEMA DEL CONTEGGIO RICORDATE LE ARANCE E I LIMONI????? DOBBIAMO COMPIERE LE OPERAZIONI PRELIMINARI Si tratta di stendere le clausole del contratto che ci porterà a condividere la misura (statistica) di quello che ci interessa: Come tutti i contratti sarà un po’ pedante e pignolo Cioè dovrà contenere tutti i possibili casi che potremmo incontrare Definiamo il collettivo: (Gli agrumi) ad esempio la popolazione residente nella città di Bologna Il contratto deve consentirci di decidere se, identificata una persona, questa appartiene o no al collettivo, cioè se risiede a Bologna o no Dobbiamo chiarire in modo non equivoco il concetto di residenza: es. “iscritto all’anagrafe”, “domiciliato abitualmente” …..dipenderà dal perché vogliamo contare Definiamo cosa contare: (i singoli frutti) Ad esempio i titoli di studio di ciascun residente Valgono le stesse considerazioni precedenti: ad esempio “titolo di studio ultimo conseguito”, “titolo per cui si sta studiando” , oppure “tipologia del titolo” Questa operazione richiede una precisazione Nel caso dei titoli di studio scopriamo presto che l’unico modo per individuarli è farne un elenco: Questo genera il nostro punto di partenza, l’elenco dei titoli di studio dei Bolognesi costituisce il cosiddetto protocollo elementare Che è la sequenza {lic.elementare, media, diploma, diploma, laurea, media inf., laurea, lic.elementare, laurea, laurea,………..} oppure sequenza {Primaria, secondaria, terziaria} ATTENZIONE NON SEMPRE IL PROTOCOLLO ELEMENTARE E’ UNA LISTA VEDREMO Se firmiamo il contratto, se siamo d’accordo ALLORA Ogni residente a Bologna sarà caratterizzato da un titolo di studio avremo, cioè, una lista di circa 380.000 titoli di studio ( il diluvio ) del tipo {primaria, secondaria, primaria, terziaria, terziaria…….} Il modo in cui ci ripariamo dal diluvio è considerare uguali i titoli di studio uguali, cioè ogni cittadino sarà collocato in una scatola assieme a coloro che hanno lo stesso titolo di studio. Poi contiamo il contenuto delle scatole Gli statistici sono fissati con i simboli???? SI PERCHE’ SONO PIGRI Alcune domande: 1. Come facciamo ad indicare in modo univoco tutti gli abitanti di Bologna? Ci vorrebbe nome, cognome, indirizzo, paternità….. SCOMODO. Di solito costruiamo (o ci immaginiamo) una LISTA NUMERATA e identifichiamo ogni unità con un numero. Ignazio Drudi sarà, ad esempio, il numero 192.864 di una lista di circa 380.000 2. Come facciamo ad indicare le caratteristiche di ciascuno dei residenti??? Al solito potremmo fare la lista ordinata dei titoli di studio, cioè ogni titolo di studio avrà un numerino che ci dice a chi appartiene. Ignazio Drudi-Laureato sarà indicato più semplicemente con LAUREA-192.864 o per evitare confusione con LAUREA192.864 O ancora più semplice L192.864 3. Ma così abbiamo perso la informazione che Laurea è una voce di una lista!! Allora complichiamo un po’ il nostro linguaggio e scriviamo: «il titolo di studio di Drudi è la laurea» Abbiamo le parole (i simboli) per quasi tutto Drudi = 192.864 Laurea=L ci manca solo «titolo di studio» Inventiamolo diciamo TS allora «il titolo di studio di Drudi è la laurea» Diventa : TS192.864 = L Vi ho fregato!!!!!!! Adesso siete entrati in un mondo che forse non vi piace(va) Perché? Perchè adesso basta dire che quello che vale per il titolo di studio vale per qualsiasi altra caratteristica delle nostre unità Età, reddito, numero di figli, …….. Allora se vale per qualsiasi caratteristica ogni valore relativo alle unità può essere rappresentato in questo modo, quindi vorrò dire qualcosa su una caratteristica qualsiasi non userò più il simbolo TS (titolo di studio) ma un SIMBOLO GENERICO che vale per età, reddito, numero di figli… a seconda dei casi. CHE SIMBOLO??? Facile il simbolo che indica tante cose e nessuna in particolare la lettera X E quando vorrò dire qualcosa di una persona qualsiasi userò un altro simbolo, in questi caso la lettera i Siccome quello che abbiamo fatto per il titolo di studio si farà anche per il genere (maschile/femminile), per il numero di figli, per il colore degli occhi, per …….. Posso descrivere il processo UNA VOLTA SOLA per tutti queste caratteristiche, ma per farlo ho bisogno di un linguaggio che in un solo simbolo indichi tutte le caratteristiche e tutte le persone (insieme e singolarmente) Questo linguaggio è fatto così: X i =L che significa la caratteristica X posseduta dal signor i Esempio X=titolo di studio, i=192.864=Drudi L=Laurea Siccome le caratteristiche sono diverse da indivisuo a individuo le chiamiamo «variabili» Formalizzando: “Classificare significa riunire ordinatamente entità svariate (persone, cose, fatti) in gruppi o classi, sostituendo alla variabilità degli individui la pluralità di alcuni tipi. La classificazione è basata sul riconoscimento che alcuni enti individuali si rassomigliano secondo una o più caratteristiche, pur rimanendo per altri aspetti diverse.” In generale : protocollo elementare La sequenza non ordinata x1 , x2 , ..., x j , ...xn delle osservazioni individuali del carattere X osservate per le n unità statistiche è detta protocollo elementare e si indica sinteticamente con x j j 1,..., n Esempi A = “mese di nascita” {gennaio, gennaio, luglio, febbraio, marzo, luglio, ……….} X =”Reddito mensile” {0.7, 0.2, 1.6, 2.5, 3.2, 0.1, 3.8, 1.3, 1.2, 1.7, 1.9, 0.8, 0.4, 1.8, 1.9, 3.2, 2.1, 0.1, ……. } … si noti che con riferimento ad A (c. qualitativo), alcune unità assumono le stesse modalità, mentre ciò è meno probabile con riferimento ad un carattere quantitativo quale è X Le variabili sono tutte di uno stesso TIPO? NO! Si distinguono per le «operazioni» a cui possiamo sottoporle per sintetizzarle SCONNESSE (non ordinate) Variabili «qualitative» (non numeri) ORDINATE DISCRETE (solo numeri interi) Variabili «quantitative» (rappresentate da numeri) CONTINUE (qualsiasi numero) QUALITATIVE (MUTABILI) SCONNESSE (non ordinate) Caratteristiche che NON sono numeriche e NON hanno un ordine RICONOSCIBILE NB. Possono anche essere rappresentate da numeri, ma solo come ETICHETTE. Non vale alcuna relazione aritmetica. (es. genere, regione di residenza, corso di laurea….) QUALITATIVE (MUTABILI) ORDINATE (ordinabili) Caratteristiche che NON sono numeriche e HANNO un ordine RICONOSCIBILE NB. Possono anche essere rappresentate da numeri, ma solo come ETICHETTE. VALE UNICAMENTE LA RELAZIONE «MAGGIORE DI»/»MINORE DI». (es. Titoli di studio, qualifica professionale, ….) QUANTITATIVE DISCRETE (solo numeri interi) Caratteristiche RAPPRESENTATE DA NUMERI INTERI. Valgono le principali relazioni aritmetiche, (addizione, moltiplicazione) con qualche eccezione SOTTRAZIONE, in generale NON VALE la DIVISIONE (Es. figli, auto possedute, divorzi, condanne, processi…………. ) QUANTITATIVE CONTINUE (qualsiasi numero) Caratteristiche RAPPRESENTATE DA QUALSIASI TIPO di NUMERO REALE. NB.: Vuol dire che si può immaginare qualsiasi risultato PRIMA della loro misurazione, o meglio che fra un numero intero e il successivo si possono incontrare infiniti valori Valgono tutte le principali operazioni aritmetiche. (es. Reddito, statura, peso, tasso di interesse, risparmio….) Classificazione unidimensionale La distribuzione di frequenza si costruisce raggruppando le n unità statistiche secondo le k modalità del carattere. Ad una (o più) modalità xj di un certo carattere si fa corrispondere il numero delle unità statistiche - (le unità sono tutte caratterizzate dalla modalità xj ) Distribuzione di frequenza della variabile X X x1 x2 … xj … xk tot ni n1 n2 … nj … nk N x j ; n j Si noti la diversità con il protocollo elementare: x1 , x1 ,…, x1 , x1, x2, x2,…, x2, n1 volte n2 volte ecc. ecc. Attenzione!!!! Qui il numerino NON indica più una persona, ma un MODO di presentarsi della VARIABILE, è sempre un posto in una lista, MA LA LISTA E’ DIVERSA!!!!!!! Esempio 1 Carattere: “posizione professionale”: 3 modalità (operaio, impiegato, quadro) 15 unità nel collettivo (occupati nell’impresa A). Protocollo elementare (DATI) {operaio, quadro, operaio, operaio, impiegato, impiegato, impiegato, operaio, operaio, impiegato, operaio, impiegato, impiegato, operaio, operaio, impegato} Conteggiamo la FREQUENZA delle varie modalità, cioè quante volte si presenta ciascuna «voce» posizione Operaio Impiegato Quadro Totale 8 6 1 15 Abbiamo costruito una tavola statistica!!! Piccola ma importante precisazione quando vogliamo indicare la SOMMA di tutte le voci di una lista Usiamo un simbolo greco (sigma maiuscolo) Funziona così: Data una lista di K termini, ognuno indicato con il suo posto: X x1 x2 … xj … xk tot ni n1 n2 … nj … nk N Ultimo posto della lista K n i 1 i n1 n2 n3 ..... nk N Primo posto della lista Risultato Nel nostro caso 3 n i 1 i n1 n2 n3 8 6 1 15 3 n i 1 i 15 Le solite complicazioni…. Immaginiamo una impresa B che ha queste posizioni posizione Operaio Impiegato Quadro 13 9 3 Totale 25 Domanda: è più «operaia» l’impresa A o l’impresa B? Mettiamole vicine: posizione Operaio Impiegato Quadro Totale Impresa A 8 6 1 Impresa B 13 9 3 15 25 MMHHH gli operai sono di più in B, ma c’è qualcosa che non va.. O NO? Già anche gli occupati in totale sono di più nell’impresa B, come facciamo? C’è un caso in cui sapremmo rispondere senza problemi alla domanda: se le imprese avessero lo stesso numero di occupati MA non è così Gli statistici sono pieni di risorse, se una cosa non c’è se la inventano: Immaginiamo due imprese FINTE che hanno lo stesso numero di occupati ad es. 100 Come facciamo a trasformare i 15 e 25 occupati di A e B in 100? Facile con una operazione aritmetica: Il 15 diventa 100 così: (15:15) x 100 = 1 x 100 = 100 Il 25 diventa 100 così: (25:25) x 100 = 1 x 100 = 100 Il numero NERO è quello DA TRASFORMARE, i ROSSI sono i TRASFORMATORI Notiamo che uno dei due trasformatori è diverso per A e B Vi ho fregato di nuovo!!!!! Guardate cosa succede adesso. Naturalmente dobbiamo riservare lo stesso trattamento a tutti i numeri che abbiamo nella tavola: posizione Operaio Impiegato Quadro Impresa A (8 : 15) x100 = 53,3 (6 : 15) x100 = 40,0 (1 : 15) x100 = 6,7 Impresa B (13 : 25) x100 = 52,0 (9 : 25) x100 = 36,0 (3 : 25) x100 = 12,0 Totale (15 : 15) x100 = 100,0 (25 : 25) x100 = 100,0 E’ più «operaia» l’impresa A anche se ha meno operai! Notiamo anche che: 8+6+1= 15 come 53,3+40+6,7=100 Abbiamo «scoperto» l’acqua calda: la percentuale. Il punto è che questa trasformazione ci ha permesso di confrontare due situazioni che prima non erano confrontabili Abbiamo «guadagnato» qualcosa, ma abbiamo pagato un prezzo: Se conosciamo solo le percentuali non abbiamo alcuna informazione sulla dimensione (numero di occupati) delle imprese. Per noi sarebbero uguali. Vedremo che questo modo di procedere è TIPICO: 1. Definiamo una situazione «teorica» in cui il confronto è possibile 2. Trasformiamo le situazioni concreta in quella teorica mediante operazioni aritmetiche 3. Confrontiamo le due situazioni teoriche 4. A meno di informazioni «originarie» il processo è irreversibile, cioè date le sole situazioni teoriche NON è possibile ricostruire le situazioni concrete Se sono riuscito a farvi ingoiare questo «rospo», adesso andiamo in discesa: Spesso non fissiamo il numero «teorico» a 100 ma a 1 In questo caso non parliamo di percentuali ma di FREQUENZE RELATIVE. posizione fj Operaio impiegato quadro Somma 0.533 0.400 0.067 1 Tabella di frequenze relative In sostanza sono le percentuali divise per 100 oppure Le percentuali sono le frequenze relative moltiplicate per 100 Riassumiamo: Posizione Operaio Impiegato Quadro Totale frequenze frequenze assolute relative percentuali 8 0,533 53,3% 6 0,400 40,0% 1 0,067 6,7% 15 1,000 100,0% Terminologia: “distribuzione degli occupati nell’impresa A secondo la posizione professionale”, “distribuzione della variabile posizione professionale nell’impresa A” “Occupati nell’impresa A secondo la posizione professionale” – frequenze assolute / percentuali / relative A quali «leggi» obbediscono le frequenze? Proprietà formali 1) 0 n j n, cioè ogni frequenza ass. è compresa tra 0 e il Totale k 2) n j n cioè la somma delle fequenze ass. è il Totale j 1 Per la distribuzione delle frequenze percentuali pj nj n 100, avremo 1) 0 p j 100, k 2) p j 100 j 1 Per la distribuzione delle frequenze relative avremo 1) 0 f j 1, k 2) f j 1 j 1 fj nj n Esempio: distribuzione dei voti validi espressi all’elezione della Camera dei Deputati anno 2013 - per lista – frequenze assolute e percentuali Partiti MoVimento 5 Stelle - beppegrillo.it Partito Democratico (Pd) Il Popolo della libertà (Pdl) Scelta Civica con Monti per l'Italia Lega Nord Sinistra ecologia e libertà (Sel) Rivoluzione Civile Fratelli d'Italia Unione di centro (Udc) Fare per Fermare il Declino La Destra Centro Democratico Futuro e libertà (Fli) Grande Sud - Mpa Südtiroler Volkspartei (Svp) Altre liste Totale Frequenze assolute Percentuali 8.689.458 25,5 8.644.523 25,4 7.332.972 21,6 2.824.065 8,3 1.390.014 4,1 1.089.409 3,2 765.188 2,2 665.830 2,0 608.210 1,8 380.756 1,1 219.769 0,6 167.072 0,5 159.332 0,5 148.552 0,4 146.804 0,4 770.570 2,3 34.002.524 100,0