Misurazione • Le osservazioni si esprimono in forma di misurazioni • Misurazioni categoriche – Maschio/ femmina – Provincia di residenza • Misurazioni numeriche – Età – Altezza • Diversi tipi di misurazione richiedono diverse tecniche di analisi statistica Scale nominali • Una scala nominale consiste in un insieme di categorie ciascuna delle quali è associata ad un nome – – – – Rosso Blu Verde Giallo • Le scale nominali non consentono di quantificare le differenze fra due individui appartenenti a categorie diverse Scale ordinali • Una scala ordinale consiste in un insieme ordinato di categorie – – – – licenza elementare licenza media licenza di scuola superiore laurea • Le scale ordinali non consentono la quantificazione della differenza fra due categorie Scale ad intervalli • Una scala ad intervalli consiste in un insieme ordinato di categorie dove ogni categoria corrisponde ad un intervallo e dove tutti gli intervalli sono della stessa grandezza – 0-10 anni – 11-20 anni – 21-30 anni • Una scala ad intervalli consente di misurare la differenza fra due individui appartenenti a categorie diverse Variabili discrete • Una variabile discreta rappresenta un insieme di categorie distinte e indivisibili – Maschi – Femmine Variabili continue • Una variabile continua può assumere un numero infinito di diversi valori – 9,1 – 9,12 – 9,145 ecc. Rappresentare le variabili Variabile discreta Scala nominale Scala nominale Codice studente Sesso Anno di nascita Anno di immatricolazione Esami completati 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Scala ordinale Scala ordinale Distribuzione di frequenza • Una distribuzione di frequenza è una tabella che mostra il numero di individui / osservazioni appartenenti a ciascuna categoria appartenente ad una scala di misura Voti di esame N=10 Proporzioni/percentuali p f N % p (100) N=10 Scala Ordinale Permette si ordinare tra loro i valori, stabilendo che una categoria è > o < rispetto ad un’altra, oltre che la possibilità di stabilire rapporto di uguaglianza tra variabili STATISTICHE POSSIBILI: • Moda - Mediana • Quartili • NdE Distribuzioni di frequenza • Primo passaggio: dato che sono variabili di tipo ordinale, ORDINARE la tabella secondo una relazione d’ordine crescente o decrescente • Secondo passaggio: Calcolare la frequenza assoluta, la frequenza cumulata e la percentuale cumulata Distribuzione di frequenza Esempio: Ord. Crescente Ord. Decrescente Statistiche della distribuzione Centrale: Mediana (Mdn) MEDIANA: Valore che sta in posizione centrale. CASO 1: numero complessivo di valori dispari FORMULA: Mdn=(N+1)/2 Statistiche della distribuzione Centrale: Mediana (Mdn) CASO 2: numero di valori complessivo pari. FORMULA: Mdn = (N+1)/2 e N/2 Statistiche della distribuzione Centrale: Mediana (Mdn) • Mediana come indice con POSIZIONE centrale. • Ruolo della Frequenza cumulata • Nel caso di numerosità pari abbiamo 2 valori di mediana perché non esistono valori intermedi. Numerosità dispari Numerosità pari Indici di Posizione: QUARTILI • I quartili dividono in quattro uguali la distribuzione (ossia in quattro blocchi che contengono ognuno il 25% dei casi) • I valori assunti dai quartili vengono indicati con Q1, Q2, Q3 Indici di Posizione: QUARTILI FORMULA: Quartile = (N+1) * p/4 p = 1, 2, 3 per Q1, Q2, Q3 Indici di Posizione: QUARTILI • I quartili sono dei valori assunti dalla varibile in una posizione precisa. • La mediana (nel caso in cui la numerosità sia dispari) coincide con il secondo quartile Indici di Posizione: QUANTILI FORMULA: Quantile = (N+1) * p/q p: posizione q: numero di suddivisioni SCALA INTERVALLO / A RAPPORTO • Possibili rapporti di uguaglianza (livello nominale). • Possibili rapporti di ordine (livello ordinale). • Esiste un’unità di misura (intervallo) che permette di stabilire la distanza fra 2 categorie. • Per definire le statistiche bisogna definire se le variabili sono di tipo discreto o continuo. STATISTICHE: • Moda - Mediana – Media • Quartili – Quantili • NdE –– Range – Varianza – Deviazione standard Distribuzione di frequenza Difficoltà nel riassumere i dati a causa di un numero di categorie elevato (nel caso di valori discreti NdE>18) o perché la variabile è di tipo continuo. Raccogliere i valori in Intervalli di Classe Intervalli di Classe • Esempio classico: l’età • L’importanza di definire un valore “spartiacque”: le categorie devono possedere un limite superiore e un limite inferiore • Si abbrevia l’analisi statistica dei dati, si facilita la rappresentazione grafica e la costruzione delle tabelle di frequenza Come costruire gli Intervalli di Classe 1. 2. 3. 4. 5. 6. Individuare il valore Max e il valore Min. Definire il Range di distribuzione dei dati. RANGE = MAX – MIN Dividere il Range per il numero di intervalli che si vuole ottenere. Arrotondare l’ampiezza ottenuta ad un numero intero. Si definisce un primo intervallo che contenga il valore minimo facendo in modo che i limiti grezzi siano dei multipli dell’ampiezza dell’intervallo. Si procede ad attribuire i valori ai singoli intervalli. Come costruire gli Intervalli di Classe Esempio: 80 Valori raccolti 1. 2. 3. 4. 5. 6. MAX = 97; MIN = 53 RANGE = 97 – 53 = 44 AMPIEZZA INTERVALLO: 10 CLASSI AMPIEZZA = 4,4 AMPIEZZA = 5 (Arrotondata in eccesso) VALORE MINIMO = 50 (Multiplo dell’ampiezza intervallo; comodo per i calcoli). PRIMA CLASSE 50 –54; ULTIMA 95 – 99 LIMITI ESATTI: A META’ TRA LA FINE DI UNA CLASSE E L’INIZIO DELLA SUCCESSIVA (Esempio 54,5) Come costruire gli Intervalli di Classe GRAFICI • • • • Istogramma Poligoni di frequenza Ogiva Diagrammi a barre ISTOGRAMMA Diagramma a rettangoli accostati ad indicare la natura intervallare dei dati. L’area di ciascun poligono rappresenta PROPORZIONALMENTE la frequenza di un intervallo di classe. Poligono di frequenza Il poligono di frequenza (o “spezzata di frequenze”) è simile all’istogramma ma sono utilizzati i valori centrali uniti da una linea. Curva di frequenza Quando l’ampiezza di ciascuna classe è molto piccola ed il numero totale delle classi è molto elevato la spezzata di frequenze tende ad una curva continua che si chiama “curva di frequenza”. OGIVA L’ogiva o Grafico delle Frequenze cumulate è una curva in cui vengono utilizzati i valori centrali dei poligoni di frequenza cumulata. Rappresentazione grafica di un carattere discreto : I diagrammi a barre Quando una variabile è di tipo intervallare discreta e non è la sua distribuzione di frequenza non è raccolta secondo classi di intervalli (basso NdE), allora i dati vengono rappresentati con un grafico che si chiama”diagramma a barre”. Rappresentazione grafica di un carattere discreto : I diagrammi a barre Diagramma della frequenza cumulata: diagramma a gradini. Permette di confrontare i dati tra loro.