statistica la rappresentazione grafica alessandro polli facoltà di scienze politiche, sociologia, comunicazione 5 marzo 2015 Rappresentazioni grafiche Obiettivo Le rappresentazioni grafiche hanno lo scopo di illustrare, mediante figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali ecc., una distribuzione, di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di uno o più caratteri Se il carattere è uno solo ed è qualitativo (mutabile sconnessa, rettilinea o ciclica), la distribuzione statistica semplice, di frequenza o di intensità, prende il nome di serie se il carattere è quantitativo (variabile, scala di intervalli o scala di rapporti), la distribuzione statistica semplice prende il nome di seriazione Rappresentazioni grafiche Obiettivo Nel caso in cui si abbiano due caratteri parleremo di distribuzione statistica doppia, che può essere costituita da: 1. due caratteri qualitativi (ad es. la popolazione italiana secondo il sesso e lo stato civile); 2. due caratteri quantitativi (ad es. la popolazione italiana secondo la statura e il peso); 3. un carattere quantitativo (ad es. età) e un carattere qualitativo (ad es. stato civile) Nel caso infine di più di due caratteri si avrà una distribuzione statistica multipla; i caratteri possono essere tutti quantitativi, variabili (multivariata), tutti qualitativi o misti (variabili e mutabili). Rappresentazioni grafiche Vantaggi La rappresentazione grafica di una distribuzione statistica presenta alcuni vantaggi rispetto alla rappresentazione tabellare (numerica): 1. Consente una visualizzazione immediata dell’andamento del fenomeno e della struttura della distribuzione e quindi una efficace descrizione globale dei dati; 2. Consente, con notevole sintesi e in poco spazio, il confronto tra più distribuzioni (curve, spezzate ecc.); 3. Ha potenzialità investigative: mette in rilievo casi “anomali” (particolari “picchi” grafici) che possono essere dovuti a errori nei dati o a effettivi casi “anomali” che invitano a ulteriori approfondimenti; correlazioni tra caratteri aventi tra loro un legame logico; individuazione di andamenti di fondo (trend) interpolabili con funzioni matematiche (ad es. curva normale, retta ecc.); 4. Consente una forma più divulgativa per i dati statistici che non la forma tabellare Rappresentazioni grafiche Diverse possibilità di rappresentazione Per ogni distribuzione statistica semplice o doppia o multipla esiste il tipo di rappresentazione grafica adatta e una stessa distribuzione può essere rappresentata con più tipologie di grafico In generale esistono dei vincoli tra tipo di rappresentazione grafica e livello di misurazione dei caratteri da rappresentare che vanno rispettati affinché questa sia corretta, ossia fornisca un’immagine visiva quanto più possibile fedele del fenomeno e della sua distribuzione statistica Affinché una rappresentazione grafica sia utile ed efficace dovrebbe contenere con immediatezza e chiarezza tutte le informazioni necessarie alla comprensione dei dati in essa rappresentati Rappresentazioni grafiche I dati sono l’elemento centrale Per massimizzare l’efficacia di un grafico l’attenzione deve essere concentrata sui dati. Quindi le componenti di supporto: 1. Devono essere presenti solo se necessarie: titoli degli assi, legende e etichette in alcuni casi possono essere essenziali per la comprensione del grafico, ma in altri possono essere del tutto inutili 2. Devono essere lievi: è preferibile usare linee più leggere per gli assi e per la griglia e linee più marcate per i dati 3. Gli effetti decorativi non devono distogliere l’attenzione del lettore dalla lettura dei dati Rappresentazioni grafiche I dati sono l’elemento centrale Un grafico chiaro Un grafico confuso 30 30 25 25 20 20 15 Serie1 15 10 10 10 10 0 A B C Nel grafico a sinistra tutte le componenti hanno un forte impatto cromatico e grafico: il risultato è un grafico confuso, difficile da leggere anche se sono presenti solo 3 valori 0 A B C Il grafico a destra è più facile da leggere in quanto caratterizzato da una maggiore «leggerezza». Il ricorso a poche componenti di supporto permette di concentrare l’attenzione sui dati. Rappresentazioni grafiche I dati sono l’elemento centrale Questi 2 grafici rappresentano la stessa distribuzione. Qual dei 2 è più chiaro? Quale settore del diagramma circolare è maggiore? Rappresentazioni grafiche Per la maggior parte delle persone è più facile confrontare segmenti piuttosto che angoli. Nel diagramma circolare i settori numero 1 e 4 sembrano identici, mentre nel diagramma a barre è evidente la differenza È quindi sensato individuare la rappresentazione grafica che meglio rappresenta il messaggio che si vuole comunicare Rappresentazioni grafiche Rappresentazione grafica per caratteri qualitativi I caratteri qualitativi possono essere efficacemente rappresentati attraverso i seguenti strumenti grafici: a) Grafici a barre b) Diagrammi circolari Rappresentazioni grafiche I grafici a barre I grafici a barre (o ortogrammi) sono impiegati per rappresentare graficamente serie sconnesse o ordinali e possono essere di due tipi: • A colonne, se sono costituiti da una successione di colonne, segmenti verticali o rettangoli equidistanti, in numero pari alle modalità del carattere, e hanno altezza uguale o proporzionale alla frequenza (assoluta o relativa); • A nastri, se sono costituiti da tanti nastri (segmenti orizzontali, rettangoli) sovrapposti ed equidistanti, in numero pari alle modalità del carattere, e hanno lunghezza uguale o proporzionale alla frequenza (assoluta o relativa) I grafici a barre sono pertanto caratterizzati dall’avere un solo asse (verticale nel caso a colonne, orizzontale nel caso a nastri) in scala graduata, secondo l’unità di misura che si è scelta per rappresentare le frequenze. Sull’altro asse, invece, figureranno le modalità (qualitative), per convenzione equidistanti Rappresentazioni grafiche Ortogramma a colonne Ortogramma a nastri Se la rappresentazione grafica riguarda una serie sconnessa, l’ordine in cui saranno poste le modalità è arbitrario; se si tratta invece di una serie ordinale (es. titolo di studio), le modalità saranno poste nell’ordine naturale che esse presentano nella serie Rappresentazioni grafiche I diagrammi circolari I diagrammi circolari (o areogrammi) per la loro forma circolare, sono comunemente noti come «diagrammi a torta» (pie-chart) Sono particolarmente adatti per la rappresentazione di serie sconnesse o ordinali Sono efficaci per mettere in evidenza l’importanza relativa delle singole modalità rispetto al totale; Ne esistono di vari tipi e principalmente: • A spicchi o settori variabili, con angoli al centro corrispondenti alle frequenze assolute ( o relative) delle singole modalità e raggio fisso; • A spicchi o settori fissi, con angoli al centro uguali e raggio variabile corrispondente alle frequenze assolute (o relative) delle singole modalità Rappresentazioni grafiche Areogramma a settori variabili Areogramma a settori fissi L’aereogramma a settori fissi è una rappresentazione grafica particolarmente idonea nel caso di caratteri qualitativi ordinati (es. graduatorie), in cui l’ordinamento è stabilito a priori in funzione delle frequenze assolute Rappresentazioni grafiche Rappresentazione grafica per caratteri quantitativi I caratteri qualitativi possono essere rappresentati attraverso i seguenti strumenti grafici: a) b) c) d) Istogrammi Diagrammi cartesiani a segmenti Poligono e curve di frequenza per variabili continue Rappresentazioni di tipo informatico: - a ramo e foglia (stem and leaf plot) - a scatola (boxplot) - le facce di Chernoff - ideogrammi o pittogrammi Rappresentazioni grafiche Gli istogrammi Gli istogrammi sono utilizzati per rappresentare distribuzioni di frequenza di caratteri quantitativi le cui modalità sono costituite da classi di valori. Distinguiamo due casi: 1. Le classi di valori hanno uguale ampiezza. In questo caso avremo tanti rettangoli contigui, ciascuno avente base uguale all’ampiezza della classe e altezza (densità) proporzionale alla frequenza (assoluta o relativa) associata alla classe L’ipotesi di base su cui si fonda la rappresentazione per istogrammi è che le unità classificate in ciascuna classe di valori siano equidistribuite Rappresentazioni grafiche Gli istogrammi 2. Le classi di valori hanno diversa ampiezza. In quest’altro caso avremo una serie di rettangoli caratterizzati da basi diverse, uguali all’ampiezza delle classi, e altezze proporzionali alle frequenze (assolute e relative), per garantire che queste equivalgano alle aree dei rispettivi rettangoli In ordinata, pertanto, avremo le cosiddette densità di frequenza, date dal rapporto tra la frequenza (assoluta o relativa) di ciascuna classe e la relativa ampiezza: 𝛿𝑖 = 𝑁𝑖 𝑎𝑖 Rappresentazioni grafiche I diagrammi cartesiani a segmenti Sono impiegati per rappresentare graficamente caratteri quantitativi discreti, non ripartiti in classi, e si configurano come diagrammi a segmenti verticali (c.d. a canne d’organo) Esempio. Numero dei componenti per famiglia, numero delle stanze delle abitazioni, numero di unità locali delle aziende e così via. In questo caso è inappropriato costruire il poligono di frequenza poiché il carattere è discreto e quindi tra le singole modalità non esistono valori intermedi Rappresentazioni grafiche Poligoni di frequenza I diagrammi cartesiani ortogonali sono impiegati anche per rappresentare graficamente i caratteri quantitativi continui (come ad esempio redditi, prezzi) o, nel caso delle serie storiche, per quei caratteri che si suppone si modifichino con continuità nel tempo La costruzione di tali diagrammi è del tutto analoga a quella vista per i diagrammi ad aste o segmenti salvo che, in questo caso, una volta rappresentati nel piano cartesiano i punti rappresentanti la distribuzione considerata, essi vanno uniti mediante una spezzata detta poligono di frequenza Rappresentazioni grafiche Poligoni di frequenza All’aumentare del numero di unità rilevate il poligono di frequenza si approssima sempre più a una linea continua detta curva di frequenza, la quale talvolta è esprimibile anche mediante l’ausilio di funzioni matematiche Rappresentazioni grafiche Poligoni di frequenza Problemi di scala: i due grafici rappresentano la stessa distribuzione ma l’andamento della serie è nei due casi percepito in maniera diversa Il grafico a sinistra mostra un trend stabile per circa 10 anni, seguito da una moderata crescita Riducendo la scala sull’asse delle ordinate (grafico a destra) si evidenziano le variazioni intervenute nei primi dieci anni e la crescita dell’ultimo periodo è enfatizzata Rappresentazioni grafiche Rappresentazioni informatiche: il diagramma ramo-foglia Un modo interessante per rappresentare la distribuzione di frequenza in classi è quello di partire dalla costruzione del diagramma ramo-foglia (proposto da J.W. Tukey nel 1977). Tale grafico, adatto per caratteri quantitativi in collettivi poco numerosi, rappresenta i numeri tenendo conto del valore posizionale delle cifre nel sistema decimale Rappresentazioni grafiche Rappresentazioni informatiche: il diagramma ramo-foglia Ipotizziamo di aver svolto un’indagine per accertare i tempi medi di percorrenza casa-lavoro di un campione di N=55 studenti che hanno svolto attività di stage e che i risultati siano stati raccolti nel seguente prospetto di rilevazione: Rappresentazioni grafiche Rappresentazioni informatiche: il diagramma ramo-foglia I dati della nostra indagine sono numeri composti da unità e da decine e quindi possiamo utilizzare tale caratteristica per distribuirli. Il (r-f) è costituito da tanti rami quanti sono le decine evidenziate nei dati osservati e, per ogni ramo, da tante foglie quante sono le unità riscontrate Per i dati in oggetto otterremo il grafico a sinistra, dove, ad esempio, il valore 25 è rappresentato con una ‘foglia’ (5) nel ‘ramo’ 2; tale rappresentazione permette di evidenziare il dato più frequente e di contare il numero di valori compresi fra due decine consecutive, rendendo molto più agevole la costruzione di un prospetto di sintesi Rappresentazioni grafiche Rappresentazioni informatiche: il diagramma a scatola (box-plot) È una rappresentazione grafica che consente di leggere con immediatezza le principali caratteristiche di una distribuzione osservata: Il box-plot si configura come un rettangolo, in cui: 1. I lati inferiore e superiore indicano rispettivamente il 1° quartile (Q1) e il 3° quartile (Q3) della distribuzione considerata 2. La linea tratteggiata all’interno del rettangolo indica la posizione della mediana (Q2=2° quartile) 3. Il simbolo ‘‘+’’ rappresenta la media aritmetica 4. Le linee verticali tratteggiate (whiskers) indicano l’estensione della distribuzione dal valore minimo della distribuzione a Q1 e da Q3 al valore massimo osservato Rappresentazioni grafiche Rappresentazioni informatiche: le facce di Chernoff Introdotta nel 1973 ed eseguibile soltanto tramite computer e software apposito, utilizza i tratti di un volto (occhi, naso, bocca) per rappresentare le diverse componenti di un’informazione. Le facce di Chernoff possono essere adottate sia per distribuzioni statistiche semplici che multiple Un limite di queste rappresentazioni è che l’informazione che se ne ricava è più di tipo qualitativo (somiglianze, dissomiglianze) che quantitativo Rappresentazioni grafiche Rappresentazioni informatiche: ideogrammi o pittogrammi Rappresentazioni grafiche aventi carattere divulgativo, si avvalgono di figure, simboli, generalmente tutti simili tra loro, aventi un’immediata attinenza con il carattere considerato (figure umane, oggetti ecc.) e di grandezza o numero variabile per indicare l’entità della frequenza o dell’intensità del carattere rappresentato Qualsiasi carattere statistico (qualitativo o quantitativo) può essere rappresentato con questa tipologia di grafici Rappresentazioni grafiche Rappresentazioni grafiche di distribuzioni statistiche doppie Le distribuzioni statistiche doppie possono essere rappresentate attraverso i seguenti strumenti grafici: a) b) c) d) Nuvola di punti (diagramma scatter, scatter-plot) Stereogramma Cartodiagrammi Piramide delle età Rappresentazioni grafiche Nuvola di punti o scatter-plot Rappresentazione grafica adottata nel caso di una distribuzione statistica doppia (X,Y) in cui entrambi i caratteri sono quantitativi perché consente di visualizzare la correlazione esistente fra le variabili Lo scatter-plot rappresenta su un diagramma cartesiano le unità statistiche, individuate da una coppia di valori (xi,yi), ad esempio altezza e peso La nuvola dei punti consente di evidenziare la dispersione tra le unità statistiche, che influisce sulla conformazione della nuvola dei punti e può fornire indicazioni sul tipo di relazione esistente tra le due variabili Rappresentazioni grafiche Nuvola di punti o scatter-plot 1. Se la nuvola di punti assume una forma «sferica», tra le due variabili non sussiste un legame di tipo lineare; 2. Se i punti tendono invece a disporsi lungo una retta, le due variabili hanno una relazione di tipo lineare (del tipo 𝑦 = 𝛼 + 𝛽𝑥 ) Rappresentazioni grafiche Stereogramma Lo stereogramma è una rappresentazione grafica particolarmente indicata per mutabili o variabili statistiche doppie Lo stereogramma è costituito da una diagramma cartesiano ortogonale in uno spazio a tre dimensioni, in cui sui tre assi (x, y e z) sono riportati rispettivamente i valori della variabile X, i valori della variabile Y e le frequenze assolute o relative congiunte delle due variabili Rappresentazioni grafiche Stereogramma A seconda che le variabili siano entrambe discrete, una discreta e una continua oppure entrambe continue, lo stereogramma sarà del tipo: A pali, nel caso di due variabili discrete A curve, nel caso in cui entrambe le variabili sono continue oppure una è discreta e l’altra continua Rappresentazioni grafiche Cartodiagramma Il cartodiagramma è un cartogrammi in cui, anziché delle serie territoriali semplici, sono rappresentate delle serie territoriali di due o più caratteri Esempio: I nati vivi e i morti per 1.000 abitanti nelle 20 Regioni italiane nel 1986 Rappresentazioni grafiche Piramide delle età È una particolare ed efficace rappresentazione grafica della struttura per età e sesso di un dato collettivo o popolazione È rappresentata da due istogrammi rovesciati, corrispondenti ai due sessi, in cui sull’asse verticale comune è indicata l’età ripartita in classi e sull’asse orizzontale le frequenze (assolute o relative) dei maschi e delle femmine, corrispondenti a ciascuna classe di età considerata Rappresentazioni grafiche Piramide delle età Dalla forma assunta dalla piramide è possibile trarre indicazioni sia sui fattori che caratterizzano la struttura per età e sesso attuale che sull’evoluzione passata nonché previsioni per un arco di tempo non superiore a un secolo. Tali indicazioni possono essere tratte analizzando, in particolare: 1. La base, che fornisce indicazioni circa il flusso delle nascite. Se è molto larga, si ha un flusso di nascite consistente; se è stretta significa che il flusso delle nascite è scarso e non garantisce il ricambio generazionale; 2. L’inclinazione dei lati, che fornisce indicazioni circa il livello generale di eliminazione per morte. Se l’obliquità dei lati è forte, si ha un’alta mortalità; se è debole, si ha una bassa mortalità; 3. La presenza di rigonfiamenti o strozzature per particolari classi d’età, che fornisce indicazione dell’intervento di particolari fattori di perturbazione (es. Prima Guerra Mondiale) Bibliografia UNECE, Making Data Meaningful Part 2: A guide to presenting statistics, United Nations, Geneva 2009