Numeri e notizie:
un’introduzione
al data journalism
Aggiornamento professionale
per l’Associazione lombarda
dei giornalisti
Lezione del 4 dicembre 2014
Un titolo sbagliato
• Il titolo di questo corso non è del tutto
corretto: il data journalism non è il
giornalismo che si occupa di numeri
• Il giornalismo nasce dai numeri: le
prime gazzette si occupavano di merci
arrivate nei porti e dei loro prezzi
• Da sempre il giornalismo sportivo si
occupa di numeri
Un titolo sbagliato
• Il data journalism è l’applicazione al
giornalismo delle nuove tecnologie di
elaborazione dei dati, non
necessariamente numerici
• È un campo in rapida crescita che
richiede molte competenze diverse: in
questo senso questa è un’introduzione
• Si parlerà poco di grafica, ma molto di
numeri: da qui la scelta del titolo
Le nuove tecnologie
• Un esempio di elaborazione dati
Esempi di data journalism
•
•
•
•
•
Dottori e dollari
Obama e Romney, 2012 (in D3)
Il budget di Obama, 2012 (in D3)
Siccità negli Usa, 2012 (in R)
Formula 1 (in Rchart e D3)
…ma anche:
L’immigrazione in Germania e Gran Bretagna, 2014
Il data journalism
• Il data journalism si compone di diverse
fasi:
1.
2.
3.
4.
La ricerca e il recupero dei dati
La pulizia dei dati
L’esplorazione e l’elaborazione dei dati
La pubblicazione e la visualizzazione dei
dati
Data visualisation
• I grafici non sono l’unica conclusione possibile per un
lavoro di data journalism anche se è innegabile che la
presentazione grafica dei dati è molto efficace
• La data visualization va molto al di là delle semplici
infografiche: è compito complesso, spesso svolto da
statistici e fa parte della scienza statistica. La
disciplina si allarga fino a lambire l’Intelligenza
artificiale (machine learning)
• Questa introduzione si occuperà poco
dell’elaborazione grafica finale, anche se l’attenzione
ai grafici costituirà comunque una parte importante
della lezione
Gli strumenti del data journalism
Gli strumenti
del data journalism
• Ogni fase del data journalism può
avvalersi di programmi software diversi,
di complessità variabile
• Il data journalist «lone ranger»
dovrebbe imparare a usare diversi
programmi. Per questo il data
journalism appare da subito come un
lavoro di équipe
Gli strumenti
del data journalism
• La quantità di strumenti a disposizione è
tale che è possibile perdersi
• Data visualisation, una lista di software
Gli strumenti
del data journalism
• Esistono anche strumenti molto duttili –
come R, o anche Python – che
permettono di fare cose diverse come
estrarre, pulire, elaborare e visualizzare
i dati
• Sono però linguaggi di programmazione,
duttili perché poco «friendly»
• In ogni caso, il sostegno di strumenti più
semplici può essere utile
Gli strumenti
di questo corso
• R è un programma e un linguaggio di
programmazione disegnato per l’elaborazione
statistica dei dati.
• È un open source ed è stato via via ampliato: oggi
permette anche grafici interattivi (per i quali esistono
però strumenti dedicati più adeguati
• È gratuito e funziona anche sui computer «bloccati»
dalle aziende
• Rivela un’impostazione scientifica
• Si scarica da http://www.r-project.org/
Gli strumenti
di questo corso
• Per la pulitura dei dati, si illustrerà l’uso
di OpenRefine, disegnato per il data
journalism
• Per l’elaborazione dei dati si userà un
foglio di calcolo – Excel e/o Calc della
suite LibreOffice
Gli strumenti
di questo corso
• OpenRefine è un foglio elettronico disegnato
dalla Google per il data journalism
• È molto prezioso, ma i comandi non sono
immediati. Esiste un breve manuale, in inglese
• È gratuito e funziona anche sui computer
«bloccati» dalle aziende
• Si scarica da openrefine.org/
Gli strumenti
di questo corso
• Excel è un foglio elettronico della suite Office di
Windows. Usato anche dall’Fmi o dalle Università
per l’elaborazione dei dati.
• Calc è un prodotto analogo opensource, gratuito.
Non funziona sui computer «bloccati». La suite
LibreOffice si scarica da www.libreoffice.org/
• Per lo scraping dei dati da internet si illustrerà la
procedura su Google Spreadsheet. Lavora on line
e si trova su docs.google.com/spreadsheets
Gli strumenti
di questo corso
• Sarà comunque fornito un elenco di altri prodotti
software utilizzabili dai data journalist
La ricerca dei dati
Dove cercare i dati
• Quando non sono forniti da fonti
personali, i dati sono da cercare su
internet
• Esistono diverse modalità di accesso:
– Banche dati pubbliche e internazionali
• Quasi sempre producono frame di dati su
richiesta
– Banche dati private
– Siti internet
Banche dati internazionali
• Sono banche dati legate a organizzazioni
internazionali
• Quasi tutte hanno una banca dati
• Esempi:
– Fondo monetario internazionale
– Nazioni Unite
– Ocse 1 e 2
– Federal Reserve di St. Louis
– Eurostat
Banche dati internazionali
Molto spesso nelle banche dati
internazionali è possibile ricavare dati sui
paesi in via di sviluppo che non sono
disponibili nel paese stesso
Esempi:
Banca mondiale
OpenData for Africa
Banche dati internazionali
• Qui l’elenco delle agenzie statistiche
dell’Onu
• Qui l’elenco delle agenzie statistiche
internazionali
• Qui l’elenco di altre agenzie
internazionali
Banche dati internazionali
• Non mancano banche dati internazionali
gestite da privati o non-profit
• Esempi:
– Quandl
– OpenCorporates (aziende)
– Investigative Dashboard
– Alltime Athletics
Istituti di Statistica
• La maggior parte dei paesi ha un suo
istituto nazionale di statistica, non
sempre indipendente non sempre
attendibile
• Qui l’elenco
• Per l’Italia è l’Istat
• Più utile della home page è la sua banca
dati I.Stat
– Per il commercio estero c’è Coeweb
Cercare altri dati: dove?
• La ricerca di dati non ufficiali, non
pubblici, o non immediatamente
reperibili segue le stesse regole della
ricerca delle notizie
• Molte istituzioni e organizzazioni hanno
a disposizioni banche dati
• In più, si hanno a disposizione i motori
di ricerca, a cominciare da Google
Usare Google per cercare dati
• Per cercare dati con Google occorre
usare gli operatori di ricerca.
• Qui la guida
• Con site: si può limitare la ricerca a un
sito particolare. Per esempio
site:ilsole24ore.com (senza www)
• Con type: posso individuare i file di dati
usando l’estensione. Per esempio type:
xls
Le estensioni dei files di dati
• .xls, .xlsx -> Excel
• .cvs, tsv e simili -> dati separati da
virgole e tabulazioni (molto usati)
• .htm, .html, .xlm -> file web
• Attenzione: i dati separati da virgole,
.cvs, usano sicuramente il punto (e non
la virgola), come decimali
I database ufficiali
• Due ricerche su Eurostat
Lo scraping dei dati
«Grattare» i dati dal web
• A volte i dati sono semplicemente
presenti su una pagina web, per
esempio una voce Wikipedia
• Per scaricarli ci sono diversi software
che permettono di fare scraping. Alcuni
di essi sono a pagamento
• Il più semplice è Google Spreadsheet,
simile a Excel o Calc
Scraping con Google
Spreadsheet
• Il comando da inserire è:
=ImportHtml("URL","query",index)
• Url è l’indirizzo del sito
• Query è la forma assunta dai dati, in
generale è table
• Index è il numero della query, per
esempio il numero della tabella.
Un esempio di scraping
• Una pagina di Wikipedia
• Un secondo esempio
Altri strumenti di scraping
• Altri strumenti di scraping sono:
–OutWit Hub
–Import.io
–Chrome extension Scraper
–Scraperwiki
• Permettono, per esempio, di fare
scraping su dati che compaiono su una
serie di pagine web
Lo scraping dei testi pdf
• Il pdf è uno dei sistemi più diffusi: a
differenza di html, il linguaggio del web, è
stato però disegnato per la stampa non per
strutturare logicamente i contenuti:
recuperare i dati è complicato
• Scraperwiki permette di fare scraping su pdf,
ma a pagamento (dopo il 5°)
• Un’altra opzione è il Salva come testo di
Adobe Acrobat
• Altrimenti occorre usare Python…
Scraping da pdf
Scraping da un comunicato della Bce
Quando il sito è bloccato
• Si discute se lo scraping sia legale: non
mancano sentenze
• Non tutti i siti permettono di fare
scraping
Ripulire i dati: OpenRefine
Ripulire i dati
• Non sempre le banche dati sono mantenute in
modo ordinato
• Spesso sono riempite da più persone, in tempi
diversi: nomi, vie, numeri possono essere
inseriti con modalità diverse. Gli errori di
battitura sono sempre in agguato
• Per ripulire (ma anche per esplorare) i dati,
Google ha creato – sostanzialmente per i
giornalisti – OpenRefine: gratuito, non è
sempre di uso immediato
• Si scarica anche sui computer «bloccati»
Un esempio di ripulitura dei dati
L’elaborazione dei dati
Partendo dai numeri
• Dedichiamoci ora soprattutto ai dati numerici,
che sono il centro del nostro discorso e che
sono i più difficili da elaborare
• L’idea che può venire subito in mente è che
occorre innanzitutto esaminare i numeri e
trarne qualche indicazione, per esempio
calcolando variazioni, medie, e così via
Otto serie di dati
• Un esempio. Prendiamo in considerazione otto
serie di dati, da accoppiare due a due:
X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5
Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68
X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5
Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74
X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5
Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73
X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8
Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89
Un’analisi numerica
• La media delle x è uguale a 9, in tutti i quattro
casi
• La varianza delle x è uguale a 11
• La media delle y è uguale a 7,50
• La varianza delle y è 4.122 o 4.127
• La correlazione tra le x e le y è 0.816
• Si può «riassumere» ciascuna coppia di dati
con l’equazione y = 3 + 0.5x
ma…
La sorpresa
L’importanza dei grafici
• L’analisi esplorativa, sia effettuata dai
giornalisti che dagli statistici più esperti,
comincia sempre dai grafici
• I grafici dell’analisi esploratoria possono non
avere nulla a che fare con i grafici finali, che
hanno una funzione diversa, di comunicazione
efficace: il grafico più utile per l’analisi – il
boxplot – non comparirà mai sui giornali, il
meno utile – la torta, magari in 3d – c’è
spessissimo
• Molte regole sono comunque simili
Mostrare dati con i grafici
Napoleone e Charles Minard
Florence Nightingale
Trovare i casi estremi
I casi estremi
• Per valutare i singoli dati, occorre avere un punto di
riferimento.
• A volte è esterno ai dati. Molte banche centrali tra
cui la Bce, per esempio, hanno un obiettivo di
inflazione del 2% nel medio periodo. Ogni singolo
dato può essere valutato con quel punto di
riferimento
• Altri hanno origine statistica: il Fondo monetario
internazionale considera per esempio un livello di
debito/pil superiore all’85% insostenibile per i paesi
con accesso ai mercati e uno del 60% insostenibile
per i paesi più poveri
I casi estremi
• In altri casi, è lo stesso insieme dei dati a fornire
delle indicazioni
• Un minimo o un massimo, per esempio, danno già
l’idea di trovarsi di fronte a un caso estremo
• Analogamente può accadere con un minimo o un
massimo da x mesi, nelle serie temporali
• E’ però importante avere un punto di riferimento più
preciso per i casi estremi importanti perché:
1. Possono rivelare una notizia
2. Possono segnalare un errore nel data base
Riassumere i dati
• Per riassumere un insieme di dati la prima variabile
da usare è la media:
µ = (x1 + x2 + … + xn-1 + xn)/n
• Una volta calcolata la media è molto importante
capire quanto i singoli dati si allontanano dalla
media:
( xi - µ )2
• La media di queste distanze è la varianza, la radice
quadrata della varianza è la deviazione standard
• La deviazione standard serve come unità di misura
per confrontare insiemi diversi di dati
Riassumere i dati
• La deviazione standard serve come unità di misura
per confrontare insiemi diversi di dati
• L’idea è quella di misurare la distanza dei singoli dati
dalla media con un’unità standard. Si può allora dire
che il dato x1 è per esempio a due deviazioni
standard dalla media.
• Quando i dati sono molto… ordinati – poi vedremo
come ipotizzare questa simmetria - il 95% si colloca
tra -2 e 2 deviazioni standard dalla media, il 99,7%
tra -3 e 3 deviazioni standard.
Riassumere i dati
• Attenzione a non usare con troppa leggerezza questi
parametri, pur molto diffusi.
• Su queste indicazioni, una flessione di Borsa del
6,8% (31 agosto 1998) potrebbe capitare in un caso
su 20 milioni (o 76628 anni); una flessione del 7,7%
(avvenuta un anno prima) in un caso su 50 miliardi
(310,6 milioni di anni) e un crollo del 29,7% (19
ottobre 1987) di un caso su 1050, ossia 100.000
miliardi di miliardi di miliardi di miliardi di miliardi di
giorni. L’universo ha circa 3.600 miliardi di giorni
borsistici (365 meno sabati e domeniche in un
anno).
• Si parla a volte di «code grasse», «fat tails».
Confrontare dati diversi
• Un esempio:
–
–
Antonio ha avuto 83/100
Francesca ha avuto 89/100
• Quindi Francesca è andata meglio di Antonio.
• Ma Francesca e Antonio erano in due classi
diverse
• Nella classe di Antonio la media è stata 74, in
quella di Francesca 80: i professori di Francesca
erano più generosi
• Nella classe di Antonio la deviazione standard è
stata di 4, in quella di Francesca di 6
Confrontare dati diversi
• VotoAntonio
• MediaClasseAntonio
• SdClasseAntonio
= 83 VotoFrancesca
= 89
= 74 MediaClasseFrancesca = 80
= 4 SdClasseFrancesca
= 6
• Il voto «normalizzato» di Antonio è allora:
(83-74)/4 = 2.25
• Il voto «normalizzato» di Francesca è:
(89-80)/6 = 1.5
In realtà Antonio ha ottenuto un risultato migliore di
Francesca
Il problema della media
• La media, e la deviazione standard, non sono
però dati stabili
• Sono molto influenzati da quei «casi limite» che
noi vogliamo individuare
• E’ come avere un Autovelox che a ogni multa fa
salire la velocità alla quale scatta la foto
• Qualche anno fa, la Guinea Equatoriale appariva
come uno dei paesi con il maggior reddito pro
capite: in realtà c’erano poche persone e poche
aziende ricchissime e la maggior parte della
popolazione molto povera
La mediana
• Ci sono molti strumenti per ottenere un valore più
stabile o «robusto»
• Nello sport si usa la «media olimpica»: il voto più
alto e quello più basso vengono scartati
• L’altro sistema è calcolare la mediana: se metto in
fila indiana, in ordine di reddito crescente, un
insieme di persone, il reddito mediano è il reddito
della persona «in mezzo» e divide il gruppo in due
parti (oppure la media delle due persone «al centro»
se il numero di persone è pari)
• Se su 100 persone, 99 guadagnano mille euro al
mese e 1 un milione, il reddito mediano è mille euro
Verso un po’ di ordine
• La prima cosa da fare è confrontare la mediana e la
media
• Se sono molto vicine i dati sono simmetrici e posso
continuare a usare la media, la deviazione standard
e i valori critici della deviazione standard
• Se sono lontane e la media è maggiore della
mediana: è possibile trovare casi limite (o più casi
limite) superiori alla media
• Se sono lontane e la media è minore della mediana,
è possibile trovare casi limite (o più casi limite)
inferiori alla media
La mediana
• Una volta diviso l’insieme in due parti, attraverso la
mediana, posso ulteriormente dividere in due i due
sottogruppi con lo stesso sistema: ottengo il primo
quartile Q1 e il terzo quartile Q3(la mediana è il
secondo quartile)
• La differenza
IQR = Q3 - Q1
(lo… scarto interquartile) può sostituire la
deviazione standard
La mediana
IQR = Q3 - Q1
• I casi limite sono al di sotto di
Q1 – 1,5*IQR
e al di sopra di
Q3 + 1,5*IQR
• Tutto un po’ complicato… Come semplificare?
• La soluzione è sul sito www.alcula.com
Deviazioni standard
• Se si accetta di perdere precisione, si ci può
comunque affidare alla deviazione standard.
• La probabilità che un dato sia alla distanza di due
deviazioni standard della media non è mai maggiore
di ¼ (25%) o 1/22 .
• La probabilità che sia alla distanza di tre deviazioni
standard non è mai maggiore dell’11% (1/32)
• La probabilità che sia alla distanza di sei deviazioni
standard no è mai maggiore del 2.8%.
• Quando i dati sono «ordinati», la probabilità che un
dato sia a distanza di sei deviazioni standard è di
0,000000001 % …
Le serie temporali
Le serie temporali
• La prima valutazione, di fronte a una serie temporale
è piuttosto il calcolo delle variazioni
• Per dati quotidiani si calcola in primo luogo la
variazione quotidiani, per dati mensili variazioni
mensili
• Nei dati macroeconomici si usa spesso anche la
variazione annuale
• La formula per la percentuale è:
(Xn/xn-1 - 1)*100
Le medie mobili
• Per alcuni dati particolarmente volatili, per esempio
quelli su import, export, quantità di moneta, è
opportuno cercare di individuare una tendenza di
fondo isolandola dalle variazioni temporanee
• Il modo più semplice è quello di calcolare la media
mobile
• In genere trimestrale per i dati macroeconomici, ma
per le quotazioni finanziari si può usare, insieme, la
media a 14 giorni, quella a 200 giorni ecc.
Le medie mobili
• Per usare la media mobile, al posto del dato di
novembre si usa la media novembre-ottobresettembre, al posto del dato di ottobre la media
ottobre-settembre-agosto ecc.
• Si disegna il grafico, sovrapponendolo a quello con i
dati puntuali
• Se serve, si calcolano le variazioni tra un mese e
l’altro usando la stessa formula dei dati puntuali
Le insidie della statistica
•
Le statistiche possono essere molto insidiose, e occorre
fare tanta attenzione su come usarle
•
Non sarebbe impossibile ricavare dai dati ufficiali
l’indicazione secondo cui nell’Unione europea il numero
degli analfabeti è di circa 26 milioni
•
Non sarebbe impossibile trovare anche una correlazione
tra il livello di alfabetismo e la misura delle scarpe
•
Una notizia…
Le insidie della statistica
Le insidie della statistica
•
In passato sono state elaborate correlazioni perfette tra
l’inflazione britannica e la temperatura di Londra, due
variabili senza alcun legame
•
E’ possibile stabilire, in alcuni paesi, una correlazione tra
il consumo di gelati e il numero dei morsi di serpente.
Sono due grandezze indipendenti ma legate alle stagioni
e alla temperatura atmosferica
•
In ogni caso, la correlazione statistica non segnala mai,
da sola, un rapporto di causa ed effetto ma soltanto un
legame che può anche rivelarsi temporaneo o mutare
caratteristiche nel tempo
Le insidie della statistica
Il paradosso di Simpson
University of California, Berkeley - 1973
Candidati Ammessi
Uomini
8442
44%
Donne
4321
35%
Il paradosso di Simpson
Dipartimento
A
B
C
D
E
F
Uomini
Donne
Candidati Ammessi Candidati Ammessi
825
62%
108
82%
560
63%
25
68%
325
37%
593
34%
417
33%
375
35%
191
28%
393
24%
373
6%
341
7%
[email protected]
[email protected]
Scarica

Link Slide