http://richard.cyganiak.de/2007/10/lod/ Open Data – Data Journalism Trasparenza e informazione al servizio delle società nell’era digitale Cenni storici da un passato molto prossimo (1/2) Il D.J. eredita la parte migliore del tradizionale giornalismo d’inchiesta: i fatti Dalla crisi del giornalismo molti giornalismi possibili La differenza è nelle dimensioni. Differenze di scala estreme = differenze di genere I CABLI DI WIKILEAKS LE FOTO DEI CITIZEN JOURNALIST PLICO/ WATERGATE Open Data – Data Journalism di Andrea Fama 2 Cenni storici da un passato molto prossimo (2/2) IL RUOLO DEL D.J. PER IL LETTORE “Certezza” del dato = bussola PER IL GIORNALISTA Distinguere i fatti dalle opinioni senza equilibrismi da “un colpo al cerchio e uno alla botte” DATI Open Data – Data Journalism di Andrea Fama 3 Le possibilità tecniche Digitalizzazione dei fatti del mondo = Enorme mole di materiale da ricercare, processare e pubblicare Le redazioni sono dotate delle professionalità necessarie? “Una nuova razza a metà strada tra i tecnici e i giornalisti” (Irfan Essa) Open Data – Data Journalism di Andrea Fama 4 Le ragioni giornalistiche RACCONTARE STORIE ALTRIMENTI NON RACCONTABILI INCHIESTE TRASPARENZA Deep Web Data Mining Big Data Semantic Web/Data “Il D.J. incarna l’espressione più avanzata del principio di libertà e accesso all’informazione”. (Simon Roger – ex Data Blog editor,The Guardian) SERVIZIO AL CITTADINO Open Parlamento/Voi siete qui Crime mapping (il Giro della Nera) RU486 Open Data – Data Journalism di Andrea Fama 5 La spinta civica TRASPARENZA PARTECIPAZIONE CONSAPEVOLEZZA SPINTA CIVICA ALLA CONOSCENZA I poteri forti lasciano che il vero messaggio passi sopra la testa del cittadino, mentre la realtà sfila sotto al suo naso. Ma oggi è sempre più difficile rivolgersi ad uditori accondiscendenti che assumono l’informazione come un farmaco sotto prescrizione, eccitante o sedativo a seconda della sintomatologia. Open Data – Data Journalism di Andrea Fama 6 Applicazioni del Data Journalism Portata del D.J. e vastità di applicazioni. La tecnologia lo rende enorme, potenzialmente infinito. GEOGRAFIA Ambiente Urbanistica Turismo TRASPORTI Traffico Viabilità Qualità della vita Open Data – Data Journalism di Andrea Fama SICUREZZA Crime mapping Disposizione forze dell’ordine Servizi di quartiere 7 La cassetta degli attrezzi del Data Journalist (1/2) GIORNALISMO GRAFICA Il D.J. non è un media a se, bensì una sovrapposizione di competenze appartenenti a diversi campi STATISTICA INFORMATICA MATEMATICA Open Data – Data Journalism di Andrea Fama 8 I dati che abbiamo sono attendibili? Se uno scienziato dei dati produce i risultati sbagliati, accorgersene potrebbe non essere una cosa banale. la semplice trasparenza non porta al cambiamento (vedi evidenze cambiamenti climatici e politiche ambientali) non ci piacciono i numeri fornitici? basta etichettarli come corrotti se l’infografica è il nuovo discorso elettorale, mettere in dubbio i dati ne è la naturale confutazione. la trasparenza dei dati è una corsa alle armi nel mondo della divulgazione, alterare i dati è come alterare i bilanci quanti degli attuali scienziati dei dati diventeranno i periti contabili di domani, impegnati in una guerra alla frode e all’ignoranza? Alistair Croll Open Data – Data Journalism di Andrea Fama 9 La cassetta degli attrezzi del Data Journalist IMPORTARE Scraperwiki, Yahoo! Pipes, OutWit Hub, Google Spreadsheets. VISUALIZZARE ManyEyes, Tableau Public. CREARE MAPPE OpenHeatMap Public Data Explorer, ecc. CONDIVIDERE Google Fusion Open Data – Data Journalism di Andrea Fama 10 La cassetta degli attrezzi del Data Journalist FOCUS: Le 10 regole di Troy Thibodeaux (1/3) 1. I FOGLI DI CALCOLO (SPREADSHEET) Importare su un foglio elettronico (es. Excell) i dati grezzi in formato universale - senza formattazione, come un insieme di valori separati da virgole Applicare filtri, formule e funzioni (if..then; vertical look-up, ecc.) Scrivere le proprie formule (esprimere le proprie idee tramite codici). 2. SQL (Interrogazione di DB) Il foglio di calcolo ha dei limiti Per sondare il Big Data: SQL (Structured Query Language); PostgreSQL ACCESS; SQLite; MySQL; SQL: permette di gestire insiemi e sottoinsiemi di dati correlati 3. PULIRE I DATI Google Refine e Data Wrangler: come i fogli di calcolo, ma studiati per nomi standardizzati (Andrea Marco Fama, Fama Andrea Marco, Andrea M. Fama, ecc.) Google Refine Expression Language: come sopra, ma per insiemi di dati e codici più sfofisticati CSVKIT: studiato dai giornalisti, converte il proprio lavoro in un formato comune Open Data – Data Journalism di Andrea Fama 11 La cassetta degli attrezzi del Data Journalist FOCUS: Le 10 regole di Troy Thibodeaux (2/3) 4. VISUALIZZAZIONE Non è una decorazione, ma una funzione essenziale per comprendere meglio i dati e individuare tendenze altrimenti invisibili Google Fusion Tables e Tableau Public: semplici ed efficaci R: per gli esperti, è un pacchetto di statistica open source che combina analisi e visualizzazione attraverso un linguaggio di programmazione sofisticato 5. SOFTWARE PER LA MAPPATURA Data mapping: corrispondenza/match tra fonte ed obiettivo (due DB con gli stessi dati ma sotto nomi differenti) Strumenti: Google Fusion, Tableau Public , Qgis , Arcview Postgis e Spatiallite (specifici per dati di natura geografica) 6. LINGUAGGI DI PROGRAMMAZIONE Il governo non rilascia i dati che stanno dietro un sito web? Basta scavare per averli (Data Mining / Screen-scraper) Non si hanno i dati nel formato corretto utilizzando gli strumenti a disposizione? Basta costruirne uno proprio I linguaggi di programmazione più comuni tra i giornalisti: Python, Ruby, Perl o Php Open Data – Data Journalism di Andrea Fama 12 La cassetta degli attrezzi del Data Journalist FOCUS: Le 10 regole di Troy Thibodeaux (3/3) 7. WEB FRAMEWORK Cos’è un web framework? Una struttura di supporto su cui organizzare e progettare un software. A cosa serve? Ad evitare la riscrittura di un codice già steso in precedenza per compiti simili Strumenti: django per python; rails per ruby; symfony per il php; catalyst per perl. 8. EDITOR Strumenti: Textmateer Mac ; Notepad++ (Gratuito); Vim e Emacs (Open Source) 9. CONTROLLO E REVISIONE Salvare i backup Estrarre elementi da versioni temporanee di file Condividere il lavoro Strumenti: github; git o subversion 10. ANALISI DEI DOCS Document cloud: ricerca , estrazione e condivisione (molto usato dai giornalisti) Altri strumenti: Jigsaw; Python’s Natural Language Tool Kit e Standford Corenlp. Open Data – Data Journalism di Andrea Fama 13