Big Data : volume di dati livelli variabili di complessità generati a velocità differenti non elaborabili con tecnologie tradizionali Volume: gestione di moltissimi dati Velocità: gestione in tempo reale Varietà: fonti e tipologie diverse Veridicità: attendibilità dei dati raccolti Volatilità: tempo di validità dei dati Opportunità di conoscenza Capire il mondo reale Opportunità commerciali Non possiedono un modello prestabilito Non sono organizzati Possono causare ambiguità Sono costituiti da: › › › › › Testo Audio Video Flussi di click … Raccolta di informazioni Classificazione in categorie prestabilite Organizzazione secondo uno schema preciso Memorizzazione fisica dei dati Collezione e memorizzazione dei dati Classificazione per categorie Trasformazione dei dati Generazione dei risultati trovati ASCOLTARE CAPIRE RIELABORARE VISUALIZZARE Script pattern matching: › individuare tokens › stabilire il pattern delle frequenze in un testo Set di parole: › › › › Google books Twitter Canzoni 1960/2007 New York Times 1987/2007 Grado di felicitá: › Amazon’s Mechanical Turk http://www.hedonometer.org/index.html havg(T) = livello di felicitá della frase T havg (wi) = felicitá di ciascuna parola Fi = frequenza della i-esima parola 484 miloni di tweets 9.8 milioni di persone Luglio 2009 e Gennaio 2012 54 piú larghe cittá della Gran Bretagna Parole cercate: PAURA, GIOIA, RABBIA, TRISTEZZA PAPER: <<Big Data Analysis of News and Social Media Content>> Ilias Flaounas, Thomas Lansdall-Welfare, Nello Cristianini Intelligent Systems Laboratory, University of Bristol PAPER: <<Temporal patterns of happiness in a global social network: Hedonometrics and Twitter>> P. Sheridan Dodds, K. Decker Harris, I. Kloumann, Center of complex systems of the university of Vermont http://www.blogsvoices.unimi.it AMBIGUITÁ SENSI MULTIPLI TONO SARCASMO SOPRANNOMI IMMAGINI «Il Big Data ha avuto un impatto nello studio del comportamento umano simile all’introduzione del microscopio o del telescopio nei campi della biologia e dell’astronomia» Zeynep Tufekci “Big Questions for Social Media Big Data” Big Data aiutano a comprendere le dinamiche del proprio mercato di riferimento Per riuscire a trarne il massimo bisogna sodisfare alcuni requisiti: › Nuova mentalità › Leadership › Team di ricerca › Gestione dei dati Big Data + Marketing = ROI enorme Risultato Operativo = Capitale investito netto operatvo Attraverso un’analisi dei dati il negozio Target è riuscito a scoprire che una ragazza era incinta, ancora prima che lo sapessero i suoi genitori. Fedelity Card Informazioni Personali + Informazioni di Vendita Big Data 152 milioni di conti cliente • Raccolta • Archiviazione • Calcolo • Condivisione Ricerche + Acquisti + Desideri Big Data Pubblicità 5 GB gratis 1.000 GB massimo 2 GB trasferimento massimo per file $ 0.50 per GB Online software Cloud Player Obiettivi: Restringere tempi di attesa Predire gli ordini del cliente « Se non lo vuoi, te lo regaliamo! » 15 KM massimo 2 KG massimo Spediti 30/60 minuti dall’ordine Ricevuti nella stessa giornata dell’ordine Utenti: › Motore di ricerca › Chrome › Gmail Aziende: › Pubblicità con testo › Pubblicità multimediale Traffico Meteo Sport Attività Appuntamenti Trasporto pubblico Attrazioni nelle vicinanze Amici nelle vicinanze Notizie Salvataggio posizione parcheggio Conto alla rovescia Promemoria pagamento bollette Cronologia delle posizioni GPS Gmail Calendario Contatti Ricerche Google Trascinamento Caricamento URL Click su un’immagine Web Immagine stessa Immagini simili Siti web contenenti immagini simili 80 lingue traduzione automatica statistica possibilità di cambiare il testo tradotto scegliendo alternative da un elenco esistente « Improve this translation » immissione vocale fotocamera scrittura a mano libera modalità offline Reperimento delle informazioni: È l'insieme delle tecniche utilizzate per gestire oggetti contenenti informazioni Permette di: Rappresentare Memorizzare Organizzare Soddisfa: Il bisogno informativo dell’utente Gestistione: Ricerca di informazioni, non di dati Possibile restituzione di risultati non pertinenti È un movimento che promuove il non utilizzo del modello relazionale. Identifica: un'ampia varietà di tecnologie legate ai database Risponde: al crescente volume di dati memorizzati sulla Rete alle modalità e alla frequenza di accesso ai dati alla necessitá di performance e di potenza di calcolo Scalabilitá Prestazioni migliori Schemi dinamici Facile da utilizzare Flessibile È un framework che supporta applicazioni distribuite con elevato accesso ai dati Permette di lavorare con migliaia di nodi e petabyte di dati Yahoo! è il più grande contributore a questo progetto È usato anche da: AOL, Ebay, Facebook, IBM, ImageShack, Joost, Linkedin, Spotify, The New York Times e Twitter