Statistica sociale Modulo B A.A. 2012-2013 Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Corso di Laurea PROGEST Facoltà di Lettere e Filosofia Università di Tor Vergata [email protected] [email protected] Statistica sociale Modulo B Orario lezioni: Lunedì ore 14-16 aula T31 Giovedì ore 16-18 aula T30 Venerdì ore 14-16 aula T30 Orario ricevimento: Lunedì ore 13-14 Studio 26, Edificio B, Primo Piano (presso la stanza della Prof.ssa D.F. Iezzi) Temi del corso OBIETTIVI: L’insegnamento si propone di fornire allo studente le conoscenze necessarie per progettare, realizzare ed interpretare i risultati di un’indagine statistica nel campo sociale. In particolare, verranno sviluppati strumenti logico-concettuali, metodologici ed applicativi per gestione di un’indagine dalla fase di programmazione a quella di esecuzione ed analisi dei dati. PREREQUISITI: Statistica sociale modulo A (6 CFU) Il modulo prevede lezioni frontali ed esercitazioni in aula. ll materiale didattico utilizzato durante il corso sarà reso disponibile on line per ogni nuovo argomento introdotto a lezione. Temi del corso CONTENUTI: La progettazione di un'indagine statistica; Dati di attributo, relazionali e testuali; Il questionario per raccogliere attributi e per raccogliere relazioni; La tecnica delle scale; Le tecniche di somministrazione del questionario; Il trattamento automatico di dati testuali; Introduzione alla Social Network Analysis. LABORATORIO: Analisi dei dati attributo con l’utilizzo del foglio elettronico Excel e di dati testuali con software statistici La statistica La statistica analizza, in termini quantitativi, i fenomeni collettivi, ossia studia i fenomeni per i quali bisogna fare delle osservazione su un insieme di comportamenti individuali. La statistica per le scienze sociali è un insieme di metodologie per la raccolta e l’analisi dei dati, il cui utilizzo consente di descrivere, valutare e prevedere i fenomeni sociali Il fenomeno statistico è tutto ciò che può essere direttamente o indirettamente osservato e riguarda una molteplicità di unità statistiche L’unità elementare su cui vengono osservati i caratteri si chiama unità statistica. Un insieme di unità statistiche omogenee a una o più caratteristiche costituisce un collettivo statistico o popolazione. La statistica La conoscenza statistica passa attraverso 3 fasi 1. Fase del vedere: attività istintiva ed intuitiva – una realtà cade sotto i nostri occhi 2. Fase del guardare: focalizzare l’attenzione su particolari a scopo descrittivo - Ricostruzione della realtà secondo le dimensioni rilevanti per colui che guarda 3. Fase dell’osservare: la selezione dei particolari è finalizzata ad uno scopo – l’operazione dell’osservare seleziona le cose da osservare in quanto non tutto ciò che è osservabile è utile Strategie statistiche di ricerca Condizioni iniziali: le informazioni statistiche sono già disponibili le informazioni occorrenti non sono disponibili Se le informazioni statistiche sono già disponibili si attingerà da fonti statistiche che mettono a disposizione dati già elaborati o da elaborare. In questo caso si parla di DATI SECONDARI Se le informazioni statistiche non sono disponibili si dovrà avviare una indagine ad hoc. In questo caso si parla di DATI PRIMARI Dai dati grezzi agli indicatori Quale che sia la procedura di raccolta dati (dati primari o dati secondari) le fasi operative successive consistono nel trasformare i dati grezzi in indici e successivamente in indicatori 1. 2. 3. Fase del vedere Fase del guardare Fase dell’osservare Dati grezzi Numeri indici Indicatori Dati grezzi In generale il termine “dato” è definito come una descrizione originaria non interpretata degli eventi Esempi: dati raccolti in un questionario sulla soddisfazione di una visita ad un museo; dati prelevati dall’indagine statistica sul movimento alberghiero riguardanti gli arrivi in un mese in una regione; dati prelevati dall’indagine sulle presenze straniere in Italia della Banca d’Italia; ecc.. Indici Trasformare il dato grezzo in indice ossia in una entità numerica. Solitamente è una trasformazione meramente matematica che mette in relazione due o più dati grezzi creando però informazione e conoscenza. L’indice ha una sua autonomia rispetto alle grandezze messe in confronto Esempio: indice di intensità turistica (Presenze annuali di turisti diviso la popolazione residente nel territorio). Esso misura l’importanza del turismo nell’area considerata, ed evidenzia la pressione relativa che la disponibilità ricettiva e i flussi turistici esercitano sul territorio. Indici Esempio: permanenza media dei clienti negli esercizi (numero di presenze negli esercizi in un determinato periodo diviso gli arrivi). Esso misura la durata della permanenza nell’area considerata, ed evidenzia l’uso continuativo che la presenza turistica ha sulla disponibilità ricettiva. Indicatori Un indice diventa indicatore quando a questo attribuiamo uno stretto legame con un referente concettuale che fa parte di un modello di ricerca (a priori) o di uno schema interpretativo (a posteriori). Uno stesso indice assume significati diversi se usato in contesti diversi di ricerca Evento, dato e informazione In generale il termine “dato” è definito come una descrizione originaria non interpretata degli eventi. Il “dato statistico”, invece, è un evento (soggetto, entità, accadimento o caratteristica) osservato e registrato che si differenzia dall’evento stesso perché depurato delle caratteristiche non ritenute essenziali secondo gli obiettivi di conoscenza. Dal dato iniziale spesso si passa al dato sintetico, ottenuto attraverso alcune elaborazioni, con lo scopo di ricomporre e descrivere il fenomeno o l’evento reale che ci interessa studiare. Conseguentemente dal dato iniziale si ottiene un OUTPUT (dato costruito e elaborato) e dall’output si ottiene un OUTCOME (output interpretato in funzione di un progetto). Evento, dato e informazione Il dato diventa informazione quando viene: Memorizzato; Organizzato; Classificato; Messo in relazione; Interpretato. Per ottenere da essi informazioni significative, i dati devono possedere alcuni requisiti essenziali cioè essere: COMPLETI - cioè capaci di descrivere un fenomeno o una situazione nel modo più esaustivo possibile; OMOGENEI - per cui i sistemi di rilevazione e classificazione devono garantirne la comparabilità; FASATI – nel senso che i dati devono riferirsi ad un preciso arco temporale. Evento, dato e informazione La tipologia dei dati statistici disponibili è riportabile a tre grandi categorie: Dati oggettivi che danno conto di uno stato di fatto (popolazione residente in un paese, aeromobili di una flotta ….) Dati oggettivi che danno conto del risultato di un processo (macchine prodotte, passeggeri trasportati …) con riferimento ad un determinato periodo di tempo. I dati che rientrano in entrambe queste tipologie sono generalmente certificati Dati soggettivi o percettivi che danno conto di opinioni, orientamenti, comportamenti, valutazioni … di specifici collettivi. Evento, dato e informazione Microdati: dati elementari, relativi cioè alla singola unità su cui sono stati rilevati. L’insieme dei dati rilevati sulla singola unità ne costituiscono il profilo. Macrodati: il risultato di un qualsiasi calcolo (somma, differenza, rapporto …) effettuato sui microdati secondo criteri definiti. Unità aggregate su cui non è possibile rilevare direttamente l’informazione si servono di macrodati (il reddito prodotto da una regione è dato da un aggregato di singoli redditi prodotti o percepiti) Metadati: le informazioni di carattere qualitativo e/o quantitativo riguardanti le modalità di produzione dei microdati e dei macrodati. Qualità di un dato statistico La qualità dei dati ha oggi più che mai un rilievo centrale: non si tratta solo di fornire qualche indice in più sulla produzione dei dati, si tratta piuttosto di dare vita ad un modo nuovo di pensare alla produzione dei dati, ad una nuova organizzazione di questa produzione, a nuovi metodi per distribuirla. La qualità dei dati deve realizzare il controllo del processo di produzione. Controllo contestuale ed integrato allo svolgimento del processo stesso. Qualità: si riferisce non solo al prodotto ma anche al processo. La produzione di un dato è il risultato di un serie concatenata ed interdipendente di applicazioni di norme e strumenti specifici: la qualità dipende dal controllo che si ha del processo di produzione e che lo strumento principale di cui si dispone per migliorare la qualità della misura è il controllo del processo di produzione. Qualità di un dato statistico In letteratura (Eurostat, 2002) l’informazione statistica viene considerata alla stregua di un qualsiasi bene o servizio in modo da mutuare i concetti sviluppati nel settore della qualità dei beni e servizi prodotti in ambito industriale. La definizione di qualità proposta nelle norme Iso 8402-1984 per un bene o servizio è la seguente: “Il possesso della totalità delle caratteristiche che portano al soddisfacimento delle esigenze, esplicite o implicite, dell'utente”. La qualità dei dati è definita dalla capacità che questi hanno di soddisfare le esigenze conoscitive degli utilizzatori. Qualità di un dato statistico La qualità non è, però, esprimibile attraverso una misura sintetica, ma richiede un insieme di valutazioni e informazioni. Nella ricerca statistica, il processo produttivo di un dato ha bisogno delle fonti (input), del trattamento (throughput) e del prodotto-servizio o restituzione dell’informazione (output). Il compito dei produttori di statistiche non è più solo quello di affermare la validità di un dato, ma anche di documentare il processo in cui il dato è inserito come proveniente dalle strategie di misura adottate. Qualità di un dato statistico Qualità di un dato statistico – Definizione Eurostat 7 criteri: - rilevanza; - accuratezza; - tempestività; - accessibilità e chiarezza; - comparabilità; - coerenza - completezza. Qualità di un dato statistico Rilevanza: The ’relevance’ of statistics refers to whether users’ needs are adequately met. Capacità dell’informazione di soddisfare le esigenze conoscitive degli utenti. The degree to which the statistical product meets user needs for both coverage and content. Any assessment of relevance needs to consider: • who are the users of the statistics; • what are their needs; and • how well does the output meet these needs? Qualità di un dato statistico Accuratezza: ‘Accuracy’ is defined as the closeness between the value finally retained (after collection, editing, imputation, estimation, etc) and the true, but unknown, population value. Grado di corrispondenza fra la stima ottenuta dall’indagine e il vero (ma ignoto) valore della caratteristica in oggetto nella popolazione oggetto di indagine Accuracy can be split into sampling error and non-sampling error, where non-sampling error includes: • coverage error; • non-response error; • measurement error; • processing error; and • model assumption error. Qualità di un dato statistico Tempestività e puntualità: ‘Timeliness and punctuality’ Punctuality refers to the possible time lag existing between the actual delivery date of data and the target date when it should have been delivered, for instance, with reference to dates announced in some official release calendar, laid down by Regulations or previously agreed among partners. If both are the same, delivery is punctual. ‘Timeliness’ refers to the lapse of time between the delivery and the reference dates. The latter being the date (or the period) to which data mostly applies. Intervallo di tempo intercorrente fra il momento della diffusione dell’informazione e l’epoca di riferimento della stessa. La tempestività va a discapito dell’accuratezza; An assessment of timeliness and punctuality should consider the following: • production time; • frequency of release; and • punctuality of release. Qualità di un dato statistico Accessibilità e chiarezza: ‘Accessibility’ refers to the physical conditions in which users can obtain data: where to go, how to order, delivery time, clear pricing policy, convenient marketing conditions (copyright, etc.), availability of micro or macro data, various formats (paper, files, CD-ROM, Internet…), etc. ‘Clarity’ refers to the data’s information environment: are data provided with textual information, explanations, documentation, etc. (these alltogether often called metadata)? Are they illustrated with graphs, maps, etc? Is information on their quality also available (possible limitation in use…)? Can further assistance be expected from the provider? Nota anche col nome di "trasparenza", corrisponde alla semplicità per l’utente di reperire, acquisire e comprendere l’informazione disponibile in relazione alle proprie finalità. Specific areas where accessibility and clarity may be addressed include: • needs of analysts; • assistance to locate information; • clarity; and • dissemination. Qualità di un dato statistico Comparabilità: ‘Comparability’ The sources of distortion of comparability in statistics, increasing or reducing it, are mainly twofold: use of different concepts/definitions, or use of different measuring tools or procedures. Possibilità di paragonare nel tempo e nello spazio le statistiche riguardanti il fenomeno di interesse There are three main approaches under which comparability of statistics is normally addressed: comparability over time refers to comparison of results, derived normally from the same statistical operation, at different times., and between domains. comparability between geographical areas. The geographical component of comparability emphasises the comparison of statistics between countries and/or regions in order to ascertain, for instance, the meaning of aggregated statistics at European level. comparability between domains refers to non-geographical domains, for instance between industrial sectors, between different types of households, etc. Qualità di un dato statistico Coerenza: ‘Coherence’ When originating from a single source, statistics are normally coherent in the sense that elementary results derived from the concerned survey can be reliably combined in numerous ways to produce more complex results. When originating from different sources, and in particular from statistical surveys of different nature and/or frequencies, statistics may not be completely coherent in the sense that they may be based on different approaches, classifications and methodological standards. Conveying neighbouring results, they may also convey not completely coherent messages, the possible effects of which, users should be clearly informed of. Coherence of statistics is therefore their adequacy to be reliably combined in different ways and for various uses. It is, however, generally easier to show cases of incoherence than to prove coherence. possibilità di combinare le inferenze semplici in induzioni più complesse. Coherence should be addressed in terms of coherence between: • data produced at different frequencies; • other statistics in the same socio-economic domain; and • sources and outputs. Qualità di un dato statistico Completezza: ‘Completeness’ is the extent to which statistics are available - compared to what it should be available - for meeting the requirements of the European Statistical System. Si tratta di una caratteristica trasversale ai singoli processi e consiste nella capacità di questi di integrarsi per fornire un quadro informativo soddisfacente del dominio di interesse. Tutela della riservatezza: Corrisponde alla garanzia dell’anonimato per ciascuno dei soggetti (individui, famiglie, imprese,...) che hanno fornito le informazioni utili alla conduzione dell'indagine. I sistemi informativi Un Sistema Informativo è un insieme di strumenti, risorse, procedure che consentono la gestione di informazioni. Le parti che lo compongono sono: l’informazione che si rende disponibile; la tecnologia, costituita a sua volta da un insieme di strumenti utilizzati per acquisire, gestire e rendere disponibile l’informazione; il contesto organizzativo nel quale il sistema è implementato. I sistemi informativi L’obiettivo per il quale un sistema informativo viene progettato definisce sostanzialmente tre categorie di sistemi: Sistemi informativi istituzionali che possono rispondere a: ◦ esigenze informazionali di ampio spettro ed eterogenea utilizzazione; ◦ esigenze conoscitive tematiche. Sistemi informativi aziendali che rispondono a: ◦ ◦ esigenze operativo-gestionali, esigenze valutative e di programmazione Sistemi informativi sociali per assicurare la conoscenza dei bisogni sociali, del sistema degli interventi e dei servizi per la gestione, valutazione, programmazione delle politiche sociali. I sistemi informativi A seconda che il sistema risponda ad esigenze prevalentemente operazionali o prevalentemente informazionali i dati utilizzabili assumono caratteristiche diverse. Se prevale l’aspetto operazionale: i dati sono per lo più correnti. sono una rappresentazione in tempo reale dello stato della produzione l’uso dei dati avviene nell’ambito di procedure fissate, testate e collaudate. Inoltre eventi individuali e transazioni sono generalmente semplici e limitati nei loro scopi. Il sistema è ottimizzato per una risposta rapida ed è finalizzato ad una veloce transazione degli aggiornamenti I dati sono usati a livello individuale disaggregato ai fini di produzione I sistemi informativi Se prevale l’aspetto informazionale: i dati possono essere storici sono usati per gestire, governare e controllare la produzione, l’uso dei dati è poco prevedibile, predefinito e comunque non coinvolge mai le funzioni di aggiornamento il sistema è ottimizzato più sulle capacità di inquiry che sugli aggiornamenti. Nella elaborazione di tipo analitico i dati vengono costantemente indirizzati in lettura, ma non avvengono cambiamenti a livello di record individuali i dati sono usati per capire meglio le modalità di produzione, per esprimere giudizi e prendere decisioni. Evento, dato e informazione Fonte dei dati Gli enti produttori di dati statistici sono raggruppabili in tre tipologie: Enti appositamente preposti alla raccolta e diffusione dei dati (ISTAT) Enti che producono informazione statistica come sottoprodotto della propria attività istituzionale, produttiva o amministrativa (Fiat, Atac…) Enti di ricerca e singoli ricercatori.