Fertility and Family Survey Standard Recode Files 1 L’indagine Il Questionario I Dati descrizione di files di dati in formato ASCII Confrontabilità dei dati le variabili le strategie campionarie Esempi di utilizzo dei files: controllo di qualità dei dati Casi particolari 2 L’Indagine Coordinata dalla Population Activity Unit - UNECE Ha coinvolto 23 paesi a sviluppo avanzato Fra Ottobre 1988 e Dicembre 1997 sono stati intervistati: 100.700 donne 47.800 uomini di età compresa fra 15 e 59 anni + GRECIA 3 L’Indagine Sample Design Country file Austria Belgium Bulgaria Canada90 Canada95 Czech Republic Estonia Finland France Germany Hungary Italy Latvia Lithuania Netherlands New Zealand Norway Poland Portugal Slovenia Spain Sweden Switzerland United States Women 4500 3200 2500 4900 4200 3000 5000 4200 2900 6000 3600 4800 2700 3000 4500 3000 4000 4200 6000 2800 4000 3300 3900 10500 Men 1500 2200 none 4100 3700 2000 none 1700 1900 4000 1900 1200 1500 2000 3700 none 1500 4300 3000 1800 2000 1700 2100 none Fieldwork Age Range Start 20-54 Dec-95 21-40 Mar-91 18-40 Nov-97 15-54 Jan-90 15-54 Jan-95 15-44 Oct-97 20-69 Jan-94 22-51 Aug-89 20-49 Jan-94 20-39 Jul-92 18-41 Nov-92 20-49 Nov-95 18-49 Sep-95 18-49 Oct-94 18-42 Feb-93 20-59 Oct-95 20-43 Oct-88 18-49 Dec-91 15-54 Apr-97 15-45 Dec-94 18-49 Nov-94 23-43 Oct-92 20-49 Oct-94 15-44 Jan-95 End May-96 Dec-92 Nov-97 Mar-90 Dec-95 Dec-97 Aug-94 Jan-90 Apr-94 Jul-92 Dec-93 Jan-96 Oct-95 Dec-95 Jun-93 Oct-95 May-89 Dec-91 Jun-97 Dec-95 Nov-95 May-93 May-95 Oct-95 4 Il Questionario Per facilitare la confrontabilità dei dati è stato deciso di adottare un questionario unico (standard questionnaire) Ciascun paese è stato libero di applicarlo nel modo giudicato più appropriato, purché si potesse riuscire a delineare un set di risposte standard. Questo ha, di fatto, inficiato la confrontabilità dei dati. Il questionario ha una struttura complessa anche perché raccoglie dati sugli eventi relativi a quattro differenti storie: unioni, fecondità, istruzione, attività lavorativa. 5 Il Questionario Il questionario standard si compone di due tipi di sezioni: CORE SECTIONS (10): Sono le sezioni fondamentali che tutti i Paesi hanno dovuto implementare. Comprendono i dati sulle storie di vita. OPTIONAL MODULES (4): Comprendono le variabili la cui confrontabilità internazionale è ritenuta non necessaria o difficilmente ottenibile. E’ stato utilizzato lo stesso questionario per uomini e donne. Lo si può scaricare (in formato PDF) dal sito: http://www.unece.org/deap/pau/ffs/ffsfem.pdf 6 Il Questionario Section 0 household Module 1 characteristics migration history Section 1 solo chi ha avuto almeno un partner parental home Section 2 partnerships table partnerships 7 solo chi ha avuto almeno un figlio Il Questionario Section 3 maternity table Module 2 children contraception history Section 4 other pregnancies solo le donne per le gravidanze precedenti; anche gli uomini per quella attuale della partner Section 5 fertility regulation 8 Il Questionario Section 6 Module 3 views on values and beliefs having children Section 7 solo chi ha frequentato la scuola dopo i 15 anni other views educational history Section 8 education Module 4 population policy acceptance solo chi ha avuto almeno un lavoro occupational history occupation Section 9 partner characteristics 9 I Dati Ogni Paese coinvolto nel progetto ha predisposto una versione nazionale del questionario standard internazionale seguendo le direttive generali. La base di dati consiste in un file formato ASCII per ciascun paese e di un programma di lettura dei dati in SPSS. 10 I Dati Per ogni rispondente (caso) esistono molti record logici. Il numero dei record logici è variabile a seconda di quanti eventi sono stati sperimentati. Ad esempio: una donna può aver avuto 5 figli e 3 lavori differenti. Deve esistere un record per ognuno di essi. Esistono fino a 23 tipi di records logici E ognuno può avere una lunghezza differente. 11 I Dati Si possono distinguere records logici di tipo: Singolo se è previsto che il record non si ripeta Ad esempio, sono di tipo singolo tutti i record che richiedono opinioni Multiplo se il record con la sua struttura si ripete per ogni evento della storia di vita o per ogni membro della famiglia. 12 Codice del record code number 00 01 02 10 11 20 21 30 31 40 41 42 50 51 60 70 71 80 81 82 90 91 92 record length 39 23 24 51 39 30 44 28 42 22 26 20 47 36 44 38 61 18 35 36 42 62 77 record class S M S S M S M S M S M S S M S S S S M M S S S I Dati record content Information from national FFS cover page Household schedule Other household characteristics Parental Home Migration History Partnerships Partnership history Children Maternity/paternity History Other pregnancies (women only) Other pregnancies history (women only) Current pregnancy Fertility regulation Contraception history Views on children Other views Values and beliefs Introduction to education Educational history Occupational history Current partner Population policy acceptance Population policy acceptance (continued) S=singolo M=multiplo core / module ECE FFs status core core core core module core core core core core core core core module core core module core core core core module module ECE FFS Section 0 0 0 1 1 2 2 3 3 4 4 4 5 5 6 7 7 8 8 8 9 9 9 sezione ECE FFS questions COUNTRY-ETHNOS, 001 INDEX01, 004-009 012-014 101-115 INDEX11, 116-124, IMP11 201-215 INDEX21, 218-230, IMP21 301-309 INDEX31, 314-322, IMP31 401-406 INDEX41, 408-410, IMP41 412-414 501-518 INDEX51,520-526, IMP51 602-617 701-707 708-721 801-803, 812 INDEX81, 804-810, IMP81 INDEX82, 813-821, IMP82 902-919 921A-924N 925A, 933 13 I Dati Per rendere utilizzabili i dati dai più comuni pacchetti statistici, è stato necessario ‘rettangolarizzare’ i files, cioè modificarli in modo tale da avere lo stesso numero di records logici per ogni individuo, indipendentemente dal numero di eventi sperimentati in ciascuna carriera. La strategia seguita è la più semplice, anche se non la più efficiente: per ogni individuo è stato predisposto un numero fisso di records logici relativi alle storie di vita, prendendo in considerazione il numero massimo di eventi registrati nei campioni. Ad esempio per una donna che abbia avuto due figli saranno inseriti solo i dati relativi ai primi due record e i rimanenti saranno lasciati blank. 14 I Dati Descrizione dei files di dati in formato ASCII: Numero fisso di records per ogni individuo 102 per Austria, Belgio, Norvegia, Canada, Finlandia, Polonia, Germania, Svezia, Ungheria, Francia, Lituania, Lettonia, Italia 110 per la Spagna 146 per Slovenia, Nuova Zelanda, Portogallo, Repubblica Ceca, Bulgaria 1 per gli Stati Uniti (ha una codifica differente dagli altri SRF) Le prime 14 colonne sono sempre occupate da codice identificativo del paese (colonne 1-2) codice identificativo della famiglia (colonne 3-12) numero del record (colonne 13-14) 15 Esempio: dati relativi ad un individuo I Dati codice identificativo del paese (08=Germania) codice identificativo della famiglia numero del record 08000005766700 8 576674 7921.7601 2 08000005766701 1 13941 08000005766701 24121814 08000005766701 08000005766701 08000005766701 08000005766701 08000005766701 Record di tipo 01: 08000005766701 Informazioni sui membri della famiglia 08000005766701 08000005766701 (2 componenti) 08000005766701 08000005766701 08000005766701 08000005766701 08000005766701 08000005766702 2 1989899 08000005766710 3 653412 1 77017 ....... ....... ....... 08000005766790 3 62 08000005766791211311112222399999992212223222332144444444444444 080000057667922441441818988298888888888888888881111111211191 1 3 71222222498 1 16 I Dati Tutte le variabili iniziano con la lettera ‘V’ tranne: Le variabili di tipo IND.. che indicano il numero d’ordine del record multiplo Ad esempio: IND01 indica il numero d’ordine del componente della famiglia nei record 01 Le variabili di tipo IMP.. che indicano se c’è stato o meno inserimento manuale delle date incerte per quanto riguarda le storie Ad esempio:IMP21 indica se c’è stato inserimento manuale (=1) o meno (=2) per quanto riguarda le date relative alle partnerships Le variabili del primo record (record 00) (COUNTRY, MONTH, YEAR,…) 17 I Dati Per quanto riguarda : i componenti della famiglia (record di tipo 01), la storia delle unioni (record di tipo 21), la storia della maternità (record di tipo 31), la storia dell’istruzione (record di tipo 81), la storia delle attività lavorative (record di tipo 82), le variabili relative ad ogni componente o ad ogni storia, sono identificate con un suffisso a due cifre che ne indica il numero d’ordine. Esempio: mese di inizio del terzo lavoro anno di inizio del terzo lavoro orario settimanale medio del terzo lavoro V823M$03 V823Y$03 V828$03 18 Confrontabilità Le variabili Anche se l’indagine è stata concepita in modo tale da risultare perfettamente comparativa, numerose sono state le modifiche che ogni Paese ha apportato al questionario standard. Questo è accaduto anche perché le modalità di risposta previste a livello centrale non potevano cogliere le particolarità a livello nazionale. Esempio 1) Titolo di studio Ogni paese ha un proprio caratteristico sistema scolastico. Ogni paese ha avuto cura di ricodificare le modalità di risposta locale secondo la classificazione ISCED. Esempio 2) Tipologia dell’attività lavorativa Le modalità di risposta standard seguivano la classificazione ISCO. Per l’Italia è stato impossibile effettuare la ricodifica in ISCO. 19 Confrontabilità Ogni paese è stato libero di scegliere quante e quali variabili includere nel questionario nazionale. Per questo motivo alcune sezioni possono essere state implementate interamente o solo parzialmente, a seconda che le domande standard siano state incluse (anche modificandole) in tutto in in parte. Inoltre ogni paese nel passaggio dal questionario standard a quello nazionale ha potuto modificare le domande in vari modi, pregiudicando in qualche caso la confrontabilità internazionale, tanto da non potere inserire l’informazione nel file di dati standard (SRF). 20 Confrontabilità Senza pretesa di esaustività si possono distinguere le seguenti modificazioni: - una domanda può essere stata modificata, ad esempio può essere stato modificato il periodo di riferimento della domanda. In questo caso non vengono intraprese azioni correttive perché basta specificare la differenza in una nota. Ad esempio per l’uso attuale di un metodo contraccettivo (domanda V514) il periodo di riferimento può essere stato modificato da 4 a 2 settimane. - una domanda può essere stata cancellata: in questo caso al campo dello SRF relativo alla domanda viene assegnato il codice ‘not implemented’. 21 Confrontabilità - una domanda che non è presente nel questionario standard è stata inserita in quello nazionale: in questo caso l’informazione non viene aggiunta allo SRF. - lo schema di codifica delle modalità di risposta ad una domanda standard chiusa viene alterato: in questo caso si cerca di ricodificare le risposte in modo tale da ricondurre lo schema a quello standard; se ciò non è possibile la domanda viene considerata ‘not implemented’. - viene modificato l’ordine dei ‘filtri’ esistenti nel questionario standard: questo può accadere in vari modi e le possibilità di correzione devono essere valutate caso per caso. 22 Confrontabilità Variabili o sezioni ‘not implemented’ Tutte le variabili che erano previste dal questionario standard ma che a livello nazionale non sono state inserite (sia perché la domanda non è stata posta affatto sia perché è stata posta in modo tale da inficiare la confrontabilità) vengono considerate ‘not implemented’. Codifica Se una intera sezione non viene inclusa allora i record di quella sezione spariscono dallo SRF. Se solo alcune variabili non vengono inserite si troveranno i codici 9 per le variabili le cui modalità di risposta hanno 1 cifra 99 per le variabili le cui modalità di risposta hanno 2 cifre 23 Confrontabilità La PAU-UNECE ha predisposto sul sito INTERNET una serie di tabelle che possono aiutare per accertare la presenza e la confrontabilità dei dati. Per la ‘copertura’ dei questionari nazionali rispetto allo standard http://www.unece.org/deap/pau/ffs/implmnt.htm Per la presenza e confrontabilità delle singole variabili: http://www.unece.org/deap/pau/ffs/f_h_131.htm E’ importante consultare i questionari nazionali predisposti in lingua inglese per valutare le modificazioni apportate alle variabili. 24 variabili dello SRF riferimento al questionario nazionale un * indica che ci sono state modifiche fra la variabile nazionale e quella standard lo ‘0’ indica che la variabile è ‘not implemented’ cioè non presente sullo SRF 25 Confrontabilità Le strategie campionarie Il piano dell’indagine prevede di intervistare per ogni paese: • Almeno 5000 rispondenti, di cui almeno 3000 femmine e 2000 maschi • Proporzionalmente distribuiti almeno nell’intervallo di età 20-39* • Proporzionalmente distribuiti per stato civile • Proporzionalmente distribuiti sul territorio, indipendentemente dalla nazionalità * ma la Svezia, ad esempio, ha intervistato solo alcune generazioni 26 Confrontabilità L’unità elementare è l’individuo. L’unità di rilevazione cambia al variare del piano di campionamento adottato e può essere l’individuo o la famiglia. Il periodo di svolgimento dell’indagine non è unico per tutti i paesi e copre l’arco di quasi 10 anni. Alcuni paesi hanno utilizzato dei pesi per riproporzionare il campione (variabile WEIGHT). Se non è previsto l’utilizzo dei pesi la variabile WEIGHT vale 1 per tutti gli individui 27 Confrontabilità E’ importante consultare gli Standard Country Report (SCR) dei singoli paesi per avere informazioni sul piano di campionamento adottato e su altre particolarità di tipo tecnico. Ad esempio in Ungheria il piano di campionamento prevede l’inserimento nel campione di tutti i membri di una famiglia, purché l’età sia compatibile con quella prevista. Questo porta ad avere lo stesso codice identificativo della famiglia per i diversi componenti e può creare problemi in fase di elaborazione. 28 Esempi di utilizzo dei files Il controllo di qualità dei dati E’ ovviamente il primo passo da fare quando si utilizzano i dati. Può essere utile creare delle tabelle doppie per verificare l’esistenza di dati mancanti (non di sistema). Codifiche: Dati mancanti (‘Non rispondo’): 8 o 98 rispettivamente per le modalità di risposta a una o due cifre ‘Non so’ 7 o 97 rispettivamente per le modalità di risposta a una o due cifre 29 Esempi di utilizzo dei files Il programma SPSS di lettura dei files ricodifica automaticamente i valori ‘8’ e ‘98’ a missing. Potrebbe essere utile invece eliminare all’inizio questa parte per tenere distinti i missing di sistema dai missing reali e facilitare così il controllo di qualità dei dati. Nella diapositiva successiva viene presentato un esempio relativo al controllo di qualità dei dati mediante tabelle doppie (linguaggio SAS) 30 Esempi di utilizzo dei files Es. Germania Total number of partnerships Cumulative V215 Frequency Frequency ---------------------------0 3118 3118 1 5507 8625 2 1070 9695 3 232 9927 4 73 10000 5 8 10008 6 4 10012 3118 persone non hanno avuto alcuna unione 31 Esempi di utilizzo dei files Es. Germania TABLE OF IND21_01 (Index number partnership) BY V215 (Total number of partnerships) Total number of partnerships Frequency| 0| 1| ---------+--------+--------+… Index . | 3118 | 0 | number of ---------+--------+--------+… 1 | 0 | 5507 | partnership ---------+--------+--------+… Total 3118 5507 | 5| 6| +--------+--------+ | 0 | 0 | +--------+--------+ | 8 | 4 | +--------+--------+ 8 4 Total 3118 6894 10012 ed effettivamente troviamo 3118 individui che hanno il valore ‘.’ per la variabile ‘numero d’ordine della partnership’ 32 Esempi di utilizzo dei files Es. Germania TABLE OF V218M_01 (Month start living together) BY IND21_01 (Index number partnership) Index number of partnership Frequency| .| 1| ---------+--------+--------+ Month start . | 3118 | 0 | living together ---------+--------+--------+ 1 | 0 | 434 | ---------+--------+--------+ 2 | 0 | 409 | ---------+--------+--------+ 3 | 0 | 472 | ---------+--------+--------+ 4 | 0 | 496 | ---------+--------+--------+ 5 | 0 | 731 | ---------+--------+--------+ … … … … 667 persone fra quelle ---------+--------+--------+ 11 | 0 | 334 | che hanno avuto almeno---------+--------+--------+ 1 unione dovevano 12 | 0 | 345 | rispondere sul mese di ---------+--------+--------+ 98 | 0 | 667 | inizio, ma non l’hanno fatto. ---------+--------+--------+ Total 3118 6894 Total 3118 434 409 472 496 731 334 345 667 10012 33 Casi particolari USA: è stato predisposto un file in cui ogni riga è un individuo. Oltre ai dati e al programma di lettura in SPSS è anche presente il CODEBOOK ed un file informativo generale (README) sia in versione testo sia in versione per Word. Ad esempio non hanno utilizzato la classificazione ISCED per l’istruzione Sono risultate incoerenti: La storia lavorativa degli intervistati per la Germania La storia dell’istruzione per l’Austria Sono disponibili i testi delle e-mail scambiate con i rappresentanti nazionali per avere delucidazioni su alcune variabili. Sono state richieste anche informazioni sui sistemi scolastici (Lituania e Lettonia) 34 Casi particolari Per quanto riguarda l’Italia è possibile recuperare alcune variabili che non sono state incluse nello SRF, avendo cura di utilizzare l’opportuno codice identificativo della famiglia. 10000117131 10000117131 10000117131 10000117131 10000117131 10000117131 10000117131 10000117131 10000117131 00100001171311311951.1933 4 0101 24321 01023114321 01034111514 0104412 9 01 01 01 01 Esso si trova nelle colonne 3-6 dello SRF 35