ISSN 2037-2582
Strumenti e tecniche di Business Intelligence per valutare
l’attendibilità delle stime campionarie di indagini complesse
5
Strumento di ricerca
a cura di
Alessandro Martini
n
strume
ti
Strumenti e tecniche di Business Intelligence per valutare l’attendibilità delle stime campionarie di indagini complesse
L’Istituto per lo sviluppo della formazione professionale
dei lavoratori (Isfol) è un ente pubblico istituito con DPR
n. 478 del 30 giugno 1973. Nasce per accompagnare la
prima fase di decentramento regionale delle
competenze in materia di formazione professionale,
codificata nella legge n. 845 del dicembre 1978; dal
1999 viene incluso tra gli enti pubblici di ricerca con DL
n. 419 del 29/10/1999. L’attuale Statuto, approvato con
DPCM del 19 marzo 2003, sancisce per l’Istituto
competenze nel campo delle politiche formative, del
lavoro e sociali.
L'Isfol svolge e promuove attività di studio, ricerca,
sperimentazione,
documentazione,
valutazione,
informazione, consulenza e assistenza tecnica per lo
sviluppo della formazione professionale, delle politiche
sociali e del lavoro. Contribuisce al miglioramento delle
risorse umane, alla crescita dell’occupazione,
all’inclusione sociale e allo sviluppo sociale.
È sottoposto alla vigilanza del Ministero del lavoro, della
salute e delle politiche sociali al quale fornisce supporto
tecnico-scientifico ed opera in collaborazione con il
Ministero dell'istruzione, dell'università e della ricerca, la
Presidenza del Consiglio dei ministri, le Regioni, le Parti
sociali, l’Unione europea e altri Organismi internazionali.
Strumenti Isfol è la collana
elettronica che raccoglie tutti i
contributi che l'Isfol realizza con
specifiche finalità operative, come
strumentazione a disposizione degli
operatori e dei non specialisti, anche
nell'ambito di committenze esterne
vincolanti.
La collana ha l'obiettivo di rendere
disponibili non solo particolari
elaborati teorici per la comunità
scientifica ma anche una vasta
tipologia di prodotti (quali kit,
manuali, dispositivi
operativi,
opuscoli a fini divulgativi, atti di
convegni, ecc.) per un target di
utenti più ampio.
La Collana Strumenti Isfol è curata da Claudio Bensi – Responsabile Servizio comunicazione web e multimediale
Coordinamento editoriale: Paola Piras, Aurelia Tirelli, Matilde Tobia
Editing e grafica: Federica Carboni
Contatti: [email protected]
strume
nti
Strumenti e tecniche di Business Intelligence per valutare l’attendibilità delle stime campionarie di indagini complesse
Indice
Introduzione
p. 1
1
L’archidettura di Business Intelligence
p. 3
2
Il contesto applicativo
p. 4
3
Le metodologie per il calcolo dell’attendibilità delle
stime di indagini campionarie complesse
p. 6
4
I dati, i metadati e le procedure
p. 10
5
Le indagini campionarie
p. 16
Conclusioni e prossimi sviluppi
p. 20
Bibliografia
p. 21
strume
nti
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Introduzione
L’insieme di tecnologie ed applicazioni di Business Intelligence (di seguito BI) è il contesto
operativo mediante il quale si intende non solo potenziare, dal punto di vista infrastrutturale, la
componente digitale a supporto dei processi di produzione statistica, ma altresì sostenere il
processo di trasformazione dei “dati” in “conoscenza”, attraverso elaborazioni che ne garantiscano
la qualità e l’affidabilità, conoscenza che può quindi essere condivisa e diventare un patrimonio
comune.
L’utilizzo di strumenti e tecniche di BI (data-warehouse, Olap, Data mining, web application) è in
grado di determinare un miglioramento per alcuni versi immediato di alcune dimensioni secondo
le quali può essere declinata la qualità dei dati statistici. Tali dimensioni sono:
- l'accessibilità, definita come semplicità per l'utente di reperire ed acquisire le informazioni
necessarie
- la tempestività, connessa all’intervallo di tempo tra il periodo a cui i dati si riferiscono ed il
momento in cui sono disponibili.
In questo lavoro viene esposto l’utilizzo di metodi e tecniche tipiche della BI al fine di definire
strumenti generalizzati utili al presidio di aspetti peculiari della qualità statistica per stime
provenienti da indagini campionarie. Nello specifico, gli aspetti presidiati sono:
- l’accuratezza, ovvero lo scostamento del valore rilevato del parametro di interesse rispetto a
quello vero, non osservato
- l’interpretabilità, definita come la capacità dell’informazione statistica di essere compresa ed
utilizzata
- l’adeguatezza, intesa come la capacità del dato o del sistema di informazioni statistiche di
soddisfare i bisogni conoscitivi dell'utente.
Tale progetto è stato avviato principalmente allo scopo di “valorizzare” le fonti informative in
possesso dell’Isfol, ossia di favorirne la diffusione interna migliorandone la fruibilità e favorendo la
loro integrazione. I sistemi acquisiti consentono l’accesso da parte delle aree di ricerca dell’Istituto
ad un comune set di dati validati - di provenienza sia interna che esterna - gestito centralmente
in un server dedicato, mediante il quale è possibile selezionare e visualizzare dinamicamente le
informazioni attraverso una navigazione ipermediale. L’integrazione dei metadati applicativi –
1
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
informazioni che consentono le operazioni di navigazione - con un set di metadati “metodologici” –
informazioni derivanti dall’analisi della varianza delle stime - ha reso possibile la generalizzazione
di metodologie consolidate per la valutazione dell’accuratezza delle stime di indagini campionarie.
Le indagini campionarie su vasta scala vengono progettate e realizzate per rispondere ad obiettivi
conoscitivi ben definiti già nella fase di progettazione, che verranno successivamente perseguiti
attraverso precise scelte metodologiche. Queste ultime rappresentano un patrimonio informativo
“sui dati”, ossia costituiscono un insieme di metadati a cui è necessario fare costantemente
riferimento al fine di utilizzare correttamente i risultati che le indagini forniscono.
In particolare, nella fase di analisi delle stime è necessario in prima istanza far riferimento alle
informazioni riguardanti le specifiche del piano di campionamento sottostante, e successivamente
valutare con attenzione l’accuratezza della stime stesse mediante gli errori campionari, sia quelli
definiti in fase di progettazione, sia a quelli calcolati ex-post attraverso l’analisi delle varianza delle stime.
La valutazione della precisione delle stime prodotte è un fattore che concorre ad aumentare in
modo considerevole l’interpretabilità delle stime stesse, e allo stesso tempo consente all’utente di
definire il grado di adeguatezza delle informazioni acquisite rispetto ai propri fabbisogni
conoscitivi.
Il raggiungimento di questo obiettivo, attraverso modalità di lavoro user-friendly, può contribuire
a promuovere un linguaggio comune e alla diffusione di una cultura statistica all’interno di un
istituto di ricerca caratterizzato da una notevole eterogeneità di approcci metodologici e dalla
presenza di competenze e sensibilità molto diverse.
2
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
1 - L’architettura di Business Intelligence
Nella letteratura la business intelligence viene citata come il processo di "trasformazione di dati e
informazioni in conoscenza", definizione che in qualche modo evoca i fondamenti stessi della
statistica ed in particolare i principi alla base del ruolo istituzionale della statistica ufficiale.
Se nell’ambito delle imprese i processi di raccolta, analisi e distribuzione è principalmente
finalizzato all’acquisizione di un vantaggio competitivo, nel contesto del nostro lavoro è in
particolare la struttura tecnologica della business intelligence ad avere un ruolo decisivo per il
raggiungimento degli obiettivi prefissati, riconducibili al miglioramento della qualità statistica dei
dati. Un primo obiettivo perseguito è stato quello di migliorare l’accessibilità da parte delle aree di
ricerca ad un comune set di dati validati, di provenienza sia interna che esterna, affinché vada a
costituire il patrimonio informativo comune dell’Istituto. La gestione centralizzata attraverso un
server dedicato consente di profilare gli utenti in modo da aver traccia di chi “ha accesso a cosa” e
poter garantire alle aree di ricerca la necessaria autonomia nella gestione ed elaborazione dei dati
non ancora validati, ad esempio rendendo non accessibili dati personali e/o di natura sensibile a
soggetti non incaricati del loro trattamento.
Analogamente, dati elementari validati di provenienza esterna, acquisiti ad esempio dal Servizio
Statistico Isfol mediante comunicazione dati all’interno del Sistan, possono essere condivisi con
gruppi di ricerca interni e singoli ricercatori incaricati del loro trattamento, definendo anche il
livello di possibile interazione (creazione, lettura, scrittura, eliminazione) con il patrimonio di
risorse disponibili in termini di dati, metadati, procedure di elaborazione, etc.
Attraverso la gestione centralizzata è possibile uniformare funzioni gestionali come l’estrazione, il
caricamento e la trasformazione dei dati, che in ambienti client devono essere necessariamente
ripetute con conseguenti possibilità di commettere errori. Si evita così che a partire da banche dati
comuni elaborazioni simili possano generare risultati anche significativamente diversi.
La possibilità di effettuare self-service reporting allarga significativamente la platea di utilizzatori del
patrimonio informativo comune, dando la possibilità di ottenere l’informazione necessaria a diversi
profili di utilizzatori, da chi ha poca familiarità con strumenti di elaborazione dati o non è in grado di
scrivere codice ad utenti “evoluti” che possono utilizzare anche metodologie avanzate di analisi.
3
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Potendo contare sulla correttezza delle procedure di acquisizione dei dati centralizzate, quindi su
dati consistenti e resi disponibili, l’utente può concentrare la propria attenzione sulle analisi e sui
risultati, evitando di dover replicare processi di caricamento e trasformazioni dei dati spesso
onerose e potenzialmente soggette a divenire fonte di errori. Anche gli strumenti di accesso ai dati
rispecchiano le diverse necessità d’interazione con le strutture dati, correlate al ruolo ed alle
esigenze delle varie tipologie di utente e costituiscono un sistema “scalato” di modalità di accesso al
sistema e di utilizzo delle risorse condivise.
Sono disponibili sia interfacce di acceso web-based, che non richiedono istallazione e consentono
la navigazione ipermediale dei dati attraverso il browser alle applicazioni di gestione, sia interfacce
add-in, che integrano le funzionalità dei prodotti Microsoft per l’office automation, word o excel
ad esempio. Tali strumenti consentono di effettuare analisi avanzate attraverso la connessione al
server e di ricevere i risultati direttamente all’interno del documento su cui si sta lavorando.
I gruppi di lavoro che hanno maggiori necessità di sviluppo di applicazioni e di gestione dei dati
possono connettersi attraverso applicativi maggiormente orientati a un interazione forte con i dati
ed il sistema, che va dalle funzionalità di ETL (estrazione, trasformazione, caricamento ) alla
modellazione delle strutture dati e alla definizione di progetti di analisi.
A livello centralizzato, applicativi analoghi consentono l’amministrazione dell’intero sistema
attraverso la definizione e la gestione dell’insieme di metadati necessari a costituire il patrimonio di
risorse condiviso, reso consistente attraverso definizioni univoche lungo tutti i sistemi coinvolti.
2 - Il contesto applicativo
Se l’adozione di un sistema di BI ha implicato in maniera diretta un aumento dell’accessibilità al
patrimonio informativo, si è comunque ritenuto opportuno bilanciare il maggior grado di
accessibilità ai dati elementari con funzionalità in grado di costituire un efficace presidio di alcune
dimensioni critiche della qualità dei dati.
Esigenza che diventa particolarmente stringente considerando alcune peculiarità del progetto:
molte fonti di dati comunemente utilizzate nell’attività istituzionale sono costituite da dati
elementari provenienti da indagini campionarie, svolte da aree di ricerca interne all’Istituto che,
una volta ultimato il processo di validazione, possono essere condivise con una platea più vasta di
4
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
analisti e ricercatori dell’Isfol. Analogamente vengono resi disponibili dati elementari provenienti
da indagini condotte da altri istituti di ricerca nell’ambito della statistica ufficiale. In quest’ultimo
caso si tratta di dati acquisiti a fini di ricerca attraverso l’istituto della comunicazione dati tra enti
appartenenti al Sistan e resi accessibili ai soli incaricati del loro trattamento.
Attraverso tale istituto si ha la possibilità di accedere ai dati nella forma di maggior dettaglio
possibile, nella completa assenza di qualsiasi strumento di guida che garantisca la coerenza
dell’esplorazione, a parte le note metodologiche e la documentazione allegata.
L’accesso e l’utilizzo di tali fonti di dati deve tener conto innanzitutto di vincoli legati sia alla tutela
della riservatezza dei rispondenti sia di natura più specificatamente metodologica.
Per quanto riguarda il problema della tutela della privacy, il rilascio dei file individuali prevede in
ogni caso l’applicazione a monte di tecniche per la protezione dei dati che rende di fatto impossibile
l’identificazione delle unità rispondenti attraverso l’uso di mezzi ragionevoli. Ad ogni buon conto è
chiaro come un’analisi troppo dettagliata tenda a rivelare le caratteristiche dei singoli rispondenti,
pertanto è necessario rispettare alcune soglie di sicurezza per poter diffondere i risultati.
L’altro aspetto, peculiare delle indagini campionarie, è la necessità imprescindibile di analizzare i
risultati delle indagini, tipicamente le stime che si ottengono, tenendo sotto stretto controllo aspetti
qualitativi fondamentali come:
- l’accuratezza, ovvero la vicinanza del valore rilevato al corrispondente valore vero, non osservato,
del parametro di interesse
- l’adeguatezza, intesa come la capacità del dato o del sistema di informazioni statistiche di
soddisfare i bisogni conoscitivi dell'utente
- l’interpretabilità, ossia la capacità dell’informazione statistica di essere correttamente
interpretata e utilizzata.
Nel caso delle indagini campionarie non è raro, analizzando in maniera sommaria i contenuti
informativi del set di dati disponibili, individuare la possibilità di fare elaborazioni particolarmente
interessanti e ottenere da queste risultati in linea con le ipotesi prefigurate. Tali risultati vanno
invece analizzati con prudenza e spirito critico, per valutare quanto siano coerenti con i livelli di
dettaglio compatibili con le specifiche metodologiche e con i limiti connessi al piano di
campionamento sottostante. Adottando classificazioni particolarmente dettagliate o specificando
5
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
l’analisi per sottopopolazioni con scarsa numerosità, i dati divengono presto non significativi, ossia
affetti da un errore campionario talmente elevato da renderli non utilizzabili.
In tal caso l’utente deve necessariamente riflettere sull’adeguatezza della fonte a rispondere al
fabbisogno informativo che sta cercando di soddisfare.
Il ruolo dei metadati, in particolare dei risultati dell’analisi della varianza delle stime, gioca un
ruolo fondamentale nel controllo di queste dimensioni qualitative, in quanto tali importanti
informazioni di contesto, normalmente diffuse insieme ai set di dati elementari o nelle
pubblicazioni, consentono di valutare nel dettaglio la bontà dei risultati delle analisi effettuate e la
loro conformità con le specifiche metodologiche dell’indagine.
Il loro utilizzo non è però in generale semplice ed immediato: la forma di più semplice utilizzo in
cui si possono presentare è quella di fogli elettronici allegati ai CD che contengono i dati o prospetti
e tavole riassuntive contenuti nelle appendici metodologiche.
Utilizzando i fogli elettronici è possibile, una volta compreso il meccanismo del calcolo e chiariti
quali siano gli elementi da modificare all’interno del foglio elettronico, valutare la precisione di una
singola stima per volta, inserendo il valore in una cella opportuna in corrispondenza del dominio
pianificato d’interesse.
Diversamente è necessario far riferimento ai prospetti pubblicati nelle pubblicazioni cartacee o
elettroniche, che non consentono alcuna modifica e richiedono la predisposizione di fogli di calcolo
o di effettuare le necessarie approssimazioni.
3 - Le metodologie per il calcolo dell’attendibilità delle stime di
indagini campionarie complesse
Per poter correttamente interpretare i risultati di un’indagine campionaria è necessario valutare le
stime puntuali congiuntamente ad una valutazione dell’accuratezza delle stime stesse, cioè una
misura della dispersione delle stime attorno al valore vero del parametro della popolazione che si
intende stimare.
È pratica comune degli istituti che svolgono indagini campionarie nell’ambito del Sistema Statistico
Nazionale diffondere insieme alle stime puntuali prodotte dalle indagini delle indicazioni sulla loro
accuratezza, in modo che l’utilizzatore possa valutare la vicinanza del valore rilevato al
corrispondente valore vero, non osservato, del parametro di interesse.
6
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Il calcolo dell’errore campionario è un’operazione agevole solo nel caso dei più semplici disegni
campionari, le indagini campionarie svolte nell’ambito della statistica ufficiale sono invece
generalmente caratterizzate da disegni campionari complessi, a due o più stadi, con stratificazione
delle unità statistiche in cui vengono utilizzati stimatori non lineari dei dati campionari. Il rilevante
numero di stime prodotte poi, vista l’articolazione dei questionari somministrati, rende tale
operazione di certo non banale.
Nelle pubblicazioni non è quindi riportato per ciascuna stima il corrispondente errore
campionario, per diverse ragioni.
Innanzitutto la normativa vigente in materia di tutela della riservatezza dei dati non consente la
fornitura dei codici territoriali alla base della definizione dei disegni campionari di molte indagini
effettuate sia dall’Istat che da altri enti appartenenti al SISTAN.
In secondo luogo il numero elevato di stime che possono essere prodotte a partire dai dati
elementari
comporterebbe un elevato carico di lavoro per calcolare esplicitamente l’errore
campionario per ciascuna di esse. Oltre a ciò aumenterebbe considerevolmente la complessità delle
tavole statistiche che dovrebbero essere fornite, risultando di difficile comprensione per l’utente
finale. In generale quindi non è possibile avere valutazioni dell’errore campionario sia per stime
pubblicate sia per quelle che possono essere ricavate dagli utenti attraverso elaborazioni dei dati
elementari, che con sempre maggiore frequenza vengono resi disponibili a fini di ricerca e di
studio.
Per questi motivi solitamente le pubblicazioni in cui sono diffuse stime campionarie o le indicazioni
metodologiche allegate ai file di dati elementari riportano, sotto varie forme, i risultati dell’analisi
della varianza campionaria in modo da consentire all’utente finale di valutare l’accuratezza delle
stime prodotte.
Spesso si ricorre ad una presentazione sintetica delle stime degli errori campionari che consente di
determinare l’attendibilità delle stime ricorrendo all’utilizzo di modelli regressivi, che mettono in
relazione il valore delle stime con il relativo errore campionario.
L’approccio utilizzato per la definizione di questi modelli è diverso a seconda che si tratti di stime
relative a frequenze di variabili qualitative o stime di totali relativi a variabili quantitative.
Nel primo caso è possibile utilizzare modelli che hanno un fondamento teorico secondo il quale
l’errore campionario è strettamente legato alla dimensione delle stime: a quelle più alte, basate
7
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
sull’osservazione di una caratteristica comune ad un maggior numero di unità, corrispondono
errori campionari più bassi e viceversa.
Nel caso di stime di totali di variabili quantitative la definizione dei modelli d’interpolazione
costituisce un problema di notevole complessità in quanto non è stata elaborata una adeguata base
teorica a supporto, pertanto le soluzioni finora adottate si basano su un approccio sostanzialmente
empirico, in cui i modelli regressivi predisposti vengono valutati in base al criterio di massimizzare
l’indice di determinazione R2.
Nel presente lavoro si fa riferimento esclusivamente al caso della valutazione dell’attendibilità di
stime di frequenze assolute o relative, sia per le ragioni appena espresse riguardo il quadro teorico
non perfettamente delineato per le stime di variabili quantitative, che ne rende difficile l’estensione
dei risultati, sia considerando che nella maggior parte dei casi le indagini campionarie svolte sulle
famiglie e gli individui, quelle di maggior interesse per l’attività di ricerca svolta nell’ambito
dell’Istituto, forniscono prevalentemente stime di frequenze associate a variabili qualitative.
In questo specifico ambito il modello di riferimento è costituito da:
logˆ 2 ( dYˆ )  a  b log(dYˆ ) d=1,…D
(1)
Attraverso tali modelli viene posta una relazione funzionale tra la stima Yˆd ed il relativo errore
campionario  ( d Yˆ ) , dove d sta ad indicare il corrispondente dominio di stima pianificato.
Risulta facile ricavare per una qualsiasi stima Yˆd , ottenuta rispetto ad un dominio pianificato, la
corrispondente stima dell’errore campionario relativo, applicando i coefficienti a e b stimati nel
relativo modello:

ˆ ( d Yˆ )  exp a  b log( d Yˆ )

(2)
In questo modo è relativamente agevole valutare la precisione delle stime ottenute, una volta
stimati i modelli (1) distintamente per ciascun dominio pianificato d definito nella fase di
progettazione dell’indagine.
8
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
La stima dell’errore campionario relativo  ( d Yˆ ) fornisce la possibilità di calcolare un intervallo di
confidenza per la stima stessa ovvero gli estremi entro i quali il parametro è contenuto con una
certa probabilità. Fissando il livello di confidenza α, i limiti superiore e inferiore possono essere
determinati attraverso:
( d Yˆ  z1 / 2 *d Yˆ * ˆ( d Yˆ );d Yˆ  z1 / 2 *d Yˆ * ˆ( d Yˆ ))
(3)
Utilizzando i prospetti pubblicati nelle appendici metodologiche è possibile, in alternativa,
utilizzare due ulteriori metodi: il primo consiste nell’approssimare l’errore campionario
ˆ ( d Yˆ ) relativo alla stima di interesse Yˆd con l’errore relativo corrispondente al livello di stima che
più si avvicina al valore della stima tra quelle pubblicate nei prospetti sintetici.
Con il secondo metodo, l'errore campionario della stima Yˆd , si ricava mediante la seguente
espressione:

ˆ ( d Yˆ k )  ˆ ( d Yˆ k 1 ) ˆ
k 1
ˆ
ˆ
Yd  Yˆdk 1
ˆ ( d Y ) = ˆ ( d Y ) 

1
k
k
Yˆ  Yˆ
d

(4)
d
dove Yˆdk 1 e Yˆdk sono i valori delle stime entro i quali è compresa la stima d’interesse Yˆd , mentre
ˆ ( d Yˆ k 1 ) e ˆ ( d Yˆ k ) sono i corrispondenti errori relativi presenti nel prospetto.
La metodologia descritta resta comunque valida in caso si voglia stimare una frequenza relativa o
un qualsiasi indicatore riferiti all’intera popolazione di riferimento del dominio pianificato, o anche
a un livello di disaggregazione in cui il totale della popolazione corrisponda ad uno dei vincoli
considerati nella fase di poststratificazione del campione.
In tali casi il denominatore, ovvero il totale della popolazione, non viene considerato affetto da
errore campionario in quanto costituisce un valore noto.
Nel caso si voglia calcolare l’errore relativo in una sottopopolazione diversa, ad esempio la
popolazione che presenta una certa modalità di una variabile di interesse, è necessario ricorrere ad
una approssimazione. Infatti, la stima di una frequenza relativa o di un qualunque indicatore
9
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
riferita a un sottogruppo di persone, è ottenibile come rapporto tra due quantità entrambe stimate:
Nˆ
Rˆ d  d
Dˆ d
(5)
Una valutazione approssimata dell’errore relativo della stima R̂ d , sotto l’ipotesi di incorrelazione
tra N̂ d e D̂ d , si può ottenere come:
ˆ ( d Rˆ )  ˆ 2 ( Nˆ d )  ˆ 2 ( Dˆ d )
(6)
4 - I dati, i metadati e le procedure
Il sistema di Business Intelligence si basa essenzialmente su un sistema di metadati centralizzato
che garantisce da un lato la consistenza delle informazioni e dall’altro consente le funzionalità di
base: gestione degli utenti e dei contenuti, navigazione ipermediale, etc.
Tali metadati “applicativi” sono stati integrati con metadati di tipo metodologico, necessari a
sviluppare le funzionalità di attendibilità delle stime campionarie, in maniera tale che il processo di
elaborazione dei dati e di stima dell’errore campionario sia “trasparente” per l’utente finale, che
può quindi concentrarsi sull’analisi dei risultati.
I metadati “metodologici” tengono traccia per ciascuna indagine di alcune definizioni di base del
disegno campionario, in primo luogo dei domini di stima pianificati, ovvero le sottopopolazioni in
cui la cui numerosità campionaria ed il relativo livello di errore campionario sono definiti a priori
in fase di progettazione, ma altresì della procedura di post-stratificazione, riportando i valori di
ciascun totale noto che è stato considerato, nonché di tutti i vincoli impliciti a loro volta definiti ad
un livello gerarchico superiore. A titolo esemplificativo, un vincolo sulla popolazione residente
definito a livello provinciale stabilisce automaticamente un analogo vincolo per i livelli territoriali
superiori (regionale, ripartizioni geografiche e livello nazionale). Il vincolo sulla popolazione
residente in famiglia a livello provinciale per sesso e classi di età implica che tutte le distribuzioni
marginali costituiscono dei totali noti che devono essere considerati.
Analogamente sono stati integrati nel data warehouse i risultati dei modelli di interpolazione degli
errori campionari, che consentono di definire per ciascuna stima e per ciascun dominio pianificato
una stima dell’errore relativo campionario.
10
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Figura 1 – Schema dei metadati
Il set di metadati comprende, inoltre, una formalizzazione generale degli indicatori costituiti da un
rapporto tra stime che consenta la distinzione tra il numeratore e il denominatore, necessaria per
poter calcolare in modo analitico sia le stime sia le singole componenti dell’errore relativo
campionario in base alla (5). È stata inoltre stata definita una classificazione che consente di far
riferimento, al livello più generale di classificazione, alla corretta metodologia di calcolo dell’errore,
attraverso i metodi descritti nel paragrafo 3.
Si tiene così conto del fatto che, almeno al livello più alto della struttura gerarchica dei domini
pianificati, nella maggior parte dei casi il livello nazionale, il denominatore sia costituito da un
totale noto o da una stima.
Tale distinzione consente di far riferimento per il calcolo dell’errore relativo campionario, nel caso
non si considerino ulteriori classificazioni o siano applicati filtri, rispettivamente alla (2) nel primo
caso e alla (6) nel caso in cui il rapporto sia costituito da stime sia al numeratore che al
denominatore.
11
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Le procedure sviluppate sono in grado di discriminare, nel corso dell’elaborazione, il metodo
corretto di calcolo della stima dell’errore campionario in base alle scelte dell’utente, ai risultati che
si determinano, in base ad una continua interazione e confronto con i metadati immagazzinati nel
sistema.
La scelta del metodo di stima corretto, infatti, non è sempre univoca, anche rispetto a uno specifico
indicatore: si può considerare a titolo esemplificativo il caso del tasso di attività, definito come
rapporto tra le persone appartenenti alle forze di lavoro e la corrispondente popolazione di
riferimento: il denominatore risulta nel caso più generale costituito da un totale noto, quindi non
affetto da errore campionario, pertanto la formula da utilizzare per determinare il relativo errore
campionario sarà la (2).
I valori utilizzati dalla procedura nel caso dell’Indagine sulle Forze di Lavoro sono costituiti dai
totali noti considerati nella procedura di poststratificazione per il calcolo delle stime campionarie
dell’indagine, desunti da fonte anagrafica:

popolazione residente in famiglia a livello regionale per sesso e 14 classi di età

popolazione residente in famiglia a livello provinciale per sesso e 5 classi di età

popolazione residente in famiglia nei 12 grandi comuni per sesso e 5 classi di età

cittadini stranieri residenti in famiglia per regione, sesso e nazionalità 1 .
L’utente però potrebbe essere interessato ad una diversa classificazione o all’analisi di tale
indicatore rispetto ad una specifica sottopopolazione.
In questo caso la procedura è in grado di valutare se il filtro applicato o la classificazione richiesta
non facciano più coincidere il totale della popolazione al denominatore con il relativo totale noto.
Nel caso ciò accada, la procedura procede al calcolo dell’errore attraverso la formula (6), in quanto
anche il denominatore risulta essere una stima, di cui va quindi considerato anche il relativo errore.
Ad esempio, analizzando il tasso di attività per regione e classe di età quinquennale, il
denominatore è costituito da un totale noto utilizzato nella procedura di poststratificazione.
Tuttavia, nel caso che l’utente definisse un filtro, ad esempio restringendo l’analisi ai soli individui
coniugati, il valore al denominatore diverrebbe a sua volta un valore stimato (il numero di individui
coniugati), rendendo quindi necessario il calcolo dell’errore relativo attraverso l’approssimazione (5).
1
Il vincolo non è stato attualmente preso in considerazione in quanto non applicato uniformemente in tutte le regioni.
12
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Nel caso di indicatori costruiti come rapporti di quantità entrambi stimati, la scelta del metodo di
calcolo è in ogni caso riconducibile alla (6). A quest’ultima tipologia appartiene, ad esempio, la
stima del tasso di disoccupazione, calcolato nell’Indagine Forze di Lavoro, poiché è ottenuto come
rapporto tra due aggregati, le persone in cerca di occupazione e le forze di lavoro, entrambi ottenuti
da stime.
Figura 2 – La specificazione dei parametri
Le procedure sono state sviluppate in linguaggio SAS macro, mentre il sistema BI di SAS provvede
alla costruzione delle interfacce grafiche per la selezione dei parametri da parte dell’utente,
utilizzando la tecnologia JSP. Le interfacce quindi possono essere richiamate nei vari ambienti di
interazione con il server centrale: le componenti web-intranet, gli ambienti di sviluppo SAS e di
office automation di Microsoft Office.
Le scelte fatte dall’utente consentono l’estrazione dalla base di dati in cui sono state organizzate le
informazioni delle istanze necessarie all’elaborazione attraverso query SQl (Stuctured Query
13
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Language) generalizzate, per la manipolazione dei dati e la produzione di statistiche di sintesi si
utilizzano data step SAS, proc TABULATE per definire le tabulazione finali.
Il diagramma di flusso dell’algoritmo può essere sintetizzato nei seguenti passi logici:

Costruzione delle stime

Estrazione delle occorrenze dei parametri

Confronto con i totali noti

Stima dell’errore campionario relativo

Calcolo dell’intervallo di confidenza

Tabulazione dei risultati.
Delle fasi descritte, solo il primo passo richiede tempi di elaborazione di una certa entità, in quanto
le stime vengono costruite direttamente sul file dei dati elementari, mentre le altre operazione
avvengono manipolando le tabelle dei metadati o di dati ormai in forma aggregata, di conseguenza
i tempi di esecuzione risultano minimi. Complessivamente la durata dell’elaborazione è di alcuni
secondi, pertanto non è necessaria una invocazione asincrona delle procedure e l’utente può
rimanere in attesa della esecuzione remota e della produzione degli output.
Il risultato delle elaborazioni è costituito da una tabella o più tabelle in cui sono riportate le stime
in valore assoluto o in percentuale richieste dall’utente unitamente agli estremi dell’intervallo di
confidenza costruito con un livello di confidenza del 95%, o del 99% se richiesto, ed una
valutazione dell’attendibilità della stima espressa in funzione dell’errore campionario relativo
stimato. Per quest’ultimo elemento è stato definito un formato grafico di presentazione, in modo da
rendere semplice ed intuitiva la sua interpretazione anche ad analisti con conoscenze meno
approfondite delle metodologie campionarie. La classificazione adottata si articola in cinque classi
di valori dell’errore relativo campionario, cui corrispondono rispettivamente da una a cinque stelle:
Inferiore al 5%
Cinque Stelle *****
5% - 10%
Quattro Stelle ****
10% -15%
Tre Stelle
***
15% - 20%
Due Stelle
**
Oltre il 20%
Una Stella
*
14
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Figura 3 – I risultati della procedura
Le procedure sono state progettate e sviluppate con l’obiettivo di costituire un supporto per gli
analisti ed i ricercatori con particolare riguardo alla fase di validazione delle stime, pertanto il
sistema non prevede, allo stato attuale dello sviluppo, la definizione di percorsi predefiniti per la
navigazione dei dati e la loro elaborazione. Un sistema “guidato” di consultazione dei dati, basato
su una definizione preventiva di alcuni indicatori e delle relative dimensioni ritenute valide,
risulterebbe in molti casi poco utile in tale ambito.
Questo aspetto, che rappresenta un forte vincolo della possibilità di utilizzare comuni software di
data warehouse nell’analisi di stime campionarie, è nel nostro caso mediato dalle funzionalità di
valutazione della precisione delle stime. Le informazioni fornite all’utente sull’accuratezza delle
stime ottenute migliora sensibilmente il grado di interpretabilità dei dati e, in un ambiente che non
prevede percorsi predefiniti di navigazione, costituisce un controllo efficace dell’attendibilità
dell’informazione disponibile.
15
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Tali funzionalità non esauriscono peraltro le verifiche necessarie a validare un’elaborazione e
renderla idonea ad essere diffusa, ad esempio resta da verificare se l’elaborazione non violi le
norme relative alla tutela della riservatezza delle unità rispondenti.
5 - Le indagini campionarie considerate
Il lavoro è stato progettato e sviluppato in primo luogo per la Rilevazione Campionaria sulle Forze
di Lavoro dell’Istituto Nazionale di Statistica, e quindi esteso sia ad altre indagini condotte
dall’Isfol, sia ad altre indagini i cui dati sono stati acquisiti dal servizio statistico dell’Isfol
attraverso protocolli di comunicazione dei dati in ambito SISTAN e utilizzati nell’ambito
dell’attività di ricerca istituzionale.
Considerando inoltre la complessità dell’impianto metodologico ed organizzativo dell’indagine
Istat Forze di Lavoro, si ritiene utile far riferimento a questo contesto applicativo negli esempi che
seguono per poi analizzare in dettaglio le specificità delle altre rilevazioni considerate, nelle quali
difficilmente si raggiunge lo stesso grado di complessità del disegno campionario, di articolazione
dei domini pianificati e di ampiezza delle informazioni ausiliarie utilizzate per la costruzione delle
stime. Ciò ha determinato nelle applicazioni successive notevoli semplificazioni sia delle procedure
sia delle strutture informative predisposte.
La Rilevazione Campionaria sulle Forze di Lavoro costituisce la principale fonte statistica sul
mercato del lavoro italiano e la più ampia indagine campionaria svolta in Italia. In dettaglio gli
aggregati che l’indagine ha lo scopo di stimare, sia su base trimestrale che in media annuale, sono
costituiti da: occupati, disoccupati e inattivi, in base alle definizioni suggerite dall’International
Labour Office e recepite dai Regolamenti comunitari. Da tale fonte vengono quindi fornite le stime
ufficiali degli occupati e delle persone in cerca di lavoro. Il suo utilizzo per analisi di tipo sia
congiunturale sia strutturale è quanto mai ampio: l’evoluzione dei principali indicatori del mercato
del lavoro può essere studiata in modo disaggregato a livello territoriale, settoriale e per le
principali caratteristiche socio-demografiche della popolazione.
La capacità di fornire inoltre informazioni riguardanti la partecipazione ad attività d’istruzione e/o
di formazione professionale, disaggregate in base alla condizione professionale, al sesso, all’età e al
territorio rende evidente quanto questa fonte informativa sia rilevante per gli ambiti di ricerca e di
16
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
attività istituzionale dell’Istituto e come questa abbia costituito il contesto applicativo ideale per la
realizzazione della prima applicazione delle procedure.
I dati dell’indagine Forze di Lavoro trattano essenzialmente mutabili statistiche che possono essere
rappresentate attraverso variabili qualitative, per cui i modelli per la valutazione dell’attendibilità
delle stime prodotte fanno riferimento essenzialmente a stime di frequenze assolute; per le poche
variabili quantitative rilevate dall’indagine, es. le ore lavorate, vengono calcolati gli errori
campionari con altri modelli, che non vengono regolarmente diffusi. Unitamente ai dati elementari,
l’ISTAT diffonde alcuni prospetti necessari a valutare l’attendibilità delle stime, attraverso tabelle
in cui sono riportati valori esemplificativi o fogli di calcolo con i quali è possibile determinare per
singoli valori delle stime i relativi errori e intervalli, seguendo la metodologia che verrà descritta
nel prossimo paragrafo.
La prima indagine svolta dall’Isfol per la quale è stato esteso lo sviluppo delle procedure per il
calcolo dell’attendibilità delle stime è la rilevazione Isfol-PLUS, indagine condotta dall’Area
Ricerche sui Sistemi del Lavoro.
In seguito le procedure sono state sviluppate sia per l’indagine “Gli esiti occupazionali dell'alta
formazione nel Mezzogiorno”, svolta dall’area dall’Area Valutazione Politiche Risorse Umane
dell’Isfol, sia per un’indagine Istat di particolare rilevanza per l’attività istituzionale dell’Isfol:
l’indagine Istat Multiscopo “Cultura, tempo libero e nuove tecnologie”, che nell’edizione del 2006
contiene il modulo armonizzato a livello europeo Adult Education Survey specifico sulla
partecipazione degli adulti alla formazione.
Per un’analisi dettagliata della metodologia con cui è stato sviluppato il disegno campionario si
rimanda alle note metodologiche dei rapporti di ricerca dei progetti, in cui si possono cogliere e
approfondire tutti gli elementi di specificità delle varie indagini.
Nel processo di elaborazione e trattamento dei dati si possono però identificare alcune attività
tipicamente svolte in indagini campionarie su vasta scala tra cui l’analisi della varianza delle stime,
la costruzione degli errori campionari nonché la presentazione sintetica degli errori campionari
ricorrendo a modelli di regressione, che quindi ha consentito di estendere le procedure sviluppate
nell’ambito dell’indagine sulle Forze di Lavoro.
La Tabella 1 mostra le partizioni della popolazione di riferimento che definiscono per l’indagine
Isfol-PLUS i domini stima all’interno dei quali sono stati calcolati gli errori campionari delle stime
17
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
relative alle variabili di interesse. Come è possibile notare i domini di stima sono definiti dalle
variabili che concorrono alla stratificazione dell’universo di riferimento nella strategia
campionaria. A partire dall’edizione del 2006 dell’indagine l’analisi della variabilità delle stime è
stata rivista, estendendo il calcolo degli errori campionari a tutti i domini di stima pianificati.
Tabella 1 – Variabili che definiscono i domini di stima dell’indagine Isfol-Plus
Variabili
Modalità
Genere
Femmina, Maschio
Età in classi
15-19, 20-29, 30-39, 40-49, 50,64
Regione
Tipo di comune
Condizione occupazionale
Tutte le regioni (insieme Valle d’Aosta e
Piemonte)
Metropolitano, Non metropolitano
Occupato/a,
In
cerca
di
occupazione,
Studente/essa, Casalinga, Ritirato/a dal lavoro
L’elemento che caratterizza l’indagine Plus è la definizione di un insieme di domini pianificati che
non costituisce una partizione sempre univoca dell’universo di riferimento.
Nel caso dell’indagine Forze di Lavoro il dominio pianificato coincide sempre con un livello di
disaggregazione territoriale che può andare dal totale Italia al dettaglio provinciale, pertanto è
sempre possibile far riferimento ad una di queste partizioni per la scelta del modello su cui
calcolare le stima dell’errore campionario.
Nel caso dell’indagine Plus, invece, i domini pianificati definiscono partizioni in parte sovrapposte,
pertanto non è sempre univoca la scelta del dominio pianificato cui fare riferimento.
Ad esempio, analizzando il numero di lavoratori atipici per regione e sesso la stima può essere
considerata come relativa a due diversi domini pianificati, quello regionale e per genere, lasciando
al ricercatore la scelta del modello con cui effettuare la stima dell’errore.
Sono stati tentati alcuni approcci per definire uno o più criteri di scelta generalmente validi da
implementare nella procedura: è stato calcolato il massimo tra i possibili errori relativi riferiti ai
vari domini di stima richiesti o, alternativamente, è stato individuato il riferimento al dominio
pianificato di maggior dettaglio, che offre tipicamente errori relativi maggiori.
18
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Nessuno dei criteri sperimentati sembra al momento conciliare il necessario rigore metodologico e
l’efficienza delle procedure, pertanto appare opportuno effettuare degli approfondimenti.
Nelle applicazioni si lascia quindi la scelta del relativo dominio pianificato alla sensibilità del
ricercatore, ricordando che in genere è da preferirsi il dominio pianificato di maggior dettaglio, che
rappresenta la scelta più conservativa: nell’esempio considerato sarà preferibile scegliere la regione
come dominio pianificato ed il sesso come variabile di classificazione.
Un altro elemento forte di differenziazione è costituito dai vincoli introdotti nella procedura di
calibrazione dell’Indagine Plus, che prevede l’identificazione, nella popolazione di riferimento
individuata su base RCFL, di un certo numero di totali noti a cui vincolare le stime pesate ottenute
dai micro dati PLUS. Le scelte fatte rispondono ad esigenze diverse: la necessità di garantire la
coerenza con l’informazione ufficiale dell’ISTAT in due ambiti fondamentali: i) la distribuzione
territoriale e composizione socio-demografica della popolazione, nonché ii) le caratteristiche
necessarie alla definizione degli indicatori standard del mercato del lavoro (popolazione di
occupati, disoccupati e inattivi – studenti, casalinghe e pensionati da lavoro).
Un’immediata implicazione di questo complesso sistema di vincoli è l’impossibilità di far
riferimento nell’analisi ad un solo “totale noto” della popolazione, in quanto i diversi moduli del
questionario ed i fenomeni indagati sono specifici di particolari segmenti della popolazione di
riferimento.
19
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Conclusioni e prossimi sviluppi
In questo lavoro sono stati illustrati i primi risultati ottenuti in Isfol dal Servizio Statistico e
Coordinamento delle Banche Dati riguardo la patrimonializzazione dell’informazione statistica
dell’Istituto, costituita dalle fonti informative, le relative informazioni di contesto ed i metodi e
strumenti di analisi e trattamento dei dati che garantiscano, integrandosi tra loro, un significativo
miglioramento degli standard qualitativi dell’informazione statistica prodotta e diffusa.
L’impiego di tecnologie di data warehouse web based ha contribuito a fornire validi strumenti di
presidio di alcune dimensioni cruciali della qualità statistica spesso in conflitto tra loro: il
miglioramento della accessibilità e della interpretabilità delle fonti statistiche basate su indagini
campionarie è stato affiancato dalla predisposizione di strumenti generalizzati in grado di
affrontare in modo metodologicamente rigoroso la necessità di valutare l’attendibilità delle stime
prodotte.
Il sistema, già in esercizio, è stato sviluppato per tutte le indagini campionarie acquisite dal
Servizio Statistico attraverso protocolli di comunicazione dati tra enti appartenenti al Sistan e a
gran parte delle indagini svolte internamente dalle aree di ricerca dell’Istituto.
Gli sviluppi futuri potranno riguardare l’estensione a strutture dati basate su ipercubi navigabili
attraverso OLAP, per i quali andranno sviluppate procedure generalizzate che consentano la loro
definizione in modo parametrico nonché i meccanismi per la corretta applicazione delle
metodologie descritte nella navigazione attraverso i livelli delle gerarchie, che possono coinvolgere
diversi domini di stima e più vincoli dei totali noti.
Le funzionalità sviluppate consentono di ovviare ad alcuni elementi di criticità nell’utilizzo di
comuni data warehouse nel contesto delle indagini campionarie complesse e per la loro modularità
costituiscono una esperienza che potrà essere applicata in altri progetti finalizzati allo costituzione
di sistemi informativi basati su metadati per il supporto allo sviluppo di indagini dirette.
20
Strumenti e tecniche di Business Intelligence
per valutare l’attendibilità delle stime campionarie di indagini complesse
Bibliografia
Centra M., Falorsi P.D. (a cura di), Strategie di campionamento per il monitoraggio e la
valutazione delle politiche, Roma, Isfol, 2007 (Temi e strumenti)
De Francisci S., Sindoni G., Tininini L., DaWinci/MD: un sistema per data warehouse statistici
sul web, Roma, Istituto Nazionale di Statistica, Contributi n. 14 , 2005
http://www.istat.it/dati/pubbsci/contributi/Contributi/contr_2005/2005_14.pdf
Deville, J. C., Särndal, C. E., Calibration Estimators in Survey Sampling, “Journal of the American
Statistical Association”, vol. 87, 1992
http://www.jstor.org/pss/2290268
Di Giammatteo M., L’indagine campionaria ISFOL-PLUS: contenuti metodologici e implementazione,
Roma, Isfol, Studi Isfol, 2009/3
http://www.isfol.it/Studi_Isfol/Dettaglio_Studi/index.scm?codi_nota=371&codi_percorso=51
Gazzelloni S. (a cura di), La rilevazione sulle forze di lavoro: Contenuti, metodologie,
organizzazione, Roma, Istituto Nazionale di Statistica, Metodi e norme n. 32 , 2006
http://www.istat.it/dati/catalogo/ricerca.php?tipo=n&ciclo=0&stringa=&collane%5B%5D=14&nu
m_collana=32&anni%5B%5D=2006
Pagliuca D. (a cura di), GENESEES V. 3.0 Manuale utente e aspetti metodologici, Istituto
Nazionale di Statistica, Tecniche e Strumenti 3, 2005
http://www.istat.it/strumenti/metodi/software/produzione_stime/genesees/index.html
Woodruff R. S., A Simple Method for Approximating the Variance of a Complicated Estimate,
“Journal of the American Statistical Association”, Vol. 66, n. 334, 1971
http://www.jstor.org/pss/2283947
21
Scarica

Strumenti e tecniche di Business Intelligence per valutare l