Raccolta Poster di tesi
o lavori in stage
con utilizzo di software SAS
per la parte applicativa.
INDICE

Terapia antitrombotica per la prevenzione dell’ictus in pazienti con fibrillazione atriale.
Dati dallo studio GISSI-AF - Università degli Studi di Milano-Bicocca

I Credit Default Swap e la Valutazione del Rischio di Credito - Università degli Studi di
Milano-Bicocca

S.E.M. to examine the role of emotions in advertising and consumer choice - Università
degli Studi di Milano-Bicocca

Tecniche di validazione della scala HoNOS - Università degli Studi di Milano-Bicocca

Contratti per Data Intensive Service -Università degli Studi di Milano-Bicocca – Dip.
Informatica Sistemistica e Comunicazione

Revisione sistematica della letteratura sulla relazione tra esposizione a farmaci
antidiabetici e rischio tumore - Università degli Studi di Milano-Bicocca – Dip. Statistica,
Unità di Biostatistica ed Epidemiologia

Rischio di eventi tromboembolici durante chemioterapia: pool di dati di studi di fase I e
II - Università degli Studi di Milano-Bicocca

Data Mining models for scoring the risk evaluation using quantitative and qualitative
information - Alma Mater Studiorum Università di Bologna

Quanto sono felici i capifamiglia italiani e perché? La Felicità: studiarla, valutarla e
saperla riconoscere - Università La Sapienza di Roma

La gestione delle parti di ricambio - Università degli Studi di Brescia

Bootstrap and Bond Option Evaluation with SAS Risk Dimensions - Università Cattolica
del Sacro Cuore

Generazione di piani fattoriali frazionari ortogonali - Politecnico di Torino

Il rischio di disoccupazione nei laureati dell’Università di Padova - Università degli Studi
di Padova

The role of a Biostatistician in clinical research: From the protocol to the Statistical
Analysis report. A dose finding case study - Università degli Studi di Milano-Bicocca
i.
Università di Milano - Bicocca
Glauco Cappellini1, Marcello Disertori2, Simona Barlera1, Giovanni Corrao3, Maria Grazia Franzosi1
1
Dipartimento di Ricerca Cardiovascolare, Istituto di Ricerche Farmacologiche Mario Negri, Milano 2 Ospedale Santa
Chiara, Trento 3 Università degli Studi di Milano – Bicocca, Facoltà di Scienze Statistiche
Terapia antitrombotica per la prevenzione dell’ictus
in pazienti con fibrillazione atriale
Dati dallo studio GISSI-AF
La fibrillazione atriale è una aritmia cardiaca caratterizzata da attività elettrica caotica degli atri che induce
un’irregolare contrazione ventricolare, parzialmente inefficace ai fini della propulsione del sangue. Si stima
che soltanto in Italia tale patologia colpisca circa 500000 persone e con il progressivo invecchiamento della
popolazione tali stime sono destinate ad aumentare. Il principale rischio clinico a lungo termine per tali
pazienti consiste in una maggiore probabilità di occorrenza di eventi tromboembolici. Per limitare tale
eventualità le principali linee guida raccomandano un trattamento antitrombotico cronico con warfarin oppure
con aspirina, sulla base del profilo di rischio individuale del paziente.
Obiettivo
I principali obiettivi del presente studio sono stati confrontare la distribuzione del rischio nella popolazione di
pazienti con fibrillazione atriale arruolati nello studio clinico GISSI-AF utilizzando i due modelli di
classificazione maggiormente diffusi (CHADS2 e CHA2DS2VASc) e identificare i fattori che hanno
maggiormente influenzato la scelta della terapia antitrombotica (warfarin oppure aspirina) cui sottoporre i
pazienti da parte dei cardiologi.
Soluzione
La distribuzione del rischio nella popolazione in base ai modelli CHADS2 e CHA2DS2VASc è stata
sintetizzata mediante semplici grafici a barre. Per la successiva analisi statistica è stato utilizzato il software
SAS. In particolare per caratterizzare i fattori aritmologici in grado di influenzare la somministrazione di
warfarin, il farmaco antitrombotico più efficace presente in commercio, è stata condotta un’analisi di
sopravvivenza mediante PROC LIFETEST. Quindi per identificare i fattori che hanno determinato la scelta
della terapia da parte degli sperimentatori è stata utilizzato un modello di regressione log-lineare con
distribuzione di Poisson mediante la PROC GENMOD. Infine, per calcolare e confrontare le capacità
discriminanti dei due schemi di classificazione del rischio considerati è stata utilizzata la macro SAS %roc,
versione 1.7, disponibile online.
Risultati/Benefici
Analizzando
la
proporzione
di
pazienti
correttamente trattati alla visita di fine studio
emerge come la relazione fra livello di rischio e
trattamento antitrombotico scelto non dipenda dallo
schema di classificazione utilizzato: con entrambi i
modelli di rischio la proporzione di pazienti trattati
secondo linee guida rimane intorno al 60% (grafici
a barre in alto). Dall’analisi di sopravvivenza
condotta emerge come i pazienti che hanno
sperimentato recidive di fibrillazione atriale hanno
una maggiore probabilità di iniziare o mantenere il
trattamento con warfarin (curve di Kaplan-Meier in
basso). Dall’analisi della capacità discriminante,
entrambi gli schemi hanno ottenuto risultati
mediocri, suggerendo la necessità di condurre
ulteriori studi per approfondire la conoscenza dei
fattori di rischio della fibrillazione atriale e quindi
migliorare
la
prevenzione
degli
eventi
tromboembolici conseguenti.
i.
Università degli Studi di Milano - Bicocca
Stella Azzurra Namio
I Credit Default Swap e la Valutazione
del Rischio di Credito
Ambito applicativo Business Analytics, Risk Management, Economia Finanziaria.
Obiettivo
Questo studio nasce dalla voglia di far luce sull’attuale
situazione economica europea.
In questo clima di incertezza cerchiamo di analizzare il
contesto monitorando in maniera oggettiva i dati sul
rischio obbligazionario dell’area Euro.
L’analisi empirica prende in esame i dati giornalieri reali
del mercato dei CDS, che sono dei prodotti derivati che
consentono di coprirsi dal rischio di default dell’emittente
e il cui prezzo quindi riflette la valutazione di tale rischio,
focalizzandosi in particolare sui titoli bancari e del debito
pubblico.
Si considerano da un lato i CDS dell’Eurozona percepiti come più a rischio (Grecia, Irlanda, Portogallo,
Spagna e anche Italia) e dall’altro quelli relativi a Francia e Germania. L’analisi empirica si sofferma sul
rischio sovrano relativo agli Stati europei, sul rischio corporate relativo alle banche e in terzo luogo rispetto a
entrambi è stata svolta un’analisi alla ricerca delle condizioni di cointegrazione tra le due parti.
Soluzione
L’analisi si snoda su quattro step e fa uso di modelli statistici e
tecniche econometriche per le serie storiche.
In particolare grazie alla procedura di Johansen si verifica la
presenza di due relazioni cointegranti.
Si è trovato inoltre mediante le funzioni di risposta all’impulso il nesso
di causalità esistente tra rischio Paese e rischio Bancario. Una
qualsiasi banca in generale condivide il rischio del suo Paese. Il
rischio Paese infatti ne rappresenta la soglia minima e in tal senso il
rappresenta il Benchmark del rischio Bancario corrispondente.
Risultati
Il raffronto tra i CDS su obbligazioni sovrane e CDS su titoli
bancari e la verifica dei legami che intercorrono tra tali variabili ci
ha permesso di capire dal punto di vista del rischio
obbligazionario che l’Eurozona oggi è divisa sostanzialmente in
due sottoinsiemi.
La correlazione facilmente intuibile tra Paese e banche dello
stesso Paese è attesa, la sorpresa è invece la forte
interconnessione presente tra Paesi e banche ”straniere”.
L’analisi risulta di particolare interesse per una duplice ragione:
da un lato il rischio paese (cioè il rischio che uno stato non onori il
suo debito) è considerato come base per la valutazione del
rischio delle aziende che operano in quel paese e dall’altro
perché le banche investono in titoli di stato e una relazione stretta
tra i CDS sulle banche e i CDS sui titoli di stato rivela informazioni
sul contenuto dei portafogli bancari.
Esiste quindi una separazione tra il rischio bancario greco e quello degli altri paesi problematici, in
particolare dell’Italia. Il default dell’ Alpha Bank infatti sembra non incidere in maniera significativa sulla
componente rischio Italia, al contrario potrebbe colpire la Francia con le sue banche strapiene di debito
ellenico.
2
i.
Università degli studi di Milano - Bicocca
Ilaria Parisi
S.E.M. to examine the role of emotions
in advertising and consumer choice
Marketers are faced with the problem that consumers are less and less responsive to traditional advertising,
and therefore they are still looking for new marketing communications tools.
For a communication agency is still more difficult to explain and capture the effect of below the line media
such as events or sponsorship activities through the use of traditional communication models and effect
measurement models, as the consumer's choices often appear irrational and based on emotional responses.
Thus, there is a need for a new models about event effectiveness.
Objective
The objective of this research is to design a standardized model to examine how the latent variables, such as
involvement, emotions and event attitude, can influence the brand attitude and buying intention and to
measure these latent variables by a standard questionnaire, allowing to be used across brands, companies
and different types of event or partnership activities.
Solution
The conceptual model for the effectiveness of an event has been developed with inspiration from the
neuropsychological theory. The model includes two key dimensions: how consumers feel (emotions) and how
they think (attitudes) about both the activity and the brand.
It has been used a Structural Equation Modeling approach that combines Factor Analysis and Path Analysis
into one; the ML method is used for estimating the model and Cronbach’s Alpha test is used to validate
results.
The software SAS has strongly been used for the whole research project: to import data, to check and clean
data, to recode and to standardize latent variables as indicators initially; therefore for a data analysis step
using the CALIS procedure designed for Factor and Path Analysis models and finally to manage results by
creating, merging and exporting outputs.
Results/Benefits
Tool created offers a synthetic indicator on the marketing manager's desk, allowing him/her to optimize
investments and decide if and how to re-invest on an event or a sponsorship.
The unique metrics provided together with the possibility to repeat the analysis across time allows the Client
to leverage on its own sponsorship results as means of dealing.
The model delivers three key outputs:
1- KPIs: the overall performance of the event/partnership and impacts on brand health
2- Impact: the level of influence the event/partnership has on partner buying intention
3- Optimizer: a road map to improve the event/partnership
i.
Università degli Studi di Milano-Bicocca
Alessandra Venerus
Tecniche di validazione della scala HoNOS
Il lavoro si colloca nell’ambito delle tecniche di valutazione e validazione della scala HoNOS, creata nel 1996
dal Royal College of Psychiatrists con lo scopo di misurare condizioni sociali e di salute di persone con seri
problemi mentali. La scala è composta da 12 items ed è stata inzialmente suddivisa in quattro sottoscale in
base a criteri clinici. In seguito Tom Trauer (1999) e Elizabeth Newnham (2009) proposero nuove strutture
rispettivamente a 5 e 4 sottoscale tramite analisi fattoriali esplorative e confermative.
Tom
Trauer
Elizabeth
Newnham
Obiettivo
Creare due modelli a 4 e 5 fattori per ottenere delle sottoscale, ossia dei raggruppamenti di dodici items.
Testare se i modelli sono gli stessi all’interno di gruppi omogenei di pazienti.
Metodi usati:
•Analisi fattoriali esplorative e confermative su dati reali per la costruzione di due modelli fattoriali a 4 o 5
fattori/sottoscale
•Confronto con tre modelli fattoriali presenti in letteratura (stesso approccio usato da altri autori)
•Novità: test di invarianza fattoriale per la stima di modelli fattoriali per sottogruppi omogenei
•Dataset: Rilevazione della Scala HoNOS su 1624 pazienti provenienti da Ospedale Niguarda di Milano,
Ospedale di Desio e Ospedale di Garbagnate
Soluzione
Per le analisi è stato utilizzato il software SAS 9.2. In particolare per la analisi fattoriali esplorative è stata
utilizzata la Proc Factor con metodo di rotazione della pattern matrix “varimax”. Per l’analisi fattoriale
confermativa è stata usata la Proc Calis, che permette di validare un modello ipotizzato a priori. Per il test di
invarianza fattoriale la Proc Tcalis, che confronta lo stesso modello fattoriale all’interno di due gruppi
omogenei al loro interno, per valutare l’adattamento del modello ad individui con differenti caratteristiche.
Risultati/Benefici
I due modelli a 4 e 5 fattori presentano indici di adattamento molto soddisfacenti anche confrontati con i
modelli presenti in letteratura. Sono stati inoltre implementati nuovi modelli a 5 sottoscale per gruppi
omogenei di pazienti, in modo da poter valutare più precisamente le condizioni di salute del paziente a
seconda delle sue specifiche caratteristiche (riguardanti la patologia o l’anzianità di carico).
i.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica Sistemistica e Comunicazione
Andrea Scrivanti – [email protected]
Contratti per Data Intensive Service
Modellazione e Selezione
La qualità dei dati è un aspetto da sempre importante per le organizzazioni in quanto, in un mercato sempre più competitivo, assume un ruolo di
fondamentale rilevanza per l'azienda e per il suo successo nei business in cui opera. Le attività di Data Quality Management, come data cleansing, data
profiling e data enrichment, consentono di monitorare ed aumentare la qualità dei dati di un’organizzazione.
La rapida diffusione del cloud computing, attraverso i paradigmi Software as a Service (SaaS) e Data as a Service (DaaS), ha contribuito alla diffusione
di servizi di Data Quality Management on-demand. Questi servizi, denominati Data Intensive Service, consentono di (1) ridurre i costi relativi
all’acquisto di software di Data Quality Management e (2) diminuire i costi di gestione dell’infrastruttura, in quanto l’elaborazione viene effettuata
dall’erogatore del servizio.
Data la crescente offerta di questa tipologia di servizi, le aziende che vogliono effettuare attività di Data Quality Management possono selezionare,
tra i Data Intensive Service disponibili, il servizio che meglio si adatta alle proprie esigenze. Data la numerosità dei Data Intensive Service, l’utente deve
essere supportato nella selezione mediante una valutazione automatica o semi-automatica dei contratti associati ai servizi. Tali contratti ne specificano
i termini di utilizzo (ad esempio, licenze e qualità del servizio).
Obiettivo
Modellazione dei termini contrattuali che caratterizzano i Data Intensive Service e le loro relazioni in un’ontologia di riferimento. Utilizzo
dell’ontologia per la definizione di contratti semantici da associare ai servizi disponibili.
Supporto alla selezione automatica del servizio che maggiormente rispecchia le esigenze dell’utente mediante la valutazione dei contratti semantici
associati ai servizi.
Estensione dello strumento DataFlux Power Studio al fine di supportare la selezione automatica di servizi basata sulla valutazione di contratti, e
invocazione del servizio selezionato nel processo di business.
Soluzione
Approccio semantico per la modellazione di contratti per Data Intensive Service.
Modellazione dei principali termini contrattuali in un’ontologia (Fig. 1).
Modellazione delle relazioni esistenti tra termini contrattuali e i loro possibili
valori.
Enrichment Steps
Address Verification
Geocoding
…
Predefined Services
TeleAtlas
…
Fig. 1: Esempi di termini contrattuali modellati nell’ontologia
Other Steps
External Services
Extensions
Service Selection
Service Invocation
Google Geocoding
Yahoo! PlaceFinder
…
Fig. 2: Estensione dello strumento DataFlux Power Studio
Estensione dello strumento DataFlux Power Studio con operazioni
di selezione e invocazione di Data Intensive Service.
Definizione dello step Service Selection, che effettua la selezione di
servizi valutando i contratti ad essi associati sulla base di una
richiesta. I servizi considerati possono essere servizi esterni allo
strumento, oppure servizi predefiniti (Fig. 2).
Definizione dello step Service Invocation che realizza l’invocazione
del servizio selezionato, in modo da utilizzarlo dinamicamente
all’interno di un processo di business.
Risultati/Benefici
Sperimentazione degli step creati per effettuare attività di geocoding, deduplication e data enrichment sul database
dell’European Patent Office.
Per ogni attività è stato specificato un contratto richiesto definito dal caso di studio. La selezione automatica ha portato
all’individuazione del servizio ottimo, in accordo con il ranking ideale definito tramite un focus group. I servizi selezionati hanno
consentito di ottenere buoni risultati (ad esempio, il servizio di deduplication ha ottenuto una precision dell’88% e una recall
del 93%).
I principali vantaggi nell’utilizzo di questo approccio sono: (1) supporto alla selezione del miglior servizio tra servizi funzionalmente equivalenti, e (2)
l’apertura di DataFlux Power Studio al cloud computing, permettendo così di effettuare operazioni di Data Quality Management riducendo i costi di
acquisto e gestione.
Dipartimento di Statistica,
Unità di Biostatistica ed Epidemiologia,
Università degli Studi di Milano-Bicocca
Soranna D, Nicotra F, Scotti L, Zambon A, Ghirardi A, Arfè A, Corrao G
REVISIONE SISTEMATICA DELLA LETTERATURA SULLA RELAZIONE
TRA ESPOSIZIONE A FARMACI ANTIDIABETICI E RISCHIO DI TUMORE
Studio epidemiologico per la valutazione degli effetti dei farmaci su scala di popolazione in fase
post-marketing (ambito epidemiologico).
OBIETTIVO
Revisione sistematica e quantitativa della letteratura riguardante la stima del rischio di insorgenza
di tumore nei pazienti affetti da diabete di tipo II e trattati con Sulfonamidi (sulfoniluree) o Biguanidi
(metformina).
SOLUZIONE
Lo studio è stato condotto mediante l’applicazione di macro in linguaggio SAS versione 9.2 (SAS
Institute, Carry, NC) per: i) il calcolo delle stime pooled di associazione (Odds Ratio) secondo il
modello a effetti fissi e a effetti casuali (e corrispondenti stime intervallari), ii) la costruzione dei
Forest Plot per la presentazione dei risultati dell’analisi. La prima macro è stata implementata ad
hoc, mentre la seconda era disponibile sul sito di SAS (http://support.sas.com/kb/43/855.html).
RISULTATI
Figura 1
Figura 2
Figura 3
Figura 4
*
OR
OR
OR
OR
* HCC: Carcinoma epatocellulare
La stima complessiva dell’effetto della metformina e delle sulfoniluree sul rischio di tumore è stata
valutata rispetto a diverse categorie di farmaci antidiabetici di confronto.
I risultati in Figura 1 evidenziano un effetto protettivo del trattamento con metformina contro tutti gli
altri possibili trattamenti farmacologici mentre per le sulfoniluree (Figura 2) non emerge un
aumento di rischio di tumore.
È stata inoltre condotta un’analisi stratificata rispetto al sito tumorale.
Si è osservata una significativa riduzione del rischio nei pazienti trattati con metformina solo per il
tumore al colon-retto e al pancreas (OR 0,64, IC 95% 0,54-0,76;OR 0,37, IC 95% 0,15-0,91)
(Figura 3) , mentre non è emersa nessuna associazione tra l’uso di sulfoniluree e il tumore alla
prostata e al fegato (OR 0,89, IC 95% 0,75-1,05;OR 2,83, IC 95% 0,87-9,18) (Figura 4).
i.
Università degli Studi di Milano-Bicocca
Vitalini Cristina
Rischio di eventi tromboembolici durante
chemioterapia: pool di dati di studi di fase I e II
Ambito applicativo
Questo lavoro di tesi, che mi ha permesso di ottenere il diploma di laurea magistrale in Biostatistica e
statistica sperimentale, si è sviluppato nel contesto universitario ma si allaccia profondamente all’esperienza
lavorativa maturata nel settore della ricerca clinica in oncologia. La statistica ha un ruolo fondamentale in
ambito medico perché consente di raccogliere informazioni che guidano e supportano la pratica clinica,
contribuendo ad accrescere quella che chiamano evidence based medicine.
Obiettivo
L’insorgenza di eventi tromboembolici durante chemioterapia è un problema clinico rilevante che si
manifesta nella popolazione oncologica con una frequenza sempre maggiore ed ha un impatto significativo
sulla qualità della vita dei pazienti. Recentemente, Khorana et al. hanno proposto un modello predittivo
che discrimina i pazienti con un rischio più elevato (score 3) , individuando i casi in cui sarebbe utile
intervenire preventivamente attraverso una profilassi
Patient characteristics
Risk score
tromboembolica.
Site of cancer
- Very High Risk (stomach, pancreas)
L’obiettivo della tesi è stato innanzitutto validare
2
- High risk (lung, lymphoma, gynecologic, bladder,
1
questo modello, utilizzando i dati dei pazienti trattati
testicular)
9/L
1
Prechemotherapy
platelet
count
350
x
10
all’interno degli studi clinici di fase I e II condotti da
Hemoglobin level < 100g/L or use of red cell growth
1
SENDO1, per poi cercare di perfezionare il modello
factors
sfruttando altre informazioni cliniche disponibili in
Prechemotherapy leukocyte count 11 x 109/L
1
1
BMI 35 kg/m2
questo pool di dati.
Modello predittivo di Khorana (Khorana et al, Blood 2008).
Soluzione
L’utilizzo del software SAS è stato duplice ed ha riguardato sia la fase di data management sia l’analisi
statistica effettuata. In un primo momento, sono state sfruttate le potenzialità di SAS/BASE di selezione,
gestione di dati relativi ai singoli studi clinici e loro successiva integrazione in un unico database. Quanto
all’analisi, la validazione del modello predittivo di Khorana si è basata non solo sul calcolo della statistica C
di concordanza fornita dalla procedura logistic di SAS/STAT, ma anche su una versione dinamica dello
stesso indice, costruita a partire da una curva ROC time-dependent e ottenuta adattando agli scopi della tesi
una macro disponibile in letteratura. L’associazione tra l’insorgenza di eventi tromboembolici ed ulteriori
variabili disponibili (età, sesso, tempo dalla prima diagnosi di malattia tumorale e di malattia metastatica,
precedenti regimi, trattamento sperimentale) è stata studiata adottando un approccio di analisi del tipo timeto-event, attraverso modelli univariati e multivariati costruiti sfruttando le procedure lifetest e phreg di
SAS/STAT e le potenzialità grafiche di SAS/GRAPH per confrontare le curve di incidenza cumulativa.
Risultati/Benefici
Dall’analisi retrospettiva condotta è emerso che 56 pazienti hanno sperimentato un evento tromboembolico
durante chemioterapia su un totale di 1415 soggetti coinvolti negli studi clinici condotti da SENDO (4%). Il
modello predittivo di Khorana è in grado di individuare pazienti con un rischio significativamente maggiore,
soprattutto nel breve periodo (C=0.74 a 15 giorni). Nonostante non siano emerse altre variabili che possano
migliorare il modello, la validazione effettuata conferma la capacità discriminatoria dello strumento proposto
da Khorana e la sua utilità nella pratica clinica: la possibilità di isolare all’interno della popolazione oncologica
un gruppo di pazienti ad alto rischio da trattare con una profilassi tromboembolica ha un impatto non solo
sulla qualità della vita dei pazienti stessi, ma anche sull’intero sistema sanitario e sociale.
1
SENDO: Southern Europe New Drug Organization - Milano, www.sendo.org
i.
Alma Mater Studiorum
Università di Bologna
Silvia Carducci
DATA MINING MODELS FOR SCORING
THE RISK EVALUATION USING QUANTITATIVE
AND QUALITATIVE INFORMATION
The focus of the analysis emphasizes the concept of credit risk, from a data mining and statistical point of view, having as pillar the
evaluation of the default probability. A first theoretical part describes the most common data mining methods, procedures and
algorithms providing main points as well as mathematical insights taken from acknowledged literature. A correct prediction of the
default probability is at the centre of several modern studies and is a fundamental issue especially in recent times, linked to the
subprime mortgages crises, the fear of banks having un-covered risks and the need for the economy to be boosted to re-start, thus
this research can offer useful insights on the subject.
PURPOSE: to provide a useful model that can improve the credit scoring and the risk evaluation practices
by better addressing the default probability’s issue
In order to determine whether the predictive power can be increased, the discriminant
analysis has been chosen, which the literature demonstrate is a valid alternative to the
logistic regression. In particular given the fact that the datasets contains both qualitative
and quantitative variables, a major problem is given by the fact that one of the limitations
of the discriminant analysis is that it can be applied to quantitative variables only. In order
to overcome this problem Prof. Gilbert Saporta invented a specific model that allow to
perform the discriminant on qualitative variables, which is the so called Disqual.
Thanks to the help of Prof. Saporta, who supported my research, the Disqual
has been analysed and then performed on the dataset. It has to be remember
that the Disqual performs a multiple correspondence analysis of the qualitative
variables in order to obtain factorial axes that are used as input of a SAS
procedure (DISCRIM or CANDISC) which allow to perform the model. What has
to be highlighted is also that the inclusion in the model of qualitative variables
improves the prediction.
SOLUTION: To improve of the correctness of the prediction of the default probability for new clients, based
on the analysis of both qualitative and quantitative information
collected on past clients
The empirical part has been performed using the SAS analytics which, thanks to a vast variety of tools
and solutions, have been very useful in order to analyse the data, to simulate a real-world situation
and to calculate the scoring functions. The help of the SAS software has been fundamental for the
investigation of the dataset, for the application of data mining models finalized at identifying the
credit-worthiness, and thus for the understanding of customers and banks’ needs for the purpose of
improving the services offered. Going into details, both the SAS base and the SAS Enterprise Guide
have been used, the first one specifically offers high flexibility thanks to the programmability of the
procedures, while the second one offers a more immediate approach for the most common models.
RESULTS: The results have shown that the model predicts the default probability better than the logistic
regression and the overall predictive capacity of the model is very high and is around 80%
The research demonstrates that there is margin for improvement in the field of credit risk evaluation
and that, even if resources may be needed in order to further investigate the problem, by improving
the default probability’s a series of positive insights is provided. First of all the bank or lending
institution that can chose to allocate resources in the credit-evaluation model’s improvement has
good changes to achieve significant savings thanks to a better classification of the clients and a safer
credit policy. Last but not least, clients that have the potential for receiving a credit will be allowed to
do so, which is important to promote economic growth and investment.
i.
Autore: Paolo D’Errico
Quanto sono felici i capifamiglia italiani e
perché?
Ambito applicativo
(La Felicità: studiarla, valutarla e saperla riconoscere)
ll Benessere EconomicoEconomico-Sociale può essere misurato con un indice di Felicità
Felicità Soggettiva?
Quanto sono Felici i Capifamiglia del nostro Bel Paese? E’
E’ Possibile immaginare un mondo dove la maggioranza
dei suoi abitanti sia Felice? Cosa determina la Felicità
Felicità in un individuo? Cosa intendiamo noi per Felicità
Felicità?
Questi ed altri interrogativi sono stati e saranno in futuro gli scopi della mia ricerca nel tentativo di trovare relazioni e
opinioni valide in un era di esigenze innovative dove la Statistica
Statistica Ufficiale assume un ruolo cruciale nella determinazione
oggettiva e generale di fenomeni sociosocio-economici ai fini di un concreto sviluppo.
Obiettivo
Nell'ambito dell'Economia del Benessere ed in particolare nell'ultimo
nell'ultimo decennio vi è un'accurata ricerca
verso misure alternative che vanno oltre il consueto PIL. Tra queste
queste ultime sta suscitando notevole
interesse l'Indice Soggettivo medio del Benessere (Subject
(Subject Well Being SWB) o anche più
più propriamente
detto Felicità
Felicità Soggettiva. Gli obiettivi del lavoro di Tesi che sono stati trattati
trattati partono da un'analisi
descrittiva del fenomeno riguardante la Felicità
Felicità Soggettiva di un sottocampione rappresentativo dei
Capifamiglia italiani in relazione al proprio Reddito disponibile
disponibile netto ed in base ad un certo numero di
variabili significative quali, il sesso, lo stato civile, l'età
l'età, il titolo di studio, la condizione professionale e la
regione di residenza. Seguendo un classico Processo di Data Mining in tutte le sue fasi ed applicando una
tecnica statistica multivariata di Regressione Logistica, si è voluto andare a scoprire quali fossero le
determinanti il grado di Felicità
Felicità, come si prospetta la Felicità
Felicità Soggettiva dei Capifamiglia nel brevebreve-medio
periodo, quali potrebbero essere le possibili soluzioni sociali e comportamentali per poter raggiungere il
proprio benessere nonchè
nonchè quello dell'intera collettività
collettività.
Soluzione
Software SAS utilizzato: SAS System versione 9.2 per Windows 7 (64 bit);
Attingendo come fonte primaria di dati dall’
dall’Indagine sui Bilanci delle Famiglie Italiane condotta dalla Banca
Banca d’
d’Italia
il lavoro di ricerca si è svolto con una prima fase di pretrattamento di riassetto e di ricodifica secondo le esigenze
conoscitive orientate al perseguimento degli obiettivi finali. Per
Per poter studiare la Felicità
Felicità degli stessi Capifamiglia
nei vari anni disponibili ad essere intervistati, sono risultate
risultate necessarie cospicue fusioni tra archivi di annate
diverse nonché
nonché migrazioni da e verso l’
l’applicativo MS Excel. Nella fase del Processo di Data Mining relativa alla
specificazione dei Metodi Statistici si è preferito scegliere la Tecnica Statistica di Regressione Logistica
Logistica in quanto
è risultata la “migliore”
migliore” sia in termini di ricerca delle determinanti che in termini previsionali
previsionali del fenomeno da
spiegare. Nel contesto di selezione delle variabili esplicative in un’
un’ottica di Analisi di Regressione Logistica è stato
scelto il metodo Stepwise e talvolta anche in concomitanza con altri predittori che seppur esclusi automaticamente
sono stati ritenuti significativi per la realizzazione del modello
modello analitico finale.
Felicità Soggettiva dei Capifamiglia per titolo di studio - Anni 2007 e 2009
(valori medi)
Livelli di Felicità Soggettiva
Alcune Regioni - Anno 2009
Risultati/Benefici
Modello Logit con Y=Moltofelice/Rednonpov
Linea di tendenza - Anni 2009-2013
10
8,60
7,33 7,51
7,17 7,44
6,80 6,99
6,19 6,43
5,70 5,78
T re nt ino A lt o A dige
9
7,75
8
7
2,0000
6
1,5000
5
4
Va lle D 'A o s t a
3
y = 189,58Ln(x) - 1442,1
R2 = 0,1916
1,0000
0,5000
2
1
Liguria
0,0000
-0,5000
-1,0000
Coefficienti
-1,5000
Log. (Coefficienti)
-2,0000
10,00
Fonte: elaborazioni Paolo D'Errico su dati Bankitalia
M o lis e
9,00
8,00
7,00
S
La
pe
ure
c.
a
P
os
tla
ure
20
07
Felicità Soggettiva dei Capifamiglia per Genere
(valori medi da 1 a 10) - Anni 2007 e 2009
20
09
N
es
Lic
su
en
no
za
ele
m
en
ta
re
M
ed
ie
in
fe
rio
M
ri
ed
ie
su
pe
rio
ri
a
V e ne t o
-3,0000
7,17
6,37
-2,5000
B a s ilica t a
7,02
6,00
-3,5000
2008
2009
2010
2011
2012
2013
2014
6,00
Fonte: elaborazioni Paolo D'Errico su dati Bankitalia
5,00
4,00
C a la bria
3,00
2009
2,00
1,00
2007
Femmine
Maschi
: 10 Estremamente Felice
Fonte: elaborazioni Paolo D'Errico su dati Bankitalia
: 5 Mediamente Felice
Regioni più rappresentative
con scarto inferiore al 3%
: 1 Estremamente Infelice
F o nt e : e labo ra zio ni P a o lo D ' Erric o s u da t i B a nk it a lia
Essere Felici vuol dire aver:
risorse, competenza, cultura,
esperienza, praticità
praticità, condivisione,
umiltà
umiltà, sincerità
sincerità, oggettività
oggettività,
conversione, adattamento, tenacia.
i.
Università degli Studi di Brescia
Federico Adrodegari
Andrea Bacchetti, Francesca Plebani
Contesto
La gestione delle parti di ricambio è materia assai
complessa, per almeno 3 ragioni: l’ampiezza e la varietà
della gamma, la frammentazione della domanda e la
profondità della filiera di fornitura. Dall’altro si tratta anche di
un attività in grado di generare un business significativo:
nei soli settori automotive, apparecchio il business generato
dalla vendita delle SP sia quantificabile in circa 200 miliardi
di dollari, con marginalità mediamente superiori del 30%
rispetto al prodotto finito.
(Aberdeen, 2008)
Obiettivo
Obiettivo dell’approccio è quello di dimostrare che la chiave
di volta per il miglioramento significativo delle prestazioni in
questa attività sta nell’identificazione dei fattori chiave che
definiscono le peculiarità delle parti di ricambio e nella
progettazione di un sistema di classificazione strutturato
e adeguatamente supportato da uno strumento IT che
permetta di raggruppare i codici in classi omogenee a cui
poi poter applicare modelli differenziati (forecasting and
inventory optimization) in grado di intercettare le peculiarità
e proporre quindi soluzioni ottimali. È quindi stato testato il
nuovo approccio attraverso l’applicazione della soluzione
proposta
in
un’azienda
leader
nel
settore
dell’elettrodomestico bianco (ristrutturazione del processo di
gestione della parti di ricambio aziendale).
(Bacchetti et al.,2010)
Soluzione
La soluzione utilizzata è la SAS© Service Parts
Optimization che si propone di supportare il processo di
gestione delle parti di ricambio attraverso due “motori”. Il
primo è il motore di Demand Forecasting che è in grado di
generare in automatico previsioni di consumo per ogni
singolo codice. Il secondo è il motore di Inventory
Optimization che permette di ottimizzare i livelli delle scorte
e di generare piani di riordino ottimali. Inserendo nello
schema di funzionamento della soluzione, il sistema di
classificazione progettato, è così possibile “guidare” la
soluzione al raggiungimento di prestazioni ottimali. Il
Pilota sviluppato è stato poi customizzato per soddisfare le
specifiche esigenze di utilizzo dell’azienda.
(SAS Institute, Inc.,
SAS/INVENTORY
OPTIMIZATION)
Risultati/Benefici
1.Previsione della domanda: miglioramento delle
prestazioni valutato tramite l’aumento, codice per codice,
dell’accuratezza ottenuta dalla SPO “guidata” rispetto a
quella ottenuta con simulazioni in semplici fogli di calcolo.
2.Inventory: analisi delle attuali inefficienze di gestione
(rispetto del target service level ed rilevanza della voce di
over-stock). Valutazione del processo di ottimizzazione
proposto dalla soluzione attraverso il confronto dello
scenario attuale con quello simulato (a 3 mesi).
3.Benefici economici: realizzazione Business Case
•
•
•
Costo Emissione Ordine
Costo Stock-out
Costo Mantenimento
- 40%
2010.
i.
Università Cattolica del Sacro Cuore
Pietro Zecca
Bootstrap and Bond Option Evaluation
with SAS® Risk Dimensions
Two usage samples of SAS® Risk Dimensions performing common market pricing methodologies.
The easiest one concerns with the standard bootstrap algorithm, used to originate discount factors from the
swap curve.
The most complex one implements the extension of Vasiceck model proposed by J. C. Hull and A. White in
1990.
Goal
•
•
Bootstrap. Points of the swap curve within the year are deduced observing rates applied to interbank
deposits. So they are actually zero-coupon rates. Points beyond the year correspond to rates on swap
contracts. Since Swaps are priced at par, once known the swap rates, it is possible to deduce a recursive
relation that binds together the discount factors.
Hull&White Model. The authors get the evolution of zero-coupon bond prices under the action of a
precise dynamic of the istantaneous interest rates, considering a time dependent reversion level. This
model can be used to price a bond endowed with an embedded option (PUT/CALL). The optionality is
equivalent to a portfolio of options built on dummy zero-coupon bonds obtained splitting all the future cash
flows, which are affected by the eventual exercise. The values of the underlying bonds are the actual
values of the future cash flows, while the strikes of the dummy options are the results of Hull&White
Model applied twice.
Solution
The SAS® Risk Management for
Banking solution is part of the SAS
offer to banks. It consists of four
components for handling different
types of risks.
SAS® Market Risk for Banking is
the module that manages market
risk and pricing techniques.
The calculus engine that allows the
pricing of products and risk
assessment is shared by the
different components and is called
SAS® Risk Dimensions.
Results
The Zero Coupon Curve is
fundamental for any present value
calculation.
Besides, the output of the bootstrap
method in SAS® Risk Dimensions.
According to the option type
(PUT/CALL) the embedded option
value must be added or subtracted
from the bond value which can be
estimated taking into account any
other eventual feature of the contract.
i.
Politecnico di Torino
Sabrina Sampò
GENERAZIONE DI PIANI FATTORIALI
FRAZIONARI ORTOGONALI
Ambito applicativo
Obiettivo
Nell’ambito del “Design of experiments”, i piani fattoriali
hanno un ruolo fondamentale poiché consentono di
studiare molteplici fattori simultaneamente. Gestire un
elevato numero di fattori con molti livelli può essere
oneroso, per questo si usano generalmente delle frazioni
dei piani. Una scelta appropriata dei punti della frazione
consente di stimare correttamente gli effetti di ordine
minore o uguale alla risoluzione scelta. In particolare è
interessante considerare piani ortogonali, cioè tali che
ciascun punto compare nella frazione un ugual numero di
volte.
L’obiettivo della tesi è, partendo dalla teoria algebrica [1],
costruire un algoritmo in SAS che generi questi piani
fattoriali ortogonali senza restrizioni sul numero di fattori e
livelli. Poiché ogni punto della frazione rappresenta una
prova sperimentale con un certo costo è importante
minimizzarne la cardinalità.
[1] Fontana R., Pistone G.. Algebraic strata for non symmetrical orthogonal fractional factorial designs and applications.
La matematica e le sue applicazioni, n.1, 2010, Dipartimento di matematica, Politecnico di Torino.
Soluzione
Costruzione dei vincoli
(SAS/IML)
Software di
ottimizzazione
SAS/OR:
MILP solver
Frazione
Per lo svolgimento della tesi è stato utilizzato il software
SAS OnDemand for Academics:
SAS/IML: con questa procedura, che ha come
principale strumento il calcolo matriciale, abbiamo
generato i piani fattoriali completi e ottenuto i vincoli
necessari per definire la frazione, sotto forma di matrice
esportabile in un qualsiasi software di ottimizzazione.
SAS/OR: la seconda procedura riceve come input il
dataset generato al passo precedente e costruisce la
frazione che rispetta i vincoli e ha il minor numero di
punti, risolvendo un problema di programmazione lineare
con incognite intere (MILP).
Risultati/Benefici
L’algoritmo ottenuto costituisce un miglioramento rispetto alle procedure già esistenti in SAS o in altri software
perché non pone alcun limite sulle dimensioni del piano fattoriale, inoltre consente di studiare il caso misto,
cioè costituito da fattori con numero diverso di livelli. Infine ha il vantaggio di mantenere distinte la prima fase
di costruzione algebrica e la seconda di risoluzione del problema di ottimizzazione, in modo da ottenere
l’insieme dei vincoli ed eventualmente esportarlo.
Riferimenti: L’algoritmo presentato è stato sviluppato nell’ambito di una tesi dal titolo “Orthogonal fractional factorial designs generation.
SAS-based algorithm”, laurea specialistica in Ingegneria Matematica presso Politecnico di Torino, relatore Prof. Roberto Fontana
([email protected] ). Per ulteriori chiarimenti contattare: [email protected]
i.
Università degli Studi di Padova
Emanuele Crescenzio
Il rischio di disoccupazione nei laureati
dell’Università di Padova
Lo studio è condotto su un campione di laureati degli anni 2007-2008 di otto facoltà dell’Università di Padova. I dati
provengono dall’indagine Agorà, uno studio longitudinale condotto dall’Ateneo padovano, che mira a sondare l’efficacia
esterna della formazione universitaria, intesa come livello di utilità, apprezzamento e ricorso alle competenze acquisite
con la preparazione accademica da parte dei dottori che entrano nel mondo del lavoro. Le informazioni raccolte presso i
laureati sono molteplici e riguardano sia aspetti oggettivi che soggettivi sulla professione svolta, il percorso universitario
concluso, la ricerca del lavoro ed altre eventuali attività di formazione professionale post lauream. La conoscenza di tali
aspetti permette all’Ateneo di implementare ed alimentare al suo interno un processo di accrescimento della qualità,
secondo il motto «conoscere per migliorarsi», per creare nuove figure professionali, meglio preparate e più consone alle
aspettative del mercato del lavoro.
Obiettivo
Nello studio si valuta la situazione occupazionale dei laureati nell’anno successivo alla laurea (breve periodo), sulla base
delle informazioni ottenute dalle rilevazioni effettuate a 6 e a 12 mesi dal conseguimento del titolo di studio. Le unità di
analisi sono i laureati che hanno definitivamente terminato gli studi universitari. In particolare interessano coloro che, in
occasione di almeno una delle interviste, si trovano nella situazione di assenza di lavoro retribuito. L’intento è quello di
valutare sia in termini quantitativi che qualitativi la disoccupazione nel breve periodo, fornendo non solo misure utili per
quantificare il livello di diffusione del fenomeno, ma provvedendo anche all’individuazione di fattori che lo determinano. Si
approfondiscono le azioni di ricerca del lavoro e le aspirazioni professionali, considerando gruppi di laureati con
caratteristiche e percorsi post lauream simili. Questo obiettivo è raggiungibile esaminando anche le opinioni e i giudizi
personali espressi dai laureati sul percorso universitario e sulla professione a cui aspirano.
Soluzione
Per il trattamento dei dati, oltre alla produzione di analisi esplorative (tabelle, grafici), si
sono adottati classici strumenti di analisi statistica multivariata, usualmente impiegati
nelle ricerche sociali. Lo studio si articola in due differenti approcci: trasversale e
longitudinale.
Nel primo caso si valuta la disoccupazione distintamente a 6 e 12 mesi dalla laurea,
prima a livello prettamente quantitativo, mediante la definizione ed il calcolo di
indicatori, a cui fa seguito la stima di due modelli di regressione logistica ed un’analisi di
segmentazione.
Nel secondo caso si valuta l’evoluzione delle dinamiche dello stato di disoccupazione
tra le due interviste, con la definizione e il calcolo di «indicatori di transizione di stato
occupazionale» e lo svolgimento di un’analisi di aggregazione, da cui si delineano
differenti «profili di laureati disoccupati», la cui analisi ed interpretazione si basa anche
sulla valutazione delle risposte alle domande aperte presenti nel questionario
dell’indagine.
Per le analisi statistiche si è utilizzato il software SAS 9.2. e SAS Enterprise Miner.
Risultati/Benefici
La realtà emersa dallo studio delinea un quadro di laureati ambiziosi ed intraprendenti, disposti a recuperare con attività di
stage e formazione professionale eventuali carenze della preparazione accademica (soprattutto in termini di «praticità» e
di operatività nella realtà aziendale) ed in generale protesi a ricoprire posti di grande rilievo e prestigio, anche a livello
internazionale. Le dinamiche di disoccupazione assumono caratteri e tempistiche diverse a seconda della facoltà e del
settore disciplinare considerato, del genere, delle attività svolte durante gli studi e dei rapporti interpersonali (in particolare
con i docenti universitari). Tali differenze sono colte dal calcolo degli indicatori e dalla stima dei modelli logistici. Non si
riscontra la presenza di casi di «alienazione dal mondo del lavoro» o di prolungata inattività e coloro che si dicono
insoddisfatti del percorso universitario non risultano più a rischio di disoccupazione rispetto ai colleghi. Lo studio ha
permesso di individuare e descrivere nove distinti profili di laureati non occupati, il cui studio risulta utile per cogliere
approfonditamente la metodologia, le azioni e gli esiti di ricerca del lavoro.
i.
Università degli Studi di Milano - Bicocca
Andrea Nizzardo
The role of a Biostatistician in clinical research:
From the protocol to the Statistical Analysis report
- A dose finding case study Pharmacological treatment of OA should be classified into two categories:
The principal purpose of this thesis was to find out the competence of the
biostatistician in clinical research, from the protocol writing to the statistical
analysis. An overview of regulatory principles are reported in order to clarify
how a clinical study has to be conducted. Guidelines consider every aspect
of clinical research, from ethical standards to statistical principles. The
clinical study BKOS-02 as practical example on drug development in
osteoarthritis is reported.
Study Design, primary and secondary end points and the main Data
Management rules are described.
The whole statistical analysis is performed programming in SAS and since a
dummy variable for the treatment was used any interpretation of results in
term of efficacy and dose-finding was performed.
Statistical Analysis Report was created from descriptive statistics to safety
analysis. Some tables are reported as example of layout.
symptom modifying drugs:
Symptoms (e.g. pain, functional disability ) that haven not detectable effect
on the structural changes of the disease. Pain is considered one of the main
OA related symptoms. Its intensity characterisation is an important issue in
treatment strategies using drugs with different pharmacological profiles.
structure modifying drugs:
These drugs, with their mechanism of action, are expected to have an effect
on the progression of the pathological changes in OA.
Pain attributable to the target joint is recommended as the primary endpoint
for symptom modifying drugs for OA.
Traditionally, pain has been measured using the Likert or 10 cm VAS scale.
BKOS 02 : PROTOCOL
The balance of regulatory requirements was pioneered by the European
Community, in the 1980s, moved towards the development of a single
market for pharmaceuticals. The success achieved in Europe showed that
harmonisation was feasible.
In this context, in April 1990, The International Conference on
Harmonisation of Technical Requirements for Registration of
Pharmaceuticals for Human Use (ICH) was burn.
It is a unique project that brings together the regulatory authorities of
Europe, Japan and the United States and experts from the pharmaceutical
industry in the three regions to discuss scientific and technical aspects of
product registration.
Four major categories:
Q: “Quality” Topics, related to chemical and pharmaceutical Quality
Assurance [stability testing, impurity testing, etc.].
S: “Safety” Topics, related to in vitro and in vivo pre-clinical studies
[Carcinogenicity testing, genotoxicity testing, etc.].
E: “Efficacy” Topics, related to clinical studies in human subject [dose
response studies, good clinical practices, etc.].
M: “Multidisciplinary” Topics, cross-cutting topics which do not fit uniquely
into one of the above categories.
The ICH GCP Guideline [ E6, good clinical practice] is an international ethical
and scientific quality standard for designing, conducting, recording and
reporting trials that involve the participation of humans. The objective of
this ICH GCP Guideline is to provide a unified standard for the European
Union, Japan and the United States to facilitate the mutual acceptance of
clinical data by the regulatory authorities in these jurisdictions.
The most important regulatory authorities are EMEA and FDA.
Clinical drug development is often described as consisting of four temporal
phases (Phase I – Phase IV ), but it is also important to appreciate that the
phase concept is a description, not a set of requirements. Drug development
is ideally a logical “step by step” procedure in which information from
smaller earlier studies is used to support the following studies; moreover,
throughout development, new data may suggest the need for additional
studies that are typically part of an earlier phase.
DRUG DEVELOPMENT IN OSTEOARTHRITIS
In according to the EMEA Guideline CPMP/EWP/784/97, the guideline on
clinical investigation of medicinal products used in the treatment of
Osteoarthritis, and to the FDA Guidance for Industry July 1999, the guidance
intended for the treatment of Osteoarthritis human Osteoarthritis [OA] is “a
chronic disease of the joints causing painand dysfunction. It’s sometimes
debilitating and it’s characterised by pain, biochemical and enzymatic
changes, cartilage fragmentation and loss, osteophyte formation and bony
sclerosis. These symptoms, or processes, differ in their clinical effect,
depending on the particular joint affected”.
Intra-articular treatment with MEN16132 in patients with symptomatic
primary Osteoarthritis of the knee: a randomised, multi-centre, double
blind, placebo controlled, five parallel group, dose finding study
Patients will be studied for safety and efficacy over thirteen weeks
after the first injection, administered at a 2-week interval as defined by
their treatment group. They will be studied for safety and efficacy over
13 weeks after the first injection (Figure 1).
Five study arms, with a 1:1:1:1:1 randomisation ratio.
Visit 2
Visit 1
Screening Randomisation
Visit 3
IAinjection
Week -3 to -1 Week 0
Day -21 to -2 Day 0
Up to 3 weeks
Screening phase
Visit 4
Visit 5
Visit 6
Visit 7
Week 3
Day 21
Week 4
Day28
Week 8
Day 56
Visit 8
End of study
IAinjection
Week 1
Day 7
Week 2
Day14
2 weeks
Interventional phase
Week 13
Day 91
11 weeks
Post treatment followup / observation phase
DATA MANAGEMENT
Data are collected in the eCRF (electronic Case Report Form). eCRF
(Figure 2) is the tool used by the investigator of the clinical trial to collect
data from each participating site. All data of each patient participating in
a clinical trial are held and/or documented in the eCRF.
To create an appropriate and functional CRF, a specific methodology
exists.
Biostatistician in the creation of CRFs should avoid collecting redundant
data and should instead focus on collecting only the data needed to
answer the protocol questions and that will be used for analysis.
To ensure the quality of the data cleaning process is performed running
check programs (written in the specific data management system
language and/or SAS). When discrepancies between collected data are
found queries are generated.
Queries are sent to the investigators that filled the eCRFs and when the
answers that clarify the discrepancies are received by the data managers
they are entered in the data management system to “close” the queries.
When all the queries have been solved, the data management system is
“locked” (no further modifications can be performed on the data) and the
content is exported in SAS format to be used for statistical analysis and
final clinical study report.
The following is an example of eCRF.
i.
STATISTICAL ANALYSIS REPORT AND RESULTS
At the moment of the thesis the number of enrolled patients was 242 and the Safety
population and the ITT populations was composed respectively by 183 and 160 patients.
Populations was also subdivided into 5 arms in order to the treatment assigned.
The ITT population was composed by patients having a mean age of 67 years old with a
minimum of 42 and a maximum of 87. The 97.5 % are Caucasian and the 61 % are
female.
For many clinical trials some data are not directly reported in CRF
but, for example, diaries and questionnaires are dispensed and
directly filled by the patients. Some additional data and the
randomization list are collected by phone (IVRS-computerized
phone-vocal system).
STATISTICAL ANALYSIS PLAN:
EFFICACY ASSESSMENTS AND ENDPOINTS
Primary Efficacy endpoint:
The primary efficacy analysis was based on the improvement of
the index knee pain in the intention to treat population and it
was assessed based on the WOMAC VA 3.1 A pain subscore (0500 mm) referring to pain experienced during the preceding 48
hours. The treatment effect was assessed on the WOMAC VA 3.1
A pain subscore at baseline versus those over three weeks (Visit
3, 4 and 5).
Descriptive analyses was been performed and the following pairs
of hypotheses was been tested:
H01 : Placebo = 0.125mg (double dose)
(double dose)
H02 : Placebo = 0.25mg (double dose)
(double dose)
H03 : Placebo = 0.50mg (double dose)
(double dose)
H03 : Placebo = 0.50mg (single dose)
(single dose)
against
HA1: Placebo ≠ 0.125mg
against
HA2: Placebo ≠ 0.25mg
against
HA3: Placebo ≠ 0.50mg
against
HA3: Placebo ≠ P0.50mg
The analysis was been performed using the SAS procedure “proc
mixed” including the interaction terms and the Dunnett
adjustment for the multiplicity. The code used is the following:
proc mixed data = dataset;
class treat p visit;
model d= baseline treat visit visit*treat
repeated / type=un subject=p(treat);
lsmeans treat/ pdiff=control('Placebo') cl
adjust=dunnett;
run;
Secondary Efficacy endpoint :
Pain at rest and after 15 meter walk, Patient and Investigator
global assessment:
they were been evaluated at the time of visit, using 0-100 VAS
scale.
Efficacy was assessed as change at each time point postrandomization versus baseline and over three weeks after
randomization.
Continuous secondary efficacy variables analysed over time were
been treated in the same way as the primary efficacy variable.
The treatment effect related to continuous secondary efficacy
variables analysed at each time point was been tested using a
linear analysis of covariance model which includes the term of
treatment and the corresponding baseline value as covariates.
The analysis was been performed using the SAS procedure “proc
glm” including the interaction terms and the Dunnett adjustment
for the multiplicity.
The code used is the following:
proc glm data=dataset;
class treat;
model d=treat bas_value ;
lsmeans treat / pdiff=control('Placebo') cl
adjust=dunnett;
run;
0.125 mg
0.25 mg
0.50 mg
0.50 mg
Placebo
(double dose)
(double dose)
(double dose)
(single dose)
Overall
----------------------------------------------------------------------------------------------------------------------------------------------------------------Age
n
Mean
Median
SD
Min
Max
30
65.7
66.0
7.39
42
80
33
68.6
70.0
8.88
50
87
30
65.6
66.5
8.25
48
79
34
64.5
66.5
8.91
45
79
32
69.1
70.0
10.25
47
84
159
66.7
67.0
8.89
42
87
Height (cm)
n
Mean
Median
SD
Min
Max
28
167.8
169.0
10.43
147
188
32
167.6
167.5
11.98
145
187
29
163.9
161.0
9.82
148
179
33
167.5
168.0
10.57
140
193
31
168.3
169.0
10.16
152
194
153
167.1
168.0
10.61
140
194
Weight (kg)
n
Mean
Median
SD
Min
Max
28
87.4
83.5
22.99
57
166
32
84.7
83.5
16.04
49
118
24
83.7
79.5
18.32
62
141
32
86.4
84.0
19.56
54
158
31
80.2
78.0
14.26
55
109
147
84.5
82.0
18.29
49
166
Race (n (%))
Caucasian
Black
Asian
Other, specify
28 (96.6%)
1 (3.4%)
0 (0.0%)
0 (0.0%)
32 (97.0%)
0 (0.0%)
1 (3.0%)
0 (0.0%)
29 (96.7%)
0 (0.0%)
0 (0.0%)
1 (3.3%)
32 (97.0%)
0 (0.0%)
1 (3.0%)
0 (0.0%)
32 (100.0%)
0 (0.0%)
0 (0.0%)
0 (0.0%)
153 (97.5%)
1 (0.6%)
2 (1.3%)
1 (0.6%)
Gender (n (%))
female
male
20 (66.7%)
10 (33.3%)
17 (51.5%)
16 (48.5%)
21 (70.0%)
9 (30.0%)
20 (57.1%)
15 (42.9%)
19 (59.4%)
13 (40.6%)
97 (60.6%)
63 (39.4%)
For the efficacy analysis descriptive statistics and inferential analysis were performed.
For the ANOVA model tables as the following were produced:
Tests of Fixed Effects for the primary efficacy variable including baseline treat and visit as covariates
NumDF
DenDF
FValue
Pr > F
-------------------------------------------------------------------------------baseline
treatment
visit
treatment*visit
1
4
2
8
153
153
153
153
92.26
0.80
17.25
0.67
<.0001
0.5251
<.0001
0.7182
Least Squares Means for the primary efficacy variable including baseline treat and visit as covariates
Standard
Estimate
Error
DF
t Value
Pr > |t|
----------------------------------------------------------------------------------------------Placebo
0.125 mg (double dose)
0.25 mg (double dose)
0.50 mg (double dose)
0.50 mg (single dose)
223.69
198.71
223.23
231.60
227.19
15.0511
14.4065
15.0489
13.9148
14.3511
153
153
153
153
153
14.86
13.79
14.83
16.64
15.83
<.0001
<.0001
<.0001
<.0001
<.0001
Differences of Least Squares Means (Dunnett adjustment) for the primary efficacy variable including baseline treat
and visit as covariates
Standard
Treatment
Control
Estimate
Error
DF
t Value
Pr > |t|
-----------------------------------------------------------------------------------------------------------------------0.125 mg (double dose)
0.25 mg (double dose)
0.50 mg (double dose)
0.50 mg (single dose)
Placebo
Placebo
Placebo
Placebo
-24.9789
-0.4528
7.9162
3.5025
20.9802
21.2422
20.5072
20.8213
153
153
153
153
-1.19
-0.02
0.39
0.17
0.2357
0.9830
0.7000
0.8666
SAS
SAS è la maggiore società di software e servizi di Business Analytics ed è la più grande
società indipendente nel mercato della Business Intelligence, con oltre 11.000 dipendenti
e un fatturato globale di 2,43 miliardi di dollari. Il 23% dei ricavi annuali vengono reinvestiti
in Ricerca e Sviluppo. SAS mantiene da 35 anni un trend di crescita e redditività ininterrotto
fin dalla sua fondazione. Attraverso soluzioni innovative fornite nell’ambito di un framework
integrato e con oltre 50.000 installazioni, SAS aiuta le imprese a migliorare le performance
e a veicolare valore aiutando i manager a prendere decisioni migliori in tempi brevi.
SAS fornisce dal 1976 alle aziende di tutto il mondo THE POWER TO KNOW ®.
In Italia dal 1987, oggi ha una struttura di 329 persone operative nelle sedi di Milano,
Roma, Mestre e Torino.
Scarica

Raccolta Poster di tesi o lavori in stage con utilizzo di software SAS