Metodologia di scrittura
Formulating and Writing
The Paper
– Project gestation/incubation period
– Project design
– Writing the thesis
The Paper
Gestation/incubation period - Before you put pen
to paper
• Discuss the ideas/approach with others.
• Answer the following questions:
– What issue am I addressing in the proposed project?
– Why is the issue important and interesting?
– Would the results of the project have significant
impact?
Developing a Hypothesis
• Should increase understanding of normal
biologic processes, diseases, or treatment and
prevention
• Testable by current methods
The Paper - Project formulation
Do consider the following..
• Is there a clear hypothesis or question? Or is this a
“fishing exercise”? Fishing has to be strongly justified.
• Projects solely aimed at creating a database not
important.
The Application - Project formulation
Do consider the following..
• Is the project built on preliminary findings, past
findings, your own or of others?
• Are there other groups doing the same thing?
• What is your competitive edge?
Common mistakes in project choice
•
I like this topic.
Should be based on significance, not your interest
•
Although this is not new, I have been doing this for years
Innovation is critical
•
It was not funded last time because the reviewer was
biased/ignorant
But maybe not?
•
This issue has not been studied
But can it pass the “so what” test?
Common Mistakes
• Selecting project
• Establishing Hypothesis
– Scientific flaws
•
•
•
•
Setting goals (specific aims)
Showing preliminary data
Developing research plan
Choosing methods
Common Mistakes in Developing Research Plan
•
•
•
•
•
•
Descriptive
Too ambitious
No hypothesis
No anticipated results
No alternative plan
Scientific flaws
Flaws
Hypothesis is wrong
Planned studies cannot demonstrate the
hypothesis
Methods are wrong or obsolete
Statistic is poor or wrong
Project formulation and design
• Do not be too ambitious with what you aim to
do, i.e. can you achieve everything proposed
in the time?
Project design
• Think of the loopholes, controls required
etc.
• Think of contingencies to cope with
unexpected results or failure.
• Are all the necessary expertise, samples,
reagents available?
– Line up collaborators, co-investigators if
possible (how to choose and manage
collaborators…it needs a 6 years course)
“Too ambitious”
• Huge goals
– Establish realistic goal(s)
• Vague hypothesis
– Develop a testable hypothesis
• Unfocused aims
– Set reasonable specific aims
• Too much work planned
– More is not necessarily better
– Plan feasible experiments
No alternative plan
If you anticipate to have some difficulties,
you need show an alternative plan
• Only for critical issues
• Clearly explain your alternative studies
• Don’t use too much space
The Ideal Project
• Hypothesis-driven
– Asks important questions
• Innovative
– To study mechanisms
• Realistic and focused
– Not too controversial
• Feasible in the time frame
The Ideal Project
• You have track record
• You have preliminary data
• Statistics!!!
Writing your thesis
Sequence
•
•
•
•
•
The syndrome of the blank screen
Figures, tracings, tables
Methods and Results
Discussion and Introduction
Abstract and Title
Farsi venire le idee
Osservare

Non sottovalutare ciò che colpisce

Dare un significato alle osservazioni: inferenze e principi
inferenziali

La soggettività va valorizzata ed educata: prospettiva
disciplinare e orientamento metodologico

Title
• Max information in least words
• The title is an invitation to read the paper
• Use catchy titles
• State results
Writing your thesis
Abstract
• Short, simple explanation of what the
project is about. Understandable by nonspecialist
• Simple and concise. Clear statement of the
hypothesis, objectives and importance of
the project
Abstract
• Is your visiting card
• In most cases the only part that is read
• State clearly your thesis
• Some numbers, but not in excess
• Determines if thesis will be read
• Avoid acronyms
The context
• Need stretch of several hours
• Avoid distractions: phone, e-mail
• Ideas come while writing
Parole chiave
Devono comparire in titolo ed abstract
Suggerire la 'traccia' del lavoro
Trasmettere l'originalità del lavoro
Agire
sul significato intaccando il meno
possibile la forma

Introduction
• Keep it focused
• 1. Why the study is interesting (broad)
• 2. Why did we do it? (specific)
• 3. Hypothesis
Writing your thesis
Objectives & Significance
• Summarise
– the objective(s) of the project.
– approaches to achieve main objective(s)
– These should be clear, logically formulated.
• State if:
– the project is addressed at clinical or environmental
problems of particular local relevance,
– the project may lead to downstream application.
La forza dell'argomentazione
Dipende dalla visione del mondo di chi
ascolta e si fonda su:
1.Dati di fatto
2.Valori
3.Principi inferenziali
4.Metodo

Writing your thesis
Background:
• Are you up to date with the literature?
• The background should lead clearly to the
question(s) to be asked.
• State question(s) you wish to ask or hypothesis you
wish to test
Writing your thesis
Background:
• Connect concepts
• Avoid ‘lateral’ concepts
– The difficulty of a ‘straigth’ line
• Hyerarchical ‘top down’ flow of concepts
– Not too broad
– Not too narrow
Writing your thesis
Background:
• Interest the reader!
–
–
–
–
–
–
Put questions
Suspense
Internal connection with discussion
Avoid details
Open issues
Clinical needs
Common Mistakes
• Presentation:
– Poorly organized
– Language errors
– Show muddled thinking
Common Mistakes in
Objectives, Background and Significance
• Purpose
– To demonstrate the significance of the project
– To articulate critical issues to be addressed
– Provide the rationale for your hypothesis.
• Problems:
– Not focused, too long
• only review the related materials
– Too many references
• cite only critical papers
– Ignored the critical or new reports
• Cite recent important references relevant to the hypothesis
Methods
• Draft can be made while doing the study
• Enough information for an experienced
investigator to repeat your work
• Avoid tiresome detail
• Tables preferred to long list of numbers
or statistics
Methods
• Refer to data (Fig. X, Table Y)
• Do not repeat numbers in Tables
• Include ethics information (with Ethics
Committee approval and i.c.)
• Include complete statistics section
Writing the thesis
Research plan and methodology
• Have a clear plan of action, logical sequence of
experiments to achieve aim.
• Avoid ambiguity
• For some projects e.g. in Molecular Biology, Clinical
studies, some diagram attached may be helpful for the
reader to understand vector/experimental design if
these are not straightforward.
Writing your thesis
Research plan and methodology
• Sample description is critical!
– Number of subjects
– Assessments (validated instruments, in line with
literature etc.)
– Reliability (have you performed interrater reliability?)
– Power estimation (Cohen, J. (1988). Statistical power
analysis for the behavioral sciences. Hillsdale, New Jersey,
Lawrence Erlbaum Associates)
Writing the thesis
Research plan and methodology
• Not usually necessary to describe methods in detail,
unless they are very new approaches.
– Clear explanation of rationale of approach is usually sufficient.
• Are all controls included? If human samples are
involved, have these been collected or will be available?
Major findings
• Text and or table/graph
• One slide for each
• Message should be unambiguous
Tables and Figures
• Do before writing
• Exceed 1 sheet: redraw
• If small: move data to text
• Should be able to stand alone
Discussion
• First paragraph
- State major findings
• Last paragraph
- “In summary…” (2-3 sentences)
- “In conclusion…” (biggest message,
return to Intro, avoid speculation,
avoid “need more work”
Discussion
• Middle paragraphs
-
Base each on a major result
• Always focus on your results
• Explain what is new without exaggerating
• Never discuss prior work without reference to
your work (but do not forget appropriate
identification of prior research)
Discussion
• Refer Tables and Figures
• Do not repeat results
• Include limitations section
References
• Cite high IF Journals
• Use editing programs
• Relevant and recent
Common Mistakes in
Objectives, Background and Significance
• References:
– Adequate to the concept
•
•
•
•
Review or books for well known aspects
Papers for details or similar studies to your one
Always choose high IF among similar
A non cited reviewer usually gets angry!
Write the thesis in two weeks?
Never do it!
• Plan your writing as early as possible
• Have it read by a peer
• Leave enough time for modification
Formal aspects
• Avoid ambiguity
• Concise: Least words, short words, one
word vs many
• Strengthen transition between
sentences
Formal aspects
• Check narrative flow: tell a story that the reader
wants to read from start to end
• Writing improves in proportion to deletion of
unnecessary words
• After the second draft send ms to your collegues
• After the suggestions have been incorporated leave it
for some time a re-read
Formal aspects
• If you do not have time to check the spelling you
may have not had time to check the quality of your
experiments......
• Adherence to the formal style is crucial
• Check references
• Check and double check your work
First draft
•
•
•
•
•
Write as quickly as possible
As if thinking out loud
Get everything down
Ignore spelling, grammar, style
Correct and rewrite only when the whole text is
on paper
• Do not split the manuscript
Summary
• Works should be focused, addressing important
questions.
• Avoid convoluted arguments/justifications of
approach. Do not try to address too many
questions.
Writing your thesis
Presentation
• Don’t strain the reader’s eyes! Font size, at least
11.5 preferably 12pt
• Use sub-headings
• Margins. Avoid cramming everything in by
shrinking the margins.
“Scientists are rated by what
they finish, not by what they
attempt”
How to prepare a scientific
presentation
Before you start
•
What does the audience already know
about your topic?
•
What are their interests?
•
Why are you giving presentation?
Before you start
•
What is your desired outcome?
•
How much time do you have?
•
What are key points?
Common Causes of Ineffective Presentations
• Failure to prepare the talk
• Confusing structure/not giving take home
messages
• Gaps in logic
• Poorly designed slides
• Poor delivery
Organizing a Presentation
i.
ii.
iii.
iv.
v.
Outline
Problem and background
Design and methods
Major findings
Conclusion and recommendations
Time Yourself
Outline
1
Problem/Background
2
5
Design/Methods
2
min
Impact
Major findings
Conclusion and
Recommendations
3-5
Impact
1-2
Making slides
•
•
•
•
Main points only
One idea per slide
Short words, few words (5 per line)
Strong statements: active voice
The start
•
•
Let audience know what they are going to
hear
Let them know how the presentation will
be organized
Start broad, get specific, and end broad
The middle is your original
contribution
Start with the biggest
questions and get
progressively more
specific
Focus now on conclusions
Introduction
•
•
•
Context
Study question
Relevant knowledge on issue
Major findings
• Text and or table/graph
• One slide for each
• Message should be unambiguous
Audience attention curve
Conclusion and Recommendations
• Key points
• Implications
• One slide for each message
Formal aspects
• AVOID USING ALL CAPITAL LETTERS
BECAUSE IT’S REALLY HARD TO
READ!
• Dark letters against a light background (or
the opposite) work
• Avoid some colour combinations (redgreen)
Formal aspects
• Choose style that supports the tone
• Apply the same style to each slide
• Don’t Say It, Show It
Be consistent!
Formal aspects
• Every slide should have a heading.
• Lists should contain no more than 3-4 items
• Limit text blocks to no more than two lines
each.
• Be careful with the pointer!
Formal aspects
Type size should be 20 points or larger:
18 point
20 point
24 point
28 point
36 point
* References can be in 14 point font
Comunità oratore-auditorio
Creare legami sociali ed
l'auditorio
Creare una comunità di eguali
emotivi
con
And do not forget to…….
Relax
Listen to what you are saying
Pace and time yourself
And do not forget to…….
Face the audience
Never underestimate your audience!
With time you will enjoy…..
CONTENT
Co n veys n ew in form a tio n
Po ses a n in terestin g q u estio n
Co n veys how people in o ther fields thin k
Describes im porta n t idea s
No vel disco very
STYLE AND DELIVER Y
Keeps m e a w a ke
Va ries vo ice
Co n veys en thu sia sm
Doesn’ t sta y in o n e p la ce
CLAR ITY AND OR G ANIZATION
Un dersta n da ble
Avo ids ja rgon
Uses clea r a n d sim ple v isu a l a ids
Well orga n ized
En a bles m e to ca tch u p if I spa ce o u
Doesn’ t ru n o ver tim e
EXP ER TISE
Credible
In spires tru st a n d co n fiden ce
An sw ers q u estio n s clea rly
How to prepare a scientific presentation
• “Tell me and I will forget, show me
and I will remember, involve and I will
understand”
Statistica
• T-test, Chi2, ANOVA
• Scelta del test
• Limitazioni
metodologiche
Obiettivi di questa parte del corso
• Imparare come specifiche domande possano
ottenere risposte attraverso differenti
tecniche statistiche
• Imparare a valutare in maniera critica uno
studio dalla letteratura, distinguendo tra
studi validi e non
• Imparare a riconoscere gli ‘abusi’ della
statistica
A cosa serve la Statistica?
Blablabla media, #§, la
variabile$, bla con la
percentuale % della
distribuzione del
blabla… ma le
statistiche dicono che
blablabla…
Tipico Statistico imbonitore
“There are lies, damned lies
and statistics”
M.Twain
"If you torture statistics enough
they will confess to anything”
Anonymous
Statistica
“E’ la scienza che implica l’estrazione di
informazioni da dati numerici ottenuti durante
un esperimento su un campione.”
Implica:
1. Il disegno dell’esperimento o del campionamento
2. La raccolta e analisi dei dati
3. Il trarre inferenze sulla popolazione basate sulle
informazioni ottenute dal campione.
Pessime abitudini…
• La maggior parte dei lettori delle riviste
scientifiche dà per scontato che quando un
articolo compare su una rivista sia stato
valutato sotto ogni aspetto, compreso
l’utilizzo dei metodi statistici
Cominciamo quindi dalla
Statistica nelle pubblicazioni
• Da uno studio sul British Journal of Psychiatry del
95 (ma anche in molti altri) il tasso di errori
statistici (in senso lato) nelle pubblicazioni sullo
stesso BRJPSY varia dal 31 al 90%, in genere
intorno al 50%!!!
(“The use of Statistics in the British Journal of
Psychiatry”-McGuigan S.M. Br J Psy
(1995),167,683-688)
Abusi in Statistica
Le Statistiche possono mentire in molti modi…
• Non appropriati i metodi di raccolta dati
• CAMPIONI INADEGUATI (es auto-selezionati,
non casuali)
• CAMPIONI PICCOLI (conclusioni basate su
campioni troppo piccoli)
• Manipolazioni di analisi e grafiche (grafici e
percentuali distorte)
Distribuzione Normale
• La maggior parte delle variabili biologiche e dei
processi casuali si distribuisce secondo una curva a
campana o “Gaussiana” (Gauss C.F. 1777-1855).
• La Distribuzione Normale viene poi “standardizzata”
(cioè trasformata) le aree vengono così espresse in
termini di “deviata standardizzata”
• Distribuzione Standard Normale è quella
distribuzione normale che ha media =0 e varianza
=1.
Distribuzione Normale di Probabilità
Probabilità = 0.50
Probabilità = 0.50
Probabilità = 0.05
Probabilità = 0.05

X
Distribuzione Standard Normale
• E’ una distribuzione di probabilità utilizzata per dati
continui; la somma dell’area sotto la curva rappresenta il
100% di probabilità
• Ha la forma di una campana, simmetrica attorno alla
media, con valori da - a +
• La formula è quella di una variabile Z distribuita
casualmente con N (, 2) :
X− μ
Z=
σ
x = qualsiasi punto sull’asse delle ascisse
 = Deviazione Standard della distribuzione normale
 = media della popolazione
z = equivalente al valore della probabilità (numero di
deviazioni standard tra il punto x e la media)
C’è un numero infinito di
Distribuzioni Normali!
Ciascuna ha una propria media
e deviazione standard
Ogni distribuzione
richiederebbe una propria
tabella di conversione per
il calcolo delle
probabilità...
Poco pratico
X
Come standardizzare la
Distribuzione Normale
Distribuzione
Normale
Distribuzione Normale
Standardizzata

z = 1

X
Z = 0
Z
Distribuzione Standard Normale
1.96s
95%
x
Il 95% delle
osservazioni
(o degli individui) si
trova entro circa 2
deviazioni standard
dalla media
Distribuzione Standard Normale
DS
68%
x
Il 68% delle
osservazioni (o degli
individui) si trova entro
1 deviazione standard
dalla media
Esempio P (3.8  X  5)
Qual’è la Probabilità che X si trovi tra
3.8 e 5?
Z=
X − μ 3 . 8− 5
=
= − 0 . 12
Distribuzione
σ
10
Normale
Standardizzata
Distribuzione
Normale
 = 10
Z = 1
0.0478
3.8  = 5
X
-0.12  Z= 0
Z
Esempio: il QI ha una distribuzione normale
con media 100 e DS di 16; qual’è il range di
“normalità”?
Working With the General Normal
EXAMPLE: IQ Scores
IQ Scores have a normal distribution with a
mean of 100 and a standard deviation of 16.
What is the 99% percentile of IQ Scores?
s.d. = 16
|
100
E voi dove vi situate?
Statistica Descrittiva e
Statistica Inferenziale
• Media, Varianza, Deviazione Standard ed
Errore Standard sono statistiche descrittive.
• La Statistica Inferenziale non può mai dire
se qualcosa è vero (oppure no)
• Fornisce un bilancio di probabilità a
riguardo: la probabilità che l’ipotesi sia vera
(oppure no).
EH???
Statistiche descrittivedescrizione del campione
Statistica Descrittiva
• E’ difficile visualizzare in un grafico tutte le
informazioni significative.
• E’ possibile raggruppare le informazioni
• Per farlo sono necessarie
1) una misura di localizzazione
2) una misura di variabilità o dispersione
Misure di localizzazione e di
dispersione
MEDIA
VARIANZA
Misure di localizzazione
n
∑
• MEDIA
̄x=
i= 1
xi
n
=
(X1+X2+X3+…Xn)
-----------------------n
o misura di tendenza centrale
somma delle osservazioni, divisa per il loro numero
• Mediana
se si dispongono le osservazioni in ordine crescente o
decrescente è l’osservazione centrale
• Moda
l’osservazione più frequente
Non è sufficiente una misura che indichi
dove si situano in media gli individui.
E’ necessaria una statistica che indichi
quanto differiscono tra loro, la dispersione
intorno alla media.
E’ la varianza.
Misure di dispersione
• Range (intervallo di variabilità), Quartili
• VARIANZA è la sommatoria delle differenze tra le
singole osservazioni e la media.
o somma dei quadrati degli scarti
dalla media (unità di misura x2 )
n
∑ ( xi− ̄x )
σ =
• DEVIAZIONE STANDARD
è la radice quadrata della varianza
misura la variabilità nei dati
(stessa unità di misura di x !!)
i= 1
2
n
√
n
∑ ( x i − x̄ )
s=
i= 1
n
2
2
3 distribuzioni – stessa media, differenti
varianze
Ospedale di montagna: una
piccola popolazione (N = 5)
N= 5 reparti; Numero di pazienti per reparto:
1
2
2
3
5
1+ 2+ 2+ 3+ 5
μ=
= 2.6
5
Media di pazienti per reparto
√
(1− 2.6)2 + 2× (2− 2.6)2 + (3− 2.6)2 + (5− 2.6)2
σ=
= 1.36
5
Nota che il denominatore per il calcolo della
Deviazione Standard è N = 5
ATTENZIONE!!!
Il problema maggiore è che
Vogliamo informazioni
riguardo:
Abbiamo a disposizione:
Selezione
Random
Popolazione
Campione
Inferenza
Parametro

(Media della Popolazione)
х
Statistica
(Media del Campione)
Se estraiamo a caso un campione di n =2
reparti estratto dalla “popolazione” di N =5
2+ 5
= 3.5
̄x=
2
√
2
2
(2− 3 .5 ) + (5− 3 .5 )
s=
= 2. 12
2− 1
Attenzione:
La Media del “campione” non è uguale a quella
della “popolazione” (era 2.6).
La Deviazione Standard del “campione” non è
uguale a quella della “popolazione” (era 1.36).
Statistica applicata al Campione
• In realtà la formula della Deviazione Standard e
della Varianza del campione hanno una formula
differente rispetto a quella della popolazione
• Anche i simboli sono diversi!
• Infatti sono “stime” dei valori della
popolazione, perché il valore reale è
sconosciuto
n
2
(
x
−
x
)
∑ i ̄
2
s =
i= 1
n− 1
Gradi di
libertà
√
n
2
(
x
−
x
)
∑ i ̄
DS=
i= 1
n− 1
Effetto della dimensione del
Campione
f X 
Più
Numeroso
(rif: Teorema
centrale del limite)
Meno
numeroso

X
La media del campione più numeroso si avvicina alla media vera
Dato il campione cosa possiamo
dire della popolazione?
• Si suppone sempre che il campione sia sempre
casualmente estratto dalla popolazione
• Si conosce la dimensione del campione n, la sua
media x e la sua varianza s
• (NOTA La “popolazione” in Statistica non è
un’entità reale ma l’idea di un’ipotetica
popolazione generata da un numero
indefinitamente grande di osservazioni)
Stima di  (media della popolazione)
• Dalla media campionaria come si stima la media
VERA?
– Esempio: Da un campione di 50 studenti, come si può calcolare il
peso medio della popolazione degli studenti italiani?
– Dall’effetto del farmaco A su un campione di pazienti cosa
possiamo dire dell’effetto che avrà sulla popolazione?
• La stima che facciamo di  a partire dalla media
campionaria x è valida?
• Sappiamo che probabilmente x sarà vicina a ,
poco probabile che sia esattamente uguale
• QUINDI?
Come si stimano i Parametri della
Popolazione? (INFERENZA)
Parametro
Sconosciuto
Campione
Media

x
Deviazione
Standard

S
σ
n
√
S
√n
Errore
Standard
Un nuovo parametro: cos’è l’Errore Standard?
Torniamo all’ospedale di montagna
(campione di n = 3 reparti)
Campione
1,2,2
1,2,3
1,2,5
1,2,3
1,2,5
1,3,5
2,2,3
2,2,5
2,3,5
2,3,5
Media
1.67
2.0
2.67
2.0
2.67
3.0
2.33
3.0
3.33
3.33
μ̄ x= 2. 6 = media vera
S 1 .36
ES= =
= 0 . 79
√n √3
= errore standard
del campione
Su cosa si basa tutta la Statistica?
Si basa sul concetto di p, cioè sulla
PROBABILITA’
• Utilizziamo la Statistica per discriminare se
le differenze tra campioni o trattamenti sono
“reali” oppure “dovute al caso”
• La p è la probabilità di ottenere quel
risultato (o più estremo) se l’ipotesi nulla è
vera.
IPOTESI NULLA e
IPOTESI ALTERNATIVA
• Assunzione che non vi è nulla di “provato”, e che tutto si
verifica per caso, seguendo le leggi della probabilità. Questa
è chiamata IPOTESI NULLA(H0)
• L’IPOTESI ALTERNATIVA è che qualcosa di improbabile,
o “significativo” si sia verificato (HI) (che capita di rado)
• Se il nostro test ci dice che abbiamo osservato un evento
abbastanza improbabile allora possiamo RIFIUTARE
l’ipotesi nulla e ACCETTARE l’ipotesi alternativa
Inferenza
• Se l’IPOTESI NULLA è respinta si può concludere che:
– c’è una differenza tra i due trattamenti
– la differenza osservata non è dovuta al caso
– la differenza NON è detto che sia di rilevanza clinica
Molto probabile che sia diverso

Probabile che sia molto diverso!!!
In giurisprudenza è “innocente fino a prova contraria”.
D’accordo, la “p” è la via finale
comune, ma come ci si arriva?
• Siete sicuri di sapere che tipo di test si deve
usare, che conoscete le procedure del
‘ricercatore’?
Allora rispondete alle seguenti domande..
Esempio 1
• Volete studiare l’efficacia nel rallentare la
frequenza cardiaca del farmaco XY
• Che test usate?
T-test
• Se la variabile indipendente è categoriale o binaria
e la variabile dipendente è continua
• Possiamo anche misurare il parametro di interesse
confrontando nello stesso campione i soggetti
prima e dopo il trattamento utilizzando il “T test
per gruppi appaiati”
• Oppure confrontare un solo gruppo con la media
della popolazione “T test per gruppi NON
appaiati”
30
T-test
20
Accept
H0
Frequenza
• Se la media attesa (o della
popolazione o del primo
campione) e la media
osservata (o del secondo
campione) distano tra loro
più di 1.96*DS allora
possiamo respingere
l’ipotesi nulla.
e
0
30
e
o
o
20
Reject
H0
10
0
Expected
Observed
20
30
40
50
Parametro
60
T-test
Ricorda che…
• Il T-test può essere utilizzato solo se la
distribuzione dei dati è Normale
• In caso contrario, è possibile utilizzare altri
test, come il test di Mann-Whitney o il Test di
Wilcoxon
Esercizio 1
Esempio 2
• Volete confrontare l’effetto di 4 diversi tipi
di trattamento sulla glicemia in pazienti con
NIDDM (per esempio dieta, esercizio fisico,
antidiabetico orale, fitoterapia).
• Voi pensate che vi sia un effetto
straordinario della fitoterapia..
• Che fate?
Regressione Multipla
• Serve per valutare l’effetto di più variabili
sulla variabile dipendente
• Fornisce l’effetto di ognuna di esse
indipendentemente dalle altre
• Attenzione: correlazioni tra le variabili
indipendenti causano errori!
ANOVA
• Con questo test l’ipotesi nulla è che tutti i
campioni siano simili in quanto tratti dalla stessa
popolazione; H0= non differenze
• Se ogni campione è indipendente e…
• Ogni campione è estratto casualmente e…
• La popolazione è distribuita normalmente e…
• Le varianze sono uguali (anche se le medie sono
differenti)
• ALLORA LA SI PUO’ USARE!!!
ANOVA
Altrimenti?
ANOVA di Kruskal-Wallis
Esempio 3
• Sostenete fermamente che vi sia
un’associazione tra il fumare e l’allergia ai
crostacei
• Cosa fate?
Chi-quadrato (2)
• Si usa se le variabili sono delle frequenze (o
proporzioni)
• Confronta la differenza tra le frequenze
osservate e quelle attese per caso.
• E=Expected (valore atteso) vs. O=Observed
• Significatività statistica ( = 0.05)
2 = 
(df)
(O – E )2
E
Tabella di contingenza (o 2x2)
Supponi di voler mettere a confronto l'efficacia di un nuovo antibiotico
(nome di fantasia: xmicina) con un antibiotico già in uso (streptomicina)
nella terapia di una malattia del cane (la leptospirosi).
A questo scopo, intraprendi un test clinico su un campione di animali
costituito dai cani affetti da leptospirosi che vengono presentati in alcuni
ambulatori ed ospedali veterinari in un determinato periodo di tempo.
Durante la sperimentazione, ogni cane viene assegnato a caso al gruppo dei
trattati con il nuovo antibiotico oppure a quello dei trattati con la
streptomicina.
Tabella 1
I dati grezzi indicano che la xmicina è più efficace
della streptomicina. Però la superiorità della xmicina
potrebbe essere dovuta al caso...
Dati attesi
I dati della precedente tabella dimostrano che indipendentemente dal tipo di
antibiotico il trattamento è risultato efficace nel 74.8% dei casi. Infatti sono
guariti, sempre complessivamente ed indipendentemente dall'antibiotico
utilizzato, 52+40=92 animali (a+c) su 123 trattati.
Applicando questa percentuale di successo (74.8%) a ciascuno dei due
gruppi in esame, si ricavano i dati della sottostante tabella , che illustra la
situazione ci si aspetterebbe se i due antibiotici avessero la stessa efficacia.
Tabella 2
Quindi…
Ricorda che…
• Il test del Chi-quadrato è utilizzabile quando il valore
di ogni cella è > 5 ed il numero totale di osservazioni è
> 30
• In caso contrario, è possibile utilizzare altri test, come
il test esatto di Fisher, oppure utilizzare la correzione
di Yates
Esercizio 2
Esempio 4
• Volete studiare le recidive di gastrite dopo
trattamento eradicante per Helycobacter,
confrontando due diversi schemi di
trattamento antibiotico.
• Che fate?
Analisi di sopravvivenza
• Con un punto di partenza ben definito
(ingresso nello studio) e di arrivo (recidiva),
differenti tempi di osservazione si calcolano
le curve di sopravvivenza (Test log-rank)
Riassumendo…
• TEST PARAMETRICI (Media, Varianza,
ANOVA) se la variabile dipendente è misurata con
una scala intervallare
• Si effettuano assunzioni parametriche circa le
caratteristiche delle popolazioni sottostanti (da cui
sono estratti i campioni)
• SI POSSONO USARE SOLO SE le popolazioni
sono normalmente distribuite
• i campioni derivano da distribuzioni con varianze
uguali
Riassumendo…
• TEST NON PARAMETRICI (Fisher exact
test, Spearman, Mann-Whitney) non
necessitano di assunzioni circa le
distribuzioni
• SI POSSONO USARE con popolazioni
distribuite in maniera NON NORMALE,
dati ordinali o con piccoli campioni
L’ Influenza dei Mass-Media
Spesso le pubblicazioni
scientifiche sono caratterizzate da
•Ingiustificabile grado di certezza
•Promessa di benefici immediati
•Dettaglio tecnico e gergo
scarsamente comprensibili
•Esagerazione dei possibili rischi
per scopi ‘di notizia’
•“Notizie sponsorizzate”
Ma a voi cosa rimane per esempio
se leggete la tabella di un articolo
come questo?
(Am J Psy …)
“Do Urbanicity and Familial Liability Coparticipate in Causing
Psychosis?” Jim van Os et al. Am J Psychiatry 160:477-482, 2003
Lista di “caveat”
• Tutti vi hanno sempre spiegato cosa fare
• Noi oggi vogliamo spiegarvi cosa NON fare
– Errori riguardanti il campione
• Casi, controlli, numero,drop-out
– Errori riguardanti la presentazione dei dati
• Grafici, forme di scrittura dei risultati
– Errori riguardanti l’analisi
• Media, DS, SEM, scelta del test, missing data, drop
out …
Gli errori più comuni:
sul campione
Io faccio così.
E allora?
• Come avete reclutato il vostro
campione di pazienti?
• E’ rappresentativo della popolazione
generale di pazienti? (Per età, gravità,
trattamento, frequenze alleliche…)
• E’ casualmente estratto dalla popolazione?
(auto-selezionato, più grave..)
BIAS DI SELEZIONE DEL CAMPIONE
Gli errori più comuni:
sul campione II
• Come avete reclutato il vostro campione di
controllo?
• In alcuni studi (i peggiori) i controlli non
sono descritti per nulla... fine del problema
• In altri i controlli sono STORICI (?)
• oppure sono studenti, membri dello staff…
BIAS DI SELEZIONE DEI CONTROLLI
Gli errori più comuni:
sul campione III
• Avete fatto il calcolo del power prima di
cominciare lo studio?
• Potreste ritrovarvi con una dimensione
del campione inadeguata a individuare
differenze clinicamente
rilevanti
BIAS DI
NUMEROSITA’
Gli errori più comuni:
il campione IV
• Cosa ne avete fatto dei drop-out?
• Buttati? Dove?
• L’analisi va fatta “intent- to- treat” e il come
e il perché quei soggetti sono droppati va
descritto con il maggiore dettaglio possibile
• BIAS SUI DROP-OUT
Gli errori più comuni:
la descrizione grafica
Rules for any graph:
2: A title
Sono banalità ma spesso
omesse...
3: Explanations of
symbols
1: Clearly labelled axes,
units where appropriate
The distribution of pH values
in ponds on Wimbledon Common
7
Shows maxima and
minima
pH
6
1
2
3
4
5
6
Pond #
Gli errori più comuni:
la descrizione grafica II
Grafico senza senso
Scatterplots, contd
Beware the false axis!
Why is this graph meaningless?
Weight of leaf
1
5
10
Bag number
Gli errori più comuni:
la descrizione grafica III
Un punto importante è come si presentano i risultati:
Devono essere SEMPRE esplicitati:
1. Il tipo di test usato
2. Il risultato del test
3. I gradi di libertà
4. La p
Per es: F (2, 173) = 37.39, p = .0001
Test gradi di libertà
Gli errori più comuni:
l’analisi
• In alcuni lavori non sono descritte…
problema risolto.
• Avete sempre fornito al lettore una descrizione
“statistica” del campione?
• La Media e la Deviazione Standard consentono di
capire DOVE si situa il campione per una certa
variabile
• NON si usa l’Errore Standard della Media!!!
(misura della precisione con cui si stima la media
della popolazione)
Gli errori più comuni:
l’analisi II
• Far bene l’analisi fa bene all’analisi (statistica…)
• Conoscete bene la tecnica che state applicando?
Che limiti ha? A cosa si applica e a cosa NON si
applica?
• Per es forse non tutti sanno che
– il T test è sensibile ai dati con distribuzione non
simmetrica
– il Chi quadrato non va usato se le osservazioni non
sono indipendenti
– l’ANOVA se la distribuzione non è normale..
Gli errori più comuni:
l’analisi III
• Cosa vuole dire quella p???
• La p deve essere indicata con esattezza, non
soltanto se è “significativa”
• Se p < 0.05, allora respingiamo l’ipotesi nulla
• Ma ricordate sempre che p < 0.05 è interamente
arbitrario!
E in discussione deve essere molto chiaro:
non differenza significativa  non differenza
Gli errori più comuni:
l’analisi IV
• Cos’è l’Intervallo di Confidenza? A cosa
serve?
• IC: questo sconosciuto
• Quanti di voi l’hanno mai incluso nei loro
articoli?
Gli errori più comuni:
gli outliers
• Sono quelle osservazioni che “chiaramente” si
situano al di fuori del range del dataset.
• Controllarle sempre; in genere derivano da errori
di battitura…
• E’ corretto escluderli dalle analisi successive, ma
questo deve sempre essere specificato nella
sezione metodi.
• Attenzione, potrebbero essere
le osservazioni più
interessanti!!”
Gli errori più comuni:
gli outliers II
• Le tecniche di analisi multivariata (MANOVA)
sono molto (troppo) sensibili agli outliers..
Multivariate techniques..
Are especially sensitive to outliers: watch as one
data point has its decimal place entered one
place out:

P
C
A
o
r
d
in
a
t
io
n
o
fs
o
m
e
r
a
t
h
e
r
S
a
m
e
d
a
t
a
s
e
t
,a
f
t
e
r1
d
a
t
a
p
o
in
th
a
s
d
p
p
a
t
t
e
r
n
le
s
s
d
a
t
a
s
h
if
t
e
d
b
y
1
p
la
c
e
2
.
0
N
o
t
e
t
h
e
1
s
ta
x
i
s
i
s
n
o
w
a
b
o
u
tt
h
i
s
1
o
u
t
l
i
e
r
1
.
5
2
.
0
1
.
0
1
.
5
.
5
axis2
.
5
1
.
0
1
.
5
2
.
0 1
.
5 1
.
0
a
x
is
1
.
5
0
.
0
.
5
1
.
0
2ndprincipalaxis
1
.
0
0
.
0
1
.
5
.
5
0
.
0
d
a
t
a
p
o
in
t
s
.
5
W
a
t
c
h
t
h
isd
a
t
a
p
o
in
t
b
o
d
yo
ft
h
e
d
a
t
a
2
.
0
D
a
t
a
p
o
in
t
s
1
.
0
m
o
d
if
ie
d
b
y1
d
p
1
.
5
u
n
c
h
a
n
g
e
d
2
.
0
1
.
0
.
5
0
.
0
.
5
1
s
tp
r
in
c
ip
a
la
x
is
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Gli errori più comuni:
Missing data
• Tristissimi... Il soggetto è perso..
(cambia medico, si riempie di pomfi
e droppa, vi cade la provetta…)
• Non è zero!! I missing vanno inclusi nei conti
(-1, 999, etc)
• Controllare di ogni tecnica come vengono
considerati. In alcune analisi provocano difficoltà
quasi “insormontabili”e devono essere esclusi.
Gli errori più comuni:
i test multipli
Perché non si devono fare (come qualsiasi altro test)
se non si hanno gli occhi ben aperti!!
cilindro
cilindro
1
2
3
Prendi dei soggetti da una popolazione
e forma due gruppi; quindi testa
H0: nessuna differenza
Usando p = 0.05 sappiamo che
respingeremo H0 una volta su 20 per
caso, anche se non sono diversi.
Questo è il significato di p = 0.05.
Adesso estrai 3 gruppi e applica
H0: non differenza per ciascuna
coppia
1-2, 1-3, 2-3
Gli errori più comuni:
i test multipli II
•Sempre p=.05 per p1-p2, .05 per p2-p3...
•Per ciascuna coppia la probabilità di accettare H0
è 0.95 (pr che i campioni non siano diversi), quindi
la probabilità di accettarle tutte e tre è
0.95*0.95*0.95 = 0.857
•Ne deriva che la probabilità di respingere H0
è
(1-0.86) = 0.14
•In altre parole ci “sbaglieremo”una volta su 7, non
più una volta su 20!!!
Gli errori più comuni:
i test multipli III
Fa alterare moltissimo i referi..
•Questo è il motivo per cui NON si può usare
una significatività dello 0.05 se effettuiamo
test multipli
•Bisogna sempre specificare quanti e quali
test stiamo effettuando e applicare un criterio
più ristretto
Gli errori più comuni:
i test multipli IV
•Se effettuiamo N differenti test sullo stesso set
di dati il livello di significatività deve essere
corretto; si può usare la formula
p=1-(1-0.05)1/N
Es: 3 test, p corretta = 1-0.95(1/3) = 0.017.
E fare un Bonferroni?
Ancora 3 argomenti
abbastanza scomodi…
•“Positivamente negativo” o
“Negativamente
negativo”?
•Post-hoc analysis
•Data dredging
Tips

(Ricercatore
ignaro di questi
argomenti)

Keep the noise levels down!
Bias, confounding, and extraneous
variables all increase the noise in a study.
“Positivamente negativo”
• Il processo di sviluppo di un nuovo trattamento
passa attraverso:
– descrizione di risultati promettenti
– diffusione in centri di eccellenza
– informazione diffusa attraverso i mass-media con i pz
stessi che richiedono di essere trattati con la nuova
terapia.
• In queste prime fasi vengono pubblicate
solo le ricerche con risultati positivi
“Positivamente negativo”
• Quando il trattamento viene adottato dalla
comunità scientifica qualcuno si accorge che non
sempre i risultati corrispondono a quelli attesi e
propone di sottoporre il nuovo trattamento ad una
ricerca rigorosa, randomizzata e controllata (RCT)
• Molti si oppongono al confronto verso placebo,
ritenendolo non etico.
• La storia recente ha dimostrato che, se i risultati
sono positivi il trattamento viene consacrato nelle
linee guida, se negativi cade rapidamente nel
discredito
“Positivamente negativo”
• “POSITIVE RESULT BIAS” è quel fenomeno
per cui l’informazione viene distorta a favore
dei risultati positivi, mentre quelli negativi
sono più difficilmente pubblicati, o lo sono su
riviste minori.
• Esempio: nel 1995 venne interrotta una ricerca multicentrica
internazionale sull’efficacia di un vasodilatatore nei pz con
scompenso cardiaco, a causa di un eccesso di mortalità;
all’inizio 2005 i risultati non erano ancora stati pubblicati.
E negativamente negativo?
• Ma quanto è “negativa” una sperimentazione
clinica negativa?
• In una elevata percentuale di casi il campione è
troppo piccolo per avere una potenza (Power!)
sufficiente
• Spesso ci troviamo ad “avere fiducia” in risultati
negativi in maniera irragionevole tanto quanto
l’abbiamo per risultati positivi!
Post-hoc analysis
• Sono tutte quelle analisi statistiche non
contemplate nel protocollo di ricerca che vengono
effettuate dopo la conclusione della raccolta dei
dati.
• In genere sono presenti nel 50-75% degli articoli!
• Possono essere ottenuti per caso e
in
genere sono poco affidabili
o
del tutto inaccettabili
Post-hoc analysis
• Esempio: Alla conclusione di un famoso studio
multicentrico di confronto atenololo vs placebo in
pazienti con Infarto Miocardico Acuto era stato
valutato l’effetto del farmaco in sottogruppi di
pazienti divisi per segno zodiacale.
• Venne osservato che l’atenololo era
significativamente più efficace nei nati sotto il
segno dello scorpione…
• Questo vuol dire che lo dobbiamo prescrivere
solo a questi ultimi?
• E agli altri cosa diamo?
Dragare i dati (data dredging)
• Uno dei maggiori pericoli di un trial clinico è che il
gran numero di dati disponibili generi informazioni
false
• Se i ricercatori hanno a disposizione un gran numero
di parametri (due o più trattamenti, multipli end-point,
misurazioni ripetute di molti parametri), le
combinazioni sono pressoché infinite e i ricercatori
sono tentati di svolgere molteplici confronti con
l’unico scopo di trovare risultati statisticamente
significativi.
Dragare i dati (data dredging)
• E’ del tutto legittimo svolgere ulteriori analisi sui
dati disponibili per indagare l’eventuale presenza
di rapporti statistici tra due o più variabili, purché i
risultati non vengano utilizzati per confermare ma
solo per generare ipotesi.
• In genere questi risultati su sottogruppi sono
smentiti da ricerche successive svolte
proprio con lo scopo di verificare
quel risultato
Dragare i dati (data dredging)
• Il lettore deve accertarsi che nel protocollo
di ricerca siano state descritte ed elencate le
ipotesi che gli autori si erano proposti di
verificare e quali relazioni sarebbero state
analizzate.
• Qualunque analisi derivante da ipotesi
formulate a posteriori deve essere
considerata con una certa cautela.
OUTPUT DEL PROGETTO
• Impact Factor
• H Index
Scaricare
Document

- Undicesima Conferenza Nazionale di Statistica

Document

- Undicesima Conferenza Nazionale di Statistica

unita` e popolazione statistica

statistica

Unità statistica - Dipartimento di Matematica e Applicazioni "Renato

I dati e la statistica [d]

Indagine Statistica