Corso di
Analisi Statistica per le Imprese
Capitolo 2
Sampling in Marketing Research
Prof. L. Neri
a.a. 2014-2015
1
Basics of sampling I


A sample is a
“part of a whole
to show what the
rest is like”.
Sampling helps to
determine the
corresponding
value of the
population and
plays a vital role
in marketing
research.
Samples offer many benefits:
 Save costs: Less expensive to study the
sample than the population.
 Save time: Less time needed to study the
sample than the population .
 Accuracy: Since sampling is done with
care and studies are conducted by skilled
and qualified interviewers, the results are
expected to be accurate.
 Destructive nature of elements: For
some elements, sampling is the way to
test, since tests destroy the element itself.
2
Basics of sampling II
Limitations of Sampling




Demands more rigid control
in undertaking sample
operation.
Minority and smallness in
number of sub-groups often
render study to be
suspected.
Accuracy level may be
affected when data is
subjected to weighing.
Sample results are good
approximations at best.
Sampling Process
Defining the
population
Specifying
Sample
Method
Developing
a sampling
Frame
Determining
Sample
Size
SELECTING THE SAMPLE
3
Sampling: Step 1
Defining the Universe


Universe or population is the
whole mass under study.
Sampling: Step 2
Establishing the Sampling
Frame

A sample frame is the list of
all elements in the population
(such as telephone directories,
electoral registers, club
membership etc.) from which
the samples are drawn.

A sample frame which does not
fully represent an intended
population will result in frame
error and affect the degree of
reliability of sample result.
How to define a universe:
» What constitutes the units
of analysis?
» What are the sampling
units?
» What time period does the
data refer to
4
Step - 3
Determination of Sample Size

Sample size may be determined by using:
» Subjective methods (less sophisticated methods)
– The rule of thumb approach: eg. 5% of population
– Conventional approach: eg. Average of sample sizes of
similar other studies;
– Cost basis approach: The number that can be studied
with the available funds;
» Statistical formulae (more sophisticated methods)
– Confidence interval approach.
5
Sample size determination using statistical formulae:
The confidence interval approach


To determine sample sizes using statistical formulae,
researchers use the confidence interval approach
based on the following factors:
» Desired level of data precision or accuracy;
» Amount of variability in the population (homogeneity);
» Level of confidence required in the estimates of
population values.
Availability of resources such as money, manpower
and time may prompt the researcher to modify the
computed sample size.
6
Sample size determination by the confidence
interval approach: the average parameter

Dall’equazione
Z
X 

n
ricavo Z

n
 X  e
7
Esempio
Tra i pasticcini prodotti artigianalmente da una pasticceria se ne
prelevano n=100; il loro peso medio è pari a 35 gr. Lo scarto
quadratico medio di TUTTI i pasticcini prodotti è pari a 4 gr.
 Si trovi l’intervallo di confidenza al 98%.
 Di quanto deve aumentare la numerosità campionaria se si
vuole che l’ampiezza dell’intervallo si dimezzi?
Soluzione:
1-α=0.98→ α=0.02 → α/2=0.01 →1-α/2=0.99
Dalle tavole della distribuzione Normale (vedi
Tavole_Statistiche.pdf) si ha che Z(0.99) è circa =2.326 per cui
l’intervallo al 99% è

42
42 
; 35  2.326
;   34.0686;35.9304
35  2.326
100
100 

8
….Esempio
L’ampiezza dell’intervallo di confidenza è il doppio
dell’errore campionario, ovvero
Amp  2  e  2  Z

n
 2Z

100
 1,86
Si deve determinare n*: l’ampiezza dell’intervallo si dimezzi (Amp*)

1,86
n : 2Z

 n*  400
*
2
n
*
9
Sample size determination by the confidence interval
approach: the proportion parameter

Dall’equazione
Z
ps p
p(1p)
n
ricavo l’errore campionario
Z
p(1  p)
 ps  p  e
n
10
Sample size determination by the confidence interval
approach: the proportion parameter

In realtà p è incognito, quindi si potrà inserire nella formula
un valore che si ritiene plausibile oppure p=0.5 che è il
valore di p che, a parità di Z ed e, massimizza n.
11
Esempio

Si vuole stimare la percentuale di individui che ha seguito un
programma televisivo, sulla base di una rilevazione
campionaria, con livello di significatività α=0.05 e
commettendo un errore massimo di stima pari a e=±0.01.
 Non conoscendo la varianza si assume la varianza massima,
che si ottiene per p=0.5

p * (1  p ) z 
 2
n
e 2
2


2



0
.
5
*
(
1

0
.
5
)
1
.
96
 
 9600
2
0.01
12
Step 4:
Specifying the sampling method

Probability Sampling
» Every element in the target population or universe [sampling
frame] has known probability of being chosen in the sample for
the survey being conducted.
» Results may be generalized.

Non-Probability Sampling
» Every element in the universe [sampling frame] does not have
known probability of being chosen in the sample.
» Operationally convenient and simple in theory.
» Results may not be generalized.
13
Probability sampling
Four types of probability sampling

Appropriate for
homogeneous population
» Simple random sampling
– Requires the use of a
random number table or
random number generators.
» Systematic sampling
– Requires the sample frame
only,
– No random number
generators is necessary

Appropriate for
heterogeneous
population
» Stratified sampling
– Use of random number
generators may be
necessary
» Cluster sampling
– Use of random number
generators may be
necessary
14
How to Use Pseudo Random Numbers Generator to
draw a simple random sample
__________________________________________
1. Assign a unique number to each population element
in the sampling frame 1 to N
2. Generate a sequence of random numbers from a
uniform distribution in [1…N]
3. Select, in the population the element corresponding
to the random numbers generated in the previous step
15
How to Use Pseudo Random Numbers Generator to
draw a simple random sample
__________________________________________
1
2
49
50
La popolazione oggetto di indagine è costituita da N=50 unità, numerate
univocamente da 1 a 50, si intende estrarre un campione casuale
semplice di n=10 unità. Mediante l’uso di un opportuno software si
genera la seguente serie di numeri casuali {3, 6, 11, 12, 25, 28, 31, 37,
44, 46}; le unità corrispondenti sono state evidenziate in nero nella
16
figura.
Systematic sampling
Consiste essenzialmente nella selezione di una unità ogni k
presenti nella lista, dove k=N/n è il passo di campionamento
ed equivale al reciproco della frazione di campionamento
Una volta stabilito n e determinato k, il campionamento
sistematico si articola in due fasi:
i) si estrae un numero casuale j compreso tra 1 e k;
ii) si procede selezionando le unità corrispondenti ai numeri
d’ordine j, j+k, j+2k, j+3k, e così di seguito fino
all’esaurimento della lista.
17
1
2
49
50
Se n è ancora pari a 10 unità, il passo di campionamento k è
50/10=5. Si ipotizzi ora di estrarre un numero casuale compreso tra
1 e 5, per esempio 2. Nell’estrazione delle unità campionarie si
comincia quindi da quella contrassegnata dall’identificativo 2.
Successivamente si procede selezionando le unità della lista
contrassegnate dai seguenti numeri d’ordine: 2+5, 2+10; 2+15;…;
2+45, per un totale di 10 unità (quelle nere).
18
Stratified sampling
A three-stage process:




Step 1- Divide the population into
homogeneous, mutually exclusive
and collectively exhaustive subgroups
or strata using some stratification
variable;
Step 2- Select an independent simple
random sample from each stratum.
Step 3- Form the final sample by
consolidating all sample elements
chosen in step 2.
Greater precision can be gained with
smaller sample sizes with respect to
simple random sampling
Stratified samples can be:


Proportionate: involving the
selection of sample elements
from each stratum, such that
the ratio of sample elements
from each stratum to the
sample size equals that of the
population elements within
each stratum to the total
number of population
elements.
Disproportionate: the sample
is disproportionate when the
above mentioned ratio is
unequal.
19
Selection of a proportionate Stratified Sample
La numerosità totale della popolazione illustrativa è pari a 50 unità. Su
tale popolazione sono stati individuati 3 strati: il primo di 10 unità
(racchiuse in un rettangolo in alto a sinistra); il secondo di 25 unità
(racchiuse nel poligono centrale); il terzo di 15 unità (racchiuse nel
rettangolo a destra). Come si evince dall’illustrazione i tre strati sono
esaustivi e mutuamente esclusivi e hanno pesi rispettivamente pari a:
W1=1/5; W2=1/2; W3=3/10.
20
Selection of a proportionate stratified sample
Volendo estrarre il solito campione di 10 unità, si applica una
frazione di campionamento f pari a 1/5. L’allocazione
proporzionale della numerosità campionaria, conduce pertanto
ai seguenti risultati:
1
n1  f  N1  10  2;
5
1
n2  f  N 2   25  5;
5
1
n3  f  N 3  15  3.
5
Da ogni strato si estrae il numero di unità stabilite mediante
campionamento casuale semplice. Si noti che, i pesi campionari di
strato risultano equivalenti a quelli di popolazione:
n1
2
1

 ;
n
10
5
n2
5
1

 ;
n
10
2
n3
3

.
n
10
21
Cluster sampling

A two-step-process:
» Step 1- Defined population is divided into number of
mutually exclusive and collectively exhaustive
subgroups or clusters;
» Step 2- Select an independent simple random sample of
clusters.


Is a type of sampling in which clusters or groups
of elements are sampled at the same time.
Such a procedure is economic, and it retains the
characteristics of probability sampling.
22
Cluster sampling
Possono essere considerati grappoli per esempio:
gli isolati di una città, per le indagini che hanno come unità di
rilevazione le famiglie o gli individui;
le classi delle scuole relativamente ad indagini che hanno come
unità di rilevazione i docenti oppure gli studenti;
le aziende per le indagini che hanno come unità finali di
rilevazione gli amministratori o i dirigenti o altre categorie di
dipendenti.
Nella seconda fase si estraggono casualmente alcuni grappoli e
si conduce l’indagine su tutte le unità che ne fanno parte
23
Cluster sampling
Dalla popolazione di 50 unità, suddivisa in sette grappoli
distinti, sono stati estratti casualmente tre grappoli, evidenziati
con uno sfondo più scuro, tutti gli elementi dei 3 grappoli
estratti (in nero) costituiscono le 20 unità del campione.
24
Cluster sampling
Il campionamento a grappoli può essere vantaggioso, se non
insostituibile, quando:
i grappoli costituiscono una naturale aggregazione delle unità
finali di analisi, per le quali invece non si possiede una lista.
le unità sono caratterizzate da dispersione sul territorio e si
rende necessario un contatto diretto con esse per la raccolta
delle informazioni, per cui studiare solo alcuni grappoli può
rivelarsi molto meno dispendioso rispetto al campionamento
casuale semplice.
Tuttavia, affinché il campionamento a grappoli sia statisticamente più
efficiente del campionamento casuale semplice, è importante che i
grappoli siano molto eterogenei al loro interno e piuttosto omogenei
tra loro .
25
Two steps cluster sampling
Nella realtà è più verosimile che i grappoli contengano, unità
piuttosto simili tra loro, soprattutto se sono di piccole dimensioni e,
in particolare, quando sono individuati in termini di appartenenza
territoriale, poiché le aree territoriali tendono ad essere caratterizzate
da una certa omogeneità al loro interno e da eterogeneità tra di esse.
Se queste sono le caratteristiche dei grappoli, è più conveniente
analizzare una selezione di unità per ogni grappolo, anziché il loro
intero contenuto: si parla, in questo caso, di campionamento a due
stadi. In questo modo si coinvolgeranno un numero maggiore di
grappoli a parità di numerosità campionaria
26
Two steps cluster sampling
I grappoli sono le unità di primo stadio (UPS) e le unità finali di
campionamento, contenute nelle UPS, sono unità di secondo stadio (USS).
In figura uno schema di campionamento a due stadi: su una popolazione di
50 unità e 7 grappoli al primo stadio sono state estratte tre UPS, evidenziate
con lo sfondo più scuro; al secondo stadio da ogni UPS selezionata sono
state estratte a caso delle USS, applicando una frazione di campionamento
pari a ½ per UPS, per un totale di 10 unità campionarie.
27
Stratified Sampling vs Cluster Sampling
Stratified Sampling
1. The target population is sub-divided
into a few subgroups or strata, each
containing a large number of elements.
Cluster Sampling
1. The target population is subdivided into a large number of
sub-population or clusters, each
containing a few elements.
2. Within each stratum, the elements are 2. Within each cluster, the elements
homogeneous. However, high degree of
are heterogeneous. Between
heterogeneity exists between strata.
clusters, there is a high degree of
homogeneity.
3. A sample element is selected each time. 3. A cluster is selected each time.
4. Less sampling error.
4. More prone to sampling error.
5. Objective is to increase precision.
5. Objective is to increase sampling
efficiency by decreasing cost.
28
EXAMPLE
 A common form of cluster sampling where clusters consist of geographic areas, such as
districts, housing blocks or townships. Area sampling could be one-stage, two-stage, or
multi-stage.
How to Take an Area Sample Using Subdivisions
Your company wants to conduct a survey on the expected patronage of its new outlet in a new
housing estate. The company wants to use area sampling to select the sample households to be
interviewed. The sample may be drawn in the manner outlined below.
___________________________________________________________________________________
Step 1: Determine the geographic area to be surveyed, and identify its subdivisions. Each
subdivision cluster should be highly similar to all others. For example, choose ten housing
blocks within 2 kilometers of the proposed site [say, Model Town ] for your new retail outlet;
assign each a number.
Step 2: Decide on the use of one-step or two-step cluster sampling. Assume that you decide to
use a two-stage cluster sampling.
Step 3: Using random numbers, select the housing blocks to be sampled. Here, you select 4
blocks randomly, say numbers #102, #104, #106, and #108.
Step 4: Using some probability method of sample selection, select the households in each of the
chosen housing block to be included in the sample. Identify a random starting point (say,
apartment no. 103), instruct field workers to drop off the survey at every fifth house
(systematic sampling).
29
Non-probability samples

Judgmental sampling
» Sampling based on some judgment, gut-feelings or
experience of the researcher. Common in commercial
marketing research projects.

Snowball sampling
» Used in studies involving respondents who are rare to find.
To start with, the researcher compiles a short list of sample
units from various sources. Each of these respondents are
contacted to provide names of other probable respondents.

Quota sampling
» An extension of judgmental sampling. It is something like a
stratified sampling. Quite difficult to draw.
30
Non probabilty sample: quota sample
1. La popolazione viene suddivisa in classi o sottogruppi omogenei,
sulla base di caratteristiche legate al fenomeno oggetto di studio
2. Dai dati censuari o da altre fonti si ricava il peso percentuale di
ogni classe
3. Il totale delle unità da inserire nel campione viene suddiviso tra le
classi in modo da rispecchiare le proporzioni esistenti nella
popolazione e si perviene quindi alla definizione delle quote, cioè
il numero di interviste da effettuare in ciascuna classe.
4. La scelta delle unità da intervistare viene generalmente demandata
all’intervistatore stesso, nell’ambito delle quote assegnate
31
Quota Sampling
 To select a quota sample comprising 3000 persons in country X using three control
characteristics: sex, age and level of education.
 Here, the three control characteristics are considered independently of one another.
In order to calculate the desired number of sample elements possessing the various
attributes of the specified control characteristics, the distribution pattern of the
general population in country X in terms of each control characteristics is examined.
Control
Characteristics
Population
Distribution
Sample Elements
Gender: ....
.................
Male......................
Female ..................
50.7%
49.3%
Male
Female
3000 x 50.7% = 1521
3000 x 49.3% = 1479
Age: .........
.................
.................
20-29 years ...........
30-39 years ...........
40 years & over ....
13.4%
53.3%
33.3%
20-29 years
30-39 years
40 years & over
3000 x 13.4% = 402
3000 x 52.3% = 1569
3000 x 34.3% = 1029
.
Religion: ..
Christianity ...........
76.4%
Christianity
3000 x 76.4% = 2292
.................
Islam .....................
14.8%
Islam
3000 x 14.8% = 444
.................
Hinduism ..............
6.6%
Hinduism
3000 x 6.6% = 198
.................
Others ...................
2.2%
Others
3000 x 2.2% = 66
_________________________________________________________________________________
_
32
References

Bracalente, Cossignani, Mulas, (2009) Statistica Aziendale,
sections: 2.1, 2.2
33
Scarica

Slide2