Analisi di mercato
Tommaso Proietti
Dipartimento di Scienze Statistiche
Università di Udine
Capitolo 1
Le analisi di mercato
1.1
Introduzione
All’interno dell’interessante rassegna [1] viene riportata una affermazione di Shewhart,
uno dei padri fondatori del controllo statistico della qualità, circa il contributo della
statistica alla pratica aziendale:
The long range contribution of statistics depends not so much in getting a lot
of highly trained statisticians into industry as it does in creating a statistically minded generation of physicists, chemists, engineers, and others who in
any way have a hand in developing and directing the production process of
tomorrow.
Nell’ambito del nostro corso l’enfasi viene posta sulla possibilità di assistere il management mediante un approccio volto all’implementazione di un sistema permanente di
misurazione e rilevazione dei fatti aziendali, alla previsione ed al controllo dei medesimi.
Il ruolo della statistica è senza dubbio pervasivo, come evidenzia la seguente elencazione dei possibili campi di applicazione, che fa riferimento al contenuto del corso di
Analisi di Mercato:
• rilevazione (su base campionaria) della base informativa (sezione 1.5 e capitolo 3)
• comunicazione e presentazione dell’informazione aziendale
• nel campo del marketing l’analisi statistica multivariata trova vasto impiego per la
segmentazione del mercato, il posizionamento di prodotti e marche, (capitoli 4-7.4)
• misura delle attitudini (capitolo 2)
• previsione mediante modelli condizionali (di regressione) e per serie temporali
• auditing
1
• ricerca sperimentale
• controllo della qualità
1.2
Le ricerche di mercato
Risulta abbastanza problematico delimitare il concetto e l’operatività del marketing. Ad
esempio, Baker [2] riporta 12 definizioni a testimonianza del fatto che non esiste una
definizione univoca. Esiste un insieme di azioni - funzioni che per comune intendimento
vengono attribuite al marketing. Una definizione piuttosto generale è fornita da Kotler
[3]:
Marketing is the business function that identifies current unfilled needs and
wants, defines and measures their magnitude, determines which target markets the organization can best serve, and decides on appropriate products,
services, and programs to serve these markets. Thus marketing serves as the
link between a society’s needs and its pattern of industrial response.
Questa definizione rientra tra quelle che concepiscono il marketing come il tessuto connettivo tra impresa e mercato. Altre considerano il marketing come una vera e propria
filosofia di gestione, che coinvolge l’interpretazione e la creazione di bisogni e utilità per
l’utente consumatore. L’obiettivo comunemente assegnato al marketing aziendale è la
soddisfazione del consumatore (cliente), da realizzare attraverso un mix ottimale di quattro fattori fondamentali: il Prodotto, il Prezzo, la distribuzione (Place), la Promozione,
che costituiscono le cosiddette 4P.
Forse, guardando ad una definizione più operativa, quella delle ricerche di mercato,
si potrebbe delimitare meglio il dominio del corso di Analisi di Mercato. In particolare,
prenderemo a riferimento quella fornita dall’AMA (American Marketing Association) cfr http://www.ama.org/about/ama/markdef.asp:
Marketing research is the function which links the consumer, customer, and
public to the marketer through information - information used to identify and
define marketing opportunities and problems; generate, refine, and evalutate
marketing actions, monitor marketing performance; and improve understanding of marketing as a process. Marketing research specifies the information
required to address these issues; designs the method for collecting information; manages and implements the data collection process; analyzes the
results; and communicates the findings and their implications.
Le tipologie di ricerche maggiormente diffuse sono evidenziate nella tabella 1.1 del
libro di Churchill [4], che mostra efficacemente la loro estensione e varietà. Esse risultano aggregate in sei categorie: la prima riguarda l’area delle ricerche aggregate, concernenti la situazione strutturale e congiunturale dei mercati e dei settori produttivi di
2
approvvigionamento e di sbocco, l’analisi delle quote di mercato, etc. Una seconda area
è relativa all’analisi dei comportamenti di acquisto, con applicazioni alla preferenze ed
alle attitudini esercitate nei confronti di prodotti e marche, alla soddisfazione dei clienti,
alle intenzioni di acquisto, alla consapevolezza della differenziazione tra marche ed alla
segmentazione del mercato. Le restanti aree interessano le 4P del marketing: il prezzo
(analisi delle voci di costo, analisi della domanda con particolare riferimento all’elasticità
della stessa rispetto al prezzo, al potenziale di vendita ed alla previsione delle vendite; il
prodotto, con l’enfasi posta sulla raccolta di dati di natura sperimentale (test di configurazioni alternative di un prodotto nuovo, scelta del nome della marca, della confezione,
etc.); la distribuzione (valutazione della performance e della copertura dei canali commerciali); l’attività promozionale (valutazione dell’efficacia della pubblicità, dell’immagine
aziendale, della forza di vendita).
1.3
Le fonti dei dati statistici per le analisi di mercato
Le ricerche di mercato comprendono dunque un insieme di operazioni volte all’acquisizione ed alla interpretazione delle informazioni utili per le funzioni di management e di
marketing, con l’obiettivo di assistere queste ultime nel riconoscere e reagire alle opportunità offerte dal mercato. Una volta identificato un problema decisionale è importante
individuare la base informativa richiesta a supporto. A seconda del fatto che questa sia
preesistente o vada impiantata ex novo è utile operare una distinzione tra fonti informative
dirette e indirette.
1. Fonti primarie (dirette)
(a) Rilevazioni: raccolta diretta delle informazioni necessarie presso un campione
o una popolazione di individui o enti. Di solito hanno natura campionaria ed
hanno un intento esplorativo-descrittivo.
(b) Ricerca sperimentale: effettuata con l’obiettivo di misurare l’effetto di variabili sotto il controllo dello sperimentatore su altre variabili obiettivo.
2. Fonti secondarie (indirette): sorte per scopi conoscitivi indipendenti dal problema
oggetto di indagine.
(a) Interne: generate all’interno della organizzazione (fatture, note di carico, scritture contabili).
(b) Esterne: generate all’esterno (da enti governativi, associazioni etc.)
i. Ufficiali
ii. Commerciali
Il ricorso alle fonti primarie si rende necessario esclusivamente in assenza di una fonte
secondaria che garantisca il conseguimento delle informazioni richieste.
3
1.4
Le fonti secondarie
I vantaggi connessi all’impiego delle fonti secondarie sono in primo luogo legati alla
facilità e rapidità d’accesso ed in secondo luogo alla loro economicità: esse sono infatti
gratuite o disponibili a un prezzo notevolmente inferiore al costo di una rilevazione diretta.
I punti critici critici sono tuttavia
1. disponibilità tout court
2. rilevanza per gli obiettivi conoscitivi: il dato potrebbe non avere la disaggregazione
territoriale o settoriale richiesta; ovvero potrebbe non essere aggiornato.
3. accuratezza: è necessaria la conoscenza della fonte delle informazioni, delle tecniche adottate per produrle, della rilevanza dei fenomeni che sono causa di errori di
misurazione.
4. sufficienza (completezza, esaustività).
Di particolare rilevanza sono le fonti interne all’impresa: la documentazione creata
per motivi fiscali e amministrativi può risultare utile come supporto decisionale: è il caso
delle scritture contabili, note di carico e scarico, fatture; queste ultime contengono informazioni su nome del cliente, data, luogo, articoli ordinati, quantità ordinata, prezzo unitario, sconti, che sufficientemente elaborate, consentono la costruzione di una base di dati
funzionale all’analisi delle vendite per tipo di prodotto, cliente, settore, area geografica
etc.
Le fonti esterne ufficiali (le uniche in Italia sono quelle prodotte dal Sistema Statistico
Nazionale - SISTAN - che ruota attorno all’ISTAT, ma che comprende altri enti pubblici,
quali i ministeri, le regioni, le Camere di commercio, l’ISPE, etc.) sono caratterizzate
da rapidità d’accesso e basso costo, ma risultano estremamente problematiche sotto il
profilo della rilevanza e della tempestività. Alcuni esempi tipici sono i censimenti della
popolazione, delle abitazioni, e delle attività produttive, i quali possono trovare impiego
nella segmentazione geografica dei mercati, e l’indagine sui bilanci delle famiglie (si
rimanda a [5], cap. 3, per maggiori dettagli).
Le fonti esterne di tipo commerciale comportano un costo variabile, tuttavia inferiore
a quello richiesto dalla raccolta diretta; nel seguito verranno illustrate alcune tipologie.
1.4.1 Panel
Un panel identifica un campione continuativo, ovvero un gruppo di consumatori (famiglie)
o punti di vendita che viene contattato in più rilevazioni successive con l’obiettivo di
registrare con continuità il flusso degli acquisti o delle vendite.
Le informazioni di tipo longitudinale svolgono un ruolo fondamentale nell’analisi dei
comportamenti di acquisto, riacquisto e scelta tra le marche, in quanto consentono di evidenziare l’andamento degli acquisti per marca, confezione, prezzo e formula d’acquisto,
4
ed il relativo numero di acquirenti in periodi di rilevazione successivi ed in particolare durante e dopo campagne pubblicitarie e iniziative promozionali; inoltre, presentano grandi potenzialità nel lancio di nuovi prodotti, che richiede un pre-test di gradimento per
saggiare le preferenze dei consumatori verso le varianti del prodotto.
La tipologia più diffusa è quella dei Retail Panels (panel di punti di vendita): aziende
specializzate (AC Nielsen, IRI Infoscan) offrono servizi basati su dati di vendita ottenuti
con lettura tramite scanner dei codici a barra dei prodotti presentati alla cassa. La quasi
totalità dei prodotti è nei supermercati contrassegnata dall’UPC (universal product code).
Parallelamente vengono raccolti dati sulla collocazione dei prodotti, pubblicità, buoni
sconto ed altre azioni promozionali.
Meno diffusi per ragioni connesse alla tecnologia di rilevazione sono i panel di consumatori: questi si differenziano a seconda del metodo con cui i dati sugli acquisti sono
raccolti: nel caso dei Diary Panels le famiglie che compongono il panel registrano continuativamente le spese effettuate su un apposito libretto, evidenziando: data d’acquisto,
esercizio commerciale, quantità (numero articoli, peso, litri, prezzo, etc). Nel caso dei
panel elettronici (es. UPC consumer scanner panel) a ciascuna famiglia componente il
panel viene fornito un codice identificativo che viene immesso alla cassa nel momento
della lettura tramite scanner degli acquisti; altrimenti viene fornito direttamente lo scanner
personale; quest’ultimo metodo richiede uno sforzo aggiuntivo da parte del rispondente.
Vantaggio importante è che possono essere registrati tutti gli acquisti effettuati presso tutti
gli esercizi purché riferiti a prodotti recanti l’UPC (universal product code).
I panel di consumatori o famiglie pongono problemi di gestione notevolmente diversi
rispetto ai panel di esercizi di vendita: un primo aspetto riguarda la mobilità delle unità
componenti sul territorio, essendo il trasferimento di residenza molto frequente per le
famiglie e decisamente meno frequente per le unità commerciali. Inoltre, nei primi occorre comunque prevedere la sostituzione delle famiglie in un arco di tempo relativamente
breve, data l’onerosità del carico informativo imposto dalla rilevazione, la ripetizione della quale ha un effetto avverso sulla propensione a rispondere. Solitamente si ricorre ad una
rotazione del panel, vale a dire ad una procedura di rinnovo parziale del campione secondo uno schema prestabilito, che mira ad assicurare la presenza di una famiglia all’interno
del panel in almeno due rilevazioni successive (se i comportamenti sono stagionali e s è la
periodicità della rilevazione - il numero di rilevazioni effettuate in un anno - è desiderabile
che ciascuna famiglia sia osservata consecutivamente in s + 1 occasioni).
1.4.2 Misurazione dell’audience
La misurazione dell’audience mira tipicamente ad ottenere misure di esposizione ad un
messaggio promozionale e può svolgersi secondo diverse modalità, a seconda del canale
di comunicazione utilizzato, che può variare dalla semplice affissione, alla pubblicazione
su una rivista o quotidiano, alla promozione televisiva.
Essa richiede la definizione di un intervallo temporale con riferimento al quale si cer5
ca di valutare il numero numero totale di esposizioni (contatti lordi), detto appunto audience, si confronti [5], capitolo 7; dal momento che una famiglia o un individuo può essere
raggiunto più volte, si cerca di scomporre detta informazione nel numero di contatti netti, vale a dire delle famiglie e/o degli individui esposte al messaggio almeno una volta, e
nella frequenza dei contatti, ovvero il numero medio di esposizioni per unità. Vengono inoltre registrate alcune caratteristiche strutturali della comunicazione pubblicitaria (mezzo,
collocazione spazio-temporale del messaggio), dette fattori di impatto. Una misura dell’efficacia, detta Gross rating ratio può essere ottenuta rapportando il numero dei contatti
lordi alla numerosità della popolazione che si intende raggiungere, pari al prodotto della
frequenza di esposizione per l’indice di copertura della popolazione obiettivo (fornito dal
rapporto tra i contatti netti e la numerosità della popolazione).
Sebbene si tratti di una tipologia di informazione che viene costruita per uno specifico obiettivo conoscitivo, la misurazione dell’audience viene qui trattata alla stregua
di una fonte secondaria, poiché la sua rilevazione viene effettuata da società specializzate, che mettono al servizio dell’azienda committente la loro tecnologia e esperienza e
che, soprattutto nel terreno dell’audience televisiva, effettuano elaborazioni ad hoc di un
informazione già rilevata.
Rimandando a [5], pp. 354-355, per la misurazione dell’audience della stampa, i
metodi principali per la misurazione di quella televisiva sono:
• registrazione in un diario d’ascolto, sul quale l’unità riporta il programma visto, il
tempo di ascolto,
• intervista telefonica coincidenziale (in tal caso si fa riferimento ai programmi in onda al momento dell’intervista) o semicoincidenziale (si fa riferimento ai programmi
in onda in un momento precedente, che di solito non supera l’ora),
• rilevazione tramite meter, che permette di registrare continuativamente ed in modo oggettivo l’ascolto televisivo. Solitamente sono coinvolti tre strumenti: un’unità di identificazione del segnale, un telecomando per registrare la presenza dei
componenti la famiglia, l’unità centrale di memoria e trasmissione dati.
1.4.3 Directories e banche dati
Forniscono l’elenco delle imprese operanti in un determinato territorio e settore. Assumono rilevanza qualora voglia essere svolta una campagna promozionale presso le imprese. Un esempio è fornito dalle cosiddette pagine gialle elettroniche (www.paginegialle.it, yellow.tecnet.it). Altre fonti, per lo più in formato di banca dati
elettronica, forniscono una raccolta della normativa fiscale e tributaria (www.ilsole24ore.it) o di informazioni sulla situazione patrimoniale e finanziaria delle imprese
(www.saritel.interbusiness.it).
6
1.4.4 L’informazione camerale
Le Camere di Commercio costituiscono il soggetto del Sistema Statistico Nazionale più
vicino, per la propria natura istituzionale, al settore delle imprese. Al momento la produzione statistica degli enti camerali è per lo più rivolta al monitoraggio anagrafico delle
imprese.
Un ruolo importante è svolto relativamente alla rilevazione di alcune informazioni
elementari nel campo del commercio, dei prezzi e delle statistiche agricole. La funzione di
anagrafe economica si esplica attraverso la costituzione dei seguenti archivi camerali: 1.
Registro delle Ditte, il quale contiene le seguenti informazioni: denominazione, telefono,
cod. fiscale, numero addetti, capitale sociale, natura giuridica, stato della ditta (attiva,
non attiva, cessata), oggetto sociale e descrizione attività svolta, amministratori e titolari,
elenco gli atti che hanno modificato la vita della Ditta. 2. Bollettino Ufficiale delle
Società a Responsabilità Limitata (BUSARL): contiene i bilanci delle società di capitale
presentati ancora in forma descrittiva e standardizzata in ottemperanza della IV direttiva
CEE. 3. Bollettino dei Protesti: si tratta di una pubblicazione quindicinale dell’elenco
ufficiale dei protesti cambiari e richieste di fallimento.
Le informazioni contenute in questi archivi soddisfano le esigenze conoscitive delle
imprese relative al controllo dei clienti e dei partner commerciali, del loro effettivo stato
di attività, delle dimensioni aziendali.
1.5
Le rilevazioni campionarie
L’assenza di fonti secondarie atte soddisfare un obiettivo conoscitivo motiva il ricorso
alla raccolta diretta sistematica di informazioni con l’intento di comprendere, indagare e
prevedere aspetti specifici del comportamento della popolazione di interesse. Nell’ambito delle ricerche di mercato è largamente diffuso il ricorso alle rilevazioni campionarie
per una pluralità di obiettivi, che possono riguardare l’identificazione del mercato di un
prodotto, la misurazione della soddisfazione dei clienti, e cosı̀ via.
Solitamente si preferisce ricorrere all’osservazione di un campione di unità appartenenti ad una popolazione più vasta piuttosto di effettuare una rilevazione totale (enumerazione completa delle unità). Le ragioni fondamentali di tale scelta sono da ascrivere
a
• economicità
• tempestività
• accuratezza: l’errore che si commette nella misurazione di una caratteristica della
popolazione presenta due componenti: un errore campionario, legato al fatto che si
osserva una parte della popolazione, e un errore non campionario, legato a diverse
componenti, quali le mancate risposte, l’inadeguatezza della lista della popolazione,
7
la distorsione delle risposte indotta dall’intervistatore, la mancata comprensione del
quesito, solo per segnalare alcune fattispecie; il campionamento risulta più accurato
se agisce efficacemente sulla seconda fonte di errore; in effetti, concentrando le
risorse su un sotto insieme della popolazione, la qualità delle informazioni raccolte
potrebbe rivelarsi superiore a quella conseguibile con una enumerazione completa.
La prima è componente è ovviamente assente dalle rilevazioni totali.
• natura distruttiva della misurazione: ad es. nel campo del controllo della qualità, si
deve misurare se il prodotto è conforme a determinati standard prefissati dal committente o prescritti dalla normativa. La valutazione di conformità frequentemente
implica che il prodotto, una volta testato, non sia recuperabile per la vendita.
La rilevazione campionaria coinvolge diversi aspetti:
Definizione della popolazione La popolazione (universo) costituisce l’insieme delle
unità statistiche (elementi) di interesse; ulteriori elementi che la qualificano sono l’estensione spaziale ed il riferimento temporale.
Specificazione dell’unità di campionamento L’unità di campionamento è l’unità di
base che contiene gli elementi della popolazione (es. famiglie in una indagine che riguarda gli individui). Solitamente la scelta dipende dalla lista disponibile e dalla tecnica di
intervista.
Specificazione dell’elenco delle unità campionarie L’elenco si concreta in una lista di
unità che rappresenta gli elementi di una popolazione. In una situazione ideale, la lista
dovrebbe comprendere tutti i nominativi della popolazione, senza duplicazioni o lacune.
Esempi di liste: elenco telefonico, anagrafe comunale, registro delle imprese etc. Il mancato aggiornamento delle liste, l’incompletezza, nominativi ripetuti, nominativi inesistenti
o estranei, grappoli di unità compresi sotto lo stesso nominativo, sono fonti di errore non
campionario. Alcuni metodi di campionamento non probabilistico non richiedono una
lista (campionamento areale).
Metodo di campionamento (criterio di selezione delle unità campionarie) Il metodo
di campionamento ha un impatto sulla qualità dell’informazione ottenuta. Una prima
scelta riguarda la natura del campionamento, con due possibili opzioni:
1. Campionamento probabilistico: le unità sono selezionate con meccanismo casuale
e hanno tutte una probabilità nota e non nulla di essere selezionate.
2. Campionamento non probabilistico
8
Nel capitolo 3 approfondiremo le diverse tecniche di campionamento probabilistico.
In questa sezione faremo alcuni cenni alle tecniche di campionamento non probabilistico, che assumono, per la semplicità con cui possono essere implementate, un ruolo
importante nelle analisi di mercato. Tra queste segnaliamo:
• Campionamento a scelta ragionata (judgement samples): il campione di unit à è formato direttamente da un esperto o dall’intervistatore in base alla sua informazione
a priori sulla rappresentatività delle diverse componenti della popolazione. La casualità viene violata affinché la scelta delle unità incorpori questa informazione a
priori sul fenomeno. Generalmente conduce alla sovrarappresentazione nel campione delle unità grandi, relativamente al fenomeno oggetto di studio, come avviene in
molte indagini della statistica ufficiale sulle imprese (le imprese di maggiori dimensioni sono più stabili nel tempo, più visibili e presentano i fenomeni con dimensioni
quantitative più grandi).
• Campionamento per quote: la popolazione è suddivisa in sottogruppi omogenei in
base ad alcune caratteristiche (sesso, età, residenza). Da precedenti rilevazioni totali (ad es. un censimento) si ricava il peso relativo di ogni sottogruppo. Il totale
delle unità del campione viene suddiviso tra le classi in modo da rispecchiare le proporzioni esistenti nella popolazione. Si perviene cosı̀ alla definizione delle quote.
Aspetti problematici: la scelta delle unità da intervistare ricade sull’intervistatore
e ciò può compromettere seriamente la rappresentatività del campione. Un problema tecnico può sorgere se il numero dei sottogruppi è elevato, nel qual caso può
risultare difficile assegnare le quote. Inoltre, l’informazione in base alla quale si
definiscono i sottogruppi e si calcolano le quote non è sempre aggiornata.
• Campioni di convenienza: il criterio che presiede alla selezione delle unità è la
facilità di accesso da parte di chi compie l’indagine. Ad esempio, le catene alberghiere sono solite raccogliere i suggerimenti dei propri clienti lasciando un questionario da compilare su base volontaria. I vantaggi sono prevalentemente di natura
economica e di tempo, ma il rischio di autoselezione del campione è altissimo.
• Campionamento a valanga: efficace nel caso di popolazioni rare, consiste nella
selezione iniziale di un gruppo di unità dalle quali ottenere indirizzi e nominativi di
altre unità appartenenti alla stessa popolazione.
Su quali elementi basare la scelta tra i due tipi di campionamento? a) il tipo di informazione richiesta; occorre valutare se è necessaria una valutazione dell’errore e quindi del
rischio connesso a decisione prese sulla base dei risultati dell’indagine; b) informazioni
e deduzioni circa l’ordine di grandezza degli errori non campionari, circa l’omogeneità
della popolazione, etc.
9
Determinazione della numerosità campionaria Dalla numerosità campionaria dipende
la precisione delle stime ed il costo della rilevazione (cfr. sezione 3.1.6). Il campionamento statistico fornisce un criterio razionale per la determinazione del numero di unità da
rilevare, mentre in quello non probabilistico si fa affidamento su criteri soggettivi, legati
all’esperienza e alla economicità.
Tecnica di intervista e predisposizione del questionario
profonditi nelle sezioni 3.4 e 3.5.
Questi aspetti verranno ap-
Specificazione del piano di campionamento Istruzioni e preparazione degli intervistatori per implementare le scelte fatte nei passi precedenti.
Spoglio e analisi dei risultati
1.6
L’analisi dei risultati sarà oggetto dei capitoli successivi.
La ricerca sperimentale
Accanto ai dati campionari, la ricerca sperimentale costituisce un’ulteriore fonte di dati
primari. Essa comporta la manipolazione di una o più variabili (indipendenti), dette fattori, in modo tale che l’effetto su una o più variabili dipendenti (dette variabili di risposta)
sia isolato e misurato. Pertanto, a differenza delle indagini campionarie, dalle quali sono
desumibili informazioni descrittive e/o relative all’associazione tra variabili, l’oggetto di
indagine è un nesso di causalità.
La causalità implica: a) l’esistenza di un legame associativo rilevabile, tale che al
variare dei livelli di applicazione del fattore X si modificano i livelli della risposta Y (o
tendono a corrispondere modalità diverse di Y , se la risposta è qualitativa) b) l’ordinamento temporale: la causa X precede l’effetto Y c) l’esclusione o il controllo di altre
variabili Z come possibili spiegazioni del legame di causalità.
I fattori possono avere natura qualitativa o quantitativa e sono sotto il controllo di
chi effettua l’esperimento. Essi possono assumere due o più livelli. Una particolare
combinazione dei livelli dei fattori investigati è chiamata trattamento.
Disegno degli esperimenti Per disegno degli esperimenti si intende un insieme di tecniche di progettazione dei medesimi che mirano a tenere sotto controllo le potenziali fonti
di errore che possono oscurare o distorcere il legame causale tra fattori e risposta.
Disegni fattoriali Un esperimento fattoriale consiste nella raccolta di dati da una sequenza di prove nella quale i livelli di uno o più fattori controllabili vengono fatti variare
in maniera sistematica. In particolare, tutte le possibili combinazioni dei livelli dei fattori
10
sono investigate e ciò consente di valutare gli effetti di interazione sulla variabile risposta. Appropriati metodi statistici sono disponibili per analizzare dati generati mediante un
disegno fattoriale (analisi della varianza). Due aspetti fondamentali del disegno:
1. replicazione o ripetizione delle prove. Una prova o replica fornisce un’osservazione
per ciascun trattamento. Mediante la replicazione dell’esperimento si ottiene un
numero n di osservazioni per le diverse combinazioni dei fattori e ciò consente
di identificare ed isolare l’effetto dell’errore sperimentale (anche se l’esperimento
viene condotto sotto le medesime condizioni, una certa variabilità caratterizzerà
comunque i risultati). La stima dell’errore consente di determinare se le differenze
osservate sulla variabile risposta siano statisticamente significative.
2. casualizzazione: l’ordine con il quale sono effettuate le prove è determinato in
maniera casuale. Viene ottenuta assegnando in ordine casuale le combinazioni dei
livelli dei fattori all’unità sperimentale o alla sequenza di prove. Consente di ridurre
o eliminare l’effetto di fattori non controllati dall’esperimento. Precauzione per
ridurre o eliminare gli errori sistematici dovuti a fattori che influenzano la risposta
non sotto il controllo dello sperimentatore.
L’unità sperimentale è l’unità fisica a cui vengono applicati i livelli dei fatttori.
1.6.1 Ricerca sperimentale e marketing
Nell’ambito delle ricerche di mercato vengono spesso utilizzati esperimenti che mirano
a valutare l’impatto di una azione di manovra delle leve del marketing mix (ad es. di
una campagna promozionale). In tal caso un fattore unico viene preso in considerazione
solitamente con due livelli: presente e assente. Il segmento di popolazione o campione
esposto alla manipolazione del fattore è detto gruppo di trattamento (treatment group),
mentre il segmento per il quale la variabile indipendente non ha subito alcuna variazione
è detto gruppo di controllo.
11
Capitolo 2
Misurazione e scale attitudinali
2.1
Il problema della misurazione nelle ricerche di mercato
La ricerca di mercato richiede una o più misurazioni funzionali all’oggetto di studio, come
ad esempio la probabilità di acquisto di un prodotto di nuova concezione, se un individuo preferisca una marca piuttosto che un’altra, la modalità preferita di un determinato
attributo, come il colore di un autoveicolo, etc.
Per misurazione si intende il processo mediante il quale si assegnano valori numerici (punteggi) alle caratteristiche, proprietà o attributi di oggetti, eventi, stati o individui,
secondo regole predefinite. E’ utile distinguere diversi livelli o scale di misurazione a seconda delle proprietà che soddisfano e dell’insieme delle trasformazioni ammissibili: per
queste ultime si intende qualsiasi trasformazione dei valori numerici che lascia inalterato
il significato della scala originaria.
Scala nominale Le unità sono classificate in funzione dell’appartenenza ad una particolare classe o modalità (principio di identità). Si pensi alla classificazione di un
campione di consumatori in ragione del motivo per il quale è stata accordata la preferenza ad un determinato esercizio commerciale (vicinanza, promozioni, spaziosità,
etc.).
Scala ordinale Oltre al principio di identità vale il principio di ordinamento, per cui, date
due misurazioni, x e y, si può affermare x < y ovvero x = y ovvero x > y. Si
possono elencare gli oggetti secondo un certo ordine, ma non è possibile valutare la
differenza di intensità con cui il carattere o attributo è presente nell’unità. Tutte le
trasformazioni monotoniche sono ammissibili, in quanto preservano l’ordinamento.
La scala ordinale risulta importante per le ricerche di mercato, in cui buona parte
delle misurazioni cadono in questa categoria.
12
Scala ad intervallo Oltre alle caratteristiche delle scale precedenti, le differenze sono
comparabili, ovvero a distanze numeriche uguali sulla scala corrispondono distanze
eguali con riferimento al carattere considerato: tra 1 e 3 passa la stessa differenza
che esiste tra 15 e 17. Pertanto, è lecito confrontare l’intensità del fenomeno in
unità diverse. Tuttavia, non esiste una origine naturale e l’unità di misurazione
è arbitraria ed è ammissibile la classe delle trasformazioni lineari del tipo y =
a + bx (un esempio classico riguarda la misurazione delle temperature, che può
essere effettuata mediante i gradi Celsius e Farenheit; per la conversione si utilizza
la relazione C = (5F − 160)/9). Un ulteriore esempio è rappresentato dal tempo t
di un evento, la cui origine viene fissata a partire da un tempo t0 arbitrario.
Date due misurazioni effettuate sugli individui i e j mediante la medesima scala
ad intervallo, contrassegnate rispettivamente da yi e yj ha senso operare i confronti
yi − yj e yj − yi , al fine di misurare la differenza di intensità.
Scala di rapporti A differenza della scala precedente, esiste un’origine naturale (zero
assoluto) che denota l’assenza del carattere. Esempi di misurazioni su questa scala
sono le vendite, i costi di una impresa, la quota di mercato. La scala prende il nome
dal fatto che, date due misurazioni effettuate sugli individui i e j, contrassegnate
rispettivamente da yi e yj , oltre alle differenze yi − yj , ha senso calcolare i rapporti
yj /yi o viceversa. I valori numerici sulla scala riflettono non solamente il possesso
della caratteristica, l’ordine e le differenze nell’ordine di grandezza, ma anche la
dimensione assoluta. La classe delle trasformazioni ammissibili è del tipo y = cx
(si pensi alla conversione di una grandezza economica in altra valuta).
Si osservi che l’ordine di presentazio delle scale riflette il fatto che il contenuto informativo delle scale è crescente, nel senso che nel passaggio alla successiva si aggiunge una
proprietà non posseduta dalla scala precedente.
I metodi di sintesi ed analisi validi per una particolare scala non sono sempre estendibili alle scale con minore contenuto informativo. Ad esempio, con riferimento al
calcolo di un indicatore di sintesi della distribuzione dei valori di una misurazione, è immediato riconoscere che la mediana sia ammissibile per la scala ordinale e successive, la
media per la scala ad intervallo e di rapporti, un numero indice solo per quella di rapport;
mentre la moda è definita per tutte le scale.
Questo argomento non deve indurre a tentare di utilizzare sempre la scala di rapporti:
solitamente esiste un livello ottimale di misurazione a seconda del fenomeno sottostante,
tale per cui la scala naturale per un carattere come il sesso è quella nominale. E’ consentito, tuttavia, declassare il livello di misurazione, ad esempio passando da una scala di
rapporti ad una ordinale suddividendo in classi un fenomeno come le vendite.
Una classificazione più rozza distingue le misurazioni qualitative (nominali e ordinali) da quelle quantitative (ad intervallo e di rapporti). Le prime sono anche dette categoriche, dal momento che le modalità di manifestazione sono raggruppate in categorie
mutualmente esclusive ed esaustive, sconnesse (sesso) o ordinate (titolo di studio).
13
Un ulteriore classificazione è opera la distinzione tra misurazioni continue, il cui codominio è rappresentato dall’insieme dei numeri reali e quelle discrete. Ad esempio, il
numero di esami sostenuti rappresenta una misurazione su scala di rapporti quantitativa e
discreta.
2.2
La misurazione delle attitudini
La misurazione può riguardare elementi fattuali (es. consumo di latte nel mese di gennaio) e elementi non fattuali, come le attitudini (es. fedeltà alla marca) e le opinioni.
Nella prima fattispecie esiste un valore vero sottostante l’informazione richiesta che può,
almeno in linea di principio, essere determinato da fonti esterne alternative alla risposta dell’intervistato. Come importante conseguenza si ha che misurazioni possono essere
validate. Nel secondo caso questo non avviene. Un ulteriore elemento di differenziazione
è ravvisabile nei fattori che condizionano la risposta e l’errore di misura (si veda [6]): nel
primo caso la definizione, comprensione, memoria, desiderabilità sociale; nel secondo la
formulazione del quesito, la presenza di alternative bilanciate, l’ordine di presentazione
dei quesiti e delle alternative, etc. Una categoria intermedia riguarda il giudizio personale
su fatti concreti (es. come giudica lo stato dell’economia?).
Il rilievo della misura delle attitudini sta nel fatto che si ritiene che queste condizionino
il comportamento degli utenti/consumatori, per cui ha rilievo per la funzione di marketing
conoscere i fattori che presiedono alla loro formazione.
2.2.1 Costruzione delle scale attitudinali
Una scala attitudinale costituisce un caso particolare di misurazione e può essere costruita
mediante tecniche diverse. L’idea fondamentale che accomuna queste tecniche è che le
attitudini possano essere rappresentate in uno spazio unidimensionale (ad es. lungo una
retta): i rispondenti possono essere ordinati in funzione dell’intensità della loro attitudine
lungo un continuo.
E’ questione assai dibattuta se le misurazioni cui danno origine siano ad intervallo o
semplicemente ordinali. Una rilevante distinzione è tra le scale attitudinali semplici, o a
quesito singolo, e le scale attitudinali complesse, o a quesiti multipli. Spesso, la comprensione dei fattori che presiedono alla formazione delle attitudini richiede l’impiego
di quesiti multipli (es. percezione e valutazione dei servizi offerti da un istituto di credito). E’ stato mostrato che i quesiti diretti sono non affidabili, dimostrando scarsa stabilità temporale; i quesiti multipli aumentano l’affidabilità della scala, poiché possono
essere viste come misure ripetute del dominio di misurazione; sono inoltre imprecisi
poiché restringono il livello di misurazione a quello nominale e tendono a categorizzare
i rispondenti in due gruppi senza cogliere le sfumature all’interno; infine, l’attitudine o
14
il fenomeno da misurare presenta sfumature che non possono essere colte con un quesito
singolo.
2.3
Scale attitudinali semplici o di valutazione (rating scales)
Le scale semplici realizzano una misurazione diretta dell’attitudine o delle sue componenti attraverso un quesito singolo: il rispondente è chiamato ad indicare la sua posizione
lungo una scala di misurazione delle attitudini prestabilita.
I possibili campi di applicazione vanno dalla misurazione dell’attitudine o preferenza
generale verso un oggetto, prodotto, marca etc, all’intensità con cui un oggetto possiede
un determinato attributo, all’atteggiamento individuale verso un attributo (es. gusto), fino
all’importanza assegnata ad un particolare attributo (es. contenuto di caffeina).
La caratteristica fondamentale va ravvisata nella circostanza che il soggetto che effettua la valutazione colloca l’oggetto valutato in un punto lungo un continuo o in una
delle categorie ordinate in successione; un valore numerico è assegnato al punto o alla
categoria.
Solitamente si opera una distinzione tra scale non comparative e scale comparative, a
seconda della natura assoluta o relativa della valutazione.
Noncomparative rating scales (scale di valutazione non comparativa) Al rispondente viene richiesto di valutare un oggetto (prodotto) senza far riferimento ad uno standard prefissato o ad oggetti concorrenti; conosciute anche come scale monadiche poiché
solo un prodotto o marca è valutato. Il loro principale impiego è nella fase di test della
concezione di un prodotto nuovo. Ad esempio, si può condurre un’intervista personale
di un numero prefissato di individui presso un centro commerciale; ciascun intervistato
prova il prodotto e dichiara una delle seguenti alternative: 1. Sicuramente acquisterò 2.
Probabilmente acquisterò 3 Forse acquisterò 4. Forse non acquisterò. 5. Probabilmente
non acquisterò 6. Sicuramente non acquisterò. La percentuale di risposte che rientrano
nelle valutazioni più favorevoli (prime due) fornisce il top box score.
A seconda delle modalità di presentazione distinguiamo:
• Scale grafiche di valutazione non comparativa: (scale di valutazione continue) al
rispondente viene richiesto di fornire la sua valutazione apponendo un segno su una
linea che si estende da un estremo all’altro dell’attitudine:
E’ soddisfatto dei servizi offerti dalla banca x?
Molto
Per niente
• Scale categoriche di valutazione non comparativa: il rispondente può scegliere
tra un limitato numero di opzioni ordinate a seconda della loro posizione sulla
15
scala. Costituisce lo strumento di misura delle attitudini più largamente utilizzato. Non esiste una formula che sia univocamente migliore delle altre. Le opzioni
- categorie - possono essere descritte verbalmente o possono essere numeriche (es.
scala percentuale). Il numero delle categorie dipende dalla natura dell’attitudine
misurata.
E’ soddisfatto dei servizi offerti dalla banca x?
Molto
Abbastanza
soddisfatto soddisfatto
Poco
Per niente
soddisfatto soddisfatto
Una decisione importante riguarda l’uso di opzioni bilanciate (scale simmetriche) o non
bilanciate (scale asimmetriche); le prime implicano un identico numero di opzioni favorevoli e sfavorevoli; in questo caso ha rilievo se un numero pari o dispari di opzioni
viene scelto. Nel secondo caso la modalità centrale è neutrale. L’esperienza dimostra
che l’inclusione della modalità neutrale incide sui risultati. Se ci si attende che una parte
del campione non abbia alcuna valutazione da esprimere si dovrebbe porre una opzione
esterna alla scala del tipo: nessuna opinione, non so.
E’ soddisfatto dei servizi offerti dalla banca x?
Molto
Abbastanza
Poco
Per niente Non
soddisfatto soddisfatto soddisfatto soddisfatto so
Comparative rating scales (scale di valutazione comparative) Nel caso precedente la
valutazione individuale non fa riferimento ad uno standard comune. Una scala comparativa viene utilizzata nei casi in cui si desidera un comune riferimento per tutti i rispondenti
(ad esempio una o più marche concorrenti).
• Misure binarie di preferenza e discriminazione. Sono comunemente impiegate nel
campo della misurazione della capacità del consumatore di saper discriminare tra
diverse versioni dello stesso prodotto o tra marche e della preferenza tra versioni
alternative del prodotto da introdurre sul mercato.
Nella Paired comparison al rispondente vengono presentati due oggetti (marche,
prodotti, attributi) alla volta tra cui deve selezionarne uno in base ad un criterio
prestabilito (similarità o preferenza). Tale tecnica è generalmente limitata ad un
attributo e poche marche, poiché per n marche, sono richiesti n(n − 1)/2 confronti.
La misurazione può essere effettuata su una scala nominale (la marca A è simile
alla/migliore della marca B ovvero mediante una scala ordinale o ad intervallo:
Simile
Migliore
Diversa
Peggiore
16
Nel primo caso si ottiene una graduatoria tra le marche contando il numero delle
volte in cui viene preferita (ad esempio, se nei 6 confronti binari concernenti quattro
marche - A, B, C, D - si ha che esse vengono preferite rispettivamente 2,3,0,1 volte,
allora si ottiene la scala attitudinale di tipo ordinale B>A>D>C).
Una variante, Double-Paired comparison, mira a misurare sia la capacità di discriminare che la preferenza. Il confronto riguarda 4 oggetti che consistono in due campioni identici dell’oggetto A e dell’oggetto B. L’individuo ripete la comparazione a
coppia due volte e si considera la consistenza dei risultati.
Nella Triangle Discrimination and Triangle Preference al rispondente vengono
forniti due esemplari di un prodotto e un solo esemplare dell’altro; nella prima
deve identificare l’esemplare unico per poi rispondere ad una domanda sulla preferenza. Nella seconda deve ordinare i tre esemplari: coloro che hanno capacità
discriminatoria collocheranno l’esemplare unico al primo o al terzo posto.
• Misure ordinali di valutazione (Rank Order Rating Scales). Al rispondente viene
richiesto di ordinare un insieme di oggetti in base ad un criterio prestabilito o con
riferimento ad un oggetto che funge da standard. E’ essenziale che nell’insieme
delle alternative siano contemplate tutte le marche o tutte le versioni del prodotto
rilevanti. Il metodo è ampiamente utilizzato per confronti tra marche e attributi del
prodotto, risultando meno time-consuming del confronto binario e consentendo un
confronto più realistico; di semplice gestione, ha il difetto di produrre soltanto dati
ordinali e consente solo un limitato numero di analisi.
Il confronto può essere semplificato richiedendo di effettuare un ordinamento a più
stadi, tale che ad esempio, il primo ordinamento consiste nell’allocazione degli
oggetti ad un numero limitato di gruppi mutualmente esclusivi caratterizzati da
diversi livelli di similarità o preferenza. Successivamente si ordinano gli oggetti
all’interno dei gruppi.
• La scala a somma costante: il rispondente deve distribuire una somma costante (100)
tra diverse marche o diversi attributi del prodotto in modo tale da riflettere la preferenza relativa per ciascun oggetto, l’importanza di un attributo o il grado con cui
un attributo è presente in un determinato prodotto. I valori individuali sono poi
sommati per produrre una scala di rapporti.
Qui di seguito sono elencate 5 caratteristiche di una calzatura da passeggio. Le viene ora richiesto di distribuire 100 punti tra le caratteristiche
considerate in relazione alla loro importanza. Quando avrà terminato si
assicuri che la somma dei punti attribuiti sia esattamente pari a 100 (se
ritiene che una caratteristica sia del tutto irrilevante assegni punteggio
0):
17
Comoda da indossare
Conveniente
Alla moda
Di marca prestigiosa
Conveniente
100
2.4
Scale attitudinali complesse
Lo sviluppo di una scala attitudinale segue un processo che comporta più stadi. I principali
possono essere di seguito sintetizzati:
Definizione del costrutto
↓
Costruzione - disegno della scala
↓↑
Test pilota
↓
Somministrazione del questionario e item analysis
↓
Validazione della scala
Il primo stadio concerne la definizione coerente dell’oggetto della misurazione (fedeltà
alla marca, soddisfazione; nel secondo si rende operativa la misurazione mediante l’individuazione di una batteria di quesiti (item) legati al dominio di misurazione. Questi
vengono testati su un campione pilota al fine di verificarne in via preliminare la consistenza interna e la validità; ciò consentirà di evitare ridondanze e di eliminare i quesiti ambigui. Segue la fase della somministrazione del questionario al campione e dello spoglio
dei risultati, i quali vengono poi sintetizzati in una scala attitudinale. Nella fase finale si
valida la scala, nel senso che se ne valuta la capacità di misurare il costrutto per la quale
è stata costruita.
Qui di seguito illustriamo alcune delle tecniche disponibili per il disegno della scala.
Queste differiscono prevalentemente per la formulazione dei quesiti nel secondo stadio.
Approcci alternativi (scalogramma di Guttman, scale fattoriali) sono descritti in [7], cap.
6.
2.4.1 Scala di Thurstone o equintervallata
La costruzione della scala attitudinale passa attraverso le seguenti fasi: a) Si colleziona
un numero m di statement o quesiti sufficientemente elevato, nei confronti dei quali l’intervistato dovrà manifestare il proprio assenso o dissenso. b) Viene reclutato un numero
18
elevato di giudici, ai quali si chiede di ordinare in 11 gruppi i quesiti in ragione della loro connotazione (positiva o negativa) nei confronti del dominio di indagine. c) Per
ciascun quesito si calcola il valore mediano ed il campo di variazione. Ad esempio, con
riferimento all’i-esimo statement, se i giudici sono 100:
Score
1 2 3 4 5
Frequenze 0 0 0 0 4
6
11
7
25
8
35
9 10
20 5
11
0
Tot
100
il punteggio mediano risulta pari a 8 ed il campo di variazione è 5. d) Sono eliminati i quesiti che presentano dispersione più elevata, e che pertanto sono piu ambigui e si seleziona
un numero ridotto (20-30) di quesiti in modo da coprire l’intero spazio di misurazione
delle attitudini. e) I quesiti scelti sono sottoposti al campione di individui f) Il valore della scala attitudinale per il rispondente viene ottenuto considerando il punteggio mediano
realizzato sulle affermazioni con le quali egli è d’accordo.
La scala di Thurstone presenta i seguenti punti critici: (i) individui che presentano
pattern di risposta diversi possono avere lo stesso punteggio attitudinale; questo punto
è peraltro comune a tutte le scale attitudinali complesse e consegue dalla monodimensionalità della misurazione attitudinale. (ii) Il metodo non consente di cogliere l’intensità
delle preferenze, essendo basato sul semplice accordo/disaccordo con determinate affermazioni. Ciò motiva il ricorso alla formulazione degli item su una scala ad intervallo,
effettuato nella scala di Likert e del differenziale semantico. (iii) La tecnica è costosa
e time-consuming. (iv) I risultati sono condizionati dall’operato dei giudici, che non
necessariamente riflettono la popolazione di riferimento.
2.4.2 Scala di Likert (summated ratings)
La scala di Likert differisce dalla precedente per la modalità di presentazione dei quesiti. Il rispondente indica il suo grado di accordo o disaccordo rispetto ad una serie di
affermazioni:
Concordo Concordo
pienamente
Non concordo
né dissento
Dissento
Dissento
fortemente
Le categorie di risposta sono multiple e ciò consente di aumentare la precisione con
qui cogliamo le differenze attitudinali. A ciascuna categoria di risposta viene assegnato
un punteggio es. {1, 2, 3, 4, 5} o {2, 1, 0, −1, −2}. Si noti che la scala non possiede
un’origine naturale e qualunque trasformazione lineare y = a + bx della medesima risulta
ammissibile, vale a dire non altera la natura della misurazione. Il punteggio totalizzato
da un individuo fornisce il valore numerico dell’attitudine sulla scala prescelta. Per gli
statement che hanno una connotazione negativa si richiede il rovesciamento della scala
dei punteggi attribuiti a quelli con connotazione positiva.
19
2.4.3 Scala del differenziale semantico
Si caratterizza per l’impiego di aggettivi bipolari:
Sgradevole
Economico
Lento
Gradevole
Caro
Veloce
Gradevole 1 2 3 4 5 6 7 Sgradevole
Inutile 1 2 3 4 5 6 7 Utile
Il numero di modalità presentate è solitamente dispari e la modalità centrale è neutrale. Il
problema fondamentale di questa scala sta nel fatto che non è sempre possibile trovare una
coppia di aggettivi che siano in completa opposizione dal punto di vista semantico. Ai fini
della misurazione attitudinale in senso stretto, si assegna a ciascun quesito un punteggio
tra 1 e 7 o da -3 a +3; come nel caso precedente l’origine dell’intervallo è arbitraria.
Una versione semplificata è la scala di Stapel. Non è bipolare, ma le frasi descrittive e
gli aggettivi sono presentati separatamente; inoltre i punti sulla scala sono identificati da
numeri e il numero di posizioni lungo la scala è pari (manca la modalità neutrale). Risulta
di più facile gestione in alcuni tipi di intervista, ed in particolare in quella telefonica.
Es.: L’orario di apertura è
Soddisfacente
-3
-2
-1
1
2
3
2.4.4 Analisi aggregata e del profilo
Il set informativo completo di una misurazione attitudinale può essere organizzato come
evidenziato nella tabella 2.1.
Le analisi consentite sono
• Analisi aggregata: i punteggi individuali sono sommati per ottenere un punteggio
individuale complessivo, yh. , che costituisce la misura dell’attitudine per l’individuo h; i dati individuali o per gruppi di individui sono poi confrontati.
• Analisi del profilo: viene calcolato il punteggio totale, medio o mediano assegnato
dai rispondenti o da un particolare gruppo a ciascuno degli item: nel primo caso si
ottiene y.i , ed il profilo è identificato nell’ultima riga della tabella 2.1. L’analisi del
profilo viene utilizzata per identificare i punti deboli e forti dell’oggetto o costrutto
che viene misurato.
20
2.5
Analisi dell’accuratezza di una misurazione attitudinale
Una misurazione, implicando una regola mediante la quale si procede all’assegnazione di
un numero agli oggetti, presenta necessariamente un carattere convenzionale.
Nel caso della misurazione di elementi fattuali una misurazione y può essere scissa
nelle seguenti componenti: 1. Valore vero della caratteristica (Y ) 2. Errore di misurazione
e. Con riferimento al secondo si opera la distinzione tra errore sistematico (bias) ed errore
casuale. Pertanto, y = Y + e.
L’errore di misurazione riflette: a) le caratteristiche strutturali dell’oggetto o dell’individuo rispondente che conseguono dalla sua sensibilità e livello di istruzione; b) la
situazione transitoria del rispondente, dipendente dallo stato emotivo, di fatica, bisogno
etc.; c) il contesto della misurazione; d) il metodo di raccolta dei dati (nel caso delle interviste personali si parla di effetto dell’intervistatore); e) gli strumenti di raccolta dei dati:
il questionario può contenere quesiti ambigui o irrilevanti; f) errori di risposta; g) errori
nell’interpretazione, codifica, tabulazione e analisi dei dati.
Nel caso della misura delle attitudini, si opera una distinzione che presenta molte
analogie con la precedente, anche se non è possibile parlare di valore vero. L’accuratezza
viene cosı̀ a presentare due aspetti logicamente distinti: la validità e l’affidabilità.
Affidabilità (reliability) Rappresenta la trasposizione nel contesto attitudinale della nozione
di errore casuale: l’idea è che una scala a quesiti multipli effettua misurazioni ripetute dello stesso dominio e pertanto le diverse misurazioni dovrebbero rivelarsi sufficientemente
stabili. L’affidabilità presenta due aspetti: la consistenza temporale (test-retest reliability),
per cui la scala deve tendere a produrre lo stesso risultato in due misurazioni successive;
inoltre, deve avere consistenza al suo interno (internal consistency reliability), in ciò che
i quesiti multipli, che mirano a misurare lo stesso costrutto, siano fortemente interrelati.
Tabella 2.1: Scale attitudinali complesse:
Item
Unità
1
2 ··· i
1
y11 y12 · · · y1i
2
y21 y22 · · · y2i
..
..
..
.
.
.
.
· · · ..
h
..
.
yh1
..
.
yh2
..
.
···
yhi
..
.
analisi aggregata e del profilo
···
···
···
···
···
k
y1k
y2k
..
.
Totale
y1.
y2.
..
.
yhk
..
.
yh.
..
.
···
···
n
yn1 yn2 · · · yni · · · ynk
Totale y.1 y.2 · · · y.i · · · y.k
P
P
yh. = ki=1 yhi , y.i = nh=1 yhi
21
yn.
Validità (validity) Indica la capacità della scala di misurare il costrutto per la quale è
stata costruita e rappresenta la trasposizione della nozione di bias al contesto attitudinale.
Se la scala è affidabile, sicuramente misura qualcosa; non è detto, tuttavia, che misuri il
costrutto desiderato. La validità risulta estremamente difficile da valutare e da quantificare
dal punto di vista empirico, dal momento che il costrutto comporta spesso un elevato
grado di astrazione.
2.5.1 Metodi per la valutazione dell’affidabilità
1. Test-Retest. Al fine di verificare la consistenza temporale della scala, la misurazione
attitudinale viene ripetuta utilizzando la stessa tecnica di rilevazione in condizioni
equivalenti, per quanto possibile, e si giudica il grado di rispondenza. Sorgono tuttavia alcuni problemi: alcune grandezze possono essere misurate soltanto una volta
(es. reazione ad uno slogan pubblicitario); la prima misurazione ha modificato la
caratteristica da misurare (l’attitudine è cambiata) e produce un effetto di trascinamento sulla misurazione finale; fattori estranei possono essere intervenuti (es.
nuova marca non provata prima).
2. Modelli alternati di rilevazione. La consistenza interna della scala viene valutata
effettuando la stessa misurazione mediante due strumenti o modelli di rilevazione
equivalenti o il più possibile simili. Questa tecnica è soggetta ad alcune ovvie
limitazioni, concernenti il costo e il tempo necessario per ottenere e confrontare
le due rilevazioni; il problema più rilevante sta tuttavia nella difficoltà di ottenere
l’equivalenza sostanziale tra i modelli alternati.
3. Item Analysis. L’affidabilità (consistenza interna) viene stimata mediante la correlazione esistente tra i quesiti. Questa analisi è nota in letteratura come item analysis
e mira a selezionare quei quesiti che presentano correlazione più elevata con i rimanenti. In sede di test pilota la valutazione dell’affidabilità è affidata ai giudici
(scorer), che assegnano separatamente punteggi numerici ai quesiti; la correlazione
tra i punteggi viene poi utilizzata per selezionare i quesiti. In sede di validazione
della scala, due opzioni sono disponibili:
(a) Split-half reliability: i quesiti sono divisi in due gruppi di uguale numerosità
con assegnazione casuale o sistematica (pari/dispari) ed i punteggi totalizzati
dai rispondenti sono correlati. Il limite principale di questa operazione sta
nell’arbitrarietà della divisione in gruppi, per cui difficilmente la correlazione
misura la consistenza interna della scala.
(b) Coefficiente di reliability: una misura sintetica della consistenza interna della
scala è fornita dal cosiddetto coefficiente alpha di Croenbach:
"
k
1−
α=
k−1
22
Pk
2
i=1 σi
σt2
#
,
(2.1)
dove k rappresenta il numero degli item; σi2 la varianza dei punteggi relativi
all’item i, σt2 la varianza dei punteggi totali (il punteggio totale per ciascun
individuo è la somma dei punteggi realizzati sui singoli item). In particolare,
σi2 =
P
n
n
1X
1X
(yhi − ȳ.i )2 , σt2 =
(yh. − ȳ.. )2 ,
n h=1
n h=1
P
con ȳ.i = h yhi /n e ȳ.. = h yh. /n.
Il coefficiente tende a 1 al crescere della consistenza interna; come regola empirica dovrebbe risultare almeno pari a .7. Si può fare un’analisi di sensibilità
eliminando un item alla volta e registrando la variazione del coefficiente. Sotto
opportune ipotesi si mostra che
α≈
k ρ̄
1 + (k − 1)ρ̄
dove ρ̄ rappresenta la media aritmetica dei coefficienti di correlazione tra gli
item.
2.5.2 Validità
La valutazione della validità di una misurazione è solitamente più complicata ed implica
i seguenti aspetti:
1. Content validity - validità di contenuto. Grado di adeguatezza con cui la misurazione cattura il dominio di definizione della grandezza. Si supponga ad esempio di voler valutare il grado di conoscenza del vocabolario della lingua italiana posseduto dalla popolazione: se ci limitassimo a chiedere il significato di
parole quali Ossimoro, chiasmo, enallage, climax, la scala (ad es. percentuale di
popolazione che conosce ciascuno dei termini) misurerebbe il grado di conoscenza
delle figure retoriche (filologia), un sottoinsieme molto specialistico dei termini del
vocabolario.
2. Concurrent validity (concomitanza con altre variabili o costrutti): misura in cui il
risultato della misurazione di una variabile per un individuo può essere utilizzato per
predire una diversa misurazione di una grandezza collegata per lo stesso individuo.
Può essere sottoposta a verifica rilevando caratteristiche che hanno una relazione
con la scala di interesse e calcolando la correlazione.
3. Predictive validity: la misurazione corrente e quelle passate consentono di predire
il comportamento dell’individuo nel futuro. Ad esempio, il test di ingresso per il
diploma o per un corso universitario ha capacità predittiva circa il il voto finale?
23
Appendice 1: formula alternativa per il calcolo del
coefficiente α di reliability
Si parta dalla considerazione della varianza dei punteggi totali individuali, σt2 ; questa
può essere riscritta:
σt2 =
k
X
σi2 +
σij ,
i=1 j6=i
i=1
dove
k X
k
X
P
σij = n1 nh=1 (yhi − ȳ.i )(yhi − ȳ.i )
= ρij σi σj
e ρij = σij /(σi σj ) rappresenta il coefficiente di correlazione lineare tra i punteggi assegnati agli item i e j.
Sostituendo nell’espressione (2.1) e assumendo σi2 = σj2 = σ 2 , vale a dire che lo
varianza degli item sia costante, che appare plausibile se nella fase di verifica preliminare
della scala attitudinale sono stati eliminati i quesiti più ambigui, caratterizzati da maggiore
dispersione,
·
¸
P
α =
k
k−1
=
k
k−1
=
=
=
1−
k
i=1
σt2
σi2
P P
¸
ρ σσ
i Pj6=
i ij i j
P
ρ σσ
σ2 + i
j6=i ij ¸i j
· i 2 iP P
ρ
σ
iP P
j6=i ij
k
k−1 kσ 2 +σ 2
ρ
ii
j6=i ij
h
·
P
k(k−1)ρ̄
k
k−1 k+k(k−1)ρ̄
kρ̄
1+(k−1)ρ̄
dove si è posto
P P
ρ̄ =
ρij
,
k(k − 1)
i
j6=i
che rappresenta la media dei k(k − 1) coefficienti di correlazione tra gli item.
24
Appendice 2: Reliability e analisi del profilo per il data set
kasi-tv
Qui di seguito viene riportato il set di comandi in R per la misurazione dell’affidabilità
mediante il coefficiente α e per l’analisi aggregata e del profilo con riferimento ad un data
set contenente le valutazioni di 50 telespettatori di un conduttore di telegiornale in base
a 19 quesiti organizzati secondo la tecnica del differenziale semantico (cfr. esercizio 1
dell’appendice ??).
> kasi <- read.table("kasi-tv.dat", header=T)
> revscore <- c(1,2,4,6,8,9,11,14,15,17)
> kasi[,revscore] <- 8-as.matrix(kasi[,revscore])
> totscore <- apply(kasi,1,sum)
> summary(totscore)
Min. 1st Qu. Median
Mean 3rd Qu.
Max.
56.00
77.25
87.50
87.54
96.00 118.00
>
> profilo <- apply(kasi,2,mean)
> profilo
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
5.22 4.82 4.84 4.76 3.10 4.86 4.14 5.52 5.74 5.00 4.12 4.62 3.80 5.18 5.24 4.54
q
r
s
3.12 4.20 4.72
> hist(totscore, 15, main= "Attitudine",
freq=FALSE, ylab = "", xlim=c(19,19*7),ylim=c(0,.05))
> lines(density(totscore),col="blue")
> lines(density(totscore,kernel="epanechnikov",bw=3),col="red")
> boxplot(totscore, main="Boxplot attitudine", col="green")
> boxplot(kasi,main="Boxplot item",col = "lightgray",cex=0.012)
> barplot(profilo,names.arg=names(kasi),ylim=c(1,7),space=2,main="An. del profilo
> abline(h=3.5)
> ckasi <- cor(kasi)
> s2t <- var(totscore)
> s2k <- diag(var(kasi))
> k <- ncol(kasi)
> alpha <- (k/(k-1))*(1-sum(s2k)/s2t)
> alpha
[1] 0.8832967
>
25
> rho.medio <- (kˆ2/(k*(k-1))*(mean(ckasi)-1/k))
> alpha2 <- k*rho.medio/(1+(k-1)*rho.medio)
> alpha2
[1] 0.8829284
Convenendo di assegnare valori da 1 (connotazione negativa) a 7 (connotazione positiva), i punteggi originari relativi agli item presentati con connotazione positiva a sinistra
debbono essere rovesciati (cfr. revscore e la riassegnazione successiva dei punteggi).
La figura 2.1 presenta la distribuzione dei valori attitudinali per i 50 rispondenti e l’analisi
del profilo, mettendo in luce una relativa debolezza con riferimento agli item e e q, suggerendo quali aspetti andrebbero migliorati. Il giudizio complessivo sul giornalista può
essere considerato molto soddisfacente. I valori del coefficiente di reliability, α, calcolato
nelle due versioni, sono pari a 0.88, ed attestano che la misurazione è affidabile.
26
Figura 2.1: Analisi aggregata e del profilo per il data set kasi-tv.dat.
Boxplot attitudine
0.00
60
80
0.02
0.04
100 120
Attitudine
20 40 60 80
120
totscore
Boxplot item
1
3
5
2 3 4 5 6
7
An. del profilo
a
d
g
j l
o
r
a
27
d
g i k
n
q
Capitolo 3
Le rilevazioni campionarie
La popolazione di studio di una ricerca di mercato varia a seconda degli obiettivi che la
medesima si pone. Essa può essere rappresentata dalle famiglie o da individui singoli
a in relazione all’agente a cui va riferito l’atto di consumo; dai punti di vendita, se si è
interessati agli acquisti. La definizione della popolazione si arricchisce di connotazioni
temporali, spaziali, e socio-economiche (ad. esempio, le famiglie con figli residenti nella
provincia di Belluno al 31/12/2002).
Una volta individuata la popolazione di studio, si desidera estrarre un campione rappresentativo di quella popolazione al fine di stimare alcune caratteristiche di interesse.
La metodologia statistica offre un ventaglio di soluzioni che poggiano sulla essenziale
nozione che le unità della popolazione hanno una probabilità nota e non nulla di entrare a
fare parte del campione.
3.1
Campionamento casuale semplice senza ripetizione
Si consideri una popolazione costituita da N elementi, a cui è associato il valore di una
caratteristica Y , ad esempio il consumo di un particolare bene. La popolazione può essere
descritta dalla seguente tabella:
Unità
Valori di Y
U1
Y1
U2
Y2
···
···
Ui
Yi
···
···
UN
YN
dove le unità della popolazione sono contraddistinte dalle etichette Ui , i = 1, . . . , N, ed i
valori della caratteristica associati alle unità sono denotati Yi .
La distribuzione del carattere Y può essere sintetizzata mediante la media e la varianza:
N
N
1 X
1 X
Ȳ =
Yi ,
S2 =
(Yi − Ȳ )2 ;
(3.1)
N i=1
N − 1 i=1
28
si noti che l’espressione della varianza utilizza il divisore N − 1 in luogo di N ; questa
definizione, alternativa a quella tradizionale, risulterà utile al fine di semplificare alcune
espressioni.
Il campionamento casuale semplice (CCS) costituisce il metodo di campionamento
più elementare; può avere valenza autonoma, ma viene più frequentemente utilizzato in
congiunzione ad altre tecniche. Esso seleziona dalla popolazione un campione di numerosità n, senza ripetizione, in modo tale che ogni possibile campione abbia uguale
probabilità di essere estratto. L’assenza di ripetizione sta a significare che un’unità non
può entrare a far parte dello stesso campione più di una volta; pertanto, l’unità selezionata
viene rimossa dalla popolazione e non può essere più estratta.
Il CCS si caratterizza per i seguenti elementi:
1. le unità statistiche coincidono con le unità di rilevazione (Ui contrassegna entrambe
- più avanti considereremo piani di campionamento per i quali si ha la dissociazione
delle due unità);
2. ciascuna unità possiede la stessa probabilità di inclusione nel campione (ciò darà
luogo ad un metodo autoponderante, nel senso che le determinazioni campionarie
vengono combinate utilizzando il medesimo peso);
3. qualsiasi sotto insieme di n elementi ha la stessa probabilità di estrazione.
Con riferimento all’ultimo punto, il numero dei campioni distinti1 che possono essere
estratti risulta pari al numero delle combinazioni di N elementi presi n alla volta:
Ã
CN,n =
N
n
!
=
N!
,
n!(N − n)!
dove la notazione k!, per k intero, denota il fattoriale di k: k! = k · (k − 1) · (k − 2) · · · 2 · 1.
Ad esempio, data una popolazione composta da N = 10 individui, da essa possono essere
estratti C10,3 = 120 campioni di tre unità.
Ciascun campione ha una probabilità costante, pari a 1/CN,n di essere estratto.
Dimostrazione *. Questo risultato può essere dimostrato ipotizzando che le unità facenti
parte del campione vengano selezionate sequenzialmente, vale a dire una alla volta.
Supponiamo di aver numerato le unità della popolazione da 1 a N e chiediamoci quale
sia la probabilità di estrarre una sequenza ordinata di n unità,
{u1 , u2 , . . . , un }.
La prima unità viene estratta con probabilità 1/N e, dal momento che il campione è senza
ripetizione, la seconda unità viene estratta con probabilità 1/(N − 1), e cosı̀ via fino ad
1
Si dice che due campioni sono distinti se differiscono per almeno una unità.
29
arrivare all’n-esima estrazione che viene effettuata con probabilità 1/(N −n+1). Pertanto,
la probabilità della sequenza {u1 , u2 , . . . , un } risulta:
1
1
1
1
(N − n)!
·
·
···
=
.
N N −1 N −2
N −n+1
N!
Poiché è irrilevante l’ordinamento delle unità, vale a dire che le unità della popolazione
possono presentarsi in qualunque ordine nel campione, ogni permutazione delle unità dà
luogo ad un campione contenente le stesse unità, seppure in qualsiasi ordine. Quindi,
essendo il numero complessivo delle permutazioni pari a n!, si conclude che la probabilità
di estrarre un particolare campione di numerosità n, denominato S, è pari a
P (S) =
n!(N − n)!
= 1/CN,n .
N!
A fini esemplificativi, si consideri il campione di tre unità {u1 = U4 , u2 = U5 , u3 =
U2 } tratto da una popolazione di numerosità 6. Se ci chiediamo quale sia la probabilità di
selezionare gli elementi U2 , U4 , U5 in qualunque ordine, avremo 3!=6 possibili campioni,
ciascuno dei quali è selezionato con probabilità
1 1 1
· · .
6 5 4
Pertanto, la probabilità di selezionare un campione contenente le suddette unità risulta
1/20.
In pratica la selezione delle unità viene effettuata mediante la generazione di numeri
casuali distribuiti uniformemente tra 0 e 1, che vengono moltiplicati per N e arrotondati all’intero più prossimo. Il software R ha una funzione specifica per l’estrazione
di un campione senza ripetizione (o con ripetizione, cambiando le opzioni di default),
sample(1:N,n), il cui impiego verrà illustrato nel seguito.
Generazione di numeri pseudocasuali*. Un generatore di numeri pseudocausali è un
meccanismo deterministico che produce sequenze di numeri che possono essere considerate realizzazioni indipendenti di una variabile casuale nota. L’indipendenza implica che la conoscenza delle generazioni precedenti non aiuta a prevedere quelle future,
mentre la variabile causale indica il modello statistico di riferimento.
I generatori modulari (congruenziali) lineari sono formule ricorsive che consentono
di generare numeri casuali distribuiti uniformemente nell’intervallo di valori [0,1]. Essi si
configurano come segue:
uj = (a · uj−1 + c) mod M
dove mod è l’operatore modulare tale che c mod d fornisce il resto della divisione di c
per d; il valore iniziale u0 è detto seme (seed, spesso impostato come l’istante di tempo
millisecondi in cui si effettua la generazione); M −1 rappresenta il periodo del generatore,
nel senso che esso genera la medesima sequenza dopo M − 1 iterazioni della formula.
30
Per questo motivo M viene preso molto grande (ad es. M = 231 − 1, a = 397204094,
c = 0). Il generatore in quesione fornisce sequenze di numeri uniformemente distribuiti
tra 1 e m, da cui consegue che u∗i = ui /m ha distribuzione uniforme tra 0 e 1, mentre
[u∗i · N ] + 1, dove l’espressione tra parentesi quadra è arrotondata all’intero più prossimo,
rappresenta un numero intero tra 1 e N estratto con probabilità 1/N .
Il CCS è tale che ogni unità della popolazione ha una probabilità di inclusione nel
campione costante, pari alla cosiddetta frazione di campionamento:
P (Ui ∈ S) =
n
.
N
Dimostrazione *. La probabilità richiesta risulta dalla somma delle probabilità di selezionare l’unità Ui al primo tentativo, ovvero al secondo, e cosı̀ via fino all’n-esimo tentativo, ciascuna delle quali è uguale a 1/N . Quanto asserito risulta evidente per la prima
estrazione; con riferimento al secondo tentativo, occorre considerare la probabilità che
Ui sia selezionata alla seconda estrazione e che non sia stata estratta nella selezione
precedente: questa risulta dal prodotto:
µ
1
1
1−
N −1
N
¶
1
N
=
dove il primo fattore costituisce la probabilità di estrarre l’unità condizionata al fatto che
non sia stata estratta precedentemente e il secondo fornisce semplicemente la probabilità
che non sia stata estratta alla prima estrazione. In generale, la probabilità di estrarre Ui
alla j-esima estrazione risulta:
µ
1
1
1−
N −j+1
N
¶µ
¶
1−
µ
1
1
··· 1 −
N −1
N −j+2
¶
=
1
,
N
dove i fattori in parentesi forniscono la probabilità che l’unità non sia stata estratta nelle
precedenti estrazioni.
La struttura del campione può essere schematizzata dalla seguente tabella
Unità
Valori di Y
u1
y1
u2
y2
···
···
uj
yj
···
···
un
yn
si noti che i valori della caratteristica sono contrassegnati da una lettera minuscola, al fine
di mettere in luce che y1 non corrisponde necessariamente al valore della caratteristica
nella prima unità della popolazione, Y1 . Si noti, inoltre, che, alla luce dei precedenti
risultati,
P (Ui ∈ S) = P (uj = Ui , j = 1, . . . , n) = P (yj = Yi , i = 1, . . . , n) =
31
n
,
N
1
.
N
L’ultimo risultato attesta pertanto che l’esito della j-esima estrazione, yj , costituisce una
variabile casuale che può assumere ciascuno dei valori Y1 , . . . , YN , con probabilità pari
a 1/N . Nel seguito faremo uso del valore atteso e della varianza di questa distribuzione,
forniti rispettivamente da:
P (uj = Ui ) = P (yj = Yi ) =
E(yj )
=
Var(yj ) =
N
P
i=1
N
P
Yi P (yj = Yi ) = Ȳ ,
(Yi − Ȳ )2 P (yj = Yi ) =
i=1
N −1 2
S .
N
3.1.1 La stima della media della popolazione
Si supponga di essere interessati alla stima della media della popolazione, Ȳ . Uno stimatore abbastanza ovvio è la media campionaria:
n
1X
ȳ =
yj
n j=1
(3.2)
Quando lo stimatore viene applicato ad un particolare campione, il corrispondente valore numerico viene detto stima, ed in effetti, mediante l’estrazione di un campione noi
desideriamo pervenire ad una stima della media della caratteristica di interesse.
Al fine di analizzare le proprietà dello stimatore (3.2), occorre tuttavia riflettere sulla
distribuzione dei possibili risultati: infatti, dal momento che CN,n campioni possono essere estratti, ȳ sarà caratterizzato da una certa variabilità di risultati; in particolare, esso
può assumere CN,n valori ciascuno con probabilità pari a 1/CN,n . Assumono particolare rilievo la media e la varianza di questa distribuzione: la prima fornisce indicazioni
circa la presenza di eventuali distorsioni sistematiche nella stima, qualora non risultasse
coincidente con Ȳ ; la seconda circa la dispersione dei risultati attorno al valore medio.
Dimostreremo ora che ȳ gode della proprietà di correttezza, vale a dire che la media
della distribuzione dei valori che può assumere coincide con la media della popolazione,
ovvero E(ȳ) = Ȳ . A tal fine, va tenuto presente che il valore di ciascuna unità del
campione, yj , costituisce una variabile casuale che assume valore Yi con probabilità 1/N ,
e pertanto il suo valore atteso risulterà pari a Ȳ . Pertanto,
E(ȳ) =
n
1X
E(yj ) = Ȳ
n j=1
Leggermente più complicata è la derivazione della varianza dello stimatore; nell’appendice al presente capitolo si dimostra che
Var(ȳ) = (1 − f )
32
S2
n
, f= .
n
N
(3.3)
L’espressione mostra che la varianza dello stimatore diminuisce al crescere della numerosità del campione. Essa, inoltre, dipende dal parametro strutturale della popolazione
S 2 : quanto più la popolazione presenta forte variabilità nelle manifestazioni del carattere,
tanto minore sarà la precisione dello stimatore. Il fattore (1 − f ) prende il nome di fattore di correzione per popolazioni finite, dal momento che se il campionamento fosse con
ripetizione da una popolazione infinita, risulterebbe identicamente pari ad 1, valore a cui
tende, nel caso di popolazioni finite, per N molto grande.
Un’ulteriore proprietà dello stimatore (3.2) è quella della consistenza: per n = N la
media campionaria coincide con il valore della popolazione.
3.1.2 Esempio illustrativo
Consideriamo, a fini illustrativi, la popolazione di N = 180 unità del settore della ristorazione, contenuta nel file Ristoranti.txt. Le variabili disponibili sono:
1. Fatturato (migl. di dollari)
2. Investimenti effettuati nell’anno precedente
3. Valore di mercato
4. Costi di esercizio (in percentuale sul fatturato)
5. Spese per il personale (in percentuale sul fatturato)
6. Spese pubblicitarie (in percentuale sul fatturato)
7. Tipologia (1=fast food, 2=supper club, 3=altro)
8. Numero di coperti
9. Proprietà (1=individuale, 2=soc.di persone, 3=soc. di capitale)
10. Personale a tempo pieno
11. Personale a tempo parziale
12. Classe dimensionale (1=1-9 unità di lavoro, 2=10-20 u.l., 3=più di 20 u.l)
Concentriamo la nostra attenzione sul fatturato e sul numero dei coperti, supponendo che una ricerca di mercato desideri stimare la media di queste due grandezze, la cui
distribuzione nella popolazione è rappresentata nella figura 3.1, sulla base di un campione di numerosità n = 18. La frazione di campionamento risulta quindi pari al 10%. Si
noti l’asimmetria delle due distribuzioni, nettamente più pronunciata nel caso del fatturato e la presenza di alcune unità caratterizzate da una dimensione del fenomeno molto più
33
Figura 3.1: Distribuzione del fatturato e dei coperti in una popolazione di 180 ristoranti.
6000
0.0020
4000
0.0015
2000
4000
6000
8000
0
0.0000
0.0005
2000
0.0010
0.0010
0.0005
0.0000
0
2000
4000
6000
8000
Fatturato
N = 180 Bandwidth = 73.76
Istogramma Coperti
Stima non param. della densità
Boxplot Coperti
0
100
200
300
Coperti
400
500
400
300
200
100
0
0.000
0.000
0.002
0.002
0.004
0.004
0.006
0.006
0.008
500
0
Boxplot Fatturato
8000
Stima non param. della densità
0.0015
Istogramma Fatturato
0
100
200
300
400
500
N = 180 Bandwidth = 16.28
34
600
elevata delle rimanenti unità. I valori medi delle due distribuzioni sono rispettivamente
ȲF = 351.8 e ȲC = 75.6, mentre le varianze sono SF2 = 515673.1 e SC2 = 4320.9.
L’estrazione di un campione fornisce i seguenti risultati:
> s<- sample(1:180,18)
> s
[1] 128 149 141 116 75
> mean(Fatturato[s])
[1] 377.7222
> mean(Coperti[s])
[1] 80.5
> var(Fatturato[s])
[1] 128032.2
> var(Coperti[s])
[1] 3547.912
34 174 105
58
69
92
57
19 132 156 118
73
e pertanto ȳF = 377.3, ȳF = 80.5, Supponiamo ora di ripetere l’operazione 1000 volte e
di guardare alla distribuzione delle stime ȳF e ȳC (cfr. figura 3.2). Il programma utilizzato
è riportato nella tabella 3.1. L’esperimento, consistente nel replicare la selezione del
campione un numero prefissato di volte, ha una natura parziale, dal momento che non
tiene conto di tutte le possibili stime che si possono ottenere estraendo tutti i possibili
campioni, che ammontano ad un numero eccezionalmente grande, C180,18 . Tuttavia, è
utile ad illustrare la variabilità dei risultati campionari. In particolare, la figura 3.2 mostra
che la distribuzione di ȳF è ancora asimmetrica, ma questa caratteristica si è fortemente
ridotta; inoltre, la moda e la mediana (297.6) della distribuzione sono abbastanza distanti
dal valore vero della popolazione, ȲF , in corrispondenza del quale è stata tracciata una
retta verticale. La media della distribuzione è comunque pari a 345.1 e, se fossimo in
grado di generare tutti i possibili campioni coinciderebbe con ȲF . Nel caso dei coperti, si
noti che la distribuzione di ȳC è abbastanza simmetrica, malgrado l’evidente asimmetria
della distribuzione di YC , e centrata attorno al valore vero della popolazione.
Un problema interpretativo è posto dal fatto che alcune unità della popolazione presentano un valore strutturalmente nullo del numero dei coperti, trattandosi di unità che
effettuano il servizio con consumazione al banco o da asporto. Queste unità forse non
andrebbero considerate nella costruzione della media della popolazione e nella relativa
stima.
3.1.3 La stima della varianza della media campionaria
La varianza della media campionaria, fornita dall’espressione (3.3), dipende dalla varianza del carattere nella popolazione, S 2 , che è solitamente sconosciuta. Sarebbe desiderabile stimare questa quantità sulla base del medesimo campione; a tale proposito appare
naturale considerare la varianza campionaria:
n
1 X
(yj − ȳ)2 .
s =
n − 1 j=1
2
35
99
Figura 3.2: Distribuzione delle medie campionarie del fatturato e dei coperti in 1000
campioni di dimensione n = 18.
Fatturato: densità media campionaria
0
0.000
40
0.003
80
120
Fatturato: istog. m. camp.
200
400
600
800
1000
200
600
800
1000
Coperti: densità media campionaria
0
0.000
20
0.015
40
60
Coperti: istog. m. camp.
400
40
60
80
100
120
20
36
40
60
80
100
120
Tabella 3.1: Campionamento casuale semplice: programma R per la generazione della
figure 3.1 e 3.2
Ristoranti <- read.table("Ristoranti.txt", header=T)
attach(Ristoranti)
summary(Fatturato)
summary(Coperti)
par(mfrow=c(2,3))
hist(Fatturato, 20, main= "Istogramma Fatturato", freq=FALSE, ylab = "")
plot(density(Fatturato), main="Stima non param. della densit", ylab="")
boxplot(Fatturato, main = "Boxplot Fatturato")
hist(Coperti, 20, main= "Istogramma Coperti", freq=FALSE, ylab = "")
plot(density(Coperti), main="Stima non param. della densit", ylab="")
boxplot(Coperti, main = "Boxplot Coperti")
n.campioni <- 1000
dim.campione <- 18
media.fatt <- rep(0,n.campioni)
media.cop <- rep(0,n.campioni)
for (i in 1:n.campioni)
{ media.fatt[i] <- mean(sample(Fatturato,dim.campione))
media.cop[i] <- mean(sample(Coperti,dim.campione))
}
par(mfrow=c(2,2))
hist(media.fatt,50, main="Fatturato: istog. m. camp.", ylab="", xlab="")
abline(v=mean(Fatturato))
plot(density(media.fatt), main="Fatturato: densit media campionaria",
ylab="", xlab="")
abline(v=mean(Fatturato))
mean(media.fatt)
hist(media.cop,50, main="Coperti: istog. m. camp.", ylab="", xlab="")
abline(v=mean(Coperti))
plot(density(media.cop), main="Coperti: densit media campionaria",
ylab="", xlab="")
abline(v=mean(Coperti))
mean(media.cop)
37
Ebbene, si dimostra [8] che s2 costituisce una stimatore corretto di S 2 . Questo può essere
sostituito nell’espressione (3.3) al fine di ottenere una stima della varianza della media
campionaria:
s2
ˆ
Var(ȳ) = (1 − f )
n
Questo risultato viene utilizzato al fine di costruire un intervallo di confidenza per
la media campionaria, sotto l’assunzione di normalità. Nella sezione precedente è stato
osservato che la media campionaria ha una distribuzione meno asimmetrica della distribuzione del carattere nella popolazione. L’asimmetria, inoltre, diminuisce ulteriormente al crescere di n, come evidenzia la figura 3.3, che presenta la distribuzione di 10000
campioni di numerosità pari a 60 (la frazione di campionamento risulta ora pari a 1/3). In
conclusione, se la distribuzione del carattere nella popolazione non è molto asimmetrica
(circostanza che non viene verificata con riferimento al fatturato) e n è sufficientemente
elevato, si può assumere che la distribuzione di ȳ sia approssimativamente normale con
media Ȳ e varianza (1 − f )S 2 /n, stimabile mediante (1 − f )s2 /n.
Ciò consente di fare asserzioni del tipo:
s
ȳ − zα/2
s
s2
s2
(1 − f ) ≤ Ȳ ≤ ȳ + zα/2 (1 − f )
n
n
con probabilità pari a (1 − α), dove zα/2 rappresenta il percentile della variabile casuale
normale standardizzata corrispondente a α/2. In altre
q parole, se alla media campionaria
2
osservata, aggiungiamo e sottraiamo la quantità zα/2 (1 − f ) sn , (1 − α) × 100 volte su
100 l’intervallo di valori cosı̀ determinato include la media della popolazione. Nel caso
della sezione precedente si aveva per il fatturato ȳ = 377.7, s2 = 128032.2, f = 0.1,
per cui, se si pone α = 0.05 (e pertanto z0.025 = 1.96), si potrebbe affermare che ȲF sia
compreso tra 220.9 e 534.5 con probabilità pari al 95%.
Per valori di n inferiori a 50 si suggerisce di sostituire zα/2 con tα/2 , il percentile di
una variabile t di Student con n − 1 gradi di libertà.
3.1.4 Stima di un totale
Nel caso in cui l’interesse si appunti sul totale del carattere,
T =
N
X
Yi = N Ȳ ,
i=1
si utilizza lo stimatore t = N ȳ, che risulta corretto. Inoltre,
Var(t) = N 2 (1 − f )
38
S2
.
n
Figura 3.3: Distribuzione delle medie campionarie del fatturato e dei coperti in 10000
campioni di dimensione n = 60.
Fatturato: densità media campionaria
0
0.000
0.003
200 400 600
0.006
Fatturato: istog. m. camp.
200
300
400
500
200
400
500
600
Coperti: densità media campionaria
0
0.00
200
0.02
400
0.04
Coperti: istog. m. camp.
300
50
60
70
80
90
100
50
39
60
70
80
90
100
3.1.5 Stima di una frequenza relativa o percentuale
Nell’ambito delle ricerche di mercato, potremmo essere interessati a stimare la percentuale
di consumatori intenzionati ad acquistare una certa configurazione di prodotto.
In generale, il problema della stima della frequenza relativa o percentuale con cui
un carattere nominale dicotomico è presente nella popolazione, ovvero del numero complessivo degli individui che posseggono una certa caratteristica, può essere opportunamente
ricondotto al caso della stima della media e del totale della caratteristica definita da
(
Yi =
1 se il carattere è presente
0 se il carattere è assente
La somma dei valori Yi fornisce pertanto il numero totale degli individui che presentano
il carattere, mentre la media fornisce la frequenza relativa, P :
T =
N
X
Yi = N P, Ȳ =
i=1
N
1 X
Yi = P.
N i=1
Inoltre, è semplice verificare che
S2 =
N
1 X
N
(Yi − Ȳ )2 =
P Q,
N − 1 i=1
N −1
dove Q = 1 − P .
A corollario dei risultati ottenuti nel caso in cui Y è una variabile quantitativa si ha che
P
la frequenza relativa del campione, p = j yj /n, è una stima corretta di P , con varianza
Var(p) = (1 − f )
S2
PQ N − n
=
.
n
n N −1
(3.4)
Si osservi che, a parità di n, la varianza dello stimatore è massima per P = .5. Quest’ultima dipende dalla varianza del carattere nella popolazione, la quale può essere stimata
da
P
(yj − p)2
n
2
s = j
=
pq, q = 1 − p.
n−1
n−1
con E(s2 ) = S 2 . Si perviene dunque alla stima della varianza della frequenza relativa del
campione:
pq
ˆ
.
Var(p)
= (1 − f )
n−1
Lo stimatore del totale è t = N p, con E(t) = N P = T e Var(t) = N 2 Var(p). Per
quanto riguarda la costruzione degli intervalli di confidenza si rimanda a [8], cap. 3.
40
3.1.6 Determinazione della numerosità campionaria
Nel caso di un carattere misurato su una scala ad intervallo o di rapporti, risulta solitamente più agevole prefissare un margine di variazione ritenuto ammissibile per l’errore
relativo o percentuale nella stima della caratteristica della popolazione, e desumere il valore di n che consente di conseguire un margine di errore non superiore al limite massimo
individuato.
Se α denota un livello di probabilità sufficientemente piccolo (ad es. 0.05 o 0.01),
ed r il margine relativo di errore (ad es. r = 0.1 indica che l’errore relativo non deve
superare il 10% della media della popolazione), il problema della scelta di n può essere
formalizzato richiedendo che
(¯
¯ ȳ − Ȳ
¯
P ¯¯
Ȳ
¯
)
¯
n
o
¯
¯ ≥ r = P |ȳ − Ȳ | ≥ r Ȳ = α.
¯
(3.5)
Ora, sotto l’assunzione di normalità,
Ã
!
S2
,
ȳ ∼ N Ȳ , (1 − f )
n
(
q
P |ȳ − Ȳ | ≥ zα/2
S
1−f√
n
)
= α,
per cui la dimensione campionaria che soddisfa (3.5) è definita implicitamente dall’identità:
q
S
zα/2 1 − f √ = rȲ .
n
Risolvendo rispetto a n, si ottiene
"
2
2
zα/2
1 zα/2
n = 2 CV2 1 +
CV2
r
N r2
#−1
, CV =
S
,
Ȳ
(3.6)
dove CV denota il coefficiente di variazione della caratteristica Y della popolazione.
Con riferimento alla (3.6) occorre osservare che per N molto grande si può impie2
gare la formula approssimata n ≈ zα/2
CV2 /r2 , la quale mette in luce la dipendenza di
n dal coefficiente di variazione della popolazione e dai parametri α e r. Gli ultimi due
sono sotto il nostro controllo (anche se l’assunzione di normalità potrebbe essere non
verificata, cfr. il caso del fatturato nella sezione 3.1.2), mentre il primo rappresenta una
caratteristica strutturale della popolazione solitamente incognita. Pertanto, affiché la formula (3.6) abbia un contenuto operativo, occorre sostituire a CV una stima, che potrebbe
essere desunta da una precedente rilevazione campionaria. Si noti infine che per la stima
del totale si ottengono i medesimi risultati.
Con riferimento alla stima del numero medio dei coperti, il seguente codice R:
41
CV.Coperti <- sqrt(var(Coperti))/mean(Coperti)
r <- seq(0.01, 0.30, by= 0.01)
alpha <- seq(0.01, 0.30, by= 0.01)
z <- qnorm(alpha/2)
N <- length(Coperti)
n.Coperti <- outer(CV.Copertiˆ2 * zˆ2, 1/(rˆ2)) /
(1+outer(CV.Copertiˆ2 * zˆ2, 1/(rˆ2))/N)
filled.contour(alpha,r,n.Coperti, levels = seq(0,180,20),
plot.title = title(main = "Dim. campione per Coperti",
xlab = "alpha", ylab = "r"), col = gray(rev(0:10 / 10)), asp=1)
è stato impiegato per produrre la figura 3.4, che mostra la dimensione del campione desunta dalla formula (3.6) per diversi valori di α e r. Il coefficiente di variazione nella popolazione risulta pari a 0.87. Si osservi che dimensioni campionarie non superiori alle 40
unità si ottengono per valori relativamente elevati di α e r. Se si pone α = r = 0.05, vale
a dire se si desidera che la probabilità di commettere un errore di stima non superiore al
5% non ecceda il 5%, occorre considerare un campione di 140 unità!
Nel caso della stima di frequenze relative o percentuali, che hanno un campo di variazione ben definito, può risultare più agevole fissare un margine assoluto di errore, e, tale
che, per α sufficientemente piccolo,
P {|p − P | ≥ e} = α.
Ora, se si assume che p sia distribuito normalmente, il che è accettabile se P assume
valori compresi tra .3 e .7, con media P e varianza (3.4), si ottiene:
"
2
2
zα/2
1 zα/2
n = 2 PQ 1 +
PQ
e
N e2
#−1
.
Come nel caso precedente occorre sostituire a P una stima; tuttavia, una soluzione conservativa si ottiene ponendo P = .5, in corrispondenza del quale si ottiene la dimensione
campionaria massima.
3.2
Il campionamento sistematico
Nel campionamento sistematico le unità della popolazione sono messe in sequenza, e
si associa, almeno in linea di principio, un numero da 1 a N . Al fine di selezionare
un campione di n unità, si seleziona casualmente la prima unità estraendo un numero
compreso tra 1 e k, dove k = N/n = 1/f è detto passo di campionamento, e di seguito
si seleziona una unità ogni k. Se N è multiplo di n. Se l’ordinamento delle unità della
popolazione è casuale, tale tecnica fornisce gli stessi risultati del campionamento casuale
semplice senza ripetizione.
42
Figura 3.4: Determinazione della numerosità del campione per la stima della media della
variabile Coperti.
Dim. campione per Coperti
0.30
150
0.25
0.20
r
100
0.15
0.10
50
0.05
0.00
0.05
0.10
0.15
0.20
alpha
43
0.25
3.3
Il campionamento stratificato
Nel campionamento stratificato la popolazione è suddivisa in sottogruppi mutualmente
esclusivi, detti strati, in base ad una o più variabili ausiliarie o di classificazione. L’hesimo strato, con h = 1, . . . , H, contiene Nh elementi e la struttura della popolazione
viene sintetizzata nella tabella 3.2. Da ciascun sottogruppo viene estratto in maniera
indipendente un campione di numerosità nh ed il risultato finale viene sintetizzato nella
tabella 3.3, dove si è posto:
Ȳh =
Strato
1
2
..
.
Nh
Nh
1 X
1 X
Yih , Sh2 =
(Yih − Ȳh )2 ,
Nh i=1
Nh − 1 i=1
Tabella 3.2: Descrizione di una popolazione stratificata
Elementi
Numerosità Media Varianza
Y11 · · · Y1i · · · Y1N1
N1
Ȳ1
S12
Y21 · · · Y2i · · · Y2N2
N2
Ȳ2
S22
..
..
..
..
..
..
.
···
.
.
.
.
···
.
h
..
.
Yh1
..
.
H
YH1
···
···
···
Yhi
..
.
YHi
···
···
···
YhNh
..
.
Nh
..
.
Ȳh
..
.
Sh2
..
.
YHNH
NH
ȲH
2
SH
La stratificazione ha i seguenti obiettivi:
• aumentare la precisione delle stime rispetto al CCS, qualora i sottogruppi siano
omogenei al loro interno e disomogenei tra di loro;
• facilitare e razionalizzare il campionamento, che può presentare problematiche diverse nei vari sottogruppi, come nel caso del campionamento della popolazione
residente in zone urbane o rurali;
• conseguire stime per suddivisioni di interesse della popolazione.
Solitamente, queste variabili sono collegate alla caratteristica oggetto di indagine; nel
seguito dimostreremo che questo tipo di campionamento risulta tanto più efficace quanto
maggiore è la dipendenza di Y dalle variabili di classificazione.
3.3.1 Stima della media della popolazione
Si supponga di essere interessati alla stima della media del carattere nella popolazione,
Ȳ =
Nh
H X
H
1 X
1 X
Yhi =
Nh Ȳh .
N h=1 i=1
N h=1
44
h
..
.
Tabella 3.3: Descrizione di un campione stratificato.
Elementi
Numerosità Media Varianza
y11 · · · y1j · · · y1n1
n1
ȳ1
s21
y21 · · · y2j · · · y2n2
n2
ȳ2
s22
..
..
..
..
..
..
.
···
.
.
.
.
···
.
yh1 · · · yhj · · · yhnh
nh
ȳh
s2h
..
..
..
..
..
..
.
···
.
···
.
.
.
.
H
yH1
Strato
1
2
..
.
···
yHj
Note: ȳh =
1
nh
···
yHnH
j=1
yjh , s2h =
Pnh
Lo stimatore
ȳst =
nH
1
nh −1
Pnh
j=1 (yjh
ȳH
s2H
− ȳh )2
H
H
X
1 X
Nh ȳh =
Wh ȳh
N h=1
h=1
(3.7)
dove Wh = Nh /N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione Ȳ . Questo risultato consegue
dal fatto che le medie campionarie di strato, ȳh , sono stimatori corretti delle medie di
strato Ȳh .
P
Si noti che ȳst è diverso dalla media campionaria ȳ = n1 H
h=1 nh ȳh e che coincide con
essa solo nel caso di allocazione proporzionale delle unità del campione:
nh
Nh
=
.
n
N
Questa circostanza giustifica la dicitura che l’allocazione proporzionale dà luogo ad un
campione autoponderante. Quando l’allocazione non è proporzionale ciascuna unità della popolazione ha una probabilità di inclusione del campione dipendente dalla dimensione dello strato a cui appartiene; si può facilmente mostrare che questa risulta pari
alla frazione di campionamento utilizzata nello strato di pertinenza, vale a dire fh =
P P
nh /Nh . Lo stimatore (3.7) può essere scritto come N −1 h j yhj /fh , dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di selezione.
La circostanza che la probabilità di selezione sia costante semplifica gli stimatori dal
punto di vista computazionale, ma non è assolutamente vincolante: ciò che rileva è che
le unità della popolazione abbiano una probabilità nota e non nulla di appartenere al
campione.
La varianza dello stimatore (3.7) consegue immediatamente dall’assunzione che l’estrazione dei campioni in ciascuno strato avvenga in maniera indipendente:
Var(ȳst ) =
H
H
X
1 X
Sh2
Sh2
2
N
(N
−
n
)
=
W
(1
−
f
)
,
h
h
h
h
N 2 h=1
nh h=1 h
nh
45
(3.8)
dove fh = nh /Nh rappresenta la frazione di campionamento nell’h-esimo strato. Nel
caso di allocazione proporzionale (f = fh ) l’espressione della varianza si semplifica
come segue:
H
1−f X
Var(ȳst ) =
Wh Sh2 .
(3.9)
n h=1
L’espressione (3.8) dipende dalle varianze di strato, che sono generalmente incognite.
Possiamo, tuttavia, applicare i risultati del CCS, per cui
s2h =
nh
1 X
(yhj − ȳh )2
nh − 1 j=1
è uno stimatore corretto di Sh2 . Sostituendo in (3.8) si ottiene una stima di Var(ȳst ), che
può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.
3.3.2 Esempio illustrativo
Nel caso della popolazione di unità di ristorazione utilizzato nella sezione 3.1.2 una variabile di stratificazione potrebbe essere la dimensione, che presenta tre categorie. Il fatturato ed i coperti sono naturalmente correlati alla dimensione (come è dato osservare
dalla tabella 3.4, che mostra come il numero medio - e la varianza - dei coperti cresca al
crescere della dimensione) per cui ci si può attendere che il campionamento stratificato
consenta notevoli guadagni di precisione.
Tabella 3.4: Stratificazione della popolazione nel data set Ristoranti: il numero dei coperti
Strato (h) Nh
Ȳh
Sh2 nh
ȳh
s2h
1
90 46.5 1411.4
9
45.1
954.4
2
48 74.9 1634.2
5
87.2 1621.7
3
42 138.8 7970.5
4 111.5 7403.7
Si supponga di effettuare un’allocazione proporzionale di n = 18 unità; la tabella 3.4
mostra i risultati ottenuti mediante:
Dim <- factor(Dimensione)
table(Dim)
tapply(Coperti, Dim, mean)
tapply(Coperti, Dim, var)
n <- 18
f <- n / 180
all.prop <- round(n*table(Dim)/180)
s1 <- sample(Coperti[Dim==1],all.prop[1])
s2 <- sample(Coperti[Dim==2],all.prop[2])
46
s3 <- sample(Coperti[Dim==3],all.prop[3])
m1 <- mean(s1); v1 <- var(s1)
m2 <- mean(s2); v2 <- var(s2)
m3 <- mean(s3); v3 <- var(s3)
W <- as.matrix(table(Dim)/180)
m.st <- W[1] * m1 + W[2] * m2 + W[3] * m3
v.st.hat <- ((1-f)/n) * (W[1] * s1 + W[2] * s2 + W[3] * s3)
ˆ st ) = 150.34; dal momento
La stima della media della popolazione ȳst = 71.8 e Var(ȳ
che la varianza dello stimatore è più piccola di quella che si consegue con il campionamento casuale semplice, l’intervallo di confidenza ottenuto in corrispondenza del livello
di probabilità α risulta molto più ridotto.
La figura 3.5 mostra la distribuzione dello stimatore (3.7) in 1000 campioni stratificati
per il fatturato medio e il numero medio di coperti. Il confronto con la figura 3.2 mette
in evidenza la minore dispersione delle stime, che risulta particolarmente rilevante nella
seconda fattispecie.
3.3.3 L’allocazione del campione negli strati
Una volta fissata la numerosità campionaria, occorre decidere come allocare le n unità
all’interno degli strati. Nelle sezioni precedenti abbiamo considerato una particolare forma di allocazione, effettuata in proporzione alla numerosità degli strati, Nh (allocazione
proporzionale). Questa strategia ha il vantaggio di essere facilmente implementabile,
utilizzando tra l’altro un’informazione solitamente già disponibile sulla struttura della
popolazione.
In questa sezione introduciamo per la prima volta il vincolo economico, rappresentato
da una funzione di costo del tipo:
C = C0 +
X
ch nh ,
h
la quale postula che il costo complessivo del campionamento risulta da una componente
fissa, C0 , legata all’impiego di infrastrutture, mezzi tecnici (elaboratori elettronici), personale (formazione degli intervistatori), etc., e di una componente variabile in relazione al
numero delle unità (spese di trasporto, telefoniche, di intervista, etc.). Si suppone inoltre
che il costo marginale vari da strato a strato.
Solitamente, il campionamento viene effettuato utilizzando delle risorse date, rispettando cioè un budget assegnato e pertanto ha senso chiedersi quale sia il modo ottimale
di ripartire il campione di n unità all’interno degli H strati. Pare logico, per n fissato,
scegliere nh , h = 1, . . . , H, in modo da minimizzare la varianza dello stimatore ȳst a
partità di costo; ciò da luogo al problema di ottimo vincolato:
min Var(ȳst ) s.v. C = C0 +
X
h
47
ch nh ,
Figura 3.5: Distribuzione della media stratificata in 1000 campioni di dimensione n = 18,
allocati proporzionalmente.
Fatturato: densità media campionaria
0
0.000
50
0.004
100
150
Fatturato: istog. m. camp.
200
400
600
800 1000
200 400 600 800
Coperti: densità media campionaria
0
0.00
0.02
20 40 60 80
Coperti: istog. m. camp.
40
60
80
100
120
40
48
60
80
100
la cui soluzione fornisce (si veda l’appendice B al presente capitolo)
√
(C − C0 )Wh Sh / ch
nh =
,
P
√
h Wh Sh ch
che suggerisce che l’allocazione ottimale dipende dalla dimensione dello strato, rappresentata dal termine Wh , dalla variabilità del carattere all’interno dello strato (a parit à
di altre condizioni, quanto minore l’omogeneità interna dello strato tanto maggiore sarà
il numero di unità da selezionare per ottenere un campione rappresentativo), nonchè dal
costo marginale, ch . Si noti che l’allocazione ottimale garantisce il soddisfacimento del
P
vincolo di bilancio h ch nh = C − C0 .
Nel caso particolare in cui il costo marginale sia invariante rispetto allo strato (ch = c)
si ottiene l’allocazione di Neyman
Wh Sh
.
(3.10)
nh = n P
h Wh Sh
P
Questa minimizza la varianza dello stimatore stratificato sotto il vincolo h nh = n. Con
riferimento all’esempio riportato nella tabella 3.4, assumendo di dover ripartire n = 18
unità nei tre strati, si ha:
√
(90/180) · 1411.4
√
√
√
n1 = 18 ·
≈ 7,
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
√
(48/180) · 1634.2
√
√
√
n2 = 18 ·
≈ 4,
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
√
(42/180) · 7970.5
√
√
√
n3 = 18 ·
≈ 7.
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
Il problema posto dall’allocazione ottimale e di Neyman riguarda il fatto che richiedono
informazioni solitamente non disponibili circa la dispersione del fenomeno all’interno
degli strati.
3.3.4 Vantaggi comparati della stratificazione
Il guadagno nella precisione degli stimatori che consegue dalla stratificazione rispetto al
campionamento casuale semplice verrà illustrato con riferimento alla stima della media
della popolazione. Il primo risultato che dimostreremo è che lo stimatore stratificato
della media con allocazione proporzionale presenta una varianza più piccola di quella del
CCS. La dimostrazione fa ricorso alla scomposizione della somma dei quadrati totale in
componente entro gli strati e tra gli strati:
P
P
Nh
H
(N − 1)S 2 =
(Y − Ȳ )2
Ph=1
P i=1 hi
=
[(Yhi − Ȳh ) + (Ȳh − Ȳ )]2
Ph Pi
P
P P
=
(Y − Ȳh )2 + h Nh (Ȳh − Ȳ )2 + 2 h i (Yhi − Ȳh )(Ȳh − Ȳ )
P
Ph i hi
2
2
=
h Nh (Ȳh − Ȳ ) ,
h (Nh − 1)Sh +
49
dove il primo addendo è una somma ponderata delle varianze all’interno degli strati,
mentre il secondo dipende dalle differenze tra le medie di strato e la media globale.
Dividendo per N − 1 ambo i membri e utilizzando le approssimazioni (Nh − 1)/(N −
1) ≈ Nh /(N − 1) ≈ Wh si riscrive:
S2 =
X
Wh Sh2 +
X
h
Wh (Ȳh − Ȳ )2
h
e, moltiplicando per (1 − f )/n, si ottiene, alla luce delle espressioni (3.3) e (3.9):
p
Var(ȳ) = Var(ȳst
)+
1−f X
Wh (Ȳh − Ȳ )2
n
h
(3.11)
p
dove ȳst
è lo stimatore della media con allocazione proporzionale. Dal momento che
il secondo addendo è comunque non negativo, la (3.11) mette in luce che Var(ȳ) ≥
p
Var(ȳst
), vale a dire lo stimatore stratificato con allocazione proporzionale consente un
guadagno di precisione che è tanto maggiore quanto più le medie di strato differiscono tra
di loro e dalla media globale. Soltanto nel caso in cui le medie di strato sono tutte uguali
le due varianze coincidono. Questo risultato consente di affermare che i benefici del campionamento stratificato dipendono dalla capacità delle variabili di stratificazione di individuare sottogruppi della popolazione che sono disomogenei rispetto alla caratteristica di
studio.
Il rapporto
P
p
2
Var(ȳst
)
h Wh Sh
=
Var(ȳ)
S2
misura la riduzione proporzionale della varianza che consegue dalla stratificazione con
allocazione proporzionale e prende il nome di Effetto del disegno (campionario), o Design
Effect (Deff). Per la popolazione illustrata nella tabella 3.4 con riferimento al numero dei
coperti, il Deff ammonta a
p
Def f (ȳst
)=
(90 · 1411.4 + 48 · 1634.2 + 42 · 7970.5)/180
= 0.69
4320.9
ed indica che la stessa precisione che si ottiene da un campione casuale semplice di numerosità n può essere conseguita con campione stratificato (con allocazione proporzionale)
di numerosità circa pari a 0.7n (ovvero che la precisione del secondo, a parità di n, è del
44% superiore a quella del primo).
Ulteriori guadagni di precisione possono conseguire da un’allocazione effettuata in
base ad un criterio che tenga congiuntamente conto del peso relativo degli strati e della
varianza interna agli strati. E’ infatti intuitivo che, a parità di numerosità, negli strati più
omogenei sia necessario osservare meno unità per ottenere un campione rappresentativo.
Ci accingiamo a mostrare che l’allocazione ottimale di Neyman (3.10) consente un’ulteriore riduzione della varianza dello stimatore rispetto all’allocazione proporzionale.
50
In primo luogo, dalla (3.8) segue che la varianza dello stimatore della media con
o
allocazione di Neyman, denotato ȳst
, risulta
o
Var(ȳst
) =
=
=
P
h
P
−1
−1
2
Wh2 (n
Ph − Nh )Sh
W S
P
h h
h
Sh2 − N1 h Wh Sh2
Wh2 nW
S
h
h
P
1 P
( h Wh Sh )2 − N1 h Wh Sh2 .
n
h
Inoltre, riscrivendo
p
Var(ȳst
)=
si ha:
1−f X
1X
1 X
Wh Sh2 =
Wh Sh2 −
Wh Sh2 ,
n
n h
N h
h
p
o
Var(ȳst
) − Var(ȳst
) =
=
P
1
n
1
n
P
P
Wh Sh2 − n1 ( h Wh Sh )2
h
P
2
h
Wh (Sh − S̄)
dove S̄ = h Wh Sh è la media ponderata degli scarti quadratici medi di strato. Questo
risultato consente di concludere che la varianza dello stimatore con allocazione di Neyman
è più piccola di quella che si consegue con l’allocazione proporzionale. Il guadagno di
precisione è tanto più elevato quanto più variabile si presenta la dispersione del carattere
tra gli strati.
3.4
Il questionario
Il questionario costituisce una successione ordinata di quesiti e rappresenta lo strumento
principale per ottenere informazioni nel campo delle ricerche di mercato. La propensione a fornire informazioni dipende, tra l’altro, dalla presentazione del quesito e da altre
circostanze, alcune delle quali controllabili dal piano dell’indagine (preparazione e sensibilizzazione degli intervistatori, specificazione degli obiettivi dell’indagine). L’esperienza
mostra, si veda l’eccellente rassegna di Kalton e Schuman [9], che elementi quali la verbalizzazione dei quesiti, il loro formato e posizione all’interno del questionario, l’ordine
delle alternative presentate, il loro bilanciamento, la presenza di assunzioni implicite, la
scelta tra domande aperte e chiuse, costituiscono fonti (indesiderate) di variabilità dei
risultati, soprattutto nel campo della misurazione attitudinale.
Con riferimento al contenuto sostanziale dei quesiti occorre valutare:
• la rilevanza dell’informazione tratta da ciascun quesito. Il tasso di rifiuto cresce in
misura più che proporzionale al crescere della durata dell’intervista, per cui occorre
concentrarsi soltanto sull’informazione essenziale (necessaria).
• Capacità del quesito di produrre l’informazione richiesta: il quesito è sufficiente o
deve essere accompagnato da altri quesiti? (sufficienza).
51
• Capacità del rispondente di rispondere accuratamente. L’incapacità potrebbe essere
causata da:
1. Mancanza di informazione (disinformazione) su quel particolare aspetto. Un
problema viene posto dalla cosiddetta spurious awareness, che si ha quando
non è socialmente desiderabile mostrarsi disinformati su alcuni aspetti delle
vita quotidiana. Un possibile rimedio è inserire un quesito di verifica o una
domanda filtro. Ad esempio il quesito rivolto ad uno studente Quanto spende
la sua famiglia in prodotti ortofrutticoli ogni settimana? potrebbe essere preceduto da Chi provvede alla spesa per prodotti ortofrutticoli in famiglia?
2. Memoria; la difficoltà a richiamare eventi passati dà luogo essenzialmente a
tre effetti indesiderati: (i) omissione, consistente nella mancata rilevazione
dell’evento medesimo; (ii) effetto telescopico o di ingigantimento - si dichiara
che l’evento ha avuto luogo più recentemente rispetto a quando è effettivamente occorso, producendo una distorsione nella collocazione temporale dello stesso; (iii) invenzione. Il ricordo di un particolare evento (la marca del
prodotto X acquistato l’ultima volta, il programma televisivo guardato 3 giorni
fa alle ore 21) dipende dal tempo trascorso dal momento in cui ha avuto luogo.
Al fine di attenuare le distorsioni indotte dalla memoria si possono utilizzare
tecniche di Unaided recall, mediante la presentazione di tutte le alternative
plausibili: queste tuttavia tendono a produrre una sottostima di specifici eventi,
quali il consumo di marche meno note e meno pubblicizzate nell’insieme delle
scelte. Le tecniche di Aided recall forniscono soltanto un numero limitato di
alternative e riducono le omissioni, ma aumentano il rischio delle invenzioni
e dell’ingigantimento.
3. Impossibilità di verbalizzare una risposta (attitudini)
• Volontà del rispondente di rispondere (con l’accuratezza desiderata). Di fronte a
domande personali o imbarazzanti l’intervistato può opporre il rifiuto a rispondere;
nel caso più estremo si configura una mancata risposta totale, concernente l’intero questionario. In altre circostanze il rispondente distorce l’informazione - un
fenomeno abbastanza diffuso è la sottodichiarazione del reddito. I possibili rimedi
riguardano: 1. l’impiego di counterbiasing statements, miranti a spersonalizzare
il tipo di informazione richiesta: in una rilevazione che cerca di quantificare la dimensione del mercato per cosmetici da uomo si può utilizzare un’affermazione del
tipo studi recenti hanno mostrato come sia sempre più frequente l’uso di prodotti
cosmetici tra gli uomini nella sua classe d’età. Si confronti la domanda diretta ha
mai evaso il fisco? con l’affermazione Ritiene che l’evasione fiscale sia diffuso tra
i contribuenti? Per quale motivo la gente evade le tasse?. 2. Impiego di tecniche di
rilevazione casualizzate (randomized response techniques).
Con riferimento al contenuto verbale ovvero alla presentazione formale dei quesiti:
52
• Esplicitare sempre il significato delle parole e del quesito. es. numero componenti
la famiglia. Evitare l’impiego di parole ambigue e di difficile comprensione. Notare
che spesso, qualche volta, occasionalmente hanno un contenuto prossimo e non
sempre costituiscono valide alternative nella costruzione di una scala.
• Evitare parole biased che interferiscono con il meccanismo di risposta poiché implicano già una connotazione positiva o negativa.
• Valutare se tutte le alternative sono elencate. L’esclusione di alternative rilevanti
porta alla sovrarappresentazione del fenomeno per quelle previste.
• Valutare la presenza di assunzioni implicite? La mancata specificazione di assunzioni essenziali generalmente inflaziona la domanda di alcuni prodotti o servizi, o
la preferenza verso determinate scelte. E’ favorevole alla riduzione dell’orario di lavoro - alla razionalizzazione del settore pubblico (assunzione: anche se ciò implica
una riduzione dello stipendio - una forte riduzione del personale)?
Anche il formato dei quesiti può risultare non neutrale: Le domande a risposta aperta hanno il pregio di non influenzare il rispondente tramite un insieme di alternative già
predisposto. Lasciando aperta la possibilità ad un vasto ambito di risposte, si prestano
bene per le indagini esplorative. Risultano tuttavia problematiche poiché dipendono dalla capacità del rispondente di esprimere e verbalizzare la propria risposta; esse risultano
pertanto esposte in alto grado all’effetto dell’intervistatore; esse inoltre pongono un problema di codifica delle risposte (si rende spesso necessaria una precodifica delle risposte
possibili).
Le domande a risposta chiusa facilitano sia l’intervistatore che il rispondente, conseguendo una maggiore standardizzazione e, a volte, una maggiore obbiettività (ponendo
un limite all’interazione dell’intervistatore). Tuttavia, la lista delle alternative non e’ sempre agevole o possibile (es. motivo principale per cui ha scelto la marca x di televisore), e
forzare la scelta genera possibili distorsioni; in alcuni casi il problema è aggirato mediante
l’introduzione di una categoria residuale (Altro: Specificare....); ciononostante esiste una
spiccata tendenza a selezionare una delle alternative proposte, anche se non direttamente
rilevante. A volte una categoria modale potrebbe essere volontariamente esclusa per non
nascondere altre informazioni: ad es. Oltre all’onestà, quale altra dote dovrebbe essere
importante per un politico.
La presenza di alternative bilanciate o sbilanciate e l’ordine delle alternative sono anche esse fonte di variabilità dei risultati di una rilevazione; con riferimento al secondo
punto si ha luogo ad un cosiddetto bias di posizione che riguarda la prima delle alternative presentate contemporaneamente e l’ultima di una serie di alternativa complesse
(soprattutto nel caso dell’intervista telefonica).
La successione dei quesiti costituisce una delle potenziali fonti di errore. Alcune
linee guida per minimizzare questa fonte sono: iniziare con domande semplici obiettive
53
e interessanti per limitare al massimo i rifiuti. Le domande più difficili o personali alla
fine, quando un rapporto di fiducia con l’intervistatore si è già instaurato. In un contesto
logico, partire dal generale per approdare al particolare.
Infine, le caratteristiche fisiche del questionario devono essere tali di minimizzare la
possibilità di errori di trascrizione e realizzare una chiara segnaletica sulle ramificazioni
dei quesiti.
3.5
Le tecniche di intervista
E’ possibile categorizzare le tecniche in relazione a: i) il grado di libertà lasciato all’intervistatore nel formulare le domande: interviste strutturate, semi strutturate e non strutturate. Nelle ultime due l’intervistatore può alterare le domande, modificare la successione delle parole al fine di ottenere i risultati desiderati; ii) il metodo di comunicazione:
1. Intervista personale
2. Intervista telefonica
3. Indagine postale
4. Intervista computerizzata
Al fine di effettuare una scelta tra le diverse opzioni disponibili occorrerà valutare
diversi criteri:
• Capacità di gestire questionari lunghi. Questa risulta decisamente minima per i
sondaggi postali: il rispondente può essere confuso dal numero delle alternative
elencate e dai rinvii ad altri quesiti (se NO vai al quesito n. 9). Massima per le
interviste personali, dove l’intervistatore offre la sua assistenza al rispondente.
• Accuratezza della misurazione. A proposito delle interviste personali si parla dell’effetto intervistatore come possibile fonte di errore non campionario. Se il quesito
riguarda temi imbarazzanti o domande personali, risulta più probabile che l’unità
fornisca la risposta vera in un sondaggio postale, che consente l’anonimato.
• Controllo sulla numerosità campionaria. Risulta estremamente elevato per le interviste telefoniche effettuate con la tecnica del random digit dialing. Tuttavia, il
problema delle unità assenti, che rifiutano l’intervista e della copertura della lista è
comune a tutte le tecniche.
• Tempestività e rapidità di elaborazione. Massime per le interviste telefoniche;
problematiche per le interviste postali.
• Costo.
54
Appendice A: la varianza della media campionaria nel
campionamento casuale semplice
Dimostreremo l’espressione della varianza della media campionaria nel CCS senza
ripetizione.
Var(ȳ) = Var
=
=
1
n2
1
n2
S2
n
=
= (1
h P
n
1
i
y
hPn j=1 j
i
P P
n
Var(y
)
+
Cov(y
,
y
)
j
h
k
h
k6=h i
h j=1
n NN−1 S 2 − n(n − 1)S 2 /N
h
i
N −1
n−1
−
N
N
2
− f ) Sn
Nel corso della derivazione sono stati utilizzati i seguenti risultati:
Var(yj ) = E[(yj − Ȳ )2 ] =
N
X
(Yi − Ȳ )2 P (yj = Yi ) =
i=1
e
N
N −1 2
1 X
(Yi − Ȳ )2 =
S
N i=1
N
Cov(yh , yk ) = E[(yh − Ȳ )(yk − Ȳ )]
PN PN
=
i − Ȳ )(Yj − Ȳ )P (yh = Yi , yk = Yj )
i=1 P
j6=i (YP
N
= N1 N 1−1 N
j6=i (Yi − Ȳ )(Yj − Ȳ )
i=1
dal momento che P (yh = Yi , yk = Yj ) = P (yh = Yi |yk = Yj )P (yh = Yi ) = (1/N )[1/(N −
1)]. Inoltre,
P
PN PN
(Yj − Ȳ )2
Ȳ )(Yj − Ȳ ) − N
j=1 (Yi −
Pj=1
P
Pi=1
N
N
N
(Yi − Ȳ ) j=1 (Yj − Ȳ ) − j=1 (Yj − Ȳ )2
=
i=1
PN
2
PN PN
j6=i (Yi − Ȳ )(Yj − Ȳ ) =
i=1
= − j=1 (Yj − Ȳ )
= −(N − 1)S 2
e pertanto,
Cov(yh , yk ) = −
55
S2
.
N
Appendice B: allocazione ottimale nel campionamento
stratificato
Riscrivendo
Var(ȳst ) =
H
X
h=1
Wh2 (1 − fh )
H
H
X
X Sh2
Sh2
1 X
=
Wh2
− 2
Nh Sh2 ,
nh h=1
n
N
h
h
h=1
si ha
∂
Var(ȳst ) = −Wh2 Sh2 /n2h .
∂nh
Si consideri ora il lagrangiano per il problema di minimizzare la varianza dello stimatore
ȳst condizionatamente al rispetto del vincolo di bilancio:
φ(n1 , . . . , nh , λ) = Var(ȳst ) − λ(C − C0 −
X
ch nh ).
h
Le condizioni del primo ordine forniscono:
∂φ
∂nh
∂φ
∂λ
= −Wh2 Sh2 /n2h + λch ≡ 0,
h = 1, . . . , H
;
P
= −(C − C0 − h ch nh ) ≡ 0
pertanto, risolvendo rispetto a nh le prime H equazioni, si ottiene:
Wh Sh
nh = √
.
λch
Sostituendo nell’ultima equazione e risolvendo rispetto a
P
√
√
h Wh Sh ch
λ=
,
C − C0
(3.12)
√
λ si ha
che sostituita a sua volta nella (3.12) fornisce la soluzione al problema di allocazione
ottimale:
√
(C − C0 )Wh Sh / ch
nh =
.
P
√
h Wh Sh ch
56
Capitolo 4
L’analisi statistica multivariata
applicata alle ricerche di mercato
4.1
Introduzione
I capitoli precedenti hanno discusso alcuni aspetti relativi alla raccolta delle informazioni
rilevanti per un problema conoscitivo o decisionale che coinvolge la funzione di marketing.
Volgiamo ora la nostra attenzione ad alcuni strumenti di analisi delle informazioni
raccolte che sono funzionali ad una varietà di problemi che sono illustrati più a fondo
nelle sezioni 4.2-4.4.
L’informazione raccolta con una ricerca o indagine di mercato ha natura tipicamente
multidimensionale, dal momento che, con riferimento ad un insieme di individui, prodotti, marche, opportunamente o casualmente selezionate, abbiamo rilevato una batteria di
indicatori o attributi atti a descriverne il profilo. In altre circostanze chiediamo al rispondente un confronto su una pluralità di oggetti o marche, di modo che la raccolta dei dati
si presenta sotto forma di una matrice di (dis)similarità o distanza.
In definitiva, i dati sottoposti all’analisi possono essere organizzati per riga e per
colonna per formare una matrice. Questa può essere considerata come un’entità matematica che può essere manipolata in vari modi al fine di evidenziare alcuni aspetti di interesse.
Le manipolazioni che possiamo operare formano una vera e propria algebra, i cui principi fondamentali vengono esposti nell’appendice B, che fornisce soltanto un riferimento
sintetico ad alcune operazioni essenziali. Il nostro corso sarà interessato principalmente
all’interpretazione geometrica di quelle operazioni e le richiamerà all’occorrenza.
Dopo aver introdotto la matrice dei dati ed alcune sintesi elementari volte al calcolo
delle medie e della matrice di varianze-covarianze e dell’associata matrice di correlazione
(sezione 4.5), la nostra attenzione si concentrerà sulle misure della similarità o della distanza che possono essere calcolate a partire dai profili individuali misurati mediante una
batteria di attributi.
57
4.2
La segmentazione del mercato
La segmentazione perviene ad una suddivisione del mercato in gruppi omogenei e distinti
di consumatori che esprimono una domanda differenziata, richiedendo specifici prodotti
e attributi. Ad essi vanno pertanto indirizzate specifiche politiche di marketing. Essa
richiede la presenza di tre elementi essenziali:
1. Eterogeneità dei consumatori/utilizzatori
2. Differenziazione della domanda (l’eterogeneità si riflette sulla domanda di mercato
che è differenziata)
3. Separazione (è possibile isolare segmenti di consumatori all’interno del mercato
complessivo).
Perché una politica di segmentazione abbia successo occorre che vi sia uniformità
di risposta alle variabili di marketing mix da parte degli acquirenti potenziali, la dimensione del segmento deve assicurarne la profittabilità ed inoltre il segmento deve essere
accessibile (uniformità, profittabilità, accessibilità).
Segmentazione
↓
Individuazione del mercato obiettivo
↓
Posizionamento del prodotto
La segmentazione richiede che sia individuato il meccanismo che presiede alla formazione
delle preferenze individuali ed al processo di scelta.
4.2.1 Le fasi operative
Dal punto di vista operativo si distinguono due fasi
1. Fase cognitiva, o analitica, consistente nella definizione dei segmenti mediante
opportune tecniche statistiche.
2. Fase strategica, rivolta alla definizione degli strumenti di marketing mix.
La prima si articola nella la scelta delle variabili (basi) e del modello di segmentazione.
Le variabili di segmentazione possono riguardare aspetti demografici, economici e sociali
dei consumatori e caratteristiche legate alla situazione specifica di consumo. La scelta è
ovviamente condizionata dalle informazioni disponibili.
Variabili di segmentazione:
• Geografiche: Stato - Regione - Città - Densità (zona urbana, semiurbana, rurale) Ripartizione - Clima - zona altimetrica.
58
• Demografiche: Sesso, età, Stato civile, dimensione del nucleo familiare, razza, religione. Si parla di segmentazione geodemografica quando la scelta delle basi ricade
su variabili geografiche e demografiche. La base informativa è solitamente rappresentata dai dati censuari, l’unità territoriale minima essendo costituita dalla sezione
di censimento (con riferimento al Censimento della popolazione del 1991, il territorio nazionale è stato suddiviso in 323.000 sezioni caratterizzate da una presenza
media di 66 famiglie e 180 individui). Per l’individuazione di un numero limitato
di profili si ricorre all’analisi dei grappoli (cfr. cap. 5).
• Economiche: reddito, attività economica, condizione professionale;
• Sociali: grado di istruzione, classe sociale se l’unità di segmentazione sono le
famiglie o gli individui; la dotazione di infrastrutture sociali, come gli ospedali,
gli asili nido, le scuole, se le unità sono i comuni o altre entità territoriali.
• Psicografiche: stile di vita, personalità. La segmentazione effettuata in base al
profilo psicografico rileva la base informativa mediante questionari compilati dal
rispondente che contengono una serie di domande attitudinali - ad esempio organizzate su una scala di Likert. Le informazioni vengono poi trattate con tecniche
multivariate, come l’analisi dei fattori (cfr. cap. ??), per estrarre i profili latenti.
• Comportamentali: fedeltà di marca, intenzione d’acquisto, attributi richiesti al prodotto. Si parla in proposito di segmentazione in base alle preferenze. Queste possono
presentarsi in tre tipologie fondamentali [3]: omogenee, diffuse e clusterizzate. Le
prime richiedono una strategia indifferenziata - prezzo e disponibilità sono variabili
cruciali - nel secondo caso ci si può collocare nel baricentro al fine di minimizzare
l’insoddisfazione dei consumatori, anche se potrebbe essere opportuno concentrarsi
su una dimensione per creare un segmento di mercato. Nel terzo caso è richiesta
una strategia di marketing differenziata.
Con riferimento al modello di segmentazione, si possono individuare tre tipologie
essenziali: i. segmentazione a priori ii. segmentazione a posteriori iii. segmentazione
flessibile e composita.
Nel primo caso la definizione dei segmenti ed il loro numero sono stabiliti in via
preliminare in base alle conoscenze teoriche e a studi precedenti. Il processo si riduce
all’attribuzione dei soggetti a classi predisposte relative alle basi di segmentazione scelte.
Nel caso di più basi si fa ricorso alla tabulazione incrociata. Si rende necessario un controllo a posteriori della capacità discriminante delle basi scelte mediante test χ2 e modelli
log-lineari. Successivamente alla fase di formazione dei segmenti si possono individuare
i profili sottostanti mediante tecniche multivariate.
Nel secondo il numero e la tipologia dei segmenti non è prefissato, ma emerge dal
raggruppamento degli intervistati mediante tecnica statistica. Si distinguono due casi:
1. viene individuata una variabile dipendente y, collegata alla preferenza o all’uso del
59
prodotto, rispetto alla quale viene valutata l’omogeneità del segmento ottenuto. 2. La
formazione dei segmenti si fonda su una matrice di similarità calcolata sui profili dei
rispondenti che risultano dalla rilevazione di alcuni caratteri inerenti il comportamento
d’acquisto o le loro attitudini verso il prodotto.
Infine, la segmentazione flessibile risulta dalla integrazione dei risultati di un’analisi
congiunta e di una simulazione sul comportamento di scelta dei consumatori. Si prende
cosı̀ in considerazione un numero elevato di ipotetici segmenti alternativi. Questi modelli si differenziano dai precedenti per la possibilità di costruire segmenti definiti in base
alla risposta dei consumatori ad offerte alternative. Effettuata la scelta del segmento, si
procede a valutarne l’ampiezza e le principali caratteristiche.
La base informativa richiesta dall’operazione di segmentazione è tipicamente multivariata. E’ possibile organizzare l’informazione in una matrice le cui righe rappresentano
il consumatore/cliente e le colonne le basi di segmentazione (cfr. sez. 4.5).
4.3
Il posizionamento del prodotto
Il prodotto ha nel marketing una dimensione multivariata poiché è considerato come
una particolare combinazione di attributi nei confronti dei quali il consumatore esercita
determinate preferenze.
La percezione di una marca da parte dell’acquirente (immagine di marca) dipende
essenzialmente dai seguenti elementi:
1. le caratteristiche oggettive del prodotto/marca (servizio elementare offerto, componenti chimico-fisiche, organolettiche, etc.)
2. gli attributi del prodotto/marca (attributi di natura funzionale, percettiva, affettiva,
estetica che danno origine a soddisfazione)
3. il grado di presenza degli attributi
4. il livello di importanza degli attributi e) il valore o utilità parziale degli attributi (tra
gli attributi esiste un naturale trade-off, per cui il consumatore opera un processo di
scelta).
Secondo la tecnica che prende il nome di analisi congiunta, l’aggregazione dei valori
individuali (soggettivi) associati a ciascun attributo consente di pervenire ad una valutazione di sintesi sull’atteggiamento dei consumatori nei confronti del prodotto/marca.
Secondo l’approccio compositivo, si perviene a tale valutazione di sintesi mediante media aritmetica ponderata dei punteggi sul grado di presenza con pesi pari all’importanza
relativa di ciascun attributo. La conoscenza di questa valutazione ha importanza strategica per l’azienda ed orienta le strategie di marketing da adottare, ad es. modificando il
60
prodotto se non incontra il favore del mercato o spostando l’attenzione dei consumatori
su particolari caratteristiche del prodotto mediante un’azione pubblicitaria.
In un mercato fortemente concorrenziale è di particolare importanza che l’azienda
conosca la sua posizione di mercato. Questa coinvolge la segmentazione del mercato e
l’analisi della quota di mercato. Un ulteriore aspetto è la posizione dei prodotti e delle
marche offerti rispetto a quelli della concorrenza cosı̀ come viene percepita dai consumatori. Lo strumento di analisi consiste nella costruzione di mappe di tipo percettivo a partire
da indicazioni sul modo in cui i consumatori sentono simili o dissimili le varie alternative
di prodotto offerte sul mercato.
4.4
Le mappe percettive
Uno dei fondamentali problemi delle ricerche di mercato è analizzare e comprendere
come il consumatore o cliente percepisca il prodotto (inteso in senso ampio, potendosi
trattare di un servizio commerciale, turistico, finanziario, etc.) o la marca. Da tale
conoscenza scaturisce, solitamente, un vantaggio competitivo differenziale.
Ciò implica la conoscenza de: 1. il numero di dimensioni o fattori latenti che il
consumatore utilizza nel discriminare i prodotti o le marche 2. la natura dei fattori latenti
(identificazione) 3. il posizionamento dei prodotti esistenti lungo queste dimensioni 4. la
localizzazione del prodotto ideale lungo le medesime dimensioni.
Le mappe percettive costituiscono rappresentazioni di oggetti, marche, prodotti in
uno spazio dimensionale. Evidenziano quali prodotti sono in diretta competizione nella percezione del consumatore e suggeriscono come posizionare il prodotto al fine di
massimizzare le preferenze e le vendite. Esse pertanto sintetizzano in modo efficace la
struttura del mercato e sono suscettibili di altri impieghi quali l’identificazione dei punti deboli di un prodotto, lo sviluppo e la valutazione della concezione di nuovi prodotti,
l’identificazione delle differenze tra gruppi.
Fondamentalmente, esistono due approcci alla costruzione delle mappe percettive:
1. Approccio basato sugli attributi dei prodotti: fa affidamento sulla valutazione individuale delle singole caratteristiche degli oggetti, utilizzando una scala di Likert
o del differenziale semantico. Tali valutazioni sono poi sottoposte ad una analisi
fattoriale o all’analisi discriminante.
2. Approccio basato su misure di similarità o preferenza: al consumatore viene chiesto
direttamente il giudizio sulla similarità tra oggetti. L’analisi di scaling multidimensionale colloca gli oggetti in uno spazio di dimensioni pari al numero dei fattori
latenti utilizzati nella formazione del giudizio di similarità o preferenza.
Il vantaggio del secondo approccio costituisce anche il suo limite principale: da un lato
non si richiede che il confronto avvenga sulla base di attributi prefissati e quindi consente
che nel collocare gli oggetti il rispondente utilizzi le dimensioni che abitualmente usa
61
nella realtà. Dall’altro risulta problematico individuare quelle dimensioni proprio perché
non si rileva l’attitudine verso determinati attributi.
4.5
La matrice dei dati
Supponiamo di aver misurato, su una scala ad intervallo o di rapporti, p caratteri relativi a
n oggetti (marche, prodotti, individui). Le misurazioni vengono raccolte nella matrice di
dati:


x11 x12 . . . x1k . . . x1p


 x21 x22 . . . x2k . . . x2p 

..
..
..
..
.. 

 ..
 .
.
.
.
.
. 
,

X=

 xi1 xi2 . . . xik . . . xip 
 .
..
..
..
..
.. 
 .
.
.
.
.
. 

 .
xn1 xn2 . . . xnk . . . xnp
il cui termine generico, xik , fornisce la misurazione k-esima per l’unità i. Solitamente,
l’indice i contrassegna un individuo o un prodotto, mentre l’indice j contrassegna un
attributo di i. Tuttavia, in alcuni casi (matrici di dissimilarità e distanza, correlazione)
essi identificano il medesimo insieme di unità.
Se per una qualunque delle variabili la misurazione ha natura nominale a due categorie
(dicotomica), essa viene rappresentata nella matrice dei dati utilizzando la codifica binaria
xik = 1 se un evento si verifica, xik = 0 altrimenti.
Se l’analisi è prevalentemente indirizzata alle unità di riga, possiamo rappresentare la
matrice dei dati come una matrice a blocchi il cui blocco generico è rappresentato da un
vettore 1 × p,
x0i = [xi1 , xi2 , . . . , xik , . . . , xip ],
che contiene il profilo dell’unità di riga:
X = [x1 , x2 , . . . , xi , . . . , xn ]0 .
Viceversa, se l’oggetto dell’analisi sono gli attributi o, in generale, le unità di colonna
denoteremo con xk il vettore colonna n × 1 e
X = [x1 , x2 , . . . , xk , . . . , xp ] .
Il primo obiettivo che ci proponiamo è quello di conseguire delle sintesi che consentano di rappresentare con parsimonia le informazioni più importanti che sono contenute
nella matrice dei dati. Le analisi che effettueremo riguardano essenzialmente: a) le relazioni esistenti tra le unità di riga (oggetti, individui, marche): similarità e distanza; b) le
relazioni esistenti tra le unità di colonna (variabili, caratteristiche, attributi): correlazione;
c) le relazioni che intercorrono tra le unità di riga e quelle di colonna.
62
Con riferimento al punto a), se p è inferiore a 3, è agevole rappresentare graficamente le unità di riga come punti nello spazio euclideo p-dimensionale; inoltre, quando
p > 3, ed il numero delle le unità di riga è sufficientemente contenuto, si può percepire
immediatamente la similarità mediante semplici strumenti grafici tra cui:
• le facce di Chernoff: ciascuna unità di riga viene rappresentata mediante una faccia
costruita in modo da associare ad ognuna dei p attributi un particolare tratto somatico: forma del viso, occhi, naso, sopracciglia, bocca, etc. Un esempio viene fornito
dalla figura 4.1, ottenuta utilizzando la funzione faces( ) del software S-plus a
partire da una matrice contenente la percentuale di individui che concordano con
11 statement relativi ad altrettanti attributi di otto marche di cereali.
• stelle e diamanti; gli attributi delle unità di riga, invece di definire i tratti somatici delle facce, costituiscono la lunghezza di segmenti disposti a raggiera e le cui
estremità sono unite da linee. Il risultato è una successione di figure poliedriche,
ognuna associata ad un oggetto diverso, che consentono di evidenziare visivamente
i diversi gradi di similarità tra i medesimi.
Per quanto concerne il punto b), la sintesi delle informazioni relative alla distribuzione
congiunta delle variabili può essere effettuata attraverso i momenti. Il momento primo (la
media aritmetica semplice) delle p variabili viene raccolto nel vettore
x̄ = [x̄1 , x̄2 , . . . , x̄k , . . . , x̄p ]0 ,
x̄k =
n
1X
xik
n i=1
I momenti secondi (centrati) sono raccolti nella matrice di covarianza S, di dimensione
p × p:






S=





s21 s12
s21 s22
..
..
.
.
sk1 sk2
..
..
.
.
. . . s1k
. . . s2k
..
. ...
. . . s2k
.
. . . ..
sp1 sp2 . . . spk . . .
con
s2k =

. . . s1p

. . . s2p 
..
.. 

.
. 
,
. . . skp 

. . . .. 
. 

s2p
n
n
1X
1X
(xik − x̄k )2 , shk =
(xih − x̄h )(xik − x̄k );
n i=1
n i=1
tale matrice è simmetrica (S = S 0 ) in virtù del fatto che shk = skh , e semidefinita positiva.
La descrizione effettuata a partire dai momenti fino al secondo ordine risulta sufficiente a descrivere il fenomeno solo sotto l’ipotesi di normalità. Altrimenti si dovrebbero
63
Figura 4.1: Facce di Chernoff per il data set cereal.attitude.
corn flakes
shreaded wheat
frosties
weet abix
sugar puffs
all bran
rice krispies
special k
64
Figura 4.2: Grafico a diamante per il data set cereal.attitude
corn flakes
shreaded wheat
frosties
weet abix
sugar puffs
all bran
rice krispies
special k
65
considerare anche i momenti di ordine superiore al secondo. La matrice S può essere
riscritta:
1
1
S = (X − in x̄0 )0 (X − in x̄0 ) = X 0 X − x̄x̄0 ,
n
n
dove in rappresenta un vettore n × 1 di termini tutti unitari; ovvero può essere espressa in
termini dei vettori riga della matrice X:
n
1X
S=
(xi − x̄)(xi − x̄)0 .
n i=1
Poiché la matrice di covarianza S risente dell’unità di misura in cui sono espresse
le variabili, introduciamo la matrice di correlazione R: definendo D = diag{s2k , k =
1, . . . , p},
R = D −1/2 SD −1/2
il generico elemento è il coefficiente di correlazione (lineare) di Bravais tra l’h-esima
variabile e la k-esima variabile:
rhk =
4.6
shk
, |rhk | ≤ 1.
sh sk
Misura della similarità e della distanza
Data una coppia di unità statistiche, i e j, desideriamo confrontare i rispettivi profili,
pervenendo a misure di distanza, dij , e similarità, cij . Dette misure dipendono dalla scala
di misurazione degli attributi.
4.6.1 Similarità e distanza per caratteri quantitativi
Una misura di distanza deve godere delle seguenti proprietà:
1. dij ≥ 0 (non negatività)
2. dii = 0
3. dij = dji (simmetria)
4. dij ≤ dir + drj (diseguaglianza triangolare)
Se una misura di distanza soddisfa tutte le quattro proprietà, si dice che lo spazio di
riferimento è metrico.
66
Distanza euclidea Siano xi e xj due vettori contenenti il profilo di due unità, misurato
su p attributi. La distanza euclidea è definita dalla norma della differenza tra i vettori
rappresentativi delle unità:
0
1/2
dij = ||xi − xj || = [(xi − xj ) (xi − xj )]
=
" p
X
#1/2
2
(xik − xjk )
.
k=1
La distanza euclidea gode delle quattro proprietà elencate sopra ed è definita in uno spazio
uniforme e per cosı̀ dire lineare, dove, euristicamente parlando, ci si può muovere da un
punto all’altro in linea d’aria. Questa misura può essere estesa al fine di pervenire a misure
della distanza dalla connotazione più statistica. In primo luogo si osserva che il contributo
alla distanza complessiva fornito dalle p variabili che definiscono il profilo dipende dalla
scala di misurazione di ciascuna di esse; ad esempio, il numero dei componenti la famiglia
contribuirà di meno rispetto alla spesa per spettacoli nell’ultimo mese espressa in euro.
Inoltre, la distanza euclidea non tiene conto della relazione statistica che intercorre tra le
variabili.
Distanza euclidea ponderata Sia W una matrice diagonale contenente i coefficienti di
ponderazione, W = diag(w1 , . . . , wp ):
0
1/2
dij = [(xi − xj ) W (xi − xj )]
=
" p
X
#1/2
2
(xik − xjk ) wk
.
k=1
La distanza euclidea ponderata è una forma quadratica della matrice W . Può essere
generalizzata al caso in cui W sia una matrice simmetrica piena, la quale tuttavia deve
essere semi definita positiva affinché si abbia dij ≥ 0.
La necessità di ricorrere a tale distanza sorge in due contesti:
• Standardizzazione delle variabili: W = diag(1/s21 , . . . , 1/s2p ); in tale caso la d.e.
ponderata equivale alla distanza euclidea calcolata sui profili standardizzati:
zik =
xik − x̄k
.
sk
L’obiettivo è quello di neutralizzare l’effetto della scala di misurazione delle variabili.
• Distanza di Mahalanobis. La matrice di ponderazione è l’inversa della matrice di
covarianza: W = S −1 . Costituisce una misura statistica della distanza tra le unità,
che viene calcolata al netto della correlazione esistente tra le variabili.
M dij
= [(xi − xj )0 S −1 (xi − xj )]1/2 .
67
Si dimostra facilmente che essa può anche essere calcolata come distanza euclidea
ponderata applicata ai profili standardizzati, con W = R−1 :
M dij
= [(z i − z j )0 R−1 (z i − z j )]1/2 ,
dove z i è il vettore p × 1 che contiene i valori standardizzati
xik − x̄k
zik =
, k = 1, . . . , p.
sk
In notazione matriciale, z i = D −1/2 (xi − x̄). Dal punto di vista computazionale,
mostreremo nel capitolo 6 che la distanza di Mahalanobis coincide con la distanza
euclidea calcolata sulle componenti principali standardizzate.
Esempio
abili:
Consideriamo i profili standardizzati di due unità calcolati su due vari"
z1 =
2
M dij
−1
−1
#
"
, z2 =
1
1
Ã
= (−2 − 2)R
#
,
−2
−2
−1
!
Nel caso in cui le variabili sono incorrelate, R = I 2 , dove I 2 è la matrice identità
di ordine p = 2, la distanza di Mahalanobis coincide con la distanza euclidea:
2
M d12 = 8. In presenza di debole correlazione positiva,
"
R=
1.0 0.2
0.2 1.0
#
,
la distanza di Mahalanobis è più piccola rispetto alla distanza euclidea (M d212 =
6.67); In presenza di forte correlazione positiva,
"
R=
1.0 0.9
0.9 1.0
#
,
la distanza di Mahalanobis diminuisce ulteriormente (M d212 = 4.21). Se infine le
variabili sono fortemente correlate negativamente),
"
R=
1.0 −0.9
−0.9 1.0
#
,
il quadrato della distanza è 10 volte più grande (M d212 = 80).
Si osservi che se le p variabili sono incorrelate e omoschedastiche, che equivale a
dire che presentano la stessa varianza, allora S = s2 I e R = I, dove I è la matrice
identità di ordine p, e la distanza di Mahalanobis risulta uguale a quella standardizzata
ed è proporzionale a quella euclidea semplice (M dij = dij /s); se invece le variabili sono
incorrelate e eteroschedastiche (varianza diversa), ovvero S = diag(s21 , . . . , s2k , . . . , s2p )
e R = I, la distanza di Mahalanobis risulta uguale a quella standardizzata ed entrambe
differiscono dalla distanza euclidea semplice.
68
Distanza di Minkowski
Una famiglia di misure di distanza si ottiene dall’espressione
dij =
" p
X
#1/λ
|xik − xjk |
λ
,
k=1
al variare di λ (λ > 0). Casi particolari:
1. λ = 2 ⇒ distanza euclidea;
2. λ = 1 ⇒ distanza della città a blocchi (o distanza di Manhattan);
3. λ = ∞ ⇒ distanza di Lagrange, dij = maxk {|xik − xjk |}.
4.6.2 Distanza e similarità tra variabili o attributi
Il coefficiente di correlazione di Bravais tra due variabili, rhk , fornisce una misura del
legame associativo di natura lineare tra le medesime. Come è noto, il suo campo di
definizione è rappresentato dall’intervallo [−1, 1]. Al fine di pervenire ad una misura
della distanza basata su rhk si possono utilizzare due definizioni:
dhk = 1 − rhk ,
che assume valori in [0, 2], ovvero,
2
dhk = 1 − rhk
,
che a sua volta varia in [0, 1]. Va osservato che nel primo caso la distanza assume valore
massimo in presenza di una perfetta correlazione negativa tra le variabili, mentre nel secondo si prescinde dal segno della correlazione, e pertanto la distanza è massima in assenza
di correlazione. La scelta tra le due alternative dipende dal contesto e contiene elementi
di arbitrarietà.
Se z h e z k costituiscono due vettori contenenti n realizzazioni delle due variabili (ad
esempio, zik = (xik − x̄k )/sk ), la distanza euclidea,
d2hk = (z h − z k )0 (z h − z k ) = ||z h || + ||z k || − 2z 0h z k = 2n(1 − rhk ),
assume valori in [0, 4n] e adotta una logica prossima alla prima definizione.
4.6.3 Misure di distanza per variabili qualitative dicotomiche
Supponiamo che la matrice X contenga p misurazioni nominali effettuate su n individui;
in particolare, si valuta la presenza (1) o l’assenza (0) di p attributi:
69
Profilo unità i
Profilo unità j
x1
1
1
x2
1
0
x3
0
1
x4
1
1
x5
1
0
x6
0
1
x7
1
1
x8
0
1
x9
0
0
Con riferimento alle due unità, possiamo sintetizzare le due righe della matrice dei dati
mediante la seguente tabella di contingenza:
unità j
unità i
1 0
1 a b
0 c d
dove a rappresenta il numero dei caratteri presenti in entrambe le unità; b il numero dei
caratteri presenti nell’unità j, ma assenti nell’unità i; c il numero dei caratteri presenti
nell’unità i, ma assenti nell’unità j; d il numero dei caratteri assenti in entrambe le unità.
Ovviamente, si avrà:
a + b + c + d = p.
In letteratura sono presenti diversi modi di calcolare la similarità che differiscono
principalmente per il trattamento riservato all’aggregato d.
1. Simple matching: una misura di similarità è fornita dalla frequenza relativa degli
attributi presenti o assenti da entrambe le unità (coefficiente di simple matching):
a+d
cij =
p
In corrispondenza si definisce la misura di distanza:
b+c
dij =
.
p
Nell’esempio precedente: a = 3, b = 2, c = 3, d = 1, per cui, cij = 4/9, dij = 5/9.
√
P
1/2
Si osservi che la distanza euclidea fornisce dij = [ k (xik − xjk )2 ] = b + d.
2. Coefficiente di similarità di Jaccard:
a
a+b+c
A differenza del precedente, esclude dal confronto il numero di attributi che sono
assenti da entrambe le unità. Per contro il coefficiente di distanza sarà,
b+c
dij =
= 1 − cij .
a+b+c
cij =
3. Coefficiente di similarità di Czekanowski:
2a
b+c
cij =
, dij =
2a + b + c
2a + b + c
Assegna peso doppio al numero di attributi presenti in entrambe le unità e peso
nullo agli attributi assenti in entrambe.
70
4.6.4 Similarità e distanza tra attributi dicotomici
Una misura di similarità per attributi dicotomici è fornita dalla statistica χ2 calcolata con
riferimento alla seguente tabella di contingenza:
attributo k
1
0
attributo h
1
0
a
b
c
d
dove a rappresenta il numero delle unità che presentano entrambi gli attributi; b il numero
delle unità che presentano l’attributo k e non l’attributo h; c il numero delle unità che
presentano l’attributo h e non l’attributo k; d il numero delle unità che non presentano
entrambi gli attributi; si noti che
a + b + c + d = n.
χ2hk =
(ad − bc)2 (a + b + c + d)
.
(a + c)(b + d)(a + b)(c + d)
4.6.5 Misura della similarità per variabili qualitative politomiche
Il coefficiente di matching di Sneath misura la similarità cij mediante la frazione o la
percentuale di attributi per i quali gli individui i e j presentano la stessa modalità.
4.6.6 Misura della distanza per misurazioni ordinali
Una soluzione consiste nell’attribuire un punteggio alle categorie ed utilizzare una delle
misure di distanza o similarità introdotte per i caratteri quantitativi. L’operazione contiene
ovvi elementi di arbitrarietà. Altrimenti si potrebbe declassare la misurazione al livello
nominale, applicando il coefficiente di matching di Sneath.
4.6.7 Misura della similarità per dati misti
In generale la matrice X contiene misurazioni effettuate su tutte le scale prese in considerazione. Un giudizio complessivo circa la similarità tra gli oggetti di riga si ottiene
dall’indice di similarità di Gower:
Pp
cij,k
k=1 δij,k
cij = Ppk=1
dove cij,k è una misura di similarità fra le unità i e j calcolata con riferimento al kesimo attributo, mentre δij,k è una variabile nominale che assume valore unitario se le
71
unità possono essere confrontate con riferimento all’attributo k e zero altrimenti. In altre
parole, essa denota l’ammissibilità del confronto.
La definizione di queste quantità varia a seconda della tipologia delle variabili:
• variabili quantitative:
cij,k = 1 − dij,k = 1 −
|xik − xjk |
,
Rk
δij,k = 1
dove Rk rappresenta il campo di variazione (range) della variabile k
• variabili qualitative politomiche: cij,k assume valore unitario se le unità presentano
la stessa modalità e zero altrimenti, mentre δij,k = 1
• variabili qualitative dicotomiche: i valori della similarità e della variabile indicatrice
dell’ammissibilità del confronto si ottengono dalla tabella seguente:
cij,k
Unità j
1
0
Esempio
Unità i
1 0
1 0
0 0
δij,k
Unità j
1
0
Unità i
1 0
1 1
1 0
Confronto tra tre modelli di automobile
Automobile Cilindrata Airbag
i
1000
1
j
1500
0
r
750
0
"
Stereo di serie
1
1
0
Paese di fabbr.
D
I
I
#
|1000 − 1500|
cij = 1 −
+ 0 + 1 + 0 /(1 + 1 + 1 + 1) ≈ 0.33
1500 − 750
#
"
|1500 − 750|
cjr = 1 −
+ 0 + 0 + 1 /(1 + 0 + 1 + 1) ≈ 0.33
1500 − 750
4.7
Calcolo della matrice di distanza in R
Per il calcolo della matrice di distanze in R si impiega la funzione
dist(x, method = "euclidean", diag = FALSE, upper = FALSE)
appartenente alla libreria mva, dove
72
• x rappresenta una matrice di dati o un data frame
• method seleziona la misura di distanza. Le opzioni disponibili sono:la distanza euclidea (euclidean) che costituisce l’opzione di default, la distanza di Lagrange (maximum), della città a blocchi (manhattan), e la distanza di Canberra
P
(canberra), definita dij = h (|xih − yjh |/|xih + yjh |). Per variabili dicotomiche
è disponibile soltanto la distanza di Jaccard (binary).
• diag e upper sono poste uguale a TRUE se si desidera la matrice di distanza
contenga anche i valori nulli sulla diagonale e i valori del triangolo superiore. Per
default il risultato è una matrice triangolare inferiore senza la diagonale principale.
Per la standardizzazione delle variabili originarie è disponibile la funzione
scale(x, center = TRUE, scale = TRUE)
Con riferimento al data set mtcars di R costruiamo la matrice delle distanze euclidee
tra le prime 5 unità sulla base dei primi 7 attributi:
>library(mva)
# accesso alla libreria mva
>data(mtcars)
# accesso al data set mtcars
>help(mtcars)
# descrizione del data set
>x <- mtcars[1:5,1:7] # selezione delle unita’ e delle variabili
>d <- dist(scale(x))
>d
Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive
Mazda RX4 Wag
0.7219648
Datsun 710
2.7264138
2.681264
Hornet 4 Drive
3.4904700
3.014230
3.628464
Hornet Sportabout 4.3906444
4.162526
6.266534
3.814147
> as.matrix.dist(d)
Mazda RX4
Mazda RX4 Wag
Datsun 710
Hornet 4 Drive
Hornet Sportabout
Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive H. Sportabout
0.0000000
0.7219648
2.726414
3.490470 4.390644
0.7219648
0.0000000
2.681264
3.014230 4.162526
2.7264138
2.6812637
0.000000
3.628464 6.266534
3.4904700
3.0142299
3.628464
0.000000 3.814147
4.3906444
4.1625262
6.266534
3.814147 0.000000
Con riferimento al calcolo della distanza per caratteri nominali dicotomici, si consideri
il seguente esempio:
x.i <- c(1,1,0,1,1,0,1,0,0)
x.j <- c(1,0,1,1,0,1,1,1,0)
table(x.j,x.i)
d.jacc <- dist(rbind(x.i,x.j), method="binary")
73
Per il calcolo della matrice di dissimilarità per caratteri misti, basata sull’indice di
Gower, è disponibile la funzione daisy nella libreria cluster.
74
Capitolo 5
Analisi dei grappoli
5.1
Introduzione
Sotto il nome analisi dei grappoli (Cluster Analysis) vengono raccolte un insieme di tecniche statistiche che presentano il comune obiettivo di effettuare raggruppamenti di unità
statistiche in base alla similarità del loro profilo, descritto da un insieme di variabili. I
gruppi risultanti dovrebbero essere caratterizzati da un elevato grado di omogeneità interna e vi dovrebbe essere una altrettanto elevata disomogeneità tra i gruppi. La ragione per
cui si realizza tale operazione può variare: intento classificatorio, riduzione della dimensionalità dei dati, analisi esplorativa, etc. Nel marketing la tecnica trova largo impiego per
la segmentazione a posteriori del mercato.
Un punto preliminare, già discusso nella sezione 4.2 riguarda la selezione delle variabili che definiscono il profilo individuale delle unità: l’inclusione di variabili poco discriminanti o poco rilevanti al fine della caratterizzazione dei gruppi esercita un ruolo
negativo sulla qualità dei risultati.
Effettuate le misurazione sugli individui, va affrontato il problema di scegliere una
misura di (dis)-similarità, secondo le linee discusse nel capitolo precedente. Un problema particolare sorge quando le variabili presentano una scala molto diversa (campo di
variazione ed unità di misura). In generale, l’importanza relativa di ciascuna variabile nella formazione dei grappoli è direttamente collegata alla varianza delle diverse variabili.
Pertanto, variabili caratterizzate da un più elevato grado di dispersione hanno maggiore
impatto sulla misura di distanza (es: attitudine verso un prodotto, età e reddito in lire. Si
andrebbero ad individuare gruppi prevalentemente sulla base delle differenze di reddito).
Un possibile rimedio consiste nella standardizzazione delle variabili, mediante sottrazione della media e divisione per la deviazione standard, o l’impiego di una misura
di distanza ponderata o normalizzata. Un caso particolare è la distanza di Mahalanobis,
che consente di eliminare l’effetto dovuto alla presenza di variabili correlate sulla misura
della dissimilarità.
75
Le n(n − 1)/2 distanze vengono raccolte nella matrice simmetrica:

0 d12 · · · · · ·

0


...

D=



..
.
d1n
d2n
..
.








dn−1,n 
(5.1)
0
5.2
Metodi di raggruppamento delle unità
I metodi di raggruppamento si distinguono in gerarchici e partitivi (o non gerarchici); dal
momento che soltanto i primi seguono una sequenza ordinata di operazioni della stessa
natura. I secondi richiedono che il numero dei gruppi sia determinato a priori e forniscono
un’unica partizione come risultato finale. I metodi gerarchici sono ulteriormente distinti
in
1. agglomerativi: procedono per aggregazioni successive delle unità partendo da n
gruppi formati da un solo individuo.
2. divisivi: partono da un solo gruppo formato da tutte le unità e procedono a partizioni
successive fino a giungere a gruppi formati da una sola unità.
5.3
Metodi gerarchici agglomerativi
La struttura logica dei metodi agglomerativi può essere cosı̀ sintetizzata:
1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra
i gruppi è fornita dalla matrice D.
2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene
la fusione viene registrata.
3. Si calcola la distanza tra il nuovo gruppo, sorto dalla fusione di cui al punto precedente, e i gruppi gi à esistenti. Si eliminano 2 righe e colonne dalla matrice D in
corrispondenza dei gruppi fusi e vengono rimpiazzate da una singola riga e colonna
che contengono le nuove distanze. La dimensione della matrice D si riduce di una
unità.
4. Vengono ripetuti i passi 2 e 3 finchè non si giunge ad una configurazione in cui esiste
un solo gruppo (ciò richiede (n − 1) iterazioni). Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta sull’asse orizzontale il
livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le unità.
Ad ogni livello di distanza corrisponde una partizione.
76
I metodi proposti differiscono per le modalità di calcolo della distanza tra gruppi al
punto 3. Lo strumento grafico che consente di sintetizzare il processo di fusione è il
dendrogramma, dal quale è anche possibile apprezzare quanto un gruppo sia separato
dagli altri. Il rapporto tra il livello di distanza a cui un gruppo viene formato e quello a cui
si fonde con un altro può essere utilizzato al fine di individuare il numero dei grappoli,
poiché è tanto più elevato quanto più il grappolo è delimitato e separato dai rimanenti.
5.3.1 Il metodo del legame singolo (nearest neighbour)
La distanza tra gruppi è misurata dalla distanza più piccola esistente tra gli elementi
appartenenti ad un gruppo e quelli appartenenti ad un altro.
A titolo illustrativo consideriamo 5 oggetti A, B, C, D, E, la cui matrice di distanze è:
(A)
(A)
0


(B)  2
(C) 
 6
(D) 
 10
(E)
9

(B) (C) (D)
0
5
9
8
0
4
5
(E)
0
3








(5.2)
0
la coppia di unità che presenta distanza minima è (AB); le medesime sono unite in un
gruppo. Si deve ora determinare la distanza tra il gruppo appena formato e le rimanenti
unità; questa sarà fornita dalla più piccola delle distanze con le unità compoenenti il
gruppo (ad esempio, la distanza tra (AB) e (C) è uguale al minore tra 6 e 5).
(AB) (C) (D) (E)

(AB)
0



(C) 
0

 5


(D)  9
4
0

3
0
(E)
8
5

A questo punto le unità (D) e (E) vengono fuse nel gruppo (DE) e si ottiene la nuova
matrice di distanze:
(AB) (C) (DE)


(AB)
0

(C) 
0

 5
4
0
(DE)
8
Vengono fusi i gruppi (C) e (DE), che presentano distanza minima (4), ottenendosi
(AB)
(CDE)
Ã
(AB) (CDE)
!
0
5
0
77
L’ultima iterazione aggrega i due gruppi in un unico gruppo contenente tutte le unità. La
sequenza delle fusioni è pertanto rappresentata nella tabella seguente:
Iterazione
0
1
2
3
4
Gruppi
Livello di distanza
(A)(B)(C)(D)(E)
(AB)(C)(D)(E)
2
(AB)(C)(DE)
3
(AB)(CDE)
4
(ABCDE)
5
Il dendrogramma corrispondente è presentato nella figura 5.1, nel riquadro in alto a
sinistra.
Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente
dei grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene
facendo riferimento ad un solo legame. Quando esistono grappoli ben delineati, ma non
separati, il concatenamento potrebbe indurre a considerare un unico grappolo. Tuttavia
il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali
valori anomali meglio di altre tecniche.
5.3.2 Metodo del legame completo (furthest neighbour)
In base a questo metodo la distanza tra i gruppi è definita come la massima distanza
esistente tra gli individui componenti. Questa rappresenta il diametro della sfera che
contiene tutti i punti appartenenti ai due gruppi. Con riferimento all’esempio precedente,
il primo passo, basato sulla matrice originaria delle distanze (5.2), è identico e porta alla
formazione del grappolo (AB). Le differenze sorgono ora con riferimento al calcolo della
distanza tra (AB) e le altre unità. Ad esempio, quella tra (AB) e (C) sarà fornita dal più
grande tra i valori dAC = 6 e dBC = 5.
(AB) (C) (D) (E)

(AB)
0



(C) 
0
 6



(D)  10
4
0

(E)
9
5
3
0

Nuovamente, le unità (D) e (E) vengono fuse nel gruppo (DE) e si perviene a:
(AB) (C) (DE)

(AB)
0

(C) 
0

 6
5
0
(DE)
10

78
Si fondono ora i gruppi (C) e (DE), che presentano distanza minima (5),
(AB)
(CDE)
Ã
(AB) (CDE)
!
0
10
0
L’ultima iterazione aggrega i due gruppi in un unico gruppo contenente tutte le unità. Si
noti che i cluster non cambiano rispetto al caso precendente, ma variano i livelli di distanza
a cui vengono effettuate le aggregazioni; in particolare, risulta più accentuato il salto nel
livello di distanza al quale avviene l’ultima fusione. Il dendrogramma corrispondente è
presentato nella figura 5.1, nel riquadro in alto a destra.
5.3.3 Metodo del legame medio (average linkage)
La distanza tra gruppi è calcolata come media aritmetica semplice delle distanze tra tutte
le unità che compongono i due gruppi. Con riferimento a (5.2) la distanza tra il gruppo
(AB) e (C) è la media aritmetica semplice tra i valori dAC = 6 e dBC = 5, e pertanto alla
prima iterazione:
(AB) (C) (D) (E)


(AB)
0



(C) 
0
 5.5



(D)  9.5
4
0

3
0
(E)
8.5
5
Le iterazioni successive forniscono:
(AB)
(AB)
0
(C) 
 5.5
(DE)
9
(C)

(AB)
(CDE)
Ã
(DE)


0
4.5
(AB)
0
7.25

0
(CDE)
!
0
Si osservi che la fusione dei gruppi avviene a livelli di distanza intermedi tra quelli che
caratterizzano i due metodi precedenti. Il dendrogramma corrispondente è presentato
nella figura 5.1, nel riquadro in basso a sinistra.
5.3.4 Metodo del centroide
La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati
sugli individui appartenenti ai gruppi. Tale metodo richiede quindi la matrice dei dati
79
Figura 5.1: Analisi dei grappoli: dendrogramma per quattro metodi gerarchici
Legame completo
E
D
C
B
A
E
D
C
B
A
2
2.0
6
4.0
10
Legame singolo
E
D
C
B
A
2
4
6
8
Legame medio
originaria, X. Dà luogo a fenomeni gravitazionali, per cui i gruppi grandi tendono ad
attrarre al loro interno i gruppi piccoli. Inoltre le distanze a cui avviene le successive
fusioni possono essere non crescenti.
5.3.5
Metodo di Ward
Si fonda sulla scomposizione della devianza totale in devianza tra i grappoli e varianza
entro i grappoli. Ad ogni passo l’unione di tutte le possibili coppie di cluster è considerata
e viene fusa la coppia per cui la varianza entro i gruppi è minima. Tende a produrre cluster
che hanno pressappoco lo stesso numero (limitato) di osservazioni.
80
5.3.6 L’analisi gerarchica in R
L’analisi gerarchica viene effettuata mediante la funzione
hclust(d, method = "complete")
che ha come input la matrice di distanze; i metodi disponibili sono quello del legame
singolo (single), del legame completo (complete), del legame medio (average), e
altri metodi.
Output della funzione hclust:
• $merge: sequenza del processo di fusione,
• $height: vettore che indica il livello di distanza attraverso il quale è avvenuta la
fusione, la cui lunghezza equivale al numero di iterazioni,
• $order: opportuna permutazione delle unità finalizzata alla costruzione del dendrogramma.
• $labels: l’etichetta che contrassegna le unità
Il dendrogramma è fornito dalla funzione
plot.hclust(hclust.obj, labels, hang = 0.1, ...)
Al fine di scegliere la partizione del dendrogramma, si può utilizzare il vettore $height
generato dalla funzione hclust, calcolando le grandezze
dk
, k = 1, 2, ..., m
dk−1
dove dk rappresenta il livello di distanza a cui è stata effettuata la fusione al passo k
e m il numero di iterazioni effettuate. Il rapporto risulta utile nella scelta del numero
dei grappoli. Quando esso risulta sufficientemente elevato, significa che i gruppi sono
sufficientemente dissimili tra di loro, per cui è possibile tagliare il dendrogramma a livello
di distanza corrispondente.
Presentiamo ora una applicazione con riferimento al data set mtcars, considerato
nel capitolo precedente e contenente 13 misurazioni di diversi aspetti tecnici e attinenti la
performance riferite a 32 autoveicoli (maggiori dettagli possono essere ottenuti invocando
help(mtcars).
>library(mva)
>data(mtcars)
>help(mtcars)
>x <- scale(mtcars[,1:7])
>d <- dist(x)
81
>lc <- hclust(d,method="complete")
>lc
$merge
[,1] [,2]
[1,] -15 -16
[2,] -12 -13
[3,]
-1
-2
[4,] -10 -11
...
..
..
...
..
..
...
..
..
[30,]
27
29
[31,]
28
30
$height
[1] 0.2956825
[8] 0.7595603
[15] 1.2631917
[22] 1.9934625
[29] 4.2649123
0.3944266
0.7827694
1.3181107
2.1075394
5.3291587
0.4075899
0.9936969
1.4032977
2.5210420
7.7221893
$order
[1] 29 31 7 24 17 15 16
[26] 2 27 28 19 26 18 20
0.4082884
1.0428738
1.4721123
2.7226786
0.4901305
1.0554323
1.6199219
2.9221444
0.5475333
1.0566522
1.6809662
3.1529877
5 25 14 12 13 22 23 4 6 9 10 11 3 32 8 21 30 1
>ls <- hclust(d,method="single")
>plot.hclust(lc,-1)
I rapporti dk /dk−1 , k = 1, 2, . . . , n − 1, segnalano un salto in corrispondenza dell’ultima aggregazione (dn−1 /dn−2 = 1.45); questa evidenza potrebbe essere presa a supporto
della individuazione di 2 grappoli di unità. Per esercizio si confronti la soluzione del
legame completo con il legame singolo, il quale non supporta una ripartizione in due
gruppi.
5.4
0.5757917
1.0635310
1.8220229
4.0778628
Metodi gerarchici divisivi
Nei metodi gerarchici divisivi la configurazione iniziale prevede che tutte le unità siano
raggruppate in un unico cluster. Al primo passo l’insieme di n unità viene suddiviso in
due gruppi: dal momento che esistono 2n−1 − 1 possibili soluzioni, si pone un problema
computazionale ed occorre imporre delle restrizioni per avere una soluzione praticabile.
Nei metodi cosiddetti nodali, si procede alla scelta delle due unità più distanti come nodi
o fuochi e tutte le altre unità vengono allocate ai due gruppi in ragione della loro vicinanza
82
Ford Pantera L
Maserati Bora
Duster 360
Camaro Z28
Chrysler Imperial
Cadillac Fleetwood
Lincoln Continental
Hornet Sportabout
Pontiac Firebird
Merc 450SLC
Merc 450SE
Merc 450SL
Dodge Challenger
AMC Javelin
Hornet 4 Drive
Valiant
Merc 230
Merc 280
Merc 280C
Datsun 710
Volvo 142E
Merc 240D
Toyota Corona
Ferrari Dino
Mazda RX4
Mazda RX4 Wag
Porsche 914−2
Lotus Europa
Honda Civic
Fiat X1−9
Fiat 128
Toyota Corolla
0
2
4
6
8
Figura 5.2: Analisi dei grappoli: metodo del legame completo per il data set mtcars
83
rispetto ai nodi. Successivamente vengono suddivisi i due grappoli con lo stesso criterio
e si continua il processo finché ciascuna unità costituisce un gruppo a parte. L’algoritmo,
che consiste di n − 1 divisioni successive, può essere cosı̀ descritto:
1. si individua una coppia di punti nodali, (punti che presentano distanza massima);
2. si attribuiscono le unità rimanenti ai due gruppi corrispondenti ai punti nodali, in
base alla distanza minima dai punti nodali;
3. si iterano i passi precedenti (all’interno dei nuovi gruppi si individuano due punti
nodali, etc.) finché si avranno n gruppi.
Con riferimento all’esempio numerico precedente, si ha che i punti che distano maggiormente sono A e D (dAD = 10). Pertanto si otterrà la prima partizione [(AB), (CDE)].
Le matrici di distanze tra gli elementi dei due gruppi sono
A
Ã
A 0
B 2
B
C
C 0
D
 4
E 5

!
,
D
0
3
E



0
Alla seconda iterazione, le unità A e B vanno a costituire due gruppi separati e C ed E
vengono scelti come punti nodali. Si ottiene la seconda partizione: A,B,C, (DE). Alla
terza ed ultima iterazione, ciascuna unità costituisce un gruppo a se stante.
5.5
Metodi non gerarchici
Richiedono che il numero dei cluster sia specificato a priori e generalmente forniscono
una sola partizione come output. Il metodo più popolare, dovuto a Hartigan e Wong [10],
prende il nome di k-means e consiste nello specificare k punti iniziali, o seeds (scegliendo in maniera opportuna alcune unità o prendendo la configurazione determinata da una
tecnica gerarchica). Al primo passo ciascuna unità è assegnata ai k punti in ragione della
distanza più piccola. Viene calcolata la media o il centroide per ciascuno dei k gruppi
e si verifica che ciascuna unità sia assegnata al grappolo che ha il centroide più vicino.
Se questo non si verifica si procede a spostare l’unità presso il grappolo che ha il centroide più vicino e si controlla la nuova soluzione, per cui si procede iterativamente a
spostamenti successivi fino a raggiungere una configurazione stabile.
Alternativamente si puo utilizzare per la riallocazione delle unità il criterio di minimizzare la varianza entro i gruppi. La configurazione finale e la velocità di convergenza
dell’algoritmo dipendono dalla scelta dei seeds, per cui, se non si hanno informazioni a
priori sufficientemente affidabili, è consigliabile applicare l’algoritmo con valori iniziali
diversi, e controllare la stabilità della soluzione ottenuta. Questa si rivelerà molto instabile
quando la popolazione di riferimento è omogenea e non ammette partizioni.
84
5.5.1 Il metodo PAM
L’algoritmo PAM (Partitioning around Medoids), proposto da [11] si fonda sulla ricerca
di k punti rappresentativi, detti medoidi, tra quelli osservati; le restanti unità sono allocate
ai medoidi in ragione della distanza più piccola. La media delle distanze dal medoide più
vicino misura la bontà della soluzione ottenuta. L’obiettivo finale è quello di giungere ad
una partizione che minimizza la somma delle distanze entro i gruppi.
La fase di identificazione preliminare dei medoidi (detta BUILD) parte dalla selezione
dell’unità per la quale risulta minima la somma delle distanze o dissimilarità da tutte le
altre unità. I rimanenti k − 1 punti sono individuati mediante la seguente procedura: per
j = 2, . . . , k
1. si denoti con Sj il set dei medoidi selezionati al passo j; per ogni unità i ∈
/ Sj :
2. per ogni punto l 6= i e ∈
/ Sj si calcolano la distanza più piccola dai punti in Sj , che
denotiamo Dl , la distanza da i, dil e Cil = max{Dl − dil , 0}.
3. Si seleziona l’unità che massimizza la somma
X
Cil
l∈S
/ j ,l6=i
La procedura mira a garantire che il medoide candidato disti il più possibile da quelli
già scelti. Contribuiscono alla funzione criterio i punti vicini a quello candidato, come
implica l’operazione di massimo che definisce Cil .
La seconda fase, detta SWAP, mira a migliorare la configurazione preliminare. Si
considerano le k × (n − k) coppie (i, h), i ∈ Sk , h ∈
/ Sk , formate da un medoide selezionato nella fase build e tutte le restanti; si cercano di valutare le conseguenze di un
rovesciamento di ruoli, uno swap, tra le unità in Sk e quelle esterne.
Per ogni unità j diversa da quelle candidate per lo swap, i e h, si denoti con Dj la
distanza dal punto in Sk più vicino, Dj = minl∈Sk (dlj )
(ih)
si definisce il contributo allo scambio dell’unità i con h, Cj , nella maniera seguente:
(ih)
i. se min(dij , dhj ) > minr∈Sk ,r6=i (drj ), Cj = 0 (il contributo è nullo se j è sufficientemente remoto dai candidati; dal punto di vista di j è indifferente lo scambio dei
candidati, dal momento che fa riferimento ad un altro punto rappresentativo);
ii. se dij = Dj = minr∈Sk (drj ) (il punto j già appartiene al cluster del candidato i),
possono sussistere due casi:
(ih)
ii.1. se inoltre dhj < minr∈Sk ,r6=i (drj ), Cj = dhj − dij (si osservi che se j si trova
tra h e j il contributo risulta negativo),
(ih)
ii.2. altrimenti Cj = minr∈Sk ,r6=i (drj )−Dj (il contributo risulta sempre positivo,
sfavorevole allo scambio di i con j, poiché Dj < minr∈Sk ,r6=i (drj ))
85
(ih)
iii. se dij > Dj = minr∈Sk (drj ), Cj = dhj − Dj (in questo caso il punto j contribuisce
negativamente - è favorevole - allo scambio di i con h)
P
(ih)
Si denoti ora con T (ih) = j Cj , il contributo di tutti i punti diversi da i e h allo
scambio tra i due candidati; si seleziona la coppia (i, h) per quale T (ih) risulta minimo.
Se T (ih) < 0 si effettua lo scambio e la procedura ripetuta fino a quando T (ih) ≥ 0
5.5.2 Esempio
L’analisi dei grappoli non gerarchica con metodo k-means in R si effettua mediante la
funzione
kmeans(x, centers, iter.max=10)
dove i valori iniziali (centers) possono essere derivati preliminarmente attraverso una
tecnica gerarchica, ovvero possono essere determinati vengono determinati casualmente
dal programma, nel qual caso centers è posto pari al numero desiderato di gruppi.
L’output della funzione comprende:
• km$cluster: vettore di allocazione delle unit à,
• km$center: matrice dei centroidi,
• km$withinss: varianze entro i gruppi
• km$size: dimensione dei gruppi.
Ad esempio, con riferimento al data set mtcars si utilizza la partizione ottenuta
dall’analisi gerarchica con il metodo del legame completo, con l’individuazione di tre
gruppi.
>initial <- tapply(x,list(rep(cutree(lc,3),ncol(x)),col(x)),mean)
>km <- kmeans(x,initial,100)
>km
$cluster
[1] 2 2 2 2 3 2 3 2 2 2 2 3 3 3 3 3 3 1 1 1 2 3 3 3 3 1 1 1 3 2 3 2
$centers
mpg
cyl
disp
hp
drat
wt
qsec
1 1.6552394 -1.2248578 -1.1624447 -1.0382807 1.2252295 -1.3738462 0.3075550
2 0.1384407 -0.5716003 -0.5707543 -0.5448163 0.1887816 -0.2454544 0.5491221
3 -0.8280518 1.0148821 0.9874085 0.9119628 -0.6869112 0.7991807 -0.6024854
$withinss
[1] 7.76019 28.61309 33.37849
$size
[1] 6 12 14
86
La funzione cutree taglia il dendrogramma in relazione al numero dei gruppi indicato in argomento e fornisce tutte le informazioni necessarie per allocare le unità ai
gruppi. Di
Va osservato, comunque, che l’analisi gerarchica, effettuata con il metodo del legame
completo, non supportava la divisione in tre gruppi; in effetti, se ripetiamo l’applicazione
partendo da diversi punti iniziali, utilizzando, ad esempio,
>km <- kmeans(x,3,100)
l’algoritmo k-means converge ad una soluzione diversa; questo potrebbe essere interpretato come il riflesso dell’assenza di una partizione naturale in tre gruppi. Ripetendo
l’esercizio specificando soltanto due gruppi, si ha l’interessante risultato che, indipendentemente dalla scelta dei punti iniziali, l’algoritmo converge alla soluzione:
> kmeans(x,2,100)
$cluster
[1] 2 2 2 2 1 2 1 2 2 2 2 1 1 1 1 1 1 2 2 2 2 1 1 1 1 2 2 2 1 2 1 2
$centers
mpg
cyl
disp
hp
drat
wt
qsec
1 -0.8280518 1.0148821 0.9874085 0.9119628 -0.6869112 0.7991807 -0.6024854
2 0.6440403 -0.7893528 -0.7679844 -0.7093044 0.5342642 -0.6215850 0.4685997
$withinss
[1] 33.37849 59.28078
$size
[1] 14 18
Lasciando al lettore il confronto con la soluzione gerarchica, si rileva che l’interpretazione dei risultati e la caratterizzazione dei grappoli va effettuata guardando ai centroidi
dei due gruppi, i quali possono evidenziare i diversi profili dei gruppi; ad esempio, il
secondo gruppo contiene gli autoveicoli con minore consumo (il numero di miglia per
gallone, mpg, è più elevato), con caratteristiche dimensionali presenti in minore misura
(peso, wt, cavalli motore, hp) e con prestazioni inferiori (il tempo richiesto a percorrere
1/4 di un miglio, qsec, è più elevato). La somma dei quadrati all’interno dei gruppi
withinss dipende dall’omogeneità interna e dalla numerosità del gruppo.
5.6
Discussione
I metodi gerarchici presentano un evidente vantaggio dal punto di vista computazionale;
tuttavia risultano maggiormente sensibili agli outlier e non consentono di falsificare la
configurazione raggiunta: una volta che un’unità è stata attribuita ad un gruppo permane
al suo interno per sempre. I metodi non gerarchici non soffrono di questo problema, ma
richiedono l’opportuna scelta dei seed.
87
E’ buona norma applicare una pluralità di metodi per verificare la stabilità dei gruppi:
si applica una analisi gerarchica prima per identificare il numero dei gruppi e gli eventuali
outlier; si applica poi una tecnica non gerarchica per consentire di modificare la configurazione raggiunta. La determinazione del numero dei cluster può avvenire sulla base
dell’informazione a priori o della distanza alla quale avviene l’aggregazione.
Con riferimento all’interpretazione dei raggruppamenti effettuati, il risultato finale
dell’analisi dei grappoli è un elenco di unità catalogate a seconda del cluster di appartenenza; al fine di interpretare la configurazione raggiunta si rende necessario tornare alla
matrice dei dati di partenza e costruire il profilo medio del gruppo.
88
Capitolo 6
Analisi delle componenti principali
6.1
Introduzione
Si consideri la situazione prospettata nel grafico 6.1, che rappresenta le coppie dei valori
standardizzati del reddito e del consumo pro-capite dei 92 comuni della regione Umbria, stimati con riferimento all’anno 1994 (cfr. [12]). La concentrazione dei punti
lungo una direzione principale ben definita indica che le due variabili presentano una
correlazione lineare molto elevata e di segno positivo. Supponiamo, a puro titolo illustrativo, di voler pervenire ad un indicatore sintetico che rappresenti il livello delle
due grandezze economiche e che minimizzi la perdita di informazione conseguente a
tale sintesi. Desideriamo, inoltre, che tale indicatore sia una combinazione lineare delle
misurazioni originarie.
Dal punto di vista geometrico ciò equivale a determinare un sottospazio di dimensione
unitaria (una retta nel piano) lungo il quale i punti siano proiettati in modo tale da rappresentare con la massima risoluzione possibile, entro determinati vincoli, le differenze
esistenti tra le unità.
L’analisi delle componenti principali, la cui logica verrà esposta nel presente capitolo,
consente di determinare l’indicatore richiesto come
Indicatore = 0.71 · Reddito + 0.71 · Consumo,
il quale, pertanto, non differisce dalla somma semplice o dalla media aritmetica semplice delle variabili originarie, se non per un fattore di scala. Il sottospazio generato dalla
combinazione lineare è individuato nel grafico dal vettore che si muove nella direzione
principale; i punteggi dei comuni con riferimento all’indicatore sono ottenibili proiettando
ortogonalmente i punti rappresentativi delle unità lungo questa direzione, la quale, come
risulterà dalla trattazione successiva, massimizza la varianza delle proiezioni (si può stabilire formalmente che la nostra combinazione lineare spiega una quota pari al 98% della
varianza totale delle misurazioni originarie).
89
0
−2
Consumi
2
4
Figura 6.1: Reddito e consumo pro-capite (standardizzati) dei 92 comuni umbri.
−2
0
2
4
Redditi
La parte dell’informazione di partenza che viene perduta mediante tale sintesi viene
misurata dalla proiezione lungo la direzione ortogonale rispetto a quella principale. Essa
risulta quantificabile come segue:
Residuo = 0.71 · Reddito − 0.71 · Consumo.
Si osservi che dalla conoscenza dell’indicatore e del residuo possiamo ricostruire (a meno
di un fattore di scala) l’informazione di partenza: aggiungendo e sottraendo il residuo dall’indicatore si ottengono grandezze proporzionali rispettivamente al reddito e al
consumo.
In generale, l’analisi delle componenti principali mira a conseguire una riduzione della
dimensionalità dell’informazione in presenza di un insieme di variabili fortemente correlate, mediante la definizione di un set di combinazioni lineari delle misurazioni originarie,
tra loro incorrelate, ed ordinate in modo tale che la prima componente sintetizza la quota
massima possibile della variabilità totale.
Sia xi un vettore contenente p misurazioni sull’unità i, i = 1, . . . , n, e supponiamo
che le misurazioni siano centrate, ovvero
x̄ =
n
1X
xi = 0.
n i=1
90
La matrice di covarianza delle p misurazioni è
n
1X
S=
xi x0i .
n i=1
Dato un vettore a uscente dall’origine e di lunghezza unitaria, ||a|| = 1, denotiamo con x∗i la proiezione ortogonale lungo a. Pertanto, applicando la regola del parallelogramma, è possibile individuare un vettore r i , ortogonale a x∗i (r 0i x∗i = 0) tale
che:
xi = x∗i + r i
(6.1)
In virtù dell’ortogonalità, vale la seguente eguaglianza:
||xi ||2 = ||x∗i ||2 + ||r i ||2 ,
come è agevole verificare moltiplicando entrambi i membri della (6.1) per x0i . Scrivendo,
inoltre,
x∗i = yi a,
si ha che yi rappresenta la coordinata dell’unità i nel sottospazio di proiezione e può essere
espressa nei termini del prodotto scalare:
yi =
x0i a
= x0i a,
||a||2
i = 1, . . . , n.
Si noti che le nuove coordinate sono centrate attorno allo zero:
µ
ȳ =
¶
1X 0
1X
yi =
xi a = 0.
n
n
Ci poniamo ora il problema di determinare il sottospazio di dimensione unitaria in
modo tale che la somma dei quadrati degli scarti perpendicolari tra valori osservati (xi ) e
la loro proiezione (x∗i ) sia minima:
min
( n
X
)
||r i ||
2
= min
i=1
( n
X
)
r 0i r i
.
i=1
Ciò equivale a massimizzare la dispersione (varianza) delle proiezioni yi :
min
( n
X
i=1
)
||r i ||
2
= min
( n
X
2
||xi || −
i=1
n
X
)
||x∗i ||2
= max
i=1
( n
X
)
||yi a||
2
i=1
In considerazione della normalizzazione ||a|| = 1, occorre individuare a in modo da
massimizzare la varianza
n
n
1X
1X
2
yi =
a0 xi x0i a = a0 Sa.
n i=1
n i=1
91
6.2
Determinazione delle componenti principali
Nella sezione precedente siamo giunti alla conclusione che al fine di determinare il sottospazio di proiezione occorre risolvere il problema di massimo vincolato:
max{a0 Sa}
s.v. a0 a = 1,
(6.2)
che equivale ad individuare il massimo del lagrangiano
φ(a, λ) = a0 Sa − λ(a0 a − 1).
Le condizioni del primo ordine (ottenute eguagliando a zero il vettore delle derivate
parziali rispetto alle incognite) forniscono:
∂φ
= 2Sa − 2λa = 0
∂a
∂φ
= a0 a − 1 = 0,
∂λ
e danno pertanto luogo al sistema omogeneo di p equazioni in p + 1 incognite
(S − λI)a = 0
dove a soddisfa il vincolo di normalizzazione a0 a = 1. Il problema coincide pertanto
con quello di determinare gli autovalori e gli autovettori della matrice di covarianza, S.
In particolare, λ è l’autovalore più grande della matrice S, la quale, peraltro, risultando
semidefinita positiva, avrà p autovalori non negativi, mentre a rappresenta l’autovettore
corrispondente all’autovalore massimo (normalizzato in modo da avere a0 a = 1.
La variabile di coordinate yi = x0i a viene detta componente principale ed è determinata in modo da estrarre la quota massima di varianza dalle misurazioni originarie. In
termini matriciali, denotando con y il vettore n × 1 contenente i valori della componente
principale per le n unità (yi ),
y = Xa
Si noti che Sa = λa implica che la varianza di detta componente è pari λ; infatti
Var(y) = a0 Sa = λa0 a = λ.
6.3
Autovalori e autovettori
Data la matrice S, quadrata di dimensione p e simmetrica, consideriamo il problema di
determinare uno scalare λ e un vettore a che soddisfano il sistema di equazioni:
Sa = λa
92
Si noti che il problema è indeterminato, dal momento che le incognite sono p + 1: gli
elementi del vettore a e lo scalare λ. Quest’ultimo è detto autovalore o valore caratteristico (latente) della matrice S, mentre a è denominato autovettore o vettore caratteristico (latente). A tale indeterminatezza si pone rimedio imponendo il vincolo di
normalizzazione
a0 a = 1,
mediante il quale si richiede che l’autovettore abbia lunghezza unitaria.
Riscrivendo il sistema nella forma:
(S − λI)a = 0,
si evidenzia che, per dato λ, il sistema è omogeneo ed ammette una soluzione non banale
(a 6= 0) se e solo se
|S − λI| = 0.
Questa condizione fornisce un’equazione in λ di grado p, detta equazione caratteristica, che sarà appunto utilizzata per determinare λ. Sostituendo a turno ciascuna delle p
soluzioni in (S − λI)a = 0, denotate λ1 , . . . , λp , si determinano in corrispondenza gli
autovettori ah , h = 1, . . . , p, risolvendo il sistema omogeneo di p equazioni in p incognite.
Ora, è possibile dimostrare che:
1. Gli autovalori di una matrice simmetrica sono reali (nel caso generale possono
essere complessi); questi possono essere distinti o presentarsi ripetuti più volte
(molteplicità)
2. Gli autovettori corrispondenti ad autovalori distinti sono ortogonali: siano ah e ak
due autovettori corrispondenti alle radici λh e λk 6= λh ; allora, a0h ak = 0. Inoltre, se un autovalore ha molteplicità m, esistono in corrispondenza m autovettori
ortogonali.
3. La proprietà precedente abbinata al vincolo di normalizzazione (a0 a = 1) implica
che gli autovettori di una matrice simmetrica costituiscono un insieme ortonormale:
(
a0h ak
=
1 h=k
0 h=
6 k
Raccogliendo i p autovettori nella matrice A = [a1 , . . . , ap ], si ha A0 A = I e
AA0 = I, ovvero A è una matrice ortogonale (l’inversa e la trasposta coincidono).
6.3.1 Scomposizione spettrale di una matrice
I p sistemi Sah = λh ah , h = 1, . . . , p, possono essere raccolti in
SA = AL,
93
dove L = diag(λ1 , . . . , λp ). Premoltiplicando entrambi i membri per A0 , si ottiene
A0 SA = L,
da cui l’affermazione che la matrice degli autovettori diagonalizza S.
Premoltiplicando l’espressione precedente per A e postmoltiplicando per A0 , si consegue la scomposizione spettrale della matrice (simmetrica) S:
p
X
0
S = ALA =
λh ah a0h
h=1
Si noti che il rango di A è pieno (dal momento che A0 A = I), e questo implica che
rank(S) = rank(L)
Pertanto, il rango di una matrice simmetrica è pari al numero di autovalori non nulli. Se
una matrice ha uno o più autovalori nulli, allora si ha Sa = 0 il che implica che la matrice
è singolare (rango ridotto).
Inoltre, è immediato mostrare che il determinante di una matrice è uguale al il prodotto
degli autovalori:
|S| = |ALA0 | = |A0 | |L| |A| = |A0 A| |L| = |L| =
p
Y
λh ,
h=1
mentre la traccia è pari alla somma degli autovalori:
p
X
tr(S) =
λh
h=1
6.3.2 Esempi illustrativi
Supponiamo di disporre di due variabili standardizzate caratterizzate dalla matrice di
covarianza (correlazione):
"
#
1 .8
S=
.
.8 1
Al fine di determinare gli autovalori si risolve l’equazione caratteristica:
|S − λI| = λ2 − 2λ + 0.36 = 0,
che fornisce un’equazione di secondo grado, le cui soluzioni sono λ1 = 1.8 e λ2 = 0.2.
L’autovettore a1 = [a11 , a21 ]0 viene ottenuto a soluzione del sistema omogeneo di due
equazioni:
"
#
"
#"
#
−.8
.8
0
a11
(S − 1.8I)a1 =
=
,
.8 −.8
a21
0
94
per il quale, a11 = a21 , ovvero, a1 = a21 i2 . Si osservi che l’autovettore è determinato
a meno di un fattore scalare e che è proporzionale ad un vettore unitario. Al fine di
determinare una unica soluzione entra in gioco il vincolo di √
normalizzazione, a01 a1 =
a211 √
+ a221 = 1, da cui consegue 2a221 = 1, ovvero, a21 = 1/ 2. In conclusione, a1 =
(1/ 2)i = [.71, .71]0 (si noti la similarità con l’esempio riferito ai redditi ed ai consumi
riportato nella prima sezione di questo capitolo).
Analogamente, si determina il secondo autovettore in corrispondenza dell’autovalore
λ2 = .2:
"
#
1
1
a2 = √
.
2 −1
La scomposizione spettrale della matrice S è dunque
1
1
S = 1.8 ii0 + 0.2
2
2
"
1
−1
#
[1
− 1];
il primo addendo costituisce un’approssimazione di rango 1 della matrice; sostituire l’informazione di partenza con la prima componente principale equivale ad interpolare S con
una matrice di covarianza con elementi tutti pari a 0.9. Questo determina una sottostima
nella rappresentazione delle varianze pari a 0.1 e una sovrastima della covarianza dello
stesso ammontare.
Il calcolo degli autovalori e degli autovettori in R viene effettuato dalla funzione
eigen( ):
> S <- matrix(c(1,.8,.8,1),2)
> S
[,1] [,2]
[1,] 1.0 0.8
[2,] 0.8 1.0
> eigen(S)
$values
[1] 1.8 0.2
$vectors
[,1]
[,2]
[1,] 0.7071068 0.7071068
[2,] 0.7071068 -0.7071068
La traccia della matrice S è pari a 2 = λ1 + λ2 , mentre il determinante è uguale a
1.8 · 0.2 = 0.36. R non contiene una funzione specifica per il calcolo del determinante
di una matrice; a tal fine possiamo introdurne una fondata sul prodotto degli autovalori
ottenuti come output della funzione eigen:
95
det <- function(S)
{ if (ncol(S) != nrow(S)) print("Attenzione: matrice non quadrata")
else prod(eigen(S)$values)
}
Nel caso di variabili incorrelate ed eteroschedastiche, S = diag(s21 , s22 , . . . , s2p ), dove
senza perdita di generalità assumiamo l’ordinamento s21 ≥ s22 ≥ · · · ≥ s2p , è immediato
mostrare che gli autovalori sono pari alle varianze (λh = s2h , h = 1, . . . , p, dal momento
che l’equazione caratteristica è (s21 −λ)(s22 −λ) · · · (s2p −λ)) e gli autovettori sono i vettori
canonici eh = [0, . . . , 0, 1, 0, . . . , 0]0 .
6.4
La soluzione generale
Supposto che gli autovalori della matrice S siano ordinati in senso non crescente,
λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,
la prima componente principale, y 1 , il cui elemento generico è yi1 , viene definita come
combinazione lineare delle p variabili originarie in X, con pesi forniti dagli elementi del
primo autovettore (corrispondente all’autovalore più grande, λ1 ): y 1 = Xa1 . La seconda
componente, i cui pesi sono contenuti nel vettore a2 , massimizza la varianza residua sotto
il vincolo di ortonormalità, vale a dire:
max{a02 (S − λ1 a1 a01 )a2 } s.v a02 a1 = 0,
a02 a2 = 1,
La soluzione di questo problema consente di determinare a2 come l’autovettore corrispondente all’autovalore λ2 (il secondo in ordine di grandezza), il quale coincide con
la varianza della componente medesima. Possiamo continuare a determinare le rimanenti componenti seguendo la medesima logica, giungendo fino all’ultima, y p = Xap ,
la quale ha la varianza più piccola, ed i coefficienti di ap sono forniti dall’autovettore
corrispondente a λp .
In generale, miriamo ad ottenere una rappresentazione della matrice X in un sottospazio ortogonale (iperpiano) a r < p dimensioni. Le coordinate dei punti nel sottospazio di proiezione sono contenute in una matrice Y , di dimensione n × r:
Y = XAr
e sono ottenute come combinazione lineare delle coordinate iniziali. I coefficienti della
combinazione lineare sono contenuti nella matrice Ar , di dimensione p × r
Ar = [a1 a2 · · · ar ]
e sono detti loadings, poiché forniscono il peso assegnato alle variabili originarie nella
definizione delle componenti principali; le colonne di Ar costituiscono un set ortonormale
(A0r Ar = I r ).
96
Il punteggio sull’h-esima componente principale per l’unità i è fornito da
yih = a1h xi1 + a2h xi2 + . . . + aph xip = a0h xi
e, sommando per i = 1, . . . , n e dividendo per n,
ȳh = a1h x̄1 + a2h x̄2 + . . . + aph x̄p = a0h x̄.
Inoltre, denotando
y h = Xah
la varianza dell’h-esima componente risulta,
n
1X
(yih − ȳh )2 = a0h Sah = λh
n i=1
Infine, la covarianza tra l’h-esima componente e la k-esima componente risulta pari a
zero.
In termini matriciali, possiamo riassumere i risultati con le seguenti espressioni:
a) definizione delle componenti:
Y = XAr
b) vettore delle r medie delle c.p.:
ȳ =
1
1 0
Y in = A0r X 0 in = A0r x̄
n
n
c) matrice di covarianza delle r c.p.:
1 0
Y Y − ȳ ȳ 0 = Lr = diag(λ1 , . . . .λr )
n
6.5
La standardizzazione delle variabili
Se le p misurazioni di partenza sono espresse su unità di misura molto diverse, comportando una notevole differenziazione nelle varianze, può essere consigliabile effettuare una
standardizzazione delle misurazioni originarie:
xik −→ zik =
xik − x̄k
sk
ovvero
X −→ Z = (X − ix̄0 )D −1/2
dove D = diag(s21 , . . . , s2p ). La matrice di correlazione può essere pertanto espressa:
R=
1 0
ZZ
n
97
Le componenti principali saranno definite come combinazione lineare di Z con loadings Ar che sono forniti dalla scomposizione spettrale della matrice di correlazione (R =
ALA0 ):
Y = ZAr
ed avranno media nulla e matrice di covarianza Lr , dove Lr contiene gli autovalori in
ordine decrescente della matrice di correlazione.
Dimostriamo ora che la distanza di Mahalanobis equivale alla distanza euclidea calcolata sulle componenti principali standardizzate.
2
M dij
=
=
=
=
=
(z i − z j )0 R−1 (z i − z j )
(z i − z j )0 AL−1 A0 (z i − z j )
(y i − y j )0 L−1 (y i − y j )
(y i − y j )0 L−1/2 L−1/2 (y i − y j )
(ỹ i − ỹ j )0 (ỹ i − ỹ j )
dal momento che y i = A0 z i e ỹ i = L−1/2 y i denota le c.p. standardizzate per l’i-esima
unità.
Se si utilizzano soltanto r componenti principali si otterrà un’approssimazione alla
distanza di Mahalanobis.
6.6
L’analisi delle CP come metodo di proiezione
Dati n punti in uno spazio p dimensionale,
x1 , x2 , . . . , xi , . . . , xn
l’analisi delle componenti principali mira ad ottenere uno spazio di rappresentazione di
dimensione ridotte (r < p).
Le proprietà caratteristiche della soluzione delle componenti principali sono essenzialmente tre:
1. Proiezione ortogonale: i punti x1 , x2 , . . . , xi , . . . , xn , sono proiettati ortogonalmente nel sottospazio (iperpiano) definito dalle componenti principali, per ottenere
x∗1 , x∗2 , . . . , x∗i , . . . , x∗n , dove x∗i = Ar y i . Le coordinate dei punti nel nuovo spazio,
definito dalle colonne di Ar , sono:
y1, y2, . . . , yi, . . . , yn,
con y i = A0r xi . Si osservi che x∗i = Ar A0r xi ; ora, per effetto della ortogonalità
della matrice A, AA0 = I, e partizionando A = [Ar Ã], dove à è una matrice
p × (p − r) che contiene i rimanenti autovettori, si può scrivere:
"
0
xi = AA xi = [Ar Ã]
A0r
0
Ã
#
98
0
= Ar A0r xi + ÃÃ xi = x∗i + r i ,
dove r i rappresenta il residuo di proiezione, vale a dire la parte di informazione che
viene persa sull’unità i per effetto della sintesi effettuata dalle prime r componenti
principali.
2. L’iperpiano di proiezione, generato dalle colonne della matrice Ar , è orientato in
modo da rendere massima la dispersione degli n punti
x∗1 , x∗2 , . . . , x∗i , . . . , x∗n .
3. L’iperpiano di proiezione è tale da rendere minima la funzione V
V =
XX
i
(d2ij − dˆ2ij )
j
dove dij rappresenta la distanza euclidea tra xi e xj nello spazio di partenza e dˆij
rappresenta la distanza euclidea tra le due unità nello spazio di proiezione generato
da Ar .
Al fine di dimostrare l’ultima proprietà, si assuma, per semplicità, che x̄ = 0, e scriva
d2ij = x0i xi + x0j xj − 2x0i xj ; sommando rispetto ad i e j,
XX
i
d2ij = 2n
X
j
x0i xi ;
i
un risultato analogo vale per dˆ2ij :
XX
i
dˆ2ij = 2n
j
X
0
x∗i x∗i .
i
Pertanto,
V = 2n(
X
x0i xi −
i
e min V equivale a
max
X
0
x∗i x∗i )
i
X
||x∗i ||2
i
6.7
Determinazione del numero delle componenti principali
Dal momento che le componenti principali sono incorrelate e hanno varianza λh , la
varianza totale delle p componenti principali risulta
p
X
s2h = tr(S) =
h=1
p
X
h=1
99
λh .
Ai fini della scelta di r, vale a dire del numero minimo di componenti principali sufficienti
per ottenere una descrizione sintetica della matrice dei dati, X, possiamo utilizzare tre
criteri:
• Fissare un limite inferiore, q (ad esempio, q = .9), alla quota di varianza spiegata
dalle prime r componenti, Qr ,
Pr
λh
h=1 λh
Qr = Pph=1
scegliendo r in modo tale che Qr ≥ q.
• Il grafico degli autovalori rispetto al numero d’ordine della componente viene denominato scree plot; si sceglie r in corrispondenza del quale il grafico presenta un
gomito (elbow).
• Criterio di Kaiser: si calcola la media delle varianze, ovvero l’autovalore medio
p
1X
λh .
λ̄ =
p h=1
Per dati sferici, vale a dire incorrelati e a varianza costante, λh = λ̄ (infatti, S = s2 I
e |S −λI| = (s2 −λ)p ). Si estraggono le prime r componenti la cui varianza supera
tale media, ovvero r è il più grande valore di h tale che λh > λ̄.
Se si è proceduto alla standardizzazione delle variabili originarie, la varianza totale è
tr(R) = p,
per cui il criterio di Kaiser equivale a scegliere un numero di componenti pari al numero
di autovalori superiori all’unità.
6.8
Illustrazione
Il data set mdspref.dat contiene i punteggi medi attribuiti su una scala da 1 a 7 su otto
attributi relativi a 10 bibite.
>
>
>
>
>
drinks <- read.table("mdspref.dat",header=T)
X <- t(drinks)
library(mva)
cp.drinks <- princomp(X)
summary(cp.drinks)
100
Importance of components:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Standard deviation
2.5006260 1.7383913 0.57814153 0.45368404 0.311120966 0.242115128
Proportion of Variance 0.6259323 0.3024997 0.03345786 0.02060330 0.009689211 0.005867779
Cumulative Proportion 0.6259323 0.9284320 0.96188984 0.98249314 0.992182353 0.998050132
Comp.7
Comp.8
Standard deviation
0.131628571 0.0464037630
Proportion of Variance 0.001734324 0.0002155442
Cumulative Proportion 0.999784456 1.0000000000
√
L’output presentato da R fornisce le deviazioni standard delle componenti, pari a λh ,
P
la quota di varianza spiegata da ciascuna componente, λh / k λk e la quota cumulata
spiegata dalle prime h componenti, Qh . L’analisi mostra che le prime due componenti
spiegano una quota pari al 93% della varianza totale.
> loadings(cp.drinks)[,1:2]
Comp.1
Comp.2
Fruity
-0.3810421 0.71127292
Carbonation 0.2939139 0.03123506
Calories
-0.1870931 -0.17416675
Tart
0.3667315 0.31992189
Thirst
0.1246746 0.51200424
Popularity
0.5418241 -0.07561199
Aftertaste
0.2442897 0.30260352
Pick-up
0.4797200 0.03157099
par(mfrow=c(2,2))
screeplot(cp.drinks, type="lines", main = "Screeplot")
barplot(loadings(cp.drinks)[,1], cex = .6, main = "Pesi 1a CP")
barplot(loadings(cp.drinks)[,2], cex = .6, main = "Pesi 2a CP")
plot(cp.drinks$scores[,1:2], type="n", xlim=c(-4,4), ylim=c(-4,4),
main = "Grafico delle prime due CP")
text(cp.drinks$scores[,1:2], dimnames(X)[[1]], cex=.6)
La prima componente è negativamente correlata con gli attributi Fruity e Calories
e positivamente con tutti gli altri; per tale motivo, i prodotti ipocalorici e dietetici, per i
quali i due attributi sono presenti in minore misura, hanno un punteggio positivo su questa
componente. Se si rovesciasse il punteggio (prendendo il complemento a 7) per Fruity
e Calories, la prima componente definisce una combinazione lineare degli 8 attributi
con pesi tutti positivi, e non sarebbe molto distante da una media aritmetica. La seconda
componente ha un peso molto elevato su Fruity e discrimina le bibite prevalentemente
su questo attributo.
Il grafico a dispersione dei punteggi (centrati) delle prime due componenti (cfr. figura
6.2) mette in luce la similarità tra le bibite CokeCl, Coke e Pepsi.
L’analisi delle componenti principali può essere replicata utilizzando la scomposizione
spettrale della matrice di covarianza:
101
S <- cov(X)
ds <- eigen(S)
lambda <- ds$values
A <- ds$vectors
scores <- X %*% A
# NB cp.drinks$score sono ottenuti centrando le componenti principali
scale(scores, scale=F)
102
Figura 6.2: Analisi delle componenti principali per il data set mdspref.dat.
Pesi 1a CP
0.2
4
−0.2
2
0
Comp.1
Comp.4
Comp.7
Fruity
Tart
Aftertaste
Grafico delle prime due CP
Fruity
Tart
Aftertaste
0
2
DietPepsi
Tab
CokeCl
Coke
Pepsi
−4 −2
Comp.2
0.4
4
Pesi 2a CP
0.0
Variances
6
Screeplot
DietSlice
DrPepper
SevenUp
Slice
−4
−2
0
Comp.1
103
Diet7Up
2
4
Capitolo 7
Scaling Metrico e Biplot
7.1
Introduzione
Per Scaling Multidimensionale si intende un insieme di tecniche geometriche che, a partire da una matrice di dissimilarità tra n oggetti, D = {dij }, mirano ad individuare una
configurazione degli n punti in uno spazio, solitamente euclideo, in modo tale che le loro
distanze nello spazio di rappresentazione rispecchino, quanto meglio possibile, le dissimilarità di partenza. La configurazione mira a facilitare l’interpretazione della struttura
latente dei dati. Un’introduzione alle tecniche è fornita da Kruskal e Wish [13].
L’input fondamentale è rappresentato dalla matrice D, la quale può essere ottenuta
mediante una valutazione diretta da parte di un campione di rispondenti della distanza
tra n oggetti, o può essere desunta dal confronto dei profili individuali contenuti nella
matrice dei dati, X, dopo aver scelto opportunamente una misura di distanza tra quelle
disponibili. Solitamente, la matrice D è simmetrica (dij = dji ) e presenta elementi nulli
sulla diagonale principale (dii = 0). Inoltre, gli elementi sono tutti non negativi. In
alternativa si potrebbe disporre di una matrice di similarità; se le unità oggetto dell’analisi
sono attributi o basi di segmentazione, l’input delle tecniche potrebbe essere basato sulla
matrice di correlazione.
Si distingue una soluzione metrica, che assume che la matrice D soddisfi gli assiomi
della misura della distanza, ed in particolare la diseguaglianza triangolare,
dij ≤ dim + dmj ,
e una soluzione non metrica, che richiede soltanto il soddisfacimento delle proprietà di
non negatività e di simmetria.
Data una matrice n × n di distanze che soddisfano la proprietà triangolare, è sempre
possibile rappresentare gli n oggetti in uno spazio di dimensione n − 1 in modo tale che
le distanze tra gli oggetti nello spazio di proiezione, dˆij , coincidono con quelle originarie.
104
Ad esempio, i tre oggetti, A, B, C,
A B C
A − 2.0 1.8
− 3.5
D= B
C
−
sono tali che dAB < dAC + dCB e dAC < dAB + dBC e possono essere rappresentati
in uno spazio bidimensionale in modo da preservare le distanze contenute in D. Questo
non risulta più vero se si è in presenza di una violazione della proprietà triangolare, come
avviene nel caso seguente:
A B C
A − 2.0 1.4
− 3.5
D= B
C
−
Anche nel caso metrico questo risultato non è di grande aiuto, dal momento che se n
è sufficientemente elevato, lo spazio di proiezione è di dimensione troppo alta per conseguire una sintesi efficace delle relazioni esistenti tra gli oggetti. Siamo indotti pertanto
a chiederci sotto quali condizioni sia possibile rappresentare gli oggetti in uno spazio di
dimensioni ridotte, ad esempio un piano; ovviamente, siamo disposti ad accettare che
tale operazione conduca ad una distorsione delle distanze, ovvero ad una perdita di informazione, nel senso che le distanze tra gli oggetti nello spazio di proiezione costituiscono
soltanto un’approssimazione delle distanze di partenza.
7.2
Scaling metrico
A partire da una matrice dei dati, X, contenente le coordinate di n punti in uno spazio
p-dimensionale euclideo, possiamo dare una soluzione al cosiddetto problema diretto:
X −→ D
che consiste nel desumere la matrice di distanze a partire dalla matrice dei dati.
Ora, possiamo costruire la matrice
Q = XX 0
il cui elemento generico è costituito dal prodotto scalare
qij = x0i xj .
105
La matrice Q contiene tutte le informazioni necessarie per il calcolo della distanza euclidea. Infatti,
d2ij = x0i xi + x0j xj − 2xi xj
(7.1)
= qii + qjj − 2qij
e le distanze possono essere raccolte nella matrice D.
Il problema che ora affrontiamo prende il nome di problema inverso: data la matrice
delle distanze D occorre risalire ad una matrice contenente le coordinate degli n punti in
uno spazio r-dimensionale:
D −→ X
Mostreremo che il problema inverso ammette una soluzione a condizione che si assuma
che la media delle coordinate dei punti sia nulla. In altre parole, occorre introdurre il
vincolo:
1X
x̄ =
xi = 0.
n
Partiamo dalla relazione (7.1) e, sommando entrambi i membri successivamente per
i = 1, . . . , n,, j = 1, . . . , n, nonché rispetto ad entrambi gli indici, si ottiene:
P 2
d
P i ij
2
j dij
P P
2
i
j
dove si è posto
A=
dij
X
= A + nqjj
= A + nqii
= 2nA
qii =
i
X
qjj .
j
Definiamo ora le medie di riga, di colonna e globale della matrice delle distanze al
quadrato:
X
X
XX
d2.j = n−1
d2ij , d2i. = n−1
d2ij , d2.. = n−2
d2ij ,
i
Pertanto,
j
i
j
d2.j = A/n + qjj
d2i. = A/n + qii
d2.. = 2A/n
Dall’ultima relazione si ottiene A = nd2.. /2 e, sostituendo nelle due equazioni precedenti,
si ottiene
d2.j = d2.. /2 + qjj , d2i. = d2.. /2 + qii
che, sommate membro a membro, forniscono:
qii + qjj = d2i. + d2.j − d2.. .
Alla luce della relazione (7.1) si consegue la relazione fondamentale:
1
qij = − (d2ij − d2i. − d2.j + d2.. )
2
106
(7.2)
che definisce il termine generico della matrice Q in relazione ad opportune medie dei
quadrati delle distanze di partenza. Si osservi che la matrice Q è doppiamente centrata,
nel senso che le medie di riga e di colonna sono entrambe nulle.
Nel problema diretto Q = XX 0 ; siamo pertanto interessati a scomporre Q, calcolata
in base alla (7.2), nel prodotto di una matrice per la sua trasposta. La soluzione viene
determinata facendo ricorso alla scomposizione spettrale della matrice Q:
Q = T LT 0 = T L1/2 L1/2 T 0
dove T è la matrice n × n che contiene gli autovettori ortogonali della matrice Q e
L = diag(λ1 , . . . , λn ). La matrice dei profili (ovvero delle coordinate degli n punti) si
ottiene considerando le prime r colonne della matrice
X = T L1/2 .
L’algoritmo di Scaling Metrico può essere schematizzato nel modo seguente: a partire
dalla matrice di dissimilarità, D = {dij }
n
1. Si forma la matrice E = eij = − 12 d2ij
o
2. Si sottrae da ciascun elemento di E la media della riga e della colonna in cui si
trova e si aggiunge la media di tutti gli elementi, pervenendo alla matrice Q
3. Si calcolano gli autovettori e gli autovalori di Q, ordinando questi ultimi in ordine
decrescente.
Q = T LT 0 , T = [t1 , . . . , th , . . . , tn ]
4. Le coordinate degli n punti lungo l’h-esima dimensione sono fornite da
1/2
λh th , h = 1, 2, . . .
La tecnica è anche nota come analisi delle coordinate principali. La migliore rappresentazione in r dimensioni sarà basata sugli autovettori corrispondenti ai primi r autovalori. La soluzione è indeterminata rispetto alle operazioni di traslazione, rotazione e
riflessione.
Al fine di giudicare l’adeguatezza della rappresentazione dei punti in r dimensioni si
utilizza l’indice di goodness of fit:
r
P
G = h=1
n
P
h=1
107
λh
λh
Se la matrice delle distanze originaria soddisfa la diseguaglianza triangolare, la matrice Q risulta semidefinita positiva e pertanto i suoi autovalori sono tutti maggiori o
uguali a 0.
Q ≥ 0 ⇐⇒ dij ≤ dim + dmj , ∀i, j, m
Se si parte da una matrice di similarità C = {cij }, con 0 ≤ cij ≤ 1, dij = 1 − cij assicura
che Q ≥ 0.
Se Q non è s.d.p., uno o più autovalori risulteranno negativi, ed il loro modulo riflette l’intensità con cui è violata la diseguaglianza triangolare. In tal caso si può restringere l’attenzione alle sole dimensioni corrispondenti ad autovalori positivi. Ai fini della
valutazione della bontà dell’adattamento è stata proposta la seguente variante di G
r
P
∗
G =
h=1
n
P
h=1
λh
.
|λh |
Uno strumento diagnostico di estrema importanza è il diagramma di Shepard: si tratta
di un grafico a dispersione che riporta le n(n − 1)/2 coppie di distanze (dˆij , dij ), dove
il primo elemento rappresenta la distanze tra gli oggetti nello spazio di configurazione.
Nello scaling metrico dovrebbe risultare dˆij = αdij , α > 0 e pertanto i punti dovrebbero
disporsi lungo una semiretta uscente dall’origine e inclinata positivamente.
7.2.1 Implementazione in R
Al fine di illustrare l’algoritmo di scaling metrico, si prende qui in considerazione la
matrice di dissimilarità medie tra i capi di abbigliamento di 10 stilisti, tratta da Molteni
[14], p. 243. In primo luogo, viene presentato passo per passo l’algoritmo, come descritto
nella sezione precedente, passando per la matrice E, e per la scomposizione spettrale
della matrice Q.
lab <- c("Coveri","Missoni","Gigli","Moschino","MilaSchon",
"Valentino","Krizia","Versace","Ferre","Armani")
diss <- c(7.00,8.11,6.33,8.67,8.56,7.56,7.33,7.67,7.89,
8.22,8.33,7.89,8.22,7.00,8.22,8.33,8.56,
6.33,8.11,8.56,8.44,6.00,8.22,7.89,
8.78,8.67,7.89,8.00,8.33,8.56,
4.11,4.33,8.00,8.56,7.56,
3.56,6.00,7.00,6.56,
7.11,7.22,3.78,
6.56,7.78,
6.00);
d <- matrix(0,10,10)
108
d[lower.tri(d)] <- diss
d <- as.dist(d) # n per n
attributes(d)$Labels <- lab
D <- as.matrix.dist(d)
E <- -0.5 * Dˆ2
Q <- matrix(0, nrow(E), ncol(E))
E.m.r <- apply(E,1,mean)
E.m <- mean(E)
for (i in 1:nrow(E))
{
for(j in 1:ncol(E))
{
Q[i,j] <- E[i,j]-E.m.r[i]-E.m.r[j]+E.m
}
}
eig.Q <- eigen(Q, symm=T)
scores.cmd <- eig.Q$vectors[,1:2] %*% diag(sqrt(eig.Q$values[1:2]))
plot(scores.cmd)
Si osservi l’impiego dell’opzione symm=T nella funzione eigen, che afferma la
natura simmetrica della matrice Q; per esercizio si ripeta il calcolo degli autovalori e
degli autovettori senza imporre la simmetria e si confrontino i risultati.
In realtà, la libreria mva contiene la funzione cmdscale che ha tre argomenti: il
primo, obbligatorio, è un vettore di distanze, ottenuto come output della funzione dist,
ovvero, in alternativa, una matrice di distanze piena e simmetrica. Il secondo argomento,
opzionale, consente di dichiarare il numero di dimensioni r dello spazio di rappresentazione (il default è r = 2); per quanto riguarda il terzo, se si usa l’opzione eig=T la
funzione ritorna una lista che contiene, oltre alle coordinate dei punti, i primi r autovalori
della matrice Q.
library(mva)
cmd.stilisti <- cmdscale(D, 2, eig=T)
plot(cmd.stilisti$points, type = "n")
text(cmd.stilisti$points, labels = dimnames(D)[[1]], cex=.6)
gof <- sum(eig.Q$values[1:2])/sum(abs(eig.Q$values))
L’indice di bontà dell’adattamento è pari a 0.48, rivelando che la rappresentazione
dei punti in uno spazio bidimensionale non è particolarmente rappresentativa. Si noti
anche che l’impiego dell’espressione che ha a denominatore la somma dei valori assoluti
degli autovalori è imposto dalla presenza di un autovalore negativo (la matrice Q non è
109
6
4
5
diss
7
8
Figura 7.1: Diagramma di Shephard per la rappresentazione metrica bidimensionale del
data set stilisti.
1
2
3
4
5
6
7
dhat
semidefinita positiva e le dissimilarità di partenza violano la diseguaglianza triangolare).
Inoltre, il diagramma di Shephard, riprodotto nella figura 7.1 mette in luce forti distorsioni
nella rappresentazione della dissimilarità tra le 10 unità.
7.3
Scaling metrico e analisi delle componenti principali
La soluzione metrica del problema di scaling multidimensionale ha uno stretto legame
con l’analisi delle componenti principali, messo in evidenza dal teorema seguente:
Teorema: Se D è una matrice di distanze euclidee, le coordinate principali fornite dallo
scaling metrico coincidono con le componenti principali.
Per la dimostrazione ci serviremo del seguente risultato: date due matrici A e B,
rispettivamente p × n e n × p, con n ≥ p, gli autovalori di BA sono quelli di AB, più
110
n − p zeri. Ponendo A = X 0 e B = X, si ha come corollario che gli autovalori non nulli
di XX 0 sono gli stessi di X 0 X.
Sia Q = XX 0 ; gli autovalori e gli autovettori di Q risolvono
XX 0 th = λh th ,
con t0h th = 1
Premoltiplicando ambo i membri per X 0 :
(X 0 X)X 0 th = λh X 0 th
Ora, ponendo bh = X 0 th si ha dalla relazione precedente (X 0 X)bh = λh bh ; che evidenzia che bh è l’autovettore non normalizzato di X 0 X (si noti che X 0 X = nS per variabili
scarto). Infatti:
b0h bh = t0h XX 0 th = t0h (λh th ) = λh
−1/2
e, scrivendo ah = λh
principale è
−1/2
bh = λh
X 0 th , tale che a0h ah = 1, l’h-esima componente
−1/2
y h = Xah = λh
7.4
1/2
XX 0 th = λh th
Biplot
La tecnica nota come biplot mira a conseguire la rappresentazione congiunta delle unità
di riga e di colonna in un medesimo sottospazio, pervenendo ad una sintesi significativa di
alcuni aspetti essenziali della matrice dei dati e delle relazioni che intercorrono tra i profili
individuali e gli attributi che concorrono a determinare tali profili. La sovrapposizione dei
punti riga e dei punti colonna consente di interpolare le osservazioni originari mediante
semplici operazioni di proiezione ortogonale; ovviamente la tecnica ha un senso se lo
spazio di rappresentazione è in grado di sintetizzare una quota rilevante delle informazioni
di partenza, e diventa pertanto importante misurare la bontà dell’adattamento. Il biplot si
fonda sulla scomposizione in valori singolari della matrice di dati, che viene trattata nella
sezione successiva.
7.4.1 Scomposizione in valori singolari
Sia X = {xik } una matrice n × p di rango m ≤ min(n, p). Essa ammette la seguente
scomposizione:
0
=
X = µ1 u1 v 01 + µ2 u2 v 02 + · · · + µm um v m
m
X
µk uk v 0k ,
k=1
dove µk ≥ 0 (detto anche valore singolare) è la radice del k-esimo autovalore di X 0 X o
XX 0 ; uk , di dimensione n × 1, è il k-esimo autovettore di XX 0 , tale che
(
u0h uk
= δhk =
1 se h = k
0 se h 6= k
111
mentre v k , di dimensione p × 1, è il k-esimo autovettore di X 0 X,
(
v 0h v k
= δhk =
1 se h = k
0 se h 6= k
Denotando con U = [u1 , u2 , . . . , um ] la matrice che contiene i vettori singolari di
sinistra, con V = [v 1 , v 2 , . . . , v m ] la matrice contenente i vettori singolari di destra, e
con M = diag(µ1 , . . . , µm ) la matrice diagonale contenente i valori singolari, si può
riscrivere:
X = U M V 0,
ovvero,
xij =
m
X
µh uik vjk .
k=1
La scomposizione in valori singolari fornisce la possibilità di approssimare una matrice di dati, sfruttando la seguente properietà di approssimazione dei minimi quadrati
(Least Squares Property): supponiamo di cercare di una matrice Y , n × p di rango q < r,
che meglio approssima X, nel senso di minimizzare la somma degli scarti al quadrato:
p
n X
X
(xik − yik )2 = tr[(X − Y )(X − Y )0 ]
i=1 k=1
Tale matrice è fornita dalla s.v.s. di X:
Y =
q
X
µk uk v 0k
k=1
7.4.2 La funzione svd di R
Per la scomposizione in valori singolari è disponibile la funzione svd(X, nu = min(n,p),
nv = min(n,p)) dove X rappresenta una matrice n × p e gli altri due argomenti,
opzionali, controllano il numero r di valori singolari da calcolare. La funzione restituisce
una lista contenente tre oggetti:
• d: un vettore di r elementi contenente i valori singolari µk ;
• u: la matrice U , di dimensione n × r;
• v: la matrice V , di dimensione r × r.
Qui di seguito presentiamo un’applicazione riferita alla matrice contenente le valutazioni di 10 bibite su 8 attributi.
112
> drinks <- read.table("mdspref.dat",header=T)
> drinks
Coke CokeCl DietPepsi DietSlice Diet7Up DrPepper Pepsi Slice Tab SevenUp
Fruity
5.79
6.49
5.80
2.91
4.29
4.03 5.73 1.38 5.22
2.86
Carbonation 3.42
3.89
4.87
5.66
4.93
4.36 3.14 5.18 5.24
3.89
Calories
4.68
5.57
3.36
3.47
3.63
5.40 4.61 4.84 3.80
4.50
Tart
3.32
4.24
5.01
6.08
6.22
4.47 2.71 3.73 5.35
3.52
Thirst
4.56
4.19
5.56
5.08
5.52
4.77 4.15 2.77 5.24
2.78
Popularity 3.35
2.21
4.05
5.86
6.31
5.10 2.24 5.63 5.35
3.98
Aftertaste 3.95
3.70
5.28
5.21
5.61
4.89 3.71 4.03 5.17
2.98
Pick-up
3.07
2.71
4.73
6.33
6.31
4.24 3.08 5.07 5.12
4.15
> X <- scale(t(drinks), center=T, scale=F)
> X.svd <- svd(X)
> X.svd$d
[1] 7.9076738 5.4972760 1.8282440 1.4346749 0.9838509 0.7656353 0.4162461 0.1467416
> X.svd$u
[,1]
[,2]
[,3]
[,4]
[,5]
[1,] -0.33529282 0.0794185703 0.02434714 -0.409651898 -0.089864078
[2,] -0.44345238 0.1633930547 0.33649028 0.716811347 -0.043906052
[3,] 0.03324737 0.3953783356 -0.36053532 0.001405003 0.428912962
[4,] 0.46024216 0.0204593097 -0.20717464 0.291713875 0.001235883
[5,] 0.41823378 0.2546378151 0.04851849 -0.145735174 -0.582128510
[6,] 0.04398758 -0.0448946347 0.69198756 -0.297336594 0.005308872
[7,] -0.45876993 0.0007096903 -0.32537298 -0.309306614 0.025775336
[8,] 0.20965676 -0.6445711384 0.10513202 -0.021324841 0.459505395
[9,] 0.18459589 0.2767828902 0.02502585 0.007792749 0.239879536
[10,] -0.11244842 -0.5013138928 -0.33841841 0.165632146 -0.444719345
[,6]
[,7]
[,8]
[1,] 0.21267521 0.48777034 -0.006188401
[2,] 0.01081278 -0.14759745 0.027500655
[3,] -0.10785377 0.05017878 0.631852229
[4,] -0.49533498 0.35486943 -0.390806724
[5,] 0.09757973 -0.46538587 0.176487896
[6,] -0.33748543 0.17909480 0.106730224
[7,] -0.34016502 -0.44741421 -0.387867625
[8,] 0.13809985 -0.31049554 0.090354697
[9,] 0.63654469 0.04483681 -0.452151946
[10,] 0.18512694 0.25414292 0.204088995
> X.svd$v
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] -0.3810421 0.71127292 0.03889872 0.01841399 -0.028280983 0.50519759
[2,] 0.2939139 0.03123506 0.03153925 0.44185982 0.771567825 0.19993294
[3,] -0.1870931 -0.17416675 0.84881486 0.14194252 -0.051844759 -0.18504530
[4,] 0.3667315 0.31992189 0.15843297 0.64912383 -0.430452685 -0.06693001
[5,] 0.1246746 0.51200424 0.08956494 -0.30599922 0.009867681 -0.45848295
[6,] 0.5418241 -0.07561199 0.34805205 -0.43288644 -0.144095271 0.58682208
[7,] 0.2442897 0.30260352 0.19233312 -0.28565351 0.382425971 -0.30801317
[8,] 0.4797200 0.03157099 -0.29283163 0.01694933 -0.220896906 -0.12900367
[,7]
[,8]
[1,] -0.2787628 -0.1153796677
[2,] 0.1051454 -0.2646857132
[3,] -0.2713508 -0.2889063407
[4,] 0.1735966 0.3111114962
[5,] 0.4744859 -0.4303599327
[6,] 0.1644839 0.0001155029
[7,] -0.3908668 0.5798837105
[8,] -0.6344289 -0.4635698070
113
7.4.3 Biplot e scomposizione in valori singolari
Il Biplot, proposto da [15], costituisce una tecnica di rappresentazione a due vie di una
matrice di dati, X, tale che sia le unità di riga che le unità di colonna sono rappresentate
nello stesso spazio dimensionale (generalmente euclideo e bidimensionale), in modo tale
da cogliere gli aspetti essenziali dell’interazione tra le medesime. Va osservato che il
prefisso bi fa riferimento alla rappresentazione simultanea delle righe e delle colonne,
non alla dimensione, non necessariamente bidimensionale, della configurazione spaziale.
Solitamente X è una matrice di variabili scarto.
Esso si fonda sulla scomposizione in valori singolari di X, mediante la quale si
costruisce la migliore rappresentazione di rango 2 della matrice X:
"
Y =
µ1 u1 v 01
+
µ2 u2 v 02
= [u1 u2 ]
µ1 0
0 µ2
#"
v 01
v 02
#
.
Ora, Y può essere fattorizzata come prodotto di due matrici, G, n × 2, e H, p × 2:
Y = GH 0 ,
e si può affermare che xij viene approssimato dal prodotto scalare
yij = g 0i hj = gi1 hj1 + gi2 hj2 .
Il biplot costituisce la rappresentazione, sullo stesso piano bidimensionale, degli n
punti riga, le cui coordinate sono contenute nelle righe di G:



G=



g11 g12
g21 g22 

..
.. 
,
.
. 
gn1 gn2
e dei p punti colonna, le cui coordinate sono contenute nelle colonne di H 0 :
"
0
H =
h11 h21 · · · hp1
h12 h22 · · · hp2
#
.
Mediante la proiezione dei vettori riga sui vettori colonna, si ottiene l’interpolazione
dei valori assunti dagli attributi o variabili per le diverse unità. Alla luce della approssimazione yij = g 0i hj dell’elemento xij della matrice originaria, quest’ultimo viene interpolato nel biplot mediante la proiezione ortogonale di un vettore riga su un vettore
colonna: se xij è molto prossimo a zero, ci attendiamo che i vettori g i e hj siano disposti
ad angolo retto, vale a dire siano ortogonali; viceversa osservazioni molto grandi saranno
rappresentate da vettori riga e colonna che si muovono nella stessa direzione.
114
In generale, esistono infinite fattorizzazioni della matrice Y , che si ottengono ponendo
G = U r M αr , H 0 = M 1−α
V 0r , al variare di α nell’intervallo [0,1], dove U r e V r
r
denotano due sottomatrici ottenute considerando soltanto le prime r colonne, mentre M r
è il blocco diagonale che contiene i primi r valori singolari. Tre scelte significative di α
sono le seguenti:
• α = 1/2 (scaling simmetrico): rappresenta una soluzione di compromesso, senza
particolare enfasi di tipo interpretativo.
• α = 1: la rappresentazione delle unità equivale ad un’analisi di scaling metrico
sulle righe della matrice X. Le coordinate dei punti riga sono i punteggi delle
prime 2 componenti principali; quelle dei punti colonna sono fornite dai loadings
V (prime due colonne).
Per quanto concerne le relazioni tra i punti riga, la loro distanza euclidea nel piano
di rappresentazione costituisce una approssimazione della distanza euclidea dil =
[(xi − xl )0 (xi − xl )]0.5 , con il significato visto nella sezione 6.6.
• α = 0: questa scelta implica che le coordinate dei punti riga sono G = U r e quelle
dei punti colonna sono H = V r M r . Si noti che se si considerasse la soluzione
completa, G = U , H = V M , si avrebbe:
X 0X =
=
=
=
(GH 0 )0 (GH 0 )
HG0 GH 0
HU 0 U H 0
HH 0
e, pertanto, se le variabili originarie sono centrate (X 0 X = nS), il prodotto scalare
h0j hj rappresenta la devianza della j-esima variabile, ns2j , mentre h0j hk rappresenta la codevianza, nsjk . Ora, nel biplot, che considera soltanto un’approssimazione
della matrice X in r dimensioni, la lunghezza del vettore hj rappresenta una approssimazione della radice della devianza della variabile, mentre il coseno dell’angolo compreso tra i vettori rappresentativi delle variabili rappresenta (una approssimazione de) la correlazione tra le variabili. Inoltre, è agevole intuire che la rappresentazione delle variabili equivale ad una analisi di scaling metrico effettuata sulle
colonne della matrice X (ovvero applicata a X 0 ).
Per quanto concerne la rappresentazione delle unità di riga, si dimostra che la distanza nello spazio di rappresentazione tra i punti g i e g l è un’approssimazione della
distanza di Mahalanobis tra le due unità; al fine di verificare questa asserzione,
facciamo riferimento alla soluzione completa (G = U ) e, a partire dalla scomposizione in valori singolari di X, scriviamo x0i = g 0i H 0 . Sostituendo nell’espressione
della distanza di Mahalanobis (al quadrato) e tenendo presente che X 0 X = nS =
115
V M 2 V 0 e H = V M , si ottiene:
2
M dil
=
=
=
=
(xi − xl )0 S −1 (xi − xl )
(g i − g l )0 H 0 S −1 H(g i − g l )
n(g i − g l )0 H 0 (V M −2 V 0 )H(g i − g l )
n(g i − g l )0 (g i − g l ).
In conclusione, la distanza euclidea tra i punti riga nello spazio di rappresentazione
approssima (sempre a meno di un fattore di scala) la distanza di Mahalanobis tra le
unità corrispondenti.
Infine, per quanto concerne le relazioni tra i vettori rappresentativi delle righe e
quelli rappresentativi delle colonne, valgono le stesse considerazioni fatte precedentemente: il biplot consente di interpolare i valori xij mediante la proiezione
ortogonale (prodotto scalare) di un vettore lungo l’altro.
7.4.4 Bontà della rappresentazione
La variabilità totale della matrice X ammette la seguente scomposizione:
||X|| = tr(XX 0 ) =
XX
i
Pertanto,
j
x2ij =
r
X
µ2k .
k=1
µ21 + µ22
2
k=1 µk
Pr
fornisce la quota di variabilità spiegata dai primi due vettori singolari (di destra e di
sinistra).
7.4.5 Illustrazione
Si consideri il data set mdspref.dat già utilizzato nella sezione 7.4.2. Ci proponiamo
di rappresentare su un piano le 10 bibite e gli 8 attributi mediante un biplot con α = 1.
A tal fine impieghiamo la funzione biplot sui risultati dell’analisi delle componenti
principali o equivalentemente la funzione biplot.princomp, entrambe appartenenti
alla libreria mva, già incorporata nella distribuzione base di R. I comandi
> library(mva)
> biplot(princomp(X), cex = .19)
o, equivalentemente,
> X.cp <- princomp(X)
> biplot.princomp(X.cp, cex = .19)
116
Figura 7.2: Biplot del data set mdspref.dat, basato sull’analisi delle componenti
principali (α = 1).
−2
0
2
Fruity
DietPepsi
Thirst
Tab
Diet7Up
2
0.2
4
4
−4
0.4
−6
Aftertaste Tart
CokeCl
Pick−up
DietSlice
0
0.0
Carbonation
Pepsi
Popularity
DrPepper
−4
−0.4
−2
−0.2
Calories
−6
SevenUp
−0.6
Comp.2
Coke
Slice
−0.6
−0.4
−0.2
0.0
Comp.1
117
0.2
0.4
producono la figura 7.2. Si noti che le bibite CokeCl, Coke e Pepsi presentano un
profilo simile in relazione agli 8 attributi e risultano rappresentate vicine nel biplot. Esse
presentano in grado maggiore gli attributi Fruity e Calories, come si può evidenziare proiettando ortogonalmente i punti rappresentativi delle unità sui vettori corrispondenti agli attributi: mediante questa operazione si ottiene infatti un’interpolazione del
valore assunto dall’attributo per una determinata bibite, che ne rappresenta la migliore
approssimazione lineare in due dimensioni.
Per determinare l’adeguatezza della rappresentazione dobbiamo fare riferimento all’output della scomposizione in valori singolari, ottenuto nella sezione 7.4.2:
> gof <-sum(X.svd$d[1:2]ˆ2)/sum(X.svd$dˆ2)
> gof
[1] 0.928432
118
Appendice A
Rappresentazione della distribuzione di
un carattere
A.1 Boxplot
Il boxplot (diagramma a scatola), dovuto a Tukey, rappresenta una sintesi grafica di alcuni aspetti della distribuzione di una variabile quantitativa, che includono una misura di
posizione (mediana), la dispersione (scarto interquartile), i valori estremi.
Il lato inferiore della scatola è tracciato in corrispondenza dal primo quartile, Q1 ,
mentre quello superiore corrisponde al terzo quartile, Q3 . Pertanto, l’altezza della scatola misura lo scarto interquartile, Q3 − Q1 . Il taglio orizzontale interno alla scatola
corrisponde alla mediana (o secondo quartile, Q2 ).
Due baffi (whiskers) verticali, con lunghezza massima pari ad una volta e mezza lo
scarto interquartile, 1.5×(Q3 −Q1 ), si dipartono dalla basi della scatola. Il baffo superiore
corrisponde al più grande valore osservato che risulta non superiore a Q3 +1.5×(Q3 −Q1 ).
Tutti i valori al di sopra vengono rappresentati come punti isolati in quanto possono essere
considerati anomali. Le stesse considerazioni, mutatis mutandis, si applicano al baffo
inferiore.
Vediamo di interpretare il significato della regola yi > Q3 + 1.5(Q3 − Q1 ) yi <
Q1 − 1.5(Q3 − Q1 ) al fine di individuare i valori anomali, con riferimento ad una variabile
normale standard.
> Q3 <- qnorm(.75) # Q1 = -Q3 data La simmetria attorno a zero
[1] 0.6744898
> 2*pnorm(-Q3-1.5*siq)
[1] 0.006976603
Il numero finale rappresenta la probabilità di osservare un valore yi < Q1 − 1.5(Q3 −
Q1 ) ovvero yi > Q3 + 1.5(Q3 − Q1 ).
119
A.2 Stima non parametrica della densità
Consideriamo una variabile casuale continua, Y , con funzione di densità f (y), che è
solitamente sconosciuta. Ci proponiamo di stimare f (y) sulla base di un campione casuale
di osservazioni
y1 , y 2 , . . . , y i , . . . , y n ,
senza fare assunzioni sulla forma parametrica della stessa (normale, t di student, gamma,
etc.).
L’istogramma rappresenta lo stimatore più elementare ed è fondamentalmente basato
sulle operazioni seguenti:
1. si seleziona un punto di origine, y0 e si suddivide il campo dei valori che la variabile
Y può assumere in un numero di sotto intervalli adiacenti, aperti a destra e non
sovrapponentisi, di ampiezza pari a h (detta ampiezza di banda):
C1h = [y0 , y0 + h), C2h = [y0 + h, y0 + 2h), . . . , Cjh = [y0 + (j − 1)h, y0 + jh), . . . .
La notazione pone in evidenza la dipendenza della partizione da h.
2. Si calcola il numero di osservazioni, nj , che cadono in ciascuna degli intervalli Cjh , j = 1, 2, . . . , e, dividendo per il numero di osservazioni complessive, n,
nonché per l’ampiezza dell’intervallo, si ottiene, per ogni y ∈ Cj
n
1 X
fˆjh (y) =
I(yi ∈ Cj ),
nh i=1
dove I(·) è una variabile indicatore che assume valore unitario se l’evento tra parentesi si verifica e zero altrimenti, che rappresenta il numero medio di osservazioni
nell’intervallo che contiene y.
3. Si rappresenta l’istogramma giustapponendo rettangoli di ampiezza h e altezza
fˆjh (y)
Si osservi che la stima della densità dipende dal valore iniziale, y0 , e dall’ampiezza di
banda, h. Quanto più piccola è h tanto più l’istogramma presenterà un comportamento
rozzo. All’aumentare di h il comportamento sarà più lisciato.
Le proprietà di cui gode lo stimatore sono le seguenti: esso è comunque non negativo e
l’area sottostante è uguale all’unità, in accordo con le proprietà di una funzione di densità.
Si può mostrare, inoltre (si veda [16]), che lo stimatore presenta una distorsione crescente
al crescere di h, mentre per la varianza si ha Var(fˆj (y)) ≈ f (y)/(nh), che mostra che
questa è in relazione inversa con l’ampiezza di banda.
L’istogramma è discontinuo, presentando dei salti in corrispondenza degli estremi
degli intervalli Cjh ed è costante all’interno degli intervalli. Ciò gli conferisce una irregolarità indesiderata per la stima di una funzione continua.
120
La dipendenza dalla scelta dell’origine, y0 , può essere eliminata considerando, per
ogni y, un intervallo centrato in y e di ampiezza pari a 2l, Cl (y) = [y − l, y + l) ed
utilizzando lo stimatore
n
1 X
fˆl (y) =
I(yi ∈ Cl (y))
2ln i=1
dove la sommatoria conta le osservazioni che cadono nell’intervallo.
Ora, occorre notare che l’evento yi ∈ Cl (y) si verifica quando
ui =
y − yi
l
risulta in valore assoluto inferiore all’unità; pertanto, I(yi ∈ C(y)) = I(|ui | ≤ 1).
Definendo la funzione ponderatrice, detta anche Kernel uniforme:
1
K(u) = I(|u| ≤ 1),
2
possiamo riscrivere
µ
¶
n
y − yi
1 X
fˆl (y) =
K
,
nl i=1
l
dove per ciascuna osservazione che cade nell’intervallo Cl (y), e che pertanto soddisfa
|(y − yi )/l| ≤ 1, la funzione ponderatrice assume valore pari a 1/2.
Si noti che lo stimatore cosı̀ ottenuto presenta, rispetto all’istogramma, il vantaggio di
non dipendere dal punto iniziale. Al fine di rendere più lisciata la stima della funzione di
densità si può pensare di pesare le osservazioni disponibili in ragione della loro distanza
dal punto y. In effetti, il kernel uniforme assegna il medesimo peso a tutte le osservazioni
che cadono nell’intervallo. A tal fine si possono utilizzare diverse funzioni ponderatrici,
K(u) che godono delle proprietà
Z
K(u) ≥ 0,
K(u)du = 1
e che assegnano un peso relativamente più elevato alle osservazioni vicine a y. Esempi
sono il kernel di Epanechnikov, tale che
(
K(u) =
il kernel Gaussiano,
3
(1
4
− u2 ) |u| ≤ 1
,
0
|u| > 1
µ
¶
1
1
K(u) = √ exp − u2 ,
2
2π
il kernel Triweight,
(
K(u) =
35
(1
32
− u2 )3 |u| ≤ 1
,
0
|u| > 1
121
Figura A.1: Alcune funzioni ponderatrici, K(u), (Kernel).
1.2
1.1
1
.9
.8
.7
.6
.5
.4
.3
.2
.1
Uniforme
Epanechnikov
1
.75
.5
.25
-2
1.2
1.1
1
.9
.8
.7
.6
.5
.4
.3
.2
.1
-1
0
1
2
-2
Gaussiano
-1
0
1
2
-1
0
1
2
Triweight
1
.75
.5
.25
-2
-1
0
1
2
122
-2
rappresentati nella figura A.1.
Pur avendo eliminato la dipendenza dal valore iniziale, lo stimatore kernel della densità dipende dall’ampiezza di banda, ovvero, in questo contesto, dal parametro l. Si pone
dunque il problema della sua determinazione, dal momento che indipendentemente dalla
scelta della funzione ponderatrice si ripropone il solito trade-off le due componenti dell’errore quadratico medio di stima: distorsione e varianza. In particolare, al crescere di l
diminuisce la varianza (un maggior numero di osservazioni concorre a formare la stima
della densità), ma aumenta la distorsione (lo stimatore è maggiormente influenzato da
osservazioni che si trovano più distanti da y).
Purtroppo, il valore ottimale di l, definito come quel valore che minimizza l’errore
quadratico medio di stima, dipende dal valore della distribuzione incognita e dalle sue
derivate (in particolare da quella del secondo ordine). Tra i diversi metodi proposti per
la scelta dell’ampiezza di banda, tra cui la validazione incrociata (cross-validation, si veda [16]), i metodi cosiddetti plug-in operano un’assunzione sulla distribuzione incognita,
ipotizzando ad esempio che essa sia normale, e desumono la relazione analitica che lega
l ai parametri della distribuzione, i quali possono essere stimati sulla base del campione
di osservazioni. Rinviando per ulteriori dettagli alla letteratura specializzata, qui segnaliamo l’opzione di default utilizzata dal software R, coincidente con la regola plug-in di
Silverman, che determina l’ampiezza di banda come segue:
(
)
ˆl = 0.9 min σ̂, R̂ n−1/5 ,
1.34
dove σ̂ è lo scarto quadratico medio dei valori osservati, yi , R̂ rappresenta il campo di
variazione.
123
Appendice B
Elementi di Algebra Lineare
B.1 Vettori
Un vettore costituisce una raccolta di oggetti (o grandezze scalari), che possono rappresentare numeri, variabili casuali, etc., ordinata per colonna (o per riga).






a=





a1
a2
..
.
ai
..
.












an
Dal punto di vista geometrico, a rappresenta un punto nello spazio n-dimensionale
(R ), con coordinate fornite dagli elementi ai . L’attributo principale è il numero di
elementi (n), ovvero la lunghezza del vettore.
Per convenzione un vettore è denotato mediante un simbolo letterale in grassetto;
utilizzeremo il simbolo a0 (si legge a trasposto) per caratterizzare un vettore riga, di
modo che a0 = [a1 , a2 , . . . , an ].
Alcuni casi particolari: 0 rappresenta il vettore con tutti elementi nulli; ei rappresenta
il vettore con i-esimo elemento pari all’unità e i restanti elementi nulli; i rappresenta il
vettore con tutti termini unitari: i = [1, 1, . . . , 1]0 .
n
B.2 Operazioni tra vettori
Eguaglianza tra vettori Dati due vettori di dimensione n, diremo che a = b se e solo se
gli elementi corrispondenti sono uguali: ai = bi , i = 1, 2, . . . , n.
124
Figura B.1: Somma di vettori mediante la regola del parallelogramma.
³
>
³³½
¢
³³ ½½¢
³
³
½ ¢
a
³³
½
¢
¢̧
½
¢
¢
½
b
¢
½
³
1¢
¢ ½½ ³³³
¢½³³³
½
¢³³
c
Moltiplicazione per uno scalare Sia ρ uno scalare; il prodotto ρa è il vettore di elementi ρai . Dal punto di vista geometrico, la moltiplicazione scalare effettua una
estensione o contrazione del vettore a, preservandone la direzione.
Somma di due vettori Siano a e b due vettori di dimensione n; la somma c = a + b
è il vettore di elementi ci = ai + bi . L’interpretazione geometrica della somma
vettoriale, effettuata mediante la regola del parallelogramma, viene illustrata nella
figura B.1.
Combinazione lineare Dati due scalari ρ1 e ρ2 e due vettori a, b,
ρ1 a + ρ2 b
rappresenta la combinazione lineare dei vettori a e b con coefficienti ρ1 e ρ2 .
B.3 Spazi vettoriali
Si considerino i due vettori
"
e1 =
1
0
#
"
, e2 =
0
1
#
.
Combinando linearmente i due vettori con coefficienti 1 e 1 si ottiene i = e1 + e2 , mentre
il vettore di elementi 10 e −5 si ottiene risulta dalla combinazione 10e1 − 5e2 . Non è
difficile concludere che tutti i punti del piano R2 , tali che la prima coordinata è un numero
reale e la seconda pure, possono essere generati mediante una combinazione lineare dei
due vettori e1 e e2 . L’insieme dei vettori in R2 verrà chiamato spazio vettoriale, mentre
e1 e e2 verranno detti base dello spazio vettoriale.
125
Uno spazio vettoriale è qualsiasi insieme di vettori che sia chiuso rispetto alle operazioni di moltiplicazione scalare e di somma vettoriale (a, b ∈ V ⇒ c = ρ1 a + ρ2 b ∈ V,
dove V denota uno spazio vettoriale). Ad esempio, l’insieme dei vettori in R∈ costituisce
uno spazio vettoriale, dal momento che una loro combinazione lineare è un vettore del
medesimo spazio. L’insieme dei vettori la cui prima coordinata è un numero reale, mentre
la seconda coordinata è 0, rappresenta uno spazio vettoriale che è contenuto nello spazio
dei vettori in R∈ (rappresenta un sottospazio, ed in particolare una retta passante per
l’origine con coefficiente angolare unitario). Viceversa, l’insieme dei vettori la cui prima
coordinata è un numero reale, mentre la seconda coordinata è 2 non costituisce uno spazio
vettoriale, dal momento che la moltiplicazione scalare di uno qualsiasi degli elementi
fornisce un elemento non appartenente all’insieme (la seconda coordinata è 2ρ).
Base di uno spazio vettoriale Un insieme di vettori costituisce una base per uno spazio
vettoriale se ogni vettore dello spazio può essere scritto come combinazione lineare di
quei vettori.
Esempio i)
"
#
"
#
1
3
a=
,b =
2
.5
costituiscono una base di R2 . Dal momento che, come argomentato precedentemente,
anche e1 e e2 costituiscono una base per il medesimo spazio vettoriale, l’illustrazione
mostra che la base di uno spazio vettoriale non è unica.
Esempio ii)
"
#
"
#
1
3
a=
,b =
0
0
a e b non costituiscono una base di R2 (il vettore di elementi c1 , c2 , tale che c2 6= 0,
appartenente a R2 , non può essere ottenuto come combinazione lineare dei due vettori).
In generale, a e b = ρa non costituiscono una base per R2 .
Dipendenza lineare Un insieme di vettori è linearmente dipendente se uno o più elementi possono essere ottenuti dalla combinazione lineare degli altri elementi appartenenti
all’insieme. I tre vettori
"
#
"
#
1
3
a=
,b =
, c = ρ1 a + ρ2 b
2
.5
costituiscono un insieme linearmente dipendente. In altre parole, se un insieme è linearmente dipendente esiste una combinazione lineare con coefficienti non nulli che dà luogo
al vettore nullo.
Indipendenza lineare
Un insieme di vettori è linearmente indipendente se e solo se
ρ1 a1 + ρ2 a2 + · · · + ρn an = 0 ⇐⇒ ρ1 = ρ2 = · · · = ρn = 0
126
Base di uno spazio vettoriale Una base per uno spazio vettoriale di dimensione n è
costituito da un qualsiasi insieme di n vettori linearmente indipendenti appartenenti a
quello spazio. L’insieme dei vettori e1 , . . . , en è denominato base canonica: il generico
vettore x = [x1 , x2 , . . . , xn ]0 ∈ Rn può essere scritto x = x1 e1 + x2 e2 + · · · + xn en .
NB. Ogni insieme di vettori genera uno spazio vettoriale: lo spazio vettoriale generato
da un insieme di vettori è fornito dall’insieme dei vettori che possono essere ottenuti
mediante combinazione lineare.
Dimensione di uno spazio vettoriale La dimensione dello spazio vettoriale è costituita
dal più grande numero di vettori linearmente indipendenti che generano quello spazio.
La dimensione dello spazio generato dai tre vettori a, b e c = ρ1 a + ρ2 b, con a e b
linearmente indipendenti, risulta pari a 2.
B.4 Prodotto scalare
Dati due vettori a e b di dimensione n definiamo il loro prodotto scalare come la somma
dei prodotti degli elementi che occupano la stessa posizione:
a0 b =
n
X
ai bi
i=1
Il prodotto scalare è omogeneo ((ρa)0 b = ρ(a0 b)), gode della proprietà commutativa
(a0 b = b0 a) e distributiva (a0 (b + c) = a0 b + a0 c).
Caso particolare: n−1 i0 a fornisce la media degli elementi di a.
Norma o lunghezza di un vettore: per il teorema di Pitagora, la norma di a è la radice
del prodotto scalare di un vettore per se stesso:
||a|| =
√
a0 a =
à n
X
!1/2
a2i
i=1
Si noti che ||a|| ≥ 0.
Ortogonalità tra vettori: due vettori si dicono ortogonali, e si scrive a ⊥ b, se e solo se
il loro prodotto scalare è nullo, a0 b = 0. In tal caso ||a + b||2 = ||a||2 + ||b||2 (teorema
di Pitagora).
Interpretazione geometrica del prodotto scalare Dati due vettori a e b, è possibile
scegliere uno scalare ρ e un vettore c, ortogonale a b, b ⊥ c, in modo da scrivere a =
c + ρb, dove ρb rappresenta la proiezione ortogonale di a su b. Considerando il prodotto
scalare di entrambi i membri per b si ottiene
a0 b = c0 b + ρb0 b = ρ||b||2
127
Pertanto, ρ = a0 b/||b||2 . Lo scalare ρ rappresenta la coordinata del punto a nel sottospazio (unidimensionale) generato dal vettore b. Denotiamo ora con θ l’angolo compreso tra i vettori a e b.
||ρb||
a0 b
cos θ =
=
||a||
||a|| ||b||
ovvero
a0 b = ||a|| ||b|| cos θ
NB. Se θ = π/2, 3π/2, cos θ = 0. Se infine x e y sono due vettori di variabili rappresentate sotto forma di scarti dalla media, cos θ = ρxy .
Figura B.2: Interpretazione geometrica del prodotto scalare.
a
b
b
Disuguaglianza di Cauchy-Schwartz:
(a0 b)2 ≤ (a0 a)(b0 b) = ||a||2 ||b||2 ,
ovvero |a0 b| ≤ ||a|| ||b||; l’eguaglianza si ottiene se e solo se a e b sono linearmente
dipendenti. Per dimostrare tale risultato basta prendere il quadrato di entrambi i termini
della relazione a0 b = ||a|| ||b|| cos θ e riflettere sul fatto che cos2 θ ≤ 1. In statistica
la disuguaglianza viene utilizzata per mostrare che il coefficiente di correlazione tra due
128
variabili non supera in valore assoluto l’unità. Siano x e y due vettori di n elementi
sotto forma di scarto dalla media; il prodotto scalare x0 y rappresenta la codevianza tra
le due variabili, mentre ||x||2 = x0 x e ||y||2 = y 0 y rappresentano la devianza delle due
variabili. A corollario della disuguaglianza di Cauchy-Schwartz si ottiene
|ρxy | =
|x0 y|
≤ 1,
||x|| · ||y||
dove ρxy rappresenta il coefficiente di correlazione lineare di Bravais. Se pertanto x e y
sono due vettori di variabili rappresentate sotto forma di scarti dalla media, cos θ = ρxy .
Disuguaglianza triangolare:
||a + b|| ≤ ||a|| + ||b||
La dimostrazione utilizza la diseguaglianza di Cauchy-Schwartz.
||a + b||2 =
≤
≤
=
||a||2 + ||b||2 + 2a0 b
||a||2 + ||b||2 + 2|a0 b|
||a||2 + ||b||2 + 2||a|| · ||b||
(||a|| + ||b||)2
B.5 Matrici
Una matrice costituisce un insieme rettangolare di scalari ordinati per riga e colonna.
Può anche essere vista come la raccolta di m vettori colonna di dimensione n o come la
raccolta di n vettori riga di dimensione m.






A = {aij } = 





a11 a12
a21 a22
..
..
.
.
ai1 ai2
..
..
.
.
an1 an2
. . . a1j . . . a1m
. . . a2j . . . a2m
..
... ... ...
.
. . . aij
...







aim 

.. 
. 

... ... ...
. . . anj . . . anm
Attributo: dimensione (numero di righe e di colonne) n × m.
Casi particolari:
• matrice quadrata m = n; la diagonale principale della matrice contiene i termini aii
• matrice identità, I, tale che aij = 0, i 6= j, aii = 1
• matrice scalare, ρI, tale che aij = 0, i 6= j, aii = ρ
129
• matrice diagonale: soltanto gli elementi sulla diagonale principale sono diversi da
zero.
D = diag(d1 , d2 , . . . , dn )
• matrice simmetrica: una matrice quadrata si dice simmetrica se aij = aji (la
simmetria viene valutata rispetto alla diagonale principale)
• matrice triangolare: presenta elementi non nulli soltanto al di sopra o al di sotto della diagonale principale (triangolare inferiore: aij = 0, i < j; triangolare superiore:
aij = 0, i > j;
• un vettore colonna è una matrice n × 1; un vettore riga una è una matrice 1 × m.
Spazio colonna: Lo spazio colonna è lo spazio vettoriale generato dai vettori colonna che
formano la matrice
Rango colonna: la dimensione dello spazio vettoriale generato dalle colonne di una
matrice è denominato rango.
Analoghe definizioni valgono per le righe di una matrice. Due risultati notevoli concernenti il rango: i) il rango riga e il rango colonna di una matrice sono coincidenti e ii)
rank(A) ≤ min(n, m).
B.6 Operazioni algebriche su matrici
Eguaglianza tra matrici: Due matrici dello stesso ordine sono uguali, A = B, se e solo
se aij = bij , i = 1, . . . , n, j = 1, . . . , m.
Moltiplicazione per uno scalare: ρA è la matrice di elementi ρaij (ogni elemento viene
moltiplicato per ρ)
Somma tra matrici: date due matrici A, B di ordine n × m, la matrice somma, C, si
ottiene sommando gli elementi corrispondenti (che occupano la stessa posizione)
C = A + B,
cij = aij + bij
Trasposizione: La matrice trasposta B = A0 si ottiene scambiando le righe con le
colonne, in modo tale che bij = aji . Pertanto, se A è una matrice n × m, A0 ha dimensione m × n. Una matrice simmetrica è tale che A = A0 . Dato un vettore a di
dimensione n × 1, a0 = [a1 , . . . , an ].
Proprietà: i) (A0 )0 = A; ii) (A + B)0 = A0 + B 0 .
Prodotto tra matrici: sia A una matrice n × m. L’i-esima riga della matrice A può
essere scritta come il vettore 1 × m a0i . Sia inoltre B una matrice m × p, la cui j-esima
130
colonna è il vettore bj , di dimensione m × 1. Pertanto,





,



a01
 . 
 .. 
A=
 a0i

 ..
 .
B = [b1 , . . . , bj , . . . , bp ]
a0n
Il prodotto tra le due matrici C = AB, dove A premoltiplica B, è la matrice di
ordine n × p il cui elemento generico è
cij = a0i bj =
m
X
aik bkj
k=1
Pertanto, il prodotto si effettua riga per colonna. Il prodotto matriciale non è commutativo:
se n 6= p, BA non è definito.
Il prodotto di una matrice con un vettore è un caso particolare. Sia X una matrice
n × k, X = [x1 , . . . , xk ], e sia a = [a1 , . . . , ak ]0 un vettore k × 1. Il prodotto Xa è il
vettore n × 1 (combinazione lineare delle colonne di X):
a1 x1 + a2 x2 + · · · + ak xk =
k
X
aj xj
j=1
Dati due vettori a, b di ordini n × 1 e m × 1, il prodotto C = ab0 è una matrice n × m
di elementi cij = ai bj .
La matrice identità è l’elemento neutro del prodotto matriciale: I n A = A, BI p = B.
Proprietà: i) associativa: (AB)C = A(BC); ii) distributiva: A(B + C) = AB +
AC; iii) la trasposta del prodotto è uguale al prodotto delle trasposte in ordine inverso:
C 0 = (AB)0 = B 0 A0 .
Un ulteriore risultato notevole concerne il rango del prodotto di due matrici:
rank(AB) ≤ min(rank(A), rank(B))
A corollario troviamo il risultato che se A è una matrice n × m e B è una matrice m × m
di rango pieno, rank(AB) = rank(A). Inoltre, rank(A) = rank(AA0 ) = rank(A0 A).
NB: se Ab = 0 per b 6= 0 le colonne di A sono linearmente dipendenti (ovvero A
presenta rango ridotto).
Potenze di una matrice: sia M una matrice quadrata, n × n; la potenza di ordine r, con
r intero positivo, è la matrice che si ottiene dal prodotto matriciale di M iterato r volte:
M r = M M M · · · M = M r−1 M
Matrici idempotenti: una matrice è detta idempotente se M r = M . Se M è anche
simmetrica, M 0 M = M .
131
B.7 Determinante di una matrice
Sia A una matrice quadrata. Il determinante di A è uno scalare, |A|, il cui valore assoluto
misura il volume del parallelepipedo delimitato dalle colonne di A. Nel caso della matrice
identità il volume è pari a 1, per cui |I| = 1.
Per una matrice diagonale D = diag(d1 , . . . , dn ) si ha
|D| = d1 · d2 · · · dn =
n
Y
di
i=1
Se inoltre moltiplichiamo per lo scalare ρ si ha |ρD| = ρn |D|.
Per una matrice 2 × 2,
¯
¯ a
¯
|A| = ¯¯ 11
a21
¯
¯
¯
¯ = a11 a22 − a12 a21
¯
a12
a22
Nel caso generale, il determinante viene calcolato mediante l’espansione in cofattori:
|A| =
n
X
aij (−1)i+j |Aij |
j=1
dove Aij è la sottomatrice della matrice A ottenuta eliminando la riga i e la colonna j;
|Aij | è detto minore di A e (−1)i+j |Aij | è detto cofattore.
Il calcolo del determinante è solitamente complicato. Generalmente si effettuano
delle trasformazioni della matrice in modo da renderla triangolare. Il determinante di
una matrice triangolare è infatti pari al prodotto degli elementi diagonali.
Nel caso di una matrice 3 × 3 si applica la cosiddetta regola di Sarrus per cui:
¯
¯ a
¯ 11
¯
¯ a21
¯
¯ a31
a12 a13
a22 a23
a32 a33
¯
¯
¯
¯
¯ = a11 a22 a33 +a12 a23 a31 +a13 a21 a32 −a31 a22 a13 −a32 a23 a11 −a33 a21 a12
¯
¯
Se le colonne (righe) della matrice A sono linearmente dipendenti, di modo che
rank(A) < n, |A| = 0.
Proprietà del determinante: i) |AB| = |A| |B|. ii) |A0 | = |A|.
B.8 Traccia di una matrice
La traccia di una matrice quadrata è la somma degli elementi sulla diagonale principale:
tr(A) =
n
X
i=1
132
aii
La traccia gode delle seguenti proprietà:
tr(ρA) = ρtr(A)
tr(A + B) = tr(A) + tr(B)
tr(A0 ) = tr(A)
tr(AB) = tr(BA)
B.9 Sistemi di equazioni lineari
Sia A una matrice n × n nota e b un vettore n × 1 anche esso noto. Un sistema di n
equazioni in n incognite viene scritto nel modo seguente:
Ax = b
Il sistema si dice omogeneo se b = 0. Condizione necessaria e sufficiente per l’esistenza
di una soluzione non banale (x 6= 0) è che A sia di rango ridotto (rank(A) < n) e che
pertanto le colonne della matrice siano linearmente dipendenti, il che equivale a richiedere
che |A| = 0. Lo dimensione dello spazio delle soluzioni è pari a n − rank(A).
Un sistema non omogeneo ammette un’unica soluzione se e solo se |A| 6= 0, ovvero
rank(A) = n. In tal caso la soluzione è
x = A−1 b
dove A−1 rappresenta l’inversa della matrice A. Modi equivalenti per ottenere la soluzione
senza passare per il calcolo della matrice inversa sono il metodo di eliminazione di Gauss
e la regola di Cramer.
B.10
Matrice inversa
Sia A una matrice quadrata di dimensione n e rango pieno. Si definisce matrice inversa
la matrice che premoltiplicata o postmoltiplicata per A fornisce la matrice identità:
BA = I, AB = I
nel seguito scriveremo B = A−1 .
La condizione per l’esistenza e l’unicità di A−1 è che il rango di A sia pari a n. In tal
caso si dice che A è non singolare o invertibile.
Nel caso di una matrice diagonale la determinazione della matrice inversa risulta
immediata: D −1 = diag(1/d1 , . . . , 1/dn ).
133
Illustriamo ora calcolo della matrice inversa per una matrice 2 × 2: dalla definizione,
AB = I, ovvero
"
#"
#
"
#
a11 a12
b11 b12
1 0
=
a21 a22
b21 b22
0 1
si perviene ad un sistema di quattro equazioni in 4 incognite la cui soluzione fornisce:
"
b11 b12
b21 b22
#
1
=
a11 a22 − a12 a21
"
a22 −a12
−a21
a11
In generale,
A−1 =
#
1
=
|A|
"
a22 −a12
−a21
a11
#
1 ∗
A
|A|
dove A∗ rappresenta la matrice aggiunta di A, con elemento generico rappresentato dal
cofattore di A corrispondente:
a∗ji = (−1)i+j |Aij |
Qui di seguito riportiamo alcuni importanti risultati riferiti all’inversa:
|A−1 | =
1
|A|
(A−1 )−1 = A
(A−1 )0 = (A0 )−1
(AB)−1 = B −1 A−1
se entrambe le matrici sono invertibili. L’ultimo risultato viene utilizzato per mostrare
(ABC)−1 = C −1 (AB)−1 = C −1 B −1 A−1
Una matrice si dice ortogonale se la matrice inversa è uguale alla trasposta:
A0 A = I
B.11
AA0 = I
Autovalori e autovettori
Data una matrice quadrata di dimensione n, A, consideriamo ora il problema di determinare uno scalare λ e un vettore v che soddisfano il sistema di equazioni:
Av = λv
134
Si noti che il problema è indeterminato, dal momento che le incognite sono n + 1: gli
elementi del vettore v e lo scalare λ. Quest’ultimo è detto autovalore o valore caratteristico (latente) della matrice A, mentre v è denominato autovettore o vettore caratteristico
(latente).
Il sistema può essere riscritto nella forma:
(A − λI)v = 0
che evidenzia che, per dato λ il sistema è omogeneo ed ammette una soluzione non banale
(v 6= 0) se e solo se
|A − λI| = 0.
Questa condizione fornisce un’equazione in λ di grado n, detta equazione caratteristica, che sarà appunto utilizzata per determinare λ. Sostituendo a turno ciascuna delle n
soluzioni in (A − λI)v = 0 si determina l’autovettore v corrispondente, risolvendo il
sistema omogeneo di n equazioni in n incognite. Ovviamente, tutte le soluzioni del tipo
ρv costituiscono una soluzione; a tale indeterminatezza si può porre rimedio imponendo
il vincolo di normalizzazione
v0v = 1
mediante il quale si richiede che l’autovettore abbia lunghezza unitaria.
Particolarmente interessante è il caso in cui A è una matrice simmetrica. Si dimostra
infatti che:
1. Gli autovalori di una matrice simmetrica sono reali (nel caso generale possono
essere complessi); questi possono essere distinti o presentarsi ripetuti più volte
(molteplicità)
2. Gli autovettori corrispondenti ad autovalori distinti sono ortogonali: siano v i e v j
due autovettori corrispondenti alle radici λi e λj 6= λi ; allora, v 0i v j = 0. Inoltre, se
un autovalore ha molteplicità k, esistono in corrispondenza k autovettori ortogonali.
3. La proprietà precedente abbinata al vincolo di normalizzazione (v 0 v = 1) implica
che gli autovettori di una matrice simmetrica costituiscono un insieme ortonormale:
(
v 0i v j
=
1 i=j
0 i=
6 j
Raccogliendo gli n autovettori nella matrice V = [v 1 , . . . , v n ], si ha V 0 V = I e
V V 0 = I, ovvero V è una matrice ortogonale (l’inversa e la trasposta coincidono).
135
B.12
Scomposizione spettrale di una matrice
Gli n sistemi Av i = λi v i possono essere raccolti in
AV = V Λ
dove Λ = diag(λ1 , . . . , λn ). Premoltiplicando entrambi i membri per V 0 si ottiene
V 0 AV = Λ
da cui l’affermazione che la matrice degli autovettori diagonalizza A.
Premoltiplicando l’espressione precedente per V e postmoltiplicando per V 0 , si consegue la scomposizione spettrale della matrice (simmetrica) A:
A = V ΛV 0 =
n
X
λi v i v 0i
i=1
Si noti che il rango di V è pieno (dal momento che V 0 V = I), e questo implica che
rank(A) = rank(Λ)
Pertanto, il rango di una matrice simmetrica è pari al numero di autovalori non nulli. Se
una matrice ha uno o più autovalori nulli, allora si ha Aν = 0 il che implica che la matrice
è singolare (rango ridotto).
Data una matrice X di ordine n × k, il rango di X può essere desunto dal numero di
autovalori non nulli di X 0 X o XX 0 . Queste matrici sono quadrate e simmetriche, e si
applica il risultato rank(X) = rank(X 0 X) = rank(XX 0 ). Inoltre, si può dimostrare che
gli autovalori non nulli di X 0 X e XX 0 sono identici.
Il determinante di una matrice è il prodotto degli autovalori:
|A| = |V ΛV 0 | = |V 0 | |Λ| |V | = |V 0 V | |Λ| = |Λ| =
n
Y
λi
i=1
La traccia di una matrice è uguale alla somma degli autovalori:
tr(A) =
n
X
λi
i=1
Potenze di una matrice In considerazione dell’ortogonalità di V , Ar = V Λr V 0 , e
pertanto, gli autovalori della potenza di ordine r sono gli autovalori di A elevati alla
medesima potenza, mentre gli autovettori sono coincidenti.
Autovalori e autovettori della matrice inversa Gli autovalori di A−1 sono i reciproci
degli autovalori di A; gli autovettori sono coincidenti.
136
Autovalori e autovettori di una matrice idempotente Gli autovalori di una matrice
idempotente sono pari a zero o ad uno. Infatti A2 v = Av = λv, ma A2 v = λ2 v, per cui
deve essere λ(1 − λ)v = 0. Il rango di una matrice idempotente è uguale alla traccia.
B.13
Forme quadratiche
Data una matrice simmetrica, A, di dimensione n, si definisce forma quadratica la grandezza scalare:
n n
x0 Ax =
XX
aij xi xj
i=1 j=1
Se x0 Ax > 0(< 0) ∀x 6= 0, la forma quadratica è detta definita positiva (negativa); se
x0 Ax ≥ 0(≤ 0) ∀x 6= 0, la forma quadratica è detta semidefinita positiva (negativa);
altrimenti, viene detta indefinita. Tali definizioni si estendono alla matrice A.
La caratterizzazione della matrice può essere effettuata a partire dai suoi autovettori,
dal momento che: A è definita positiva (negativa) se e solo se tutti i suoi autovalori sono
positivi (negativi). E’ semidefinita positiva (negativa) se λi ≥ 0 (≤ 0), ∀i. Infatti, a
partire dalla scomposizione spettrale di A,
x0 Ax = x0 V ΛV 0 x = y 0 Λy =
n
X
λi yi2
i=1
dove si è posto y = V 0 x. In maniera equivalente, si dimostra che x0 Ax ≥ 0 ⇐⇒
|A| ≥ 0.
Un risultato importante è il seguente: se A e d.p. e B è una matrice non singolare,
0
B AB è d.p.
P
Se inoltre A è idempotente di rango r, x0 Ax = ri=1 yi2 . Questo risultato consegue
dal fatto che una matrice idempotente simmetrica ha autovalori pari a 1 di molteplicità
pari a rango, mentre i restanti autovalori sono nulli.
B.14
Matrici a blocchi
Spesso risulta utile manipolare gruppi di elementi contigui di una matrice. A tal fine la
matrice può essere partizionata in sottomatrici di dimensione opportuna. Ad esempio,
"
A=
A11 A12
A21 A22
#
"
, B=
B 11 B 12
B 21 B 22
#
Se le sottomatrici sono conformabili possiamo effettuare alcune operazioni nel modo
consueto.
137
Somma di matrici a blocchi
"
A+B =
A11 + B 11 A12 + B 12
A21 + B 21 A22 + B 22
#
Prodotto di matrici a blocchi
"
AB =
A11 B 11 + A12 B 21 A11 B 12 + A12 B 22
A21 B 11 + A22 B 21 A21 B 12 + A22 B 22
Se A è diagonale a blocchi:
Determinante di una matrice a blocchi
¯
¯ A
¯
11
¯
¯ 0
0
A22
#
¯
¯
¯
¯ = |A11 | |A22 |
¯
−1
Nel caso generale: A22.1 = A22 − A21 A−1
11 A12 e A11.2 = A11 − A12 A22 A21
¯
¯ A
¯
11
¯
¯ A21
A12
A22
Inversa di una matrice a blocchi
"
¯
¯
¯
¯ = |A11 | |A22.1 | = |A22 | |A11.2 |
¯
Se A è diagonale a blocchi:
A11 0
0 A22
#−1
"
=
A−1
0
11
0 A−1
22
#
Nel caso generale, se A22.1 è non singolare:
"
A11 A12
A21 A22
#−1
"
=
−1
−1
−1
−1
A−1
−A−1
11 + A11 A12 A22.1 A21 A11
11 A12 A22.1
−1
−A−1
A−1
22.1 A21 A11
22.1
#
ovvero, se A11.2 è non singolare:
"
A11 A12
A21 A22
#−1
"
=
−1
A−1
−A−1
11.2
11.2 A12 A22
−1
−1
−1
−1
−1
−A−1
22 A21 A11.2 A22 + A22 A21 A11.2 A12 A22
138
#
Bibliografia
[1] H. V. Roberts. Applications in business and economic statistics: some personal
views. Statistical Science, 5:372–402, 1990.
[2] M.J. Baker. Marketing, an introductory text. Macmillan, 1991.
[3] M.J. Kotler. Marketing management. Prentice Hall, 1984.
[4] G.A. Churchill.
Dryden, 1995.
Marketing research. Methodological foundations, 6th Edition.
[5] G. Tassinari S. Brasini, F. Tassinari. Marketing e pubblicità. Metodi di analisi
statistica. Il Mulino, 1999.
[6] G. Kalton e D. Kasprzyk. Imputing for missing survey response. Proceedings of
the Section on Survey Research Methods, American Statistical Association, pages
22–31, 1982.
[7] A.N. Oppenheim. Questionnaire design and attitude measurement. Heinemann,
1966.
[8] W.G. Cochran. Sampling Techniques, Third Edition. John Wiley & Sons, 1977.
[9] G. Kalton e H. Schuman. The effect of question on survey responses: a review.
Journal of the Royal Statistical Society, Serie A, 145:42–73, 1982.
[10] J.A. Hartigan e M.A. Wong. A k-means clustering algorithm. Applied Statistics,
28:100–108, 1979.
[11] L. Kaufman e P.J. Rousseeuw. Finding Groups in Data. An Introduction to Cluster
Analysis. Wiley, 1990.
[12] B. Bracalente, editor. Le stime comunali dei consumi delle famiglie. Regione
dell’Umbria, Assessorato al Commercio e Turismo, Perugia, 1994.
[13] J.B. Kruskal e M. Wish. Multidimensional scaling, volume 11 of Quantitative
Applications in the Social Sciences. Sage University Press, 1978.
139
[14] L. Molteni. L’analisi multivariata nelle ricerche di marketing. EGEA, Milano,
1993.
[15] K. R. Gabriel. The biplot graphic display of matrices with application to principal
component analysis. Biometrika, 58:453–467, 1971.
[16] B.W. Silverman. Density estimation for statistics and data analysis. Chapman &
Hall, 1986.
140
Scarica

AdM_Dispense