CSI-Piemonte
Consorzio Sistemi Informativi
Provincia
di Torino
Comune
di Torino
Analisi dei cluster sui dati del
« Censimento dell’Agricoltura 2000 »
della Regione Piemonte
Jean Michel Bosco
Agenda
 Contesto e obiettivi
 Organizzazione dei dati
 Esplorazione e trasformazione dei dati
 Definizione del modello
 Interpretazione dei risultati
 Organizzazione e planning
2
Contesto e obiettivi
Vison, Obiettivi
e Strategia
La vision globale del progetto :
Valorizzare il Data Mining in seno al CSI
Rendere i dati ‘intelligenti’
Problematiche del Progetto :
Definire degli indicatori statistici
Applicare una segmentazione (Clustering)
Modello predittivo (Scoring) se sarà disponibile l’accesso ai Database ORACLE
Obiettivi :
 Regrouper en segments homogènes les agriculteurs de la région Piémont
 Definire una visione globale dell’attività per alimentare una riflessione strategica.
 Rilevare i bisogni del cliente
Disponibilità dei
dati
Sistemi informativi per l’agricolura:
I dati del censimento sono organizzati in un Data Warehouse
I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono
stati considerati nell’analisi
L’applicativo Web http://www.regione.piemonte.it/capu/jsp/index.jsp per l’analisi
multidimensionale
Documentazione
Glossario
Scheda del Cesimento
Norme di classificazione degli Agricoltori
Accesso all’informazione
Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide
3
Organizzazione dei dati
 Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE
 Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108)
 Trattamento dei « missing »
Nome de la table
Nb
identifia
nts
Nb
de lignes
Nb
variables
1. base_azi
120965
120965
53
2. capo_azienda
120965
120965
4
3. contoterz
120965
120965
2
4. utilizzazione_terreno
120863
798443
7
5. manodopera_familiare
119712
296338
2
6. mezzi_meccanici
104734
337330
1
7. mez_tec
100176
373367
3
8. lavaro_terr
88788
386592
6
9. impianti
87029
165586
3
10.prod_comm
85623
177705
5
11.irrigazione
47279
240379
2
12.allevamento
42541
153577
4
13.vite
40622
118235
7
14.ricovero
38642
52736
2
15.prod_qual
21372
32319
2
16.latte
14616
47667
3
5432
8761
2
17.altra_manodopera
108
data base_imp2000_2 ;
set datiodd.base_imp2000 ;
LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' ||
SUBSTR(COD_LIV2,1,2) ||'.'
||SUBSTR(COD_LIV3,1,2)) ;
Run ;
PROC TRANSPOSE DATA=base_imp2000_2
OUT=base_imp2000_3(LABEL="Transposed
datiodd.base_imp2000")
NAME=Source LABEL=Label ;
BY z_cod_azienda ;
ID LIV123_IMP ;
VAR CAPACITA ;
RUN ;
data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3
CAP_IMP_KG CAP_IMP_M2) ;
set base_imp2000_3;
CAP_IMP_M3=
sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03
D03,_29D04D06,_33D02D02,_33D04D04) ;
CAP_IMP_KG=
sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03
D05,_30D03D03) ;
CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ;
label CAP_IMP_M3= 'volume capacita
impianti';
label CAP_IMP_KG= 'peso capacita impianti';
label CAP_IMP_M2= 'spazio capacita impianti';
4
run ;
Esplorazione e trasformazione dei dati
 Ridefinizione delle classi per le variabili nominali (ordinali)
 Assegnazione di una classe (9) alle proporzioni più basse
5
Esplorazione e trasformazione dei dati
 Transformazione logaritmica delle variabili intervallari
 Esclusivamente per le variabili la cui distributizione migliora
6
Definizione del modello
 Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili
 Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita
 Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen
7
Interpretazione dei risultati
Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster
18154
39983
35135
Orti familiari
27693
Grandi colture
8
Interpretazione dei risultati
Comparazione dei cluster in funzione delle variabili utilizzate
4
3
9
Interprétation des résultats
Comparazione dei cluster in funzione delle variabili utilizzate
10
Interpretazione dei risultati
Comparazione dei cluster 3 e 4
11
Interpretazione dei risultati
Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazione
significativa per le aziende site in pianura
12
Interpretazione dei risultati
CLUSTER
Cluster 4
:
27693 azienda
Cluster 3
:
35135 azienda
CARATTERISTICHE

Aziende: Grandi culture

Site in pianura
es sur les plaines

Propietari affittano parte dei terreni

Il capo azienda è giovane con molte giornate di lavoro

Significativo apporto della mano d’opera familiare

Le superifici utilizzate sono le più importanti

Utilizzo dei mezzi meccanici

Capacità degli impianti in volume e spazio sopra la media

Transformano i prodotti

Vendono principalmente agli industriali

Economicamente rilevanti

Azienda de

Installé es surtout sur les montagnes


es
Possèdent des
superficies gratuites, mais loue
nt aussi et parfois propriétair
le dirigeant est plus
vieux en moyenne
avec des jours de travails
moins élevés

une main d ’œ uvre familiale

les superficies utilisées sont les moins importantes

la superficie «

La mo itié d’entre elles ne sont pas de la classe CEE

Ne s’adresse
superfici destinate ai seminativi
petite culture mixte
(culture maraîchère)
non significative
orti familia ri » et celle des bois
les plus importantes
nt pas aux organisations associatives pour l’utilisation des moyens
mécaniques

Consomme nt à peu près la moitié de son produit

Economiquement les moins importantes
13
Interpretazione dei risultati
CLUSTER
Cluster 4
:
27693 azienda
Cluster 3
:
35135 azienda
CARATTERISTICHE

Azienda de grande culture

Installé es sur les plaines

propriétaire s et loue nt une partie de leurs

le dirigeant est plus jeune

une main d ’œ uvre familiale significative

les superficies utilisées sont les plus importantes

utilise nt plus les moyens mécaniques

capacité en espace et en volume les plus importantes

Transforme nt plus ces produits agricoles

vend ent p lus aux industriels

Economiquement les plus importantes

Aziende: Piccole colture

Site in montagna

Lavorano superfici gratuite, in parte minore le affitano o sono proprietari.

Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus

Mano d'opera familiare poco significativa

Le superfici ultizzate sono scarsamente rilevanti

Più significative le superfici destinate agli orti familiari e ai boschi

La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE

Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici

Consumano all’incirca la metà dei loro prodotti

Economicamente poco importanti
avec des terres arables (seminativio)
en moyenne
superficie
avec des jo urs de travails élevés
(colture ortofrutticole)
14
Interpretazione dei risultati
CLUSTER
CARATTERISTICHE
 Aziende accostabili al gruppo Grandi Colture
 Colture arboricole permanenti
Cluster 2 :
 Specilizzati in viticoltura
18154 azienda
 Localizzate soprattutto in collina, e in parte in pianura
 Forte capacità di trasformazione dei prodotti
 Aderiscono a società cooperative
 Vendono buona parete dei prodotti alle organizzazioni associative,
ma non ai contrattuali
 Sono in prevalenza Proprietari
 Azienda proche des azienda de petite culture mixte
 Installées surtout sur les montagnes en partie
Cluster 1 :
 Vendent aux consommateurs
39983 azienda
 Majoritairement propriétaires
15
Interpretazione dei risultati
CLUSTER
CARATTERISTICHE
rande
g
culture
 Aziendaproche des azienda de
relativement
la plus importante
 culture permanente arboricole
Cluster2 :
 spécialisées dans la viticulture
18154azienda
 Installées sur lescollines en partie
t
ation des produi
ts agricole
s importante
 Capacité deransform
 Adhèrent aux sociétés coopératives et de producteurs
 Vendentla totalité de ses produits aux organisations associatives, mais ne v
pas aux contractuels
s
 Majoritairement propriétaire
 Aziende con caratteristiche simili al gruppo Orti Familiari
 Localizzati soprattutto in montagna e in parte in collina
Cluster1 :
 Vendono direttamente al consumatore
39983azienda
 Hanno terreni di Proprietà
16
Interpretazione dei risultati
Ripartizione delle attività in funzione dei cluster
CLASS_AZIENDA
(120965)
Vendono di più rispetto al cluster 1
ATTIVITà
1
(39983)
2
(18154)
3
(35135)
4
(27693)
ALLEVAMENTO
(42541)
33,77%
13,36%
16,29%
36,39%
(33,78%)
VITE
(40622)
43,58%
37,98%
11,06%
7,38%
LATTE
(14616)
29,34%
9,28%
4,54%
56,83%
AGRITURISMO
(596)
22,48%
39,09%
9,40%
29,03%
17
Interpretazione dei risultati
Ripartizione delle attività in funzione dei cluster
CLASS_AZIENDA
(120965)
(42541)
(40622)
ATTIVITà
Il gruppo 1 resta leader,
ma sefuito dal gruppo 3
1
(39983)
2
(18154)
3
(35135)
4
(27693)
ALLEVAMENTO
(42541)
33,77%
(37,97%)
13,36%
(14,04%)
16,29%
(16,98%)
36,39%
(31,01%)
VITE
(40622)
43,58%
(33,11%)
37,98%
(19,69%)
11,06%
(26,30%)
7,38%
(20,91%)
LATTE
(14616)
29,34%
9,28%
4,54%
56,83%
AGRITURISMO
(596)
22,48%
39,09%
9,40%
29,03%
18
Interpretazione dei risultati
Ripartizione del tipo di credito per l’intera popolazione
111355 azienda su 120965
che non hanno credito
(0 0 0 0)
29 azienda su 120965
hanno tutti i crediti
(1 1 1 1)
19
Interpretazione dei risultati
Ripartizione del tipo di credito per l’intera popolazione
EA
0
X
X
X
X
X
X
X
X
EA_N
MA
MA_N
Effectif
1
0
1
0
1
0
1
X
X
X
111355
X
X
X
640
X
X
X
3919
X
X
X
56
X
X
X
728
X
X 120965
X
84
111355 azienda
sur
X
X
X
104
n’ont rien comme crédit
X
X
7
(0 0 0 0) X
X
X
X
X
3273
X
X
X
X
59
X
X
X
X
630
X
X
X
X
9
29
azienda
sur
120965
X
X
X
X
58
ont
eu
tous
les
4
X
X
X
X
4
X
X
XCrédits
X (1 1 1 1) 10
X
X
X
X
29
20
Interpretazione dei risultati
Ripartizione del tipo di credito per l’intera popolazione
EA
0
X
X
X
X
X
X
X
X
EA_N
MA
MA_N
Effectif
1
0
1
0
1
0
1
X
X
X
111355
X
X
X
640
X
X
X
3919
X
X
X
56
X
XTest d’associazione
X
tra7228variabili :
X
XLa
X
84 in modo più significativo alla
111355 azienda
sur
120965
coppia (1,1) contribuisce
X
X
X
04
n’ont rien commestatistica
crédit del Khi-2, le V1di
Cramer vicina a 0, quindi esiste
X
X
X
7
(0 0 0 0)
debole32tra
X
X
Xun’associazione
X
73le due variabili
X
X
X
X
59
Test Xd’associazione
tra6CL_UDE(classe
economica)
X
X
X
30
X
X
X
X
9
e i 2 tipi
di credito
di Ho, dunque associazione,
29 azienda
sur: rifiuto
120965
X
X
XMa la correlazione
X
5
8
di Spearman si avvicina a 0, il chè implica
ont eu tous les
X
X
X
X 4 4
une associazione
debole
X
X
XCrédits
X (1 1 1 1) 10
X
X
X
X
29
21
24 Mai
22
Organizzazione e Planning
23
Scarica

Introduction aux BDs Mobiles