CSI-Piemonte Consorzio Sistemi Informativi Provincia di Torino Comune di Torino Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » della Regione Piemonte Jean Michel Bosco Agenda Contesto e obiettivi Organizzazione dei dati Esplorazione e trasformazione dei dati Definizione del modello Interpretazione dei risultati Organizzazione e planning 2 Contesto e obiettivi Vison, Obiettivi e Strategia La vision globale del progetto : Valorizzare il Data Mining in seno al CSI Rendere i dati ‘intelligenti’ Problematiche del Progetto : Definire degli indicatori statistici Applicare una segmentazione (Clustering) Modello predittivo (Scoring) se sarà disponibile l’accesso ai Database ORACLE Obiettivi : Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dell’attività per alimentare una riflessione strategica. Rilevare i bisogni del cliente Disponibilità dei dati Sistemi informativi per l’agricolura: I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nell’analisi L’applicativo Web http://www.regione.piemonte.it/capu/jsp/index.jsp per l’analisi multidimensionale Documentazione Glossario Scheda del Cesimento Norme di classificazione degli Agricoltori Accesso all’informazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide 3 Organizzazione dei dati Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) Trattamento dei « missing » Nome de la table Nb identifia nts Nb de lignes Nb variables 1. base_azi 120965 120965 53 2. capo_azienda 120965 120965 4 3. contoterz 120965 120965 2 4. utilizzazione_terreno 120863 798443 7 5. manodopera_familiare 119712 296338 2 6. mezzi_meccanici 104734 337330 1 7. mez_tec 100176 373367 3 8. lavaro_terr 88788 386592 6 9. impianti 87029 165586 3 10.prod_comm 85623 177705 5 11.irrigazione 47279 240379 2 12.allevamento 42541 153577 4 13.vite 40622 118235 7 14.ricovero 38642 52736 2 15.prod_qual 21372 32319 2 16.latte 14616 47667 3 5432 8761 2 17.altra_manodopera 108 data base_imp2000_2 ; set datiodd.base_imp2000 ; LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' || SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ; Run ; PROC TRANSPOSE DATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ; BY z_cod_azienda ; ID LIV123_IMP ; VAR CAPACITA ; RUN ; data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ; set base_imp2000_3; CAP_IMP_M3= sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ; CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ; CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ; label CAP_IMP_M3= 'volume capacita impianti'; label CAP_IMP_KG= 'peso capacita impianti'; label CAP_IMP_M2= 'spazio capacita impianti'; 4 run ; Esplorazione e trasformazione dei dati Ridefinizione delle classi per le variabili nominali (ordinali) Assegnazione di una classe (9) alle proporzioni più basse 5 Esplorazione e trasformazione dei dati Transformazione logaritmica delle variabili intervallari Esclusivamente per le variabili la cui distributizione migliora 6 Definizione del modello Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen 7 Interpretazione dei risultati Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster 18154 39983 35135 Orti familiari 27693 Grandi colture 8 Interpretazione dei risultati Comparazione dei cluster in funzione delle variabili utilizzate 4 3 9 Interprétation des résultats Comparazione dei cluster in funzione delle variabili utilizzate 10 Interpretazione dei risultati Comparazione dei cluster 3 e 4 11 Interpretazione dei risultati Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazione significativa per le aziende site in pianura 12 Interpretazione dei risultati CLUSTER Cluster 4 : 27693 azienda Cluster 3 : 35135 azienda CARATTERISTICHE Aziende: Grandi culture Site in pianura es sur les plaines Propietari affittano parte dei terreni Il capo azienda è giovane con molte giornate di lavoro Significativo apporto della mano d’opera familiare Le superifici utilizzate sono le più importanti Utilizzo dei mezzi meccanici Capacità degli impianti in volume e spazio sopra la media Transformano i prodotti Vendono principalmente agli industriali Economicamente rilevanti Azienda de Installé es surtout sur les montagnes es Possèdent des superficies gratuites, mais loue nt aussi et parfois propriétair le dirigeant est plus vieux en moyenne avec des jours de travails moins élevés une main d ’œ uvre familiale les superficies utilisées sont les moins importantes la superficie « La mo itié d’entre elles ne sont pas de la classe CEE Ne s’adresse superfici destinate ai seminativi petite culture mixte (culture maraîchère) non significative orti familia ri » et celle des bois les plus importantes nt pas aux organisations associatives pour l’utilisation des moyens mécaniques Consomme nt à peu près la moitié de son produit Economiquement les moins importantes 13 Interpretazione dei risultati CLUSTER Cluster 4 : 27693 azienda Cluster 3 : 35135 azienda CARATTERISTICHE Azienda de grande culture Installé es sur les plaines propriétaire s et loue nt une partie de leurs le dirigeant est plus jeune une main d ’œ uvre familiale significative les superficies utilisées sont les plus importantes utilise nt plus les moyens mécaniques capacité en espace et en volume les plus importantes Transforme nt plus ces produits agricoles vend ent p lus aux industriels Economiquement les plus importantes Aziende: Piccole colture Site in montagna Lavorano superfici gratuite, in parte minore le affitano o sono proprietari. Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus Mano d'opera familiare poco significativa Le superfici ultizzate sono scarsamente rilevanti Più significative le superfici destinate agli orti familiari e ai boschi La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici Consumano all’incirca la metà dei loro prodotti Economicamente poco importanti avec des terres arables (seminativio) en moyenne superficie avec des jo urs de travails élevés (colture ortofrutticole) 14 Interpretazione dei risultati CLUSTER CARATTERISTICHE Aziende accostabili al gruppo Grandi Colture Colture arboricole permanenti Cluster 2 : Specilizzati in viticoltura 18154 azienda Localizzate soprattutto in collina, e in parte in pianura Forte capacità di trasformazione dei prodotti Aderiscono a società cooperative Vendono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali Sono in prevalenza Proprietari Azienda proche des azienda de petite culture mixte Installées surtout sur les montagnes en partie Cluster 1 : Vendent aux consommateurs 39983 azienda Majoritairement propriétaires 15 Interpretazione dei risultati CLUSTER CARATTERISTICHE rande g culture Aziendaproche des azienda de relativement la plus importante culture permanente arboricole Cluster2 : spécialisées dans la viticulture 18154azienda Installées sur lescollines en partie t ation des produi ts agricole s importante Capacité deransform Adhèrent aux sociétés coopératives et de producteurs Vendentla totalité de ses produits aux organisations associatives, mais ne v pas aux contractuels s Majoritairement propriétaire Aziende con caratteristiche simili al gruppo Orti Familiari Localizzati soprattutto in montagna e in parte in collina Cluster1 : Vendono direttamente al consumatore 39983azienda Hanno terreni di Proprietà 16 Interpretazione dei risultati Ripartizione delle attività in funzione dei cluster CLASS_AZIENDA (120965) Vendono di più rispetto al cluster 1 ATTIVITà 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77% 13,36% 16,29% 36,39% (33,78%) VITE (40622) 43,58% 37,98% 11,06% 7,38% LATTE (14616) 29,34% 9,28% 4,54% 56,83% AGRITURISMO (596) 22,48% 39,09% 9,40% 29,03% 17 Interpretazione dei risultati Ripartizione delle attività in funzione dei cluster CLASS_AZIENDA (120965) (42541) (40622) ATTIVITà Il gruppo 1 resta leader, ma sefuito dal gruppo 3 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77% (37,97%) 13,36% (14,04%) 16,29% (16,98%) 36,39% (31,01%) VITE (40622) 43,58% (33,11%) 37,98% (19,69%) 11,06% (26,30%) 7,38% (20,91%) LATTE (14616) 29,34% 9,28% 4,54% 56,83% AGRITURISMO (596) 22,48% 39,09% 9,40% 29,03% 18 Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione 111355 azienda su 120965 che non hanno credito (0 0 0 0) 29 azienda su 120965 hanno tutti i crediti (1 1 1 1) 19 Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione EA 0 X X X X X X X X EA_N MA MA_N Effectif 1 0 1 0 1 0 1 X X X 111355 X X X 640 X X X 3919 X X X 56 X X X 728 X X 120965 X 84 111355 azienda sur X X X 104 n’ont rien comme crédit X X 7 (0 0 0 0) X X X X X 3273 X X X X 59 X X X X 630 X X X X 9 29 azienda sur 120965 X X X X 58 ont eu tous les 4 X X X X 4 X X XCrédits X (1 1 1 1) 10 X X X X 29 20 Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione EA 0 X X X X X X X X EA_N MA MA_N Effectif 1 0 1 0 1 0 1 X X X 111355 X X X 640 X X X 3919 X X X 56 X XTest d’associazione X tra7228variabili : X XLa X 84 in modo più significativo alla 111355 azienda sur 120965 coppia (1,1) contribuisce X X X 04 n’ont rien commestatistica crédit del Khi-2, le V1di Cramer vicina a 0, quindi esiste X X X 7 (0 0 0 0) debole32tra X X Xun’associazione X 73le due variabili X X X X 59 Test Xd’associazione tra6CL_UDE(classe economica) X X X 30 X X X X 9 e i 2 tipi di credito di Ho, dunque associazione, 29 azienda sur: rifiuto 120965 X X XMa la correlazione X 5 8 di Spearman si avvicina a 0, il chè implica ont eu tous les X X X X 4 4 une associazione debole X X XCrédits X (1 1 1 1) 10 X X X X 29 21 24 Mai 22 Organizzazione e Planning 23