La statistica ufficiale incontra… la comunità degli sviluppatori di software per la statistica Di quali innovazioni nel software per la statistica abbiamo bisogno? Marco Scarnò ([email protected]) Decima Conferenza Nazionale di Statistica Il 2002: vedere e poi… entrare nei meccanismi di sviluppo Derivato da Osiris III.2 (Univ. Michigan, 1975), in distribuzione dal 2001 La scelta dell’OS fu dettata da: Il software risultante è “migliore”; Costi di sviluppo minori; Ri-usabilità del codice; => Gli utenti del progetto sono sia gli utilizzatori sia gli sviluppatori Il 2002: vedere e poi… entrare nei meccanismi di sviluppo… …come è andata a finire? Dopo aver scritto dei dettagliati Terms Of Reference e aver realizzato diversi prototipi… nel 2006 sono emerse: -“visioni” differenti sulle funzionalità del software (modernizzare WinIDAMS o meno?) -L’UNESCO non compete… diffonde cultura Nel 2007 comincia a essere distribuito ADaMSoft… è da osservare che viene sviluppato all’interno di un contesto di “ricerca”, senza alcuna esigenza commerciale… interazioni successive con utentiricercatori lo “stabilizzano”. Qualche considerazione… Dall’esperienza di ADaMSoft e da quanto visto con altri software dietro il termine OS si celano alcune problematiche fondamentali… - Il risultato “funziona” ma non è sempre documentato; - I sorgenti saranno pure aperti ma… sfida aperta a interpretarli e a modificarli! - Una logica di “ritorno” (anche non “monetario”) è, comunque, necessaria alla sopravvivenza del pacchetto (per ADaMSoft, in questo caso, è il risparmio dal non avere altri software proprietari per gestione dati e l’avere un ambiente che consente di fare “ricerca” metodologica). In realtà quello che sembra funzionare (ed è così da tempo… LISP, SAS-IML, S, STATA) è: - un “motore proprietario” od OS (che non viene modificato, se non da un ristretto gruppo di sviluppatori); -di un linguaggio che, appoggiandosi sul motore, consenta agli utenti di realizzare il proprio “pacchetto”. L’esempio nell’ambito statistico è… R, ma… è sempre stato così con i “linguaggi di programmazione”… Fortran, C, C++, C#, JAVA, ecc. Il contesto odierno… il WWW e… le esigenze Dal punto di vista dell’utente di un software statistico… esistono problemi specifici e necessità di prodotti adatti (e facili da utilizzare)… Un esempio: come fare il grafico che rappresenta congiuntamente l’associazione di geni e il loro livello di espressione? Una ricerca su Google e… si può scaricare un software (di solito utilizzato dai Biologi) che consente immediatamente di fare il grafico! Perché non sempre è facile? Problemi differenti (o afferenti a diverse discipline, campi di attività) potrebbero/possono essere risolti utilizzando metodologie trasversali (proprie di altre discipline o campi di attività)… tuttavia: -Non c’è accordo sul tipo (formato, rappresentazione, ecc.) d’Informazione che i software utilizzano; -Non è sempre chiaro all’utente (non specializzato) il percorso che questi può seguire per utilizzare, con successo, del software specializzato -Dal lato dello sviluppatore non sempre c’è chiarezza su quali siano i risultati che l’utilizzatore si aspetta (quali informazioni mettere nei risultati, a quale livello di dettaglio, cosa può essere omesso, ecc.) Era il 1985… Del resto anche Neal Van Eck… Nota: anche ADaMSoft implementa un sistema simile… proponendo la sintassi da utilizzare sulla base dei problemi che si hanno a disposizione Di quali innovazioni nel software per la statistica abbiamo bisogno? Dal punto di vista dell’utente specializzato: Semplicità d’uso; integrazione tra vari strumenti (possibilità di utilizzare la medesima informazione tra software differenti, ecc.) Dal punto di vista del “diffusore” dell’Informazione: Certezza della sua corretta interpretazione (a livello micro e macro) Dal punto di vista dello sviluppatore: Dettagli sulla rappresentazione dell’Informazione e sui risultati che ci si aspetta di ottenere Dal punto di vista del ricercatore: Un ambiente che consenta di provare e diffondere nuovi metodi in maniera semplice Dal punto di vista dell’utente “non statistico”: Disponibilità di materiale per scegliere/interpretare e conoscere le metodologie L’innovazione, comunque, non può non tenere conto anche dell’evoluzione dei metodi d’interazione con la tecnologia