SCUOLA INTERUNIVERSITARIA SICILIANA DI SPECIALIZZAZIONE PER L’INSEGNAMENTO SECONDARIO Classe di Concorso: 42A Fabio Di Mauro MODULO DIDATTICO - GLI ARCHIVI DI DATI - Docente: Prof. Cantone Modulo 1: Gli Archivi Il modulo, proposto per una quinta classe Indirizzo Informatico, mira a presentare agli alunni le nozioni di base relative agli archivi, ai loro supporti e al tipo di organizzazione. Unità didattica 1 Archivi di Dati Prerequisiti Gli studenti dovranno dimostrare di avere: Nozioni elementari di dato e tipi di dato, record, file Conoscenze di base sulle principali componenti hardware e software di un sistema di elaborazione Competenze 1.Possedere una visione di insieme delle risorse di un sistema di elaborazione orientate alla gestione degli archivi 2.Comprendere la differenza fra diverse organizzazioni di archivi valutandone potenzialità e limiti 3.Scegliere l’organizzazione del file più adatta a seconda del tipo di archivio Contenuti 1. Organizzazione degli archivi 2. Operazioni sugli archivi Metodologie LEZIONE FRONTALE LEZIONE DIALOGATA Stabilire un continuo dialogo mirato a coinvolgere la classe sugli argomenti trattati, al fine di evidenziare e quindi correggere possibili lacune di impostazione e conoscenza di ciascun alunno Spazi AULA LABORATORIO Strumenti LIBRO DI TESTO ED APPUNTI COMPUTER LAVAGNA LUMINOSA PROIETTORE Verifiche Le verifiche sono periodiche e costanti, tese alla valutazione sia del percorso nella sua globalità che di una parte del medesimo. Esse prevedono varie tipologie: Colloqui individuali Interventi di vario genere Questionari e Test (strutturati e semistrutturati) Prove di laboratorio Valutazione La valutazione sarà: Sia di tipo formativo e quindi in relazione all’applicazione, all’impegno, all’attenzione, al metodo di lavoro che ogni studente avrà mostrato durante l’attività didattica Sia di tipo sommativo, ricavata dalla misurazione delle varie prove in cui gli studenti dovranno dimostrare di: avere acquisito conoscenze e informazioni circa i contenuti avere maturato abilità e competenze specifiche alla disciplina Tempi Unità Didattica Ore di Lezione Ore di Laboratorio Ore di Verifica Ore di Recupero e/o Potenziamento U.D. 1 16 3 3 6 PERCORSO DIDATTICO Gli archivi (generalità) Operazioni sugli archivi Cenni su file e periferiche L’organizzazione degli archivi Cenni sulle tecniche di indicizzazione Le applicazioni informatiche sugli archivi U.D.1 GLI ARCHIVI Informazioni riutilizzabili anche a distanza di tempo devono essere opportunamente conservate in modo che la ricerca di queste sia quanto più efficiente e agevole possibile. Per es. i nostri album fotografici rappresentano un archivio di ricordi i nostri appunti presi a lezione rappresentano un archivio di conoscenza riutilizzabile. La storia dell’uomo si è sempre basata sulla conservazione delle sue memorie (archivio storico) E LA LISTA POTREBBE ESSERE LUNGHISSIMA GLI ARCHIVI DEF. Insieme organizzato di informazioni caratterizzate da alcuni aspetti fondamentali: • tra di esse esiste un nesso logico (cioè sono in qualche modo inerenti ad un medesimo argomento • sono rappresentate secondo un formato che ne rende possibile l’interpretazione • sono registrate su un supporto in cui è possibile scrivere e rileggere informazioni anche a distanza di tempo • sono organizzate in modo da permettere una facile consultazione GLI ARCHIVI Esempio: Elenco Telefonico Descrizione: è un archivio di dati dove sono raccolte le informazioni che riguardano gli abbonati al telefono di una provincia. Per ogni abbonato è riportato: • Generalità (Cognome,Titolo professionale e Nome) • Indirizzo (via e numero civico) • numero di telefono Tutte le informazioni dell’Archivio Elenco Telefonico sono stampate su fogli di carta. GLI ARCHIVI IN RIFERIMENTO ALLA DEFINIZIONE SI NOTA CHE • Esiste un nesso logico: le informazioni raccolte si riferiscono agli abbonati di una stessa provincia e all’interno della provincia di uno stesso comune • Formato di rappresentazione: disposizione delle informazioni nelle righe, con lo stesso ordine per tutti gli abbonati, per rendere facile la lettura e l’interpretazione da parte di chi consulta l’elenco. GLI ARCHIVI • Supporto di registrazione: è la carta delle pagine dell’elenco • Organizzazione dei dati: gli abbonati sono stampati seguendo l’ordine alfabetico dei cognomi, all’interno della suddivisione per comune, per permettere un veloce reperimento del numero di telefono che corrisponde alla persona cercata. QUESTA ORGANIZZAZIONE PERMETTE DI ESEGUIRE SEMPRE UNA RICERCA DICOTOMICA (e sequenziale quando si trova la pagina con l’informazione) OPERAZIONI SUGLI ARCHIVI RECORD (registrazione): Insieme di informazioni logicamente organizzate e riferite ad un unico soggetto CAMPI: Singole informazioni che compongono il record TRACCIATO RECORD: Elenco dei campi Per l’elenco telefonico si ha ad esempio: COGNOME TITOLO PROFESSIONALE NOME CAMPI INDIRIZZO NUMERO TRACCIATO TELEFONICO RECORD OPERAZIONI SUGLI ARCHIVI 1° PASSO: CREAZIONE DI UN ARCHIVIO • NOME: identificatore che serve a ricordarne il contenuto, per es. rubrica telefonica, archivio anagrafico ecc. • TRACCIATO RECORD: quali informazioni compongono il record • SUPPORTO DA USARE: fogli di carta, dischi magnetici o ottici, ecc. OPERAZIONI SUGLI ARCHIVI • DIMENSIONE MASSIMA: per es. il numero max di scaffali occupati in un archivio cartaceo, o il num. max di pagine di una rubrica telefonica ecc. • ORGANIZZAZIONE: il modo in cui i dati sono strutturati e collegati fra loro (legata al supporto e al metodo di consultazione) OPERAZIONI SUGLI ARCHIVI OPERAZIONI PER LA GESTIONE DI UN ARCHIVIO • OPERAZIONI DI MANIPOLAZIONE • OPERAZIONI DI INTERROGAZIONE OPERAZIONI SUGLI ARCHIVI • MANIPOLAZIONE INSERIMENTO: l’inserimento di nuovi dati dopo che l’archivio è stato creato; per es. la memorizzazione di un nuovo abbonato nell’elenco telefonico MODIFICA O AGGIORNAMENTO: per es. un utente telefonico che trasferisce la propria residenza restando nella stessa città; allora la nuova residenza sarà inserita nell’edizione successiva dell’elenco telefonico (modifica e aggiornamento di un campo nel tracciato record). OPERAZIONI SUGLI ARCHIVI CANCELLAZIONE: eliminazione di informazioni che non si vogliono più conservare perché non esiste più un nesso logico rispetto le altre informazioni conservate nell’archivio; per es. un utente telefonico che si trasferisce in un’altra città. OPERAZIONI SUGLI ARCHIVI • INTERROGAZIONE CONSULTAZIONE O INTERROGAZIONE: reperimento all’interno dell’archivio delle informazioni necessarie per l’elaborazione desiderata (è il motivo principale per cui un archivio esiste). Per es. l’archivio anagrafico di un comune può essere consultato per avere un elenco di tutti i bambini che nell’anno in corso raggiungono l’età scolare e devono frequentare la prima classe. CENNI SU FILE E PERIFERICHE • Problema della velocità nella ricerca e elaborazione • Problemi di spazio (fisico occupato) nella memorizzazione dei dati Archivi cartacei Archivi informatici CENNI SU FILE E PERIFERICHE FILE (dall’inglese “ARCHIVIO”): è il supporto dove vengono memorizzati gli archivi per essere trattati in modo automatico dai computer In generale è tutto quello che può essere memorizzato su un supporto di memoria di massa (testo, programma, grafico ecc.) CENNI SU FILE E PERIFERICHE Nelle applicazioni informatiche gli archivi sono in genere costituiti da insiemi di record omogenei: ciascun archivio possiede un tracciato predefinito e uguale per tutti i record in esso contenuti ( file di record ) Le apparecchiature, sia esterne che collegate al calcolatore sono dette periferiche (unità periferiche di memoria) CENNI SU FILE E PERIFERICHE Ogni operazione di I/O riguarda non un singolo carattere ma un insieme di caratteri, detto blocco. Il blocco è l’unità fisica di memorizzazione di dati su una memoria di massa. CENNI SU FILE E PERIFERICHE UNITÀ DI I/O: MEMORIE DI MASSA NASTRO MAGNETICO CENNI SU FILE E PERIFERICHE NASTRO MAGNETICO Viene comunemente usato per memorizzare i file da consultare non frequentemente ( per es. Archivi Storici). È anche utilizzato comunemente per fare copie di sicurezza Le informazioni sono elaborate sequenzialmente CENNI SU FILE E PERIFERICHE DISCO MAGNETICO Sottile disco metallico con facciate ricoperte da materiale magnetizzabile. Le due facce del disco sono divise in piste e settori. Raggiungono capacità di memorizzazione dell’ordine del Gb CENNI SU FILE E PERIFERICHE FLOPPY DISK Supporti concettualmente simili ai dischi, di facile gestione e basso costo. Molto usati nei PC e hanno capacità di1,44 Mb CENNI SU FILE E PERIFERICHE DISCHI ZIP: leggermente più grandi dei dischetti e contenuti in in una confezione di plastica rigida. Sono dotati di grande capacità DISCHI OTTICI: basati sulla tecnologia di scrittura ottica (con l’uso del LASER) – CD-ROM (Compact Disc-Read Only Memory) – CD-R (Recordable) – CD-RW (Rewritable) – DVD (Digital Versatile Disc) L’ORGANIZZAZIONE DEGLI ARCHIVI Progettazione e Organizzazione • Ottimizzazione dello spazio del supporto in relazione alla capacità • Riduzione dei tempi di accesso e ritrovamento dei dati contenuti in memoria L’ORGANIZZAZIONE DEGLI ARCHIVI • OBIETTIVI FONDAMENTALI (finalizzati alla manutenzione) Evitare ridondanze nelle registrazioni L’indipendenza dallo schema logico dei dati dalle implementazioni software, dalle applicazioni che usano quei dati e dal modo con il quale i dati sono fisicamente registrati su memoria di massa L’ORGANIZZAZIONE DEGLI ARCHIVI • OPERAZIONI COMUNI DI MANUTENZIONE DEGLI ARCHIVI – Eliminazione degli errori presenti nell’archivio e nei software che lo gestiscono – Necessità di ampliare gli archivi in corrispondenza dell’aumento delle informazioni (per es. un’azienda che cresce) – Conversione e adeguamento a nuove piattaforme Hardware, più potenti o di maggiore capacità e prestazioni L’ORGANIZZAZIONE DEGLI ARCHIVI Organizzazioni più comuni • ORGANIZZAZIONE SEQUENZIALE • ORGANIZZAZIONE AD ACCESSO DIRETTO • ORGANIZZAZIONE AD INDICI L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE I record sono registrati uno di seguito all’altro in modo sequenziale: in fase di lettura i record possono essere trovati scorrendo tutti i record del file a partire dal primo fino all’ultimo, nello, stesso ordine in cui sono stati registrati L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE I record sono registrati uno di seguito all’altro in modo sequenziale: in fase di lettura i record possono essere trovati scorrendo tutti i record del file a partire dal primo fino all’ultimo, nello, stesso ordine in cui sono stati registrati L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE I record sono registrati uno di seguito all’altro in modo sequenziale: in fase di lettura i record possono essere trovati scorrendo tutti i record del file a partire dal primo fino all’ultimo, nello, stesso ordine in cui sono stati registrati L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE I record sono registrati uno di seguito all’altro in modo sequenziale: in fase di lettura i record possono essere trovati scorrendo tutti i record del file a partire dal primo fino all’ultimo, nello, stesso ordine in cui sono stati registrati L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE I record sono registrati uno di seguito all’altro in modo sequenziale: in fase di lettura i record possono essere trovati scorrendo tutti i record del file a partire dal primo fino all’ultimo, nello, stesso ordine in cui sono stati registrati L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE VANTAGGI LIMITI Semplicità di gestione Uso di record di lunghezza diversa l’uno dall’altro (il primo campo contiene la lunghezza del record) Difficoltà a trovare l’informazione quando il numero di record è elevato L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE Risulta particolarmente efficace per la gestione dei file di testo Un nuovo record si aggiunge sempre in coda La scrittura di un record già esistente provoca una cancellazione dei dati dell’archivio L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE SEQUENZIALE Risulta particolarmente efficace per la gestione dei file di testo Un nuovo record si aggiunge sempre in coda La scrittura di record a partire dall’inizio, eseguita su un file già esistente provoca una cancellazione di eventuali dati presenti nell’archivio L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD ACCESSO DIRETTO Tutti i record hanno lunghezza fissa LR LR LR LR LR LR NR = Numero Record LR = Lunghezza del Record Per leggere il record n° NR si cideve posizionare sul carattere corrispondente a: L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD ACCESSO DIRETTO Tutti i record hanno lunghezza fissa LR LR LR LR LR LR (NR-1) x LR +1 Si può dunque accedere direttamente al record che interessa L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD ACCESSO DIRETTO Questa organizzazione è detta anche RANDOM, visto che l’utente può accedere al Record che interessa senza leggere prima tutti quelli che lo precedono. In un archivio con questa organizzazione ciascun Record viene identificato nella posizione che esso occupa all’interno del file. L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD ACCESSO DIRETTO Può essere convenientemente utilizzata negli archivi per i quali i Record vengono identificati attraverso un numero d’ordine progressivo: per es. In un archivio anagrafico di studenti in una scuola, la matricola dello studente, che indica la posizione del Record nel file, è un numero assegnato al momento dell’iscrizione alla scuola ottenuto aggiungendo 1 all’ultimo numero di matricola registrato. L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI L’organizzazione si deve pensare come quella di un libro tecnico dotato di indice analitico. In tale indice sono elencate in ordine alfabetico le parole chiave, che richiamano gli argomenti e i concetti trattati nel testo, affiancate ciascuna dalla pagina corrispondente del libro. Il lettore cerca la parola nell’indice analitico con un metodo di ricerca binario (l’elenco è ordinato); il numero di pagina funziona da puntatore alla pag. dove viene trattato l’argomento L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI È necessario avere una tabella delle chiavi: la ricerca del Record avviene leggendo le chiavi e non i record. Ad ogni chiave è associato un puntatore al Record L’ORGANIZZAZIONE DEGLI ARCHIVI CHIAVI DATI L’ORGANIZZAZIONE DEGLI ARCHIVI CHIAVI DATI L’ORGANIZZAZIONE DEGLI ARCHIVI CHIAVI DATI L’ORGANIZZAZIONE DEGLI ARCHIVI CHIAVI DATI L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI Proprietà della chiave • Primaria È univoca: costituisce il criterio fondamentale per ritrovare un Record • Secondaria È alternativa, e non necessariamente univoca L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI • Primaria • Secondaria Esempio: la matricola di uno studente, il codice di un prodotto, il codice fiscale Esempio: la città di residenza di una persona in un archivio anagrafico, il numero di reparto per gli articoli di un reparto merci L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI • Chiave composta: combinazione di più campi Codice Studente Data Codice Materia Prove sostenute dallo studente nel corso dell’anno scolastico L’ORGANIZZAZIONE DEGLI ARCHIVI ORGANIZZAZIONE AD INDICI ACCESSI • Sequenziale: operazioni di lettura e scrittura fatte in base all’ordine crescente delle chiavi • Random: dato il valore della chiave è possibile puntare al record corrispondente (se esiste) • Dinamico il programmatore può scegliere se fare una ricerca sequenziale o Random (o entrambe) TECNICHE DI INDICIZZAZIONE I Record dei file con organizzazione random (ad accesso diretto) vengono identificati attraverso il numero di posizione che essi occupano all’interno del file. Volendo associare a ciascun Record un valore chiave, che può essere alfanumerico occorre determinare una funzione che trasformi la chiave in un numero. Una tecnica di indicizzazione molto usata è il metodo hash. CHIAVE FUNZIONE HASH POSIZIONE DEL RECORD TECNICHE DI INDICIZZAZIONE SEMPLICI TECNICHE HASHING La funzione hash più semplice, utilizza un numero intero uguale alla chiave o ricavato dalla chiave stessa, divide questo intero per il numero massimo di Record e usa il resto della divisione come valore restituito dalla funzione es.: num. Record = 100 chiavi = interi compresi fra 1000 e 2000 la posizione del Record sarà un intero compreso fra 0 e 99 Infatti n N - {0} si ha N mod 100 = 0 99 TECNICHE DI INDICIZZAZIONE Nel caso di codici alfanumerici una tecnica potrebbe essere la seguente: Sia per es. la chiave composta da 7 caratteri: i primi 2 alfabetici seguiti da 3 numerici ed infine 2 alfabetici (come avviene per le targhe automobilistiche. Si considerano i valori corrispondenti ai caratteri nell’alfabeto da 1 a 26 (valore del codice ASCII- 64) delle lettere presenti nel codice: si calcola • la somma dei primi due e la somma degli ultimi due • si moltiplicano fra loro le due somme e si moltiplica il risultato per il valore numerico delle cifre presenti nella parte centrale del codice • si calcola il resto della divisione del numero ottenuto con il num. Max di Record del file. TECNICHE DI INDICIZZAZIONE Numero di Record = 500 • chiave = AB 026 HA A 1 B + 2 0 702 mod 500 = 202 2 26 6 H 8 A + 1 = 702 TECNICHE DI INDICIZZAZIONE chiave = FC 321 SB F C 6 + 3 3 60699 mod 500 = 169 2 321 1 S 19 B + 2 = 60669 TECNICHE DI INDICIZZAZIONE chiave = BG 749 ED B G 2 + 7 7 4 9 749 E 5 D + 4 = 60669 60699 mod 500 = 169 FC 321 SB BG 749 ED Però la funzione hash da per entrambe lo stesso risultato In questo caso si ha una collisione TECNICHE DI INDICIZZAZIONE CHIAVE SCANSIONE LINEARE ALGORITMO HASH DATI TECNICHE DI INDICIZZAZIONE CHIAVE SCANSIONE QUADRATICA ALGORITMO HASH Si controlla il primo posto, poi il quarto successivo, poi il nono ecc. DATI LE APPLICAZIONI INFORMATICHE CON GLI ARCHIVI Riguardano problemi gestionali nelle aziende, negli studi professionali, negli enti pubblici. I dati devono essere raccolti, registrati su supporti di memoria, per metterli poi a disposizione degli utenti con procedure di interrogazione e stampa. Gli archivi in genere sono: • ANAGRAFICHE: contenenti le informazioni su soggetti, persone o prodotti. • MOVIMENTI: che riguardano gli eventi riferiti ai soggetti descritti nelle anagrafiche. • PARAMETRI: dati che rimangono costanti per un per un certo periodo di tempo LE APPLICAZIONI INFORMATICHE CON GLI ARCHIVI Es. GESTIONE DI UNO STUDIO DENTISTICO • l'archivio dei clienti con Cognome, Nome, Indirizzo, Tel., Cod. Fiscale rappresenta L’ANAGRAFICA • le prestazioni che il medico ha svolto per i clienti, con data e tipo di prestazioni rappresenta i MOVIMENTI • i PARAMETRI sono i dati riguardanti il costo degli interventi e le protesi. FINE