Chimica in Rete P. Ugliengo e G. Ricchiardi A.A. 2010-2011 Master “Materiali, Matematica e Modelli per la Progettazione e la Produzione” Proprietà chimiche e fisiche dei materiali di interesse industriale: origine, tipologie, basi di dati. Dott. Gabriele Ricchiardi Dipartimento di Chimica - NIS Centre of Excellence- NISLabVCO [email protected] Estratto dalle dispense del Corso “Chimica in Rete”, per la LEZIONE DEL 1/10/2012 Chimici in rete Questo è un corso semplice, ma gli argomenti che ospita possono essere molto complessi e molto importanti. Per inquadrarli, iniziamo con alcune domande: Cosa è veramente una pagina web? Quanto affidabili sono Google e la Wikipedia in campo chimico? Come si osserva e condivide l’immagine 3D di una struttura molecolare? Come e dove si trovano informazioni sulle proprietà di molecole e reazioni? La logica CLIENT-SERVER COME VENGONO DISTRIBUITI GLI IPERTESTI La logica CLIENT-SERVER Come si raggiungono le pagine web in rete Ogni file su un server ha un URL (Uniform Resource Locator): http://nomesito.nomerete.xxx/percorso/nomefile.estensione Protocollo (un “linguaggio” tra client e server) Percorso e nome del file da reperire http:// Indirizzo IP (Internet protocol) del server ftp:// Numerico (es. 130.192.119.108) o alfanumerico (www.unito.it) https:// Speciali server detti DNS traducono un tipo di indirizzo nell’altro Cosa sono gli ipertesti L'ipertesto è un insieme di testi o pagine leggibili con l'ausilio di un'interfaccia elettronica, in maniera non sequenziale, per tramite di particolari parole chiamate collegamenti ipertestuali (hyperlink o rimandi), che costituiscono un rete raggiata o variamente incrociata di informazioni, organizzate secondo diversi criteri, ad esempio paritetici o gerarchici, in modo da costituire vari percorsi di lettura alternativi. (http://it.wikipedia.org/wiki/Ipertesto) “Home” WWW E-mail Files di dati Storia del concetto e delle sue implementazioni: http://en.wikipedia.org/wiki/Hypertext Utilità degli ipertesti - 1 Organizzare/Condividere collezioni complesse di dati Un ipertesto permette di organizzare e trasmettere dati scientifici di natura diversa: risultati sperimentali, modelli, commenti, bibliografia, files e programmi, ecc… Un classico: la tavola periodica (ad esempio www.webelements.com) Scarno ma ricco di informazioni: National Institute of Standards and Technology http://webbook.nist.gov/chemistry/ CHEMISTRY WEBBOOK Ipertesti oltre l’HTML La logica degli ipertesti pervade la tecnologia… •I “Desktop” di tutti i sistemi operativi (Windows, Linux, MacOSX ecc.) si presentano come ipertesti e propongono “link” a files, programmi e risorse remote. •I sistemi di azionamento e di “help” di tutti gli apparecchi sono ordinati come ipertesti (talvolta HTML, ma più spesso di altro tipo). Un ipertesto formato da “menù” e “link” è indispensabile quando le risorse di visualizzazione sono povere (ad esempio il display dei telefoni cellulari). Motori di ricerca - 1 Utilizzati per ricercare selettivamente informazioni di ogni natura presenti su internet. Motori di ricerca – 2 - Web Crawler I motori di ricerca indicizzano la rete e consultano l’”indice” in tempo reale a richiesta dell’utente. WEB CRAWLER: è il sistema di raccolta e catalogazione delle informazioni sui siti. Questa avviene attraverso l’uso di ROBOT virtuali: programmi che provano ad accedere a TUTTI gli indirizzi della rete (secondo una qualche strategia statisticamente efficace) , seguono TUTTI i LINK e catalogano le pagine in base al loro contenuto, creando un database. Questo database è in continuo aggiornamento, indipendentemente dagli utenti. •Le pagine vengono anche valutate in base alla loro rilevanza, valutata in base al numero di collegamenti che puntano ad essa. Questo criterio è appropriato a valutare le pagine commerciali e di informazione, MA NON QUELLE SCIENTIFICHE. Per esempio, le fonti scientifiche molto autorevoli sono spesso meno “cliccate” di quelle divulgative o fanta-scientifiche. •ATTENZIONE: molti siti hanno sviluppato metodi per ingannare i motori di ricerca, in modo da ottenere un’alta valutazione di rilevanza. Motori di ricerca – 3 -Search Engine •SEARCH ENGINE è il sistema di ricerca vero e proprio, che cerca determinate PAROLE CHIAVE all’interno del database. La ricerca avviene nel momento stesso in cui viene richiesta dall’utente. Vengono vagliate miliardi di pagine web in pochi secondi. Ciò richiede server estremamente potenti ed algoritmi intelligenti. •Fornisce una lista di URL ordinata in base alla presunta rilevanza. Il criterio principale per valutare la rilevanza è il numero di link da altri siti alla pagina stessa. •I vari motori di ricerca differiscono sia per la metodologia e l’efficacia del sistema di raccolta dei dati, che per la metodologia di ricerca nel database. •Gli algoritmi matematici alla base di questi processo sono o SEGRETI oppure BREVETTATI. Vedi anche le voci “search engine” e “web crawler” su Wikipedia Motori di ricerca - 4 Chi fa i motori di ricerca e perché? Quando si usano i motori di ricerca, è importante ricordare che si tratta di servizi basati su logiche commerciali. I motori di ricerca sono spesati dalla pubblicità e dai servizi a pagamento che ospitano. L’informazione presentata dai motori di ricerca varia a seconda dell’algoritmo utilizzato, della disponibilità del dato (alcuni siti impediscono l’accesso ai motori di ricerca) e di eventuali filtri sul contenuto (censura, “parental control”, ecc.). ATTENZIONE: I criteri di rilevanza dei motori di ricerca comuni sono spesso inadatti alla classificazione dell’informazione tecnica. Inoltre, i motori danno ALTA RILEVANZA ai link commerciali paganti. NOTA PRATICA: se non si trova un dato, non è detto che non esista e che non sia disponibile! Cercatelo con una strategia diversa. Database bibliografici Il principale canale di diffusione dei risultati della ricerca scientifica è la pubblicazione su riviste, libri, atti di congressi e brevetti. La pubblicazione su queste fonti segue normalmente regole di verifica dell’attendibilità, basate sul meccanismo del “peer ISI - Web of prevalentemente Knowledge review” (vedi oltre). Tutte le pubblicazioni soggette a peer review o altra forma di verifica, sono catalogate da alcuni DATABASE BIBLIOGRAFICI, che facilitano il reperimento dell’informazione. I principali database disponibili nella nostra Università sono: • ISI – Web of knowledge (da tutti i computer dell’Università) •Sci-Finder (solo dalla biblioteca G.Ponzio, in orari predefiniti) Motori di ricerca - 6 Ricerca con Google vs. ricerca sistematica La ricerca di una “parola chiave” su un motore di ricerca e su un database sono due cose molto diverse: Motore di ricerca Database Fonti primarie Molto varie e ricche, ma non note con precisione Note Estensione dei dati Elevata ma non nota Nota Completezza dei dati NO Garantita Corrispondenza ricercarisultato Statistica, con “ranking” arbitrario. Deterministica Accuratezza dei dati Altamente variabile Garantita Il motore di ricerca è utile e potente per esplorare un campo di conoscenze incognito, ma fornisce risultati dalla provenienza e qualità incerte, che risentono delle finalità commerciali. Motori di ricerca - 7 Usare con efficacia i motori di ricerca Quando si cerca un’informazione, è importante immaginare le probabili caratteristiche della pagina in cui è contenuta. • LINGUA: se si cerca una parola italiana, si limita automaticamente la ricerca alle pagine in italiano, che sono pochissime, soprattutto in ambito chimico! • “SPELLING”: è importante che sia corretto. Alcuni motori suggeriscono le varianti. • ECCESSIVA SPECIFICITA’: espressioni molto specifiche possono dare risultati falsi negativi. • ECCESSIVA GENERICITA’: i dati utili restano “sepolti” in un mare di dati inutili che non è possibile analizzare NOTA PRATICA: le ricerche per parole chiave vanno ripetute con vari sinonimi, imparando dalle ricerche precedenti. Confrontare i risultati con quelli ottenuti con ricerche sistematiche. Motori di ricerca - 8 Valutare la qualità del risultato Quando si cerca un’informazione, è importante immaginare le probabili caratteristiche della pagina in cui è contenuta. • l’informazione è pertinente? • Chi ha redatto l’informazione? • Chi la pubblica (originale o citazione) ? • A chi è destinata l’informazione (news, didattica, pubblicità, specialisti)? • Quanto accurata è l’informazione? • E’ adeguatamente referenziata? ESERCIZIO: ricercare su Google la parola methane ( o altro composto chimico) e rispondere ai quesiti precedenti per i primi 20 risultati. Motori di ricerca - 9 Cercare una struttura molecolare sul web Quando si cerca una struttura, è importante immaginare il sito che la ospita ed il nome del file che la contiene o una sua parte. • DATABASES. Esistono databases di strutture. Ad esempio il database Protein Data Bank (www.pdb.org) contiene le strutture di tutte le proteine e gli acidi nucleici note. Molti database sono tuttavia a pagamento (v. Corso “Informatica per la Chimica”) • COLLEZIONI tematiche. Esistono siti che presentano collezioni tematiche di strutture, spesso a scopi didattici. (es. cercare “molecules structure” su Google) • SINGOLI FILES. Molte strutture si trovano in pagine web specifiche. Possono essere trovate immaginando il probabile nome del file che le descrive (ad es. cerca “adenine.pdb” o “adenine pdb” su Google) Motori di ricerca più comuni - 10 GOOGLE: http//www.google.com/. E’ il più veloce e preciso motore di ricerca. YAHOO: http//www.yahoo.com/. Contiene http://dir.yahoo.com/Science/Chemistry/ LIVE SEARCH: una sezione chimica: http//www.live.com Recentissimo e potente. Imitazione Microsoft di Google. SCIRUS: http//www.scirus.com Un motore di ricerca specializzato nelle scienze. L’ideale per reperire bibliografia tecnico-scientifica. User Generated Content - 1 L’evoluzione più recente del Web è l’esplosione del numero di siti che distribuiscono informazioni generate dagli utenti dei siti stessi. Ad esempio: •I BLOG • I siti sui quali si pubblicano/condividono immagini e video (es. You Tube) • l’enciclopedia on line “Wikipedia” Apparentemente, queste forme di condivisione dell’informazione non sono adatte alla trasmissione di informazioni scientifiche, tuttavia: •La logica dei BLOG può essere utilizzata per sviluppare quaderni di laboratorio condivisi. •La “Wikipedia” sta diventando sempre più accurata v. La voce “User generated content” sulla Wikipedia UGC – 2 - Wikipedia www.wikipedia.org (portale multilingue) en.wikipedia.org (per la versione inglese - CONSIGLIATA) Wikipedia is a multilingual, Web-based, free content encyclopedia project. Wikipedia is written collaboratively by volunteers; with rare exceptions, its articles can be edited by anyone with access to the Web site. The name is a portmanteau of the words wiki (a type of collaborative website) and encyclopedia. La correttezza e la completezza delle voci della Wikipedia sono variabili e non garantite. Tuttavia, almeno per quanto riguarda la versione inglese, il “tasso di errore” è stato valutato essere comparabile a quello di altre enciclopedie redatte da professionisti. UGC – 3 - Wikipedia Come può essere accurata? “Wikipedia appeals to the authority of peer-reviewed publications rather than the personal authority of experts.[53] Wikipedia does not require that its contributors give their legal names[54] or provide other information to establish their identity.[55] Although some contributors are authorities in their field, Wikipedia requires that even their contributions be supported by published sources.[53] A drawback of this citationonly approach is that readers may be unable to judge the credibility of a cited source.” Dalla voce “Wikipedia” della Wikipedia… • continua revisione da parte degli altri autori (ma non è un vero “peer review”) • gli articoli devono contenere riferimenti bibliografici accurati • gli articoli vengono valutati in base a criteri di completezza formale • ogni voce è collegata alle versioni precedenti ed è accompagnata da una pagina di discussioni. UGC – 4 – Peer Review “Peer review (known as refereeing in some academic fields) is a process of subjecting an author's scholarly work or ideas to the scrutiny of others who are experts in the field.” Dalla voce “Peer Review” della Wikipedia… (anonymous) Reviewers are asked to evaluate: • Originality/novelty of work • Interest for the readers of the journal • correctness of methodology • correctness of results • correctness of references UGC – 5 – Peer Review E’ lo strumento utilizzato da tutte le riviste scientifiche specialistiche (non divulgative) per l’accettazione dei contributi, ed è quindi alla base della credibilità e della qualità delle pubblicazioni scientifiche. Ciascun autore è chiamato regolarmente a valutare in forma anonima il lavoro degli altri esperti nel proprio campo. Solo le pubblicazioni prodotte attraverso un processo di “peer review” sono catalogate dall’ ISI (Institute for Scientific Information) e divengono accessibili attraverso il “Web of Science” e altri database. Rappresentare le molecole in 3D Un estratto dalle dispense di “Informatica per la Chimica” (Laurea Magistrale MCA) Struttura tridimensionale In queste lezioni ci occuperemo della struttura tridimensionale a livello atomico di molecole e solidi. Essa è nota, in modo più o meno dettagliato, per la maggior parte degli elementi e dei composti noti. O H N N H O COORDINATE ATOMI VISUALIZZATORE MOLECOLARE REGOLE DI RAPPRESENTAZIONE Fonti di informazione strutturale 1) Esperimenti di diffrazione da cristalli: Raggi X, neutroni, elettroni con lunghezze d’onda dell’ordine di 10-10m sono diffratti dai cristalli. Il diffrattogramma permette di risalire alle posizioni atomiche (Vedi corso “Strutturistica”) 2) Spettroscopie: le spettroscopie vibrazionali danno informazioni strutturali su piccole molecole; L’NMR fornisce informazioni sulle distanze interatomiche anche per molecole complesse. (Vedi corsi di Chimica Fisica) 3) Chimica computazionale:permette di calcolare, con accuratezza variabile, la struttura di qualsiasi modello (Vedi corso “Chimica Computazionale”) Diffrazione e dati strutturali RX Risoluzione di strutture (complessa e non deterministica) MISURA: Direzione e intensità dei raggi diffratti Buon senso… Distribuzione spaziale della densità elettronica Simulazione della diffrazione (semplice e deterministica) Posizioni dei nuclei Chimica computazionale Trasmettere e catalogare i dati strutturali Posizioni dei nuclei nel cristallo • Molti atomi • Simmetria traslazionale • Simmetria nella cella • Incertezze • Altre informazioni… Come si trasmette questa informazione in modo: 1) Univoco 2) Sintetico 3) Standardizzato ? DB Una scheda tipica (per un solido) 1)Dati per l’identificazione 2)Dati bibliografici 3)Dati strutturali • Parametri di cella (a,b,c,,,) • Coordinate degli atomi non legati da relazioni di simmetria (“unità asimmetrica”) • Simmetria (simbolo o numero del gruppo spaziale) 4) Altri dati non indispensabili… a b Un file tipico (molecola) 1)Dati per l’identificazione/bibliografici 2)Coordinate degli atomi 3) Dati opzionali • Connettività (legami) 4) PAROLE CHIAVE per il visualizzatore molecolare FORMATI DIVERSI Specifici per ciascun visualizzatore molecolare Alcuni sono standard, riconosciuti da molti programmi Formati dei files strutturali - XYZ H 0.96 O N° atomi 0.96 H 3 titolo elemento ACQUA O 0.0000 0.0000 0.0000 H 0.9600 0.0000 0.0000 H -0.0603 0.9198 0.0000 Coordinate cartesiane del nucleo, in Angstrom Altri Formati H PDB COMPND ACQUA AUTHOR ROBERTO BISCEGLIA 0.96 HETATM 1 O 1 0.251 -0.360 -0.046 HETATM 2 H 1 0.249 0.684 0.231 HETATM 3 H 1 0.586 -0.954 0.791 TER 4 O 0.96 1 CONECT 1 2 CONECT 1 3 MOL (MDL) END Originariamente per molecole biologiche. Molto diffuso. CHIME OK H H2O in formato MDL 3 M 2 0 0 0 0 0 0 0 0999 V2000 0.5022 1.3441 0.0003 O 0 0 0 0 0 -0.4635 1.3441 0.0003 H 0 0 0 0 0 0.8008 2.2703 0.0003 H 0 0 0 0 0 2 1 1 0 0 0 3 1 1 0 0 0 END Proprietario ma molto diffuso. CHIME OK Altri Formati - Moldraw H MOL (Moldraw) 0.96 TITLE ACQUA CELL O 1 1 1 90 90 90 COORD 8 -0.0186320592 -0.0251784584 -0.0623306726 1 -0.0206320592 1.0188215416 0.2146693274 1 0.3163679408 -0.6191784584 0.7746693274 0.96 H -1 0 0 0 Formato proprio del Programma freeware Moldraw (P. Ugliengo). Poco diffuso ma molto utile per modificare e convertire strutture. Non adatto a CHIME (ma Moldraw salva anche formati adatti) ATTENZIONE: non confondere files .mol di Moldraw ed MDL-CHIME! Hanno la stessa estensione ma formati diversi! Database “free” •Protein Data Bank (PDB) www.wwpdb.org Contiene le strutture di proteine, acidi nucleici, e loro complessi con altre molecole. Sistematico: contiene tutte le strutture note. •Crystallography Open Database (COD) http://cod.ibt.lt/ Un database generico, che fa appello al motto “…the atomic positions in natural or synthetic crystal samples of our Universe are not copyrightable” •Reciprocal Net www.reciprocalnet.org E’ il sito di un’associazione di laboratori di cristallografia. Contiene una collezione di molecole e cristalli comuni. MINCRYST database.iem.ac.ru/mincryst Specializzato in strutture di minerali. Fornisce anche i diffrattogrammi. Utilizza Java per la visualizzazione 3D. Altri: http://www.iucr.org/cww-top/data.index.html Fonti cartacee I cristallografi pubblicano da sempre i loro risultati su riviste specializzate. Inoltre, alcuni testi raccolgono collezioni di dati strutturali. fonte contenuto disponibilità Structure Reports (1939-)A,B A:strutture inorganiche e metalli, B: strutture organiche Biblioteca Mineralogia R.W.G. Wyckoff, “Crystal Structures” Composti inorganici Biblioteca Chimica Acta Crystallographica A,B,C La principale e più autorevole rivista di cristallografia generale Biblioteca Mineralogia Sempre più frequentemente, strutture vengono pubblicate anche su riviste non specializzate. Inoltre, il numero di strutture risolte annualmente aumenta esponenzialmente a causa di progressi tecnici e scientifici. Le fonti cartacee cadranno in disuso (ai fini di archivio). Database elettronici Fin dagli anni sessanta, alcuni gruppi hanno iniziato a catalogare dati strutturali in formato elettronico, attingendo dalle pubblicazioni cartacee o dirattamente ai dati sperimentali. Inizialmente si trattava di databases raccolti in ambito accademico e distribuiti gratuitamente ai fini di ricerca. La raccolta e l’immissione dei dati nei databases sono diventate nel tempo attività molto onerose. Ciò, unito al valore strategico dei databases in molti campi della ricerca industriale (ad es. nel settore farmaceutico) ha contribuito a trasformare la produzione di databases su basi commerciali. Negli anni, si è attuata una concertazione degli sforzi dei vari produttori, specializzatisi nella raccolta di classi di composti. Oggi esistono tre principali database strutturali: • ICSD (Inorganic Crystal Structure Database) • CSD (Cambridge Structural Database – composti organici) • PDB (protein Data Bank – molecole biologiche) Database elettronici -2 Inorgnic Crystal Structure Database (ICSD) Cambridge Structural Database (CSD) Protein Data Bank (PDB) Produttore FIZ-Karlsruhe, D Cambridge Crystallographic Data Centre, UK Brookhaven National Laboratory, USA Contenuto Elementi e strutture inorganiche Strutture organiche Proteine, acidi nucleici, virus, ed altre macromolecole di interesse biologico N° strutture (2003) Distribuzione Sito web Oltre 70000 272000 22900 On-line o su (1) CDrom On-line o su (parecchi) CD-rom On-line, con parecchi “mirror sites”. http://www.stninternational.de/stnda tabases/databases/ics d.html www.ccdc.cam.ac.uk www.pdb.org