Chimica in Rete
P. Ugliengo e G. Ricchiardi
A.A. 2010-2011
Master “Materiali, Matematica
e Modelli per la Progettazione
e la Produzione”
Proprietà chimiche e fisiche dei materiali di
interesse industriale: origine, tipologie, basi di dati.
Dott. Gabriele Ricchiardi
Dipartimento di Chimica - NIS Centre of Excellence- NISLabVCO
[email protected]
Estratto dalle dispense del Corso “Chimica in Rete”, per la LEZIONE DEL 1/10/2012
Chimici in rete
Questo è un corso semplice, ma gli argomenti che ospita possono
essere molto complessi e molto importanti. Per inquadrarli,
iniziamo con alcune domande:
Cosa è veramente una pagina web?
Quanto affidabili sono Google e la
Wikipedia in campo chimico?
Come si osserva e condivide l’immagine
3D di una struttura molecolare?
Come e dove si trovano informazioni sulle
proprietà di molecole e reazioni?
La logica CLIENT-SERVER
COME VENGONO DISTRIBUITI GLI IPERTESTI
La logica CLIENT-SERVER
Come si raggiungono le pagine web in rete
Ogni file su un server ha un URL (Uniform Resource Locator):
http://nomesito.nomerete.xxx/percorso/nomefile.estensione
Protocollo
(un “linguaggio” tra
client e server)
Percorso e nome del
file da reperire
http://
Indirizzo IP (Internet protocol) del server
ftp://
Numerico (es. 130.192.119.108) o alfanumerico
(www.unito.it)
https://
Speciali server detti DNS traducono un
tipo di indirizzo nell’altro
Cosa sono gli ipertesti
L'ipertesto è un insieme di testi o pagine leggibili con l'ausilio di un'interfaccia
elettronica, in maniera non sequenziale, per tramite di particolari parole chiamate
collegamenti ipertestuali (hyperlink o rimandi), che costituiscono un rete raggiata o
variamente incrociata di informazioni, organizzate secondo diversi criteri, ad
esempio paritetici o gerarchici, in modo da costituire vari percorsi di lettura
alternativi. (http://it.wikipedia.org/wiki/Ipertesto)
“Home”
WWW
E-mail
Files di dati
Storia del concetto e delle sue implementazioni: http://en.wikipedia.org/wiki/Hypertext
Utilità degli ipertesti - 1
Organizzare/Condividere collezioni complesse di dati
Un ipertesto permette di organizzare e trasmettere dati scientifici
di natura diversa: risultati sperimentali, modelli, commenti,
bibliografia, files e programmi, ecc…
Un classico: la tavola periodica
(ad esempio www.webelements.com)
Scarno ma ricco di informazioni:
National Institute of Standards and Technology
http://webbook.nist.gov/chemistry/
CHEMISTRY WEBBOOK
Ipertesti oltre l’HTML
La logica degli ipertesti pervade la tecnologia…
•I “Desktop” di tutti i
sistemi operativi
(Windows, Linux, MacOSX
ecc.) si presentano come
ipertesti e propongono
“link” a files, programmi e
risorse remote.
•I sistemi di azionamento e di “help” di tutti gli
apparecchi sono ordinati come ipertesti (talvolta
HTML, ma più spesso di altro tipo). Un ipertesto
formato da “menù” e “link” è indispensabile
quando le risorse di visualizzazione sono povere
(ad esempio il display dei telefoni cellulari).
Motori di ricerca - 1
Utilizzati per ricercare selettivamente informazioni di ogni natura presenti
su internet.
Motori di ricerca – 2 - Web Crawler
I motori di ricerca indicizzano la rete e consultano l’”indice” in tempo reale a
richiesta dell’utente.
WEB CRAWLER: è il sistema di raccolta e
catalogazione delle informazioni sui siti. Questa
avviene attraverso l’uso di ROBOT virtuali:
programmi che provano ad accedere a TUTTI gli
indirizzi della rete (secondo una qualche strategia
statisticamente efficace) , seguono TUTTI i LINK e
catalogano le pagine in base al loro contenuto,
creando un database. Questo database è in continuo
aggiornamento, indipendentemente dagli utenti.
•Le pagine vengono anche valutate in base alla loro rilevanza, valutata in base al
numero di collegamenti che puntano ad essa. Questo criterio è appropriato a
valutare le pagine commerciali e di informazione, MA NON QUELLE
SCIENTIFICHE. Per esempio, le fonti scientifiche molto autorevoli sono spesso
meno “cliccate” di quelle divulgative o fanta-scientifiche.
•ATTENZIONE: molti siti hanno sviluppato metodi per ingannare i motori di
ricerca, in modo da ottenere un’alta valutazione di rilevanza.
Motori di ricerca – 3 -Search Engine
•SEARCH ENGINE è il sistema di ricerca vero e proprio, che cerca
determinate PAROLE CHIAVE all’interno del database. La ricerca
avviene nel momento stesso in cui viene richiesta dall’utente. Vengono
vagliate miliardi di pagine web in pochi secondi. Ciò richiede server
estremamente potenti ed algoritmi intelligenti.
•Fornisce una lista di URL ordinata in base alla presunta rilevanza. Il
criterio principale per valutare la rilevanza è il numero di link da altri
siti alla pagina stessa.
•I vari motori di ricerca differiscono sia per la metodologia e l’efficacia
del sistema di raccolta dei dati, che per la metodologia di ricerca nel
database.
•Gli algoritmi matematici alla base di questi processo sono o SEGRETI
oppure BREVETTATI.
Vedi anche le voci “search engine” e “web crawler” su Wikipedia
Motori di ricerca - 4
Chi fa i motori di ricerca e perché?
Quando si usano i motori di ricerca, è importante ricordare che si
tratta di servizi basati su logiche commerciali. I motori di ricerca
sono spesati dalla pubblicità e dai servizi a pagamento che ospitano.
L’informazione presentata dai motori di ricerca varia a seconda
dell’algoritmo utilizzato, della disponibilità del dato (alcuni siti
impediscono l’accesso ai motori di ricerca) e di eventuali filtri sul
contenuto (censura, “parental control”, ecc.).
ATTENZIONE: I criteri di rilevanza dei motori di ricerca comuni
sono spesso inadatti alla classificazione dell’informazione tecnica.
Inoltre, i motori danno ALTA RILEVANZA ai link commerciali
paganti.
NOTA PRATICA: se non si trova un dato, non è detto che non esista
e che non sia disponibile! Cercatelo con una strategia diversa.
Database bibliografici
Il principale canale di diffusione dei risultati della ricerca scientifica
è la pubblicazione su riviste, libri, atti di congressi e brevetti.
La pubblicazione su queste fonti segue normalmente regole di verifica
dell’attendibilità,
basate sul meccanismo del “peer
ISI - Web of prevalentemente
Knowledge
review” (vedi oltre).
Tutte le pubblicazioni soggette a peer review o altra forma di verifica,
sono catalogate da alcuni DATABASE BIBLIOGRAFICI, che facilitano
il reperimento dell’informazione.
I principali database disponibili nella nostra Università sono:
• ISI – Web of knowledge (da tutti i computer dell’Università)
•Sci-Finder (solo dalla biblioteca G.Ponzio, in orari predefiniti)
Motori di ricerca - 6
Ricerca con Google vs. ricerca sistematica
La ricerca di una “parola chiave” su un motore di ricerca e su un
database sono due cose molto diverse:
Motore di ricerca
Database
Fonti primarie
Molto varie e ricche, ma
non note con precisione
Note
Estensione dei dati
Elevata ma non nota
Nota
Completezza dei dati
NO
Garantita
Corrispondenza ricercarisultato
Statistica, con “ranking”
arbitrario.
Deterministica
Accuratezza dei dati
Altamente variabile
Garantita
Il motore di ricerca è utile e potente per esplorare un campo di
conoscenze incognito, ma fornisce risultati dalla provenienza e
qualità incerte, che risentono delle finalità commerciali.
Motori di ricerca - 7
Usare con efficacia i motori di ricerca
Quando si cerca un’informazione, è importante immaginare le
probabili caratteristiche della pagina in cui è contenuta.
• LINGUA: se si cerca una parola italiana, si limita automaticamente
la ricerca alle pagine in italiano, che sono pochissime, soprattutto in
ambito chimico!
• “SPELLING”: è importante che sia corretto. Alcuni motori
suggeriscono le varianti.
• ECCESSIVA SPECIFICITA’: espressioni molto specifiche possono
dare risultati falsi negativi.
• ECCESSIVA GENERICITA’: i dati utili restano “sepolti” in un mare
di dati inutili che non è possibile analizzare
NOTA PRATICA: le ricerche per parole chiave vanno ripetute con vari
sinonimi, imparando dalle ricerche precedenti. Confrontare i risultati
con quelli ottenuti con ricerche sistematiche.
Motori di ricerca - 8
Valutare la qualità del risultato
Quando si cerca un’informazione, è importante immaginare le
probabili caratteristiche della pagina in cui è contenuta.
• l’informazione è pertinente?
• Chi ha redatto l’informazione?
• Chi la pubblica (originale o citazione) ?
• A chi è destinata l’informazione (news, didattica, pubblicità,
specialisti)?
• Quanto accurata è l’informazione?
• E’ adeguatamente referenziata?
ESERCIZIO: ricercare su Google la parola methane ( o altro composto
chimico) e rispondere ai quesiti precedenti per i primi 20 risultati.
Motori di ricerca - 9
Cercare una struttura molecolare sul web
Quando si cerca una struttura, è importante immaginare il sito che
la ospita ed il nome del file che la contiene o una sua parte.
• DATABASES. Esistono databases di strutture. Ad esempio il
database Protein Data Bank (www.pdb.org) contiene le strutture di
tutte le proteine e gli acidi nucleici note. Molti database sono
tuttavia a pagamento (v. Corso “Informatica per la Chimica”)
• COLLEZIONI tematiche. Esistono siti che presentano collezioni
tematiche di strutture, spesso a scopi didattici. (es. cercare
“molecules structure” su Google)
• SINGOLI FILES. Molte strutture si trovano in pagine web
specifiche. Possono essere trovate immaginando il probabile nome
del file che le descrive (ad es. cerca “adenine.pdb” o “adenine pdb”
su Google)
Motori di ricerca più comuni - 10
GOOGLE: http//www.google.com/. E’ il più veloce e preciso
motore di ricerca.
YAHOO:
http//www.yahoo.com/. Contiene
http://dir.yahoo.com/Science/Chemistry/
LIVE SEARCH:
una sezione chimica:
http//www.live.com
Recentissimo e potente. Imitazione Microsoft di Google.
SCIRUS:
http//www.scirus.com
Un motore di ricerca specializzato nelle scienze. L’ideale per
reperire bibliografia tecnico-scientifica.
User Generated Content - 1
L’evoluzione più recente del Web è l’esplosione del numero di
siti che distribuiscono informazioni generate dagli utenti dei
siti stessi. Ad esempio:
•I BLOG
• I siti sui quali si pubblicano/condividono immagini e
video (es. You Tube)
• l’enciclopedia on line “Wikipedia”
Apparentemente, queste forme di condivisione
dell’informazione non sono adatte alla trasmissione di
informazioni scientifiche, tuttavia:
•La logica dei BLOG può essere utilizzata per
sviluppare quaderni di laboratorio condivisi.
•La “Wikipedia” sta diventando sempre più accurata
v. La voce “User generated content” sulla Wikipedia
UGC – 2 - Wikipedia
www.wikipedia.org (portale multilingue)
en.wikipedia.org (per la versione inglese - CONSIGLIATA)
Wikipedia is a multilingual, Web-based, free content
encyclopedia project. Wikipedia is written collaboratively by
volunteers; with rare exceptions, its articles can be edited by
anyone with access to the Web site. The name is a portmanteau
of the words wiki (a type of collaborative website) and
encyclopedia.
La correttezza e la completezza delle voci della Wikipedia sono variabili e
non garantite. Tuttavia, almeno per quanto riguarda la versione inglese, il
“tasso di errore” è stato valutato essere comparabile a quello di altre
enciclopedie redatte da professionisti.
UGC – 3 - Wikipedia
Come può essere accurata?
“Wikipedia appeals to the authority of peer-reviewed publications rather than the
personal authority of experts.[53] Wikipedia does not require that its contributors give
their legal names[54] or provide other information to establish their identity.[55]
Although some contributors are authorities in their field, Wikipedia requires that even
their contributions be supported by published sources.[53] A drawback of this citationonly approach is that readers may be unable to judge the credibility of a cited source.”
Dalla voce “Wikipedia” della Wikipedia…
• continua revisione da parte degli altri autori (ma non è un vero “peer
review”)
• gli articoli devono contenere riferimenti bibliografici accurati
• gli articoli vengono valutati in base a criteri di completezza formale
• ogni voce è collegata alle versioni precedenti ed è accompagnata da una
pagina di discussioni.
UGC – 4 – Peer Review
“Peer review (known as refereeing in
some academic fields) is a process of
subjecting an author's scholarly work
or ideas to the scrutiny of others who
are experts in the field.”
Dalla voce “Peer Review” della Wikipedia…
(anonymous) Reviewers are asked
to evaluate:
• Originality/novelty of work
• Interest for the readers of the
journal
• correctness of methodology
• correctness of results
• correctness of references
UGC – 5 – Peer Review
E’ lo strumento utilizzato da tutte le riviste scientifiche
specialistiche (non divulgative) per l’accettazione dei contributi,
ed è quindi alla base della credibilità e della qualità delle
pubblicazioni scientifiche.
Ciascun autore è chiamato regolarmente a valutare in forma anonima il
lavoro degli altri esperti nel proprio campo.
Solo le pubblicazioni prodotte attraverso un processo di “peer
review” sono catalogate dall’ ISI (Institute for Scientific
Information) e divengono accessibili attraverso il “Web of
Science” e altri database.
Rappresentare le molecole in 3D
Un estratto dalle dispense di “Informatica per la Chimica”
(Laurea Magistrale MCA)
Struttura tridimensionale
In queste lezioni ci occuperemo della struttura tridimensionale a livello
atomico di molecole e solidi. Essa è nota, in modo più o meno
dettagliato, per la maggior parte degli elementi e dei composti noti.
O
H
N
N
H
O
COORDINATE ATOMI
VISUALIZZATORE
MOLECOLARE
REGOLE DI
RAPPRESENTAZIONE
Fonti di informazione strutturale
1) Esperimenti di diffrazione da cristalli: Raggi X, neutroni, elettroni
con lunghezze d’onda dell’ordine di 10-10m sono diffratti dai
cristalli. Il diffrattogramma permette di risalire alle posizioni
atomiche (Vedi corso “Strutturistica”)
2) Spettroscopie: le spettroscopie vibrazionali danno informazioni
strutturali su piccole molecole; L’NMR fornisce informazioni sulle
distanze interatomiche anche per molecole complesse. (Vedi
corsi di Chimica Fisica)
3) Chimica computazionale:permette di calcolare, con accuratezza
variabile, la struttura di qualsiasi modello (Vedi corso “Chimica
Computazionale”)
Diffrazione e dati strutturali
RX
Risoluzione di strutture
(complessa e non
deterministica)
MISURA:
Direzione e intensità
dei raggi diffratti
Buon senso…
Distribuzione spaziale
della densità
elettronica
Simulazione della
diffrazione (semplice
e deterministica)
Posizioni dei nuclei
Chimica
computazionale
Trasmettere e catalogare i dati strutturali
Posizioni dei nuclei
nel cristallo
• Molti atomi
• Simmetria traslazionale
• Simmetria nella cella
• Incertezze
• Altre informazioni…
Come si trasmette questa
informazione in modo:
1) Univoco
2) Sintetico
3) Standardizzato
?
DB
Una scheda tipica (per un solido)
1)Dati per l’identificazione
2)Dati bibliografici
3)Dati strutturali
• Parametri di cella (a,b,c,,,)
• Coordinate degli atomi non legati da
relazioni di simmetria (“unità
asimmetrica”)
• Simmetria (simbolo o numero del
gruppo spaziale)
4) Altri dati non indispensabili…
a

b
Un file tipico (molecola)
1)Dati per l’identificazione/bibliografici
2)Coordinate degli atomi
3) Dati opzionali
• Connettività (legami)
4) PAROLE CHIAVE per il visualizzatore
molecolare
FORMATI DIVERSI
Specifici per ciascun visualizzatore molecolare
Alcuni sono standard, riconosciuti da molti programmi
Formati dei files strutturali - XYZ
H
0.96
O
N° atomi
0.96
H
3
titolo
elemento
ACQUA
O 0.0000
0.0000
0.0000
H 0.9600
0.0000
0.0000
H -0.0603
0.9198
0.0000
Coordinate cartesiane
del nucleo, in
Angstrom
Altri Formati
H
PDB
COMPND
ACQUA
AUTHOR
ROBERTO BISCEGLIA
0.96
HETATM
1
O
1
0.251
-0.360
-0.046
HETATM
2
H
1
0.249
0.684
0.231
HETATM
3
H
1
0.586
-0.954
0.791
TER
4
O
0.96
1
CONECT
1
2
CONECT
1
3
MOL (MDL)
END
Originariamente per molecole
biologiche. Molto diffuso. CHIME OK
H
H2O in formato MDL
3
M
2
0
0
0
0
0
0
0
0999 V2000
0.5022
1.3441
0.0003 O
0
0
0
0
0
-0.4635
1.3441
0.0003 H
0
0
0
0
0
0.8008
2.2703
0.0003 H
0
0
0
0
0
2
1
1
0
0
0
3
1
1
0
0
0
END
Proprietario ma molto diffuso. CHIME OK
Altri Formati - Moldraw
H
MOL (Moldraw)
0.96
TITLE
ACQUA
CELL
O
1 1 1 90 90 90
COORD
8
-0.0186320592
-0.0251784584
-0.0623306726
1
-0.0206320592
1.0188215416
0.2146693274
1
0.3163679408
-0.6191784584
0.7746693274
0.96
H
-1 0 0 0
Formato proprio del Programma freeware Moldraw
(P. Ugliengo). Poco diffuso ma molto utile per
modificare e convertire strutture.
Non adatto a CHIME (ma Moldraw salva anche
formati adatti)
ATTENZIONE: non confondere files .mol di
Moldraw ed MDL-CHIME! Hanno la stessa
estensione ma formati diversi!
Database “free”
•Protein Data Bank (PDB) www.wwpdb.org
Contiene le strutture di proteine, acidi nucleici, e loro complessi con
altre molecole. Sistematico: contiene tutte le strutture note.
•Crystallography Open Database (COD) http://cod.ibt.lt/
Un database generico, che fa appello al motto “…the atomic positions
in natural or synthetic crystal samples of our Universe are not
copyrightable”
•Reciprocal Net
www.reciprocalnet.org
E’ il sito di un’associazione di laboratori di cristallografia. Contiene
una collezione di molecole e cristalli comuni.
MINCRYST database.iem.ac.ru/mincryst
Specializzato in strutture di minerali. Fornisce anche i
diffrattogrammi. Utilizza Java per la visualizzazione 3D.
Altri: http://www.iucr.org/cww-top/data.index.html
Fonti cartacee
I cristallografi pubblicano da sempre i loro risultati su riviste
specializzate. Inoltre, alcuni testi raccolgono collezioni di dati
strutturali.
fonte
contenuto
disponibilità
Structure Reports
(1939-)A,B
A:strutture inorganiche e
metalli, B: strutture
organiche
Biblioteca
Mineralogia
R.W.G. Wyckoff,
“Crystal
Structures”
Composti inorganici
Biblioteca Chimica
Acta
Crystallographica
A,B,C
La principale e più
autorevole rivista di
cristallografia generale
Biblioteca
Mineralogia
Sempre più frequentemente, strutture vengono pubblicate anche su
riviste non specializzate. Inoltre, il numero di strutture risolte
annualmente aumenta esponenzialmente a causa di progressi tecnici
e scientifici. Le fonti cartacee cadranno in disuso (ai fini di archivio).
Database elettronici
Fin dagli anni sessanta, alcuni gruppi hanno iniziato a catalogare dati
strutturali in formato elettronico, attingendo dalle pubblicazioni cartacee o
dirattamente ai dati sperimentali.
Inizialmente si trattava di databases raccolti in ambito accademico e distribuiti
gratuitamente ai fini di ricerca.
La raccolta e l’immissione dei dati nei databases sono diventate nel tempo
attività molto onerose. Ciò, unito al valore strategico dei databases in molti
campi della ricerca industriale (ad es. nel settore farmaceutico) ha contribuito a
trasformare la produzione di databases su basi commerciali.
Negli anni, si è attuata una concertazione degli sforzi dei vari produttori,
specializzatisi nella raccolta di classi di composti. Oggi esistono tre principali
database strutturali:
• ICSD (Inorganic Crystal Structure Database)
• CSD (Cambridge Structural Database – composti organici)
• PDB (protein Data Bank – molecole biologiche)
Database elettronici -2
Inorgnic Crystal
Structure
Database (ICSD)
Cambridge
Structural
Database
(CSD)
Protein Data
Bank
(PDB)
Produttore
FIZ-Karlsruhe, D
Cambridge
Crystallographic Data
Centre, UK
Brookhaven National
Laboratory, USA
Contenuto
Elementi e strutture
inorganiche
Strutture organiche
Proteine, acidi
nucleici, virus, ed
altre macromolecole
di interesse biologico
N° strutture
(2003)
Distribuzione
Sito web
Oltre 70000
272000
22900
On-line o su (1) CDrom
On-line o su
(parecchi) CD-rom
On-line, con parecchi
“mirror sites”.
http://www.stninternational.de/stnda
tabases/databases/ics
d.html
www.ccdc.cam.ac.uk
www.pdb.org
Scarica

Dispensa su DB strutturali e Internet