Organizzare la conoscenza 3.3: novembre 2013 di Claudio Gnoli L’uomo ha sempre organizzato la conoscenza •Aristotele •Hsün-tse •Trivio e Quadrivio •Konrad Gesner: Catalogus plantarum, Bibliotheca universalis •Karl Linné •Francis Bacon: memoria, immaginazione, ragione •GW Leibniz •John Wilkins: lingua filosofica •Encyclopédie •Auguste Comte •Melvil Dewey: ragione, immaginazione, memoria •Paul Otlet, “l’homme qui voulait classer le monde” •Wikipedia ... ISKO International Society for Knowledge Organization Fondata nel 1989 da una costola della Gesellschaft für Klassifikation da Ingetraut Dahlberg e altri Congressi nazionali e internazionali (nel 2010 a Roma) Sezioni in Germania, Spagna, Francia, Italia, Gran Bretagna, Polonia, Maghreb, USA-Canada, Brasile Cosa non è knowledge organization organization dealing with knowledge knowledge organization knowledge management knowledge organization knowledge representation Organizzazione della conoscenza (del sapere) (tedesco Wissensordnung, inglese knowledge organization) • • • • • • • • • • • nelle biblioteche nelle basi-dati bibliografiche nei musei negli archivi nei centri di documentazione aziendali nei repertori (es. Pagine gialle) nei siti web nella scuola nell’università nei ministeri ... (G)LAM Convergenza fra istituzioni della memoria: • • • • Galleries Libraries Archives Museums cfr. recenti accordi fra federazioni internazionali e fra associazioni italiane (MAB) Accentuata dalla convergenza al digitale [WB Rayward, 1998, Electronic information and the functional integration of libraries, museums and archives. In Higgs ed. Oxford UP, p. 207-224.] (G)LAM Trattano documenti con supporti diversi: testi a stampa, testi digitali, siti, lettere, fotografie, reperti, esemplari vivi… [Briet; Buckland; Ridi] Es. la conoscenza sulle cornamuse in nord Italia è veicolata da supporti molto diversi: esemplari in uso… Capanne di Cosola (AL) …libri accademici… Lucca …pubblicazioni locali… Gandino (BG) …archivi sonori… New York Resoconto di viaggio, 1824 Parigi (F) Affresco, 16’ sec. \ Stroppo (TO) Quadro, 17’ sec. Genova Acquarello, 19’ sec. Piacenza Archivio di polizia, 19’ s. Genova Museo di strumenti Ozzano Taro (PR) Sipario Broni (PV) Raccolta di marionette Torino Associazione Passirano (BS) Documenti Come far convergere effettivamente i diversi cataloghi e metadati? Che cosa hanno in comune questi documenti, che cosa può fungere da ponte?... Documenti … Hanno in comune le cornamuse, ossia i contenuti. Occorre indicizzare questi, facendo KO. Indicizzazione • di documenti esistenti: bibliografie • “ “ posseduti: cataloghi (catalogazione) x • rispetto alla forma: i. descrittiva (autori, date...) • “ al contenuto: i. per soggetto (termini, classi...) “Organizzazione della conoscenza” si riferisce soprattutto all’i. per soggetto («semantica») Struttura della KO KO theory es. teoria dei livelli KO systems (KOS) es. CDU KO representation KR es. SKOS KO applications KM es. la vostra biblioteca KOS: knowledge organization systems (sistemi per l’organizzazione della conoscenza) •titoli •parole-chiave •folksonomie •vocabolari controllati •soggettari •tesauri •tassonomie •classificazioni •ontologie •... semanticità crescente, complessità crescente Un documento da indicizzare “"Napoli, amore e libertà". E' questo il sottotitolo scelto per un libro a metà tra la saggistica e la narrativa, dedicato allo spirito partenopeo inteso come filosofia di vita, opere e pensieri ... L'io narrante è Gennaro Bellavista, professore di filosofia in pensione e napoletano purosangue ... Bellavista cerca di far capire che a Napoli la vita è un'arte sottile dove l'arrangiarsi non è una componente temporanea, per risolvere una situazione transitoria, ma risulta essere un elemento con il quale affrontare il quotidiano a viso aperto, tra disagi, disoccupazione, gioie e dolori che si mescolano e si vivono con il massimo del sentimento ... i capitoli dispari sono il resoconto delle lezioni che il professor Bellavista tiene ai suoi allievi, e i capitoli pari raccontano episodi di vita vissuta, utili a comprendere lo spirito napoletano.” Un documento da indicizzare Esercizio: parallelamente al documento esempio (libro), immaginare l'indicizzazione di documenti di altro tipo: – un articolo scientifico – un post di blog – un video Titoli Così parlò Bellavista (linguistica? religione?...) Spesso non esprime realmente il contenuto: “Il nome della rosa” non tratta di giardinaggio Parole-chiave (keyword) Napoli, filosofia di vita, disoccupazione, lezioni organizzate in ordine alfabetico: disoccupazione filosofia di vita lezioni Napoli Folksonomie da folk+taxonomy “classificazione del popolo” parole-chiave (tag) assegnate dagli utenti Soluzione per collezioni molto grandi con ovvi limiti di coerenza Tesauri partenopeo (thesauri) partenopei partenopei USE napoletani (controllo morfologico) (controllo lessicale) Napoli Napoli BT Italia (relazioni gerarchiche) Napoli NT Vomero Napoli Napoli RT Maradona (relazioni associative) es. UNESCO, Eurovoc, AAT, TRT Intestazioni per soggetto (subject headings) filosofia di vita – Napoli - lezioni I termini vengono riordinati secondo un ordine di citazione standard: ogni termine è in qualche modo una specificazione dei precedenti. I luoghi, i periodi storici e le forme (es. dizionari, congressi) vanno in fondo, a meno che non siano l’oggetto principale. Intestazioni per soggetto Nell’indice, le stringhe di soggetto sono elencate alfabeticamente a seconda dei termini che le compongono. Nessun termine (soggetto generale) viene prima che qualche termine (soggetto specifico). filosofia filosofia filosofia filosofia filosofia di di di di di vita vita vita vita vita – – – Milano Napoli Napoli – lezioni New York In ambiente digitale si può cercare anche i termini interni, ma l’ordine rimane importante per il browsing. Tassonomie Estonia Finlandia Italia Milano Napoli Posillipo Secondigliano Vomero Torino Lettonia I termini sono elencati alfabeticamente, ma hanno suddivisioni gerarchiche: es. Open directory I concetti affini vengono a trovarsi lontani nell’alfabeto... Classificazioni Per avvicinare i concetti affini, creiamo una notazione di simboli, e usiamo questa per ordinare: B C D E EI EM EP Finlandia Estonia la notazione può essere Lettonia espressiva: ogni carattere Italia aggiunge specificità Torino Milano Napoli la notazione può EPP Posillipo essere mnemonica EPR Vomero EPU Secondigliano es. DDC, UDC, CC, BC2, Iconclass Classificazioni 765 filosofia di vita 7651 filosofia calvinista 7652 filosofia partenopea ... NB: Le classificazioni enumerative (LCC, CDD) non producono classi coestese, cioè che esprimano tutta la specificità del soggetto di un documento. Qui, “disoccupazione” e “lezioni” si perdono... Ontologie Esprimono •concetti, •relazioni tra di loro, •restrizioni sulle relazioni: filosofia –in_luogo [nome_proprio:] Napoli anche per applicazioni di intelligenza artificiale Ontologie Informano le macchine con affermazioni sul mondo: “i gatti sono felini” invece di “gatti (tipo di felini)” •ontologie di dominio (domain ontologies) •ontologie generali (upper, top-level ontologies): •Cyc •BFO •GFO •DOLCE •SUMO KOS speciali vs. generali • speciali = di dominio (cfr. domain analysis) pregi: esprimono meglio la prospettiva degli utenti prediletti possono essere molto dettagliati es. MeSH, AAT, IconClass, JEL, LPI-BIB, Onto-Med • generali = universali (cfr. Manifesto di León) pregi: favoriscono la ricerca interdisciplinare permettono interoperabilità fra utenti e fra sistemi es. LCSH, Nuovo Soggettario, DDC, BC2, GFO Merging: fusione di KOS speciali [IFLA Satellite M. C&I Firenze ’09] Mapping: connessione di KOS speciali via un KOS generale • Analisi a faccette Le faccette (inglese facet) sono gli aspetti nei quali un certo dominio di conoscenza può essere analizzato: •in chimica: reagenti, prodotti, catalizzatori, condizioni di laboratorio, metodi di analisi, ... •in economia: beni, consumatori, produttori, processi economici, istituzioni... •in giardinaggio: piante, attrezzi, fattori climatici, operazioni... Analisi a faccette Sono come i pezzi del Meccano (Ranganathan) o come i componenti di una molecola (Broughton) Analisi a faccette •si elencano i concetti che ricorrono nel dominio (es. parole-chiave associate a un campione di articoli): fiori, irrigazione, pioggia, radici, semina, sole... •si raggruppano i concetti omogenei: fiori, radici irrigazione, semina pioggia, sole •si dà un nome ad ogni gruppo: organi delle piante operazioni fattori climatici Analisi a faccette Entro ogni faccetta, i concetti si dispongono in sequenze e gerarchie convenienti, fissate nella notazione: O O1 O2 O3 O31 O32 O4 O5 O51 O52 O53 O6 organi delle piante: radici fusto rami rami principali rami secondari foglie fiori fiori ermafroditi fiori femminili fiori maschili frutti Esercizio: creare notazione per “bacche” e per “tuberi” Categorie fondamentali Qualsiasi faccetta è riconducibile a una delle categorie fondamentali: Oggetti piante Parti organi Proprietà Materiali Processi Operazioni operazioni Agenti fattori climatici Spazio Tempo Le categorie forniscono un ordine di citazione standard Classificare a faccette “La potatura del melo” potatura : rami : melo F51 O3 72 72O3F51 (nell’ordine di citazione delle faccette si applica il principio di inversione: gli ultimi saranno i primi) Esercizio: costruire la notazione per “raccolta delle mele”, sapendo che “raccolta” è la classe 8 della sua faccetta Uno schema a faccette FATKS. Religion 590 religione C storia E strumenti E23 libri sacri H destinatari J attività K processi M proprietà M7 eresie N organizzazioni 5904 buddhismo 5907 cristianesimo Es.: [Tempo] [Agenti] [Pazienti] [Operazioni] [Processi] [Proprietà] [Parti] [Oggetti] classificare “Bibbia” Browsing con le faccette Per effetto della notazione, le classi composte sono ordinate secondo il principio che il generale precede lo specifico. Nessuna faccetta è più generale che qualcuna: 590 590M7 590M7E24 590M7J2 590M7J2E24 religione in generale eresie eresie riguardo ai libri sacri eresie nella liturgia eresie nella liturgia riguardo ai libri sacri Browsing con le faccette A parità del resto, le faccette più generiche sono quelle di Tempo, Spazio, Agente ecc.: essendo scritte in coda, nell’ordinamento “contano di meno”, mentre negli elenchi vengono per prime (inversione): 590E24 libri sacri 590J2E24 libri sacri nella liturgia 590M7E24 eresie riguardo ai libri sacri 590M7J2E24 eresie riguardo ai libri sacri nella liturgia Searching con le faccette M7 trova tutte le classi contenenti il concetto di eresie: 590M7 590M7E24 590M7J2 590M7J2E24 5904M7 5907M7 5907M7J2 eresie eresie eresie eresie eresie eresie eresie nei libri sacri nella liturgia nella liturgia rig. libri sacri nel buddhismo nel cristianesimo nella liturgia cristiana Notazione K%$,666*æf Gli utenti possono esserne spaventati, ma sia in search che in browse loro useranno gli equivalenti verbali Ordinamento personalizzabile L’utente può riordinare i risultati secondo la faccetta che gli interessa di più, es. E: 590E24 590E24M7 590E24M7J2 590E25M7 5404E24 5404E25 libri sacri eresie nei libri sacri eresie nella liturgia rig. libri sacri eresie nei testi di commento libri sacri nel buddhismo testi di commento nel buddhismo Ordinamento personalizzabile Per gli architetti dell’informazione, infatti, le faccette riflettono meglio i diversi modelli mentali degli utenti (Rosati) Opac a faccette Rete bibliotecaria di Romagna junior ICDL Siti a faccette Perciò le faccette hanno successo nei siti web... Siti a faccette ...anche se di solito sono usate senza notazione, né relazioni, né ordinamento sistematico, e per campi non semantici Siti a faccette Ancora pochi i siti che sfruttano pienamente l’analisi a faccette, come: •Biblio(a)tipici (CMS) •AIB-WEB. Contributi •Trovabile (CMS) (in parte) •BioAcoustic Reference Database (PHP) •progetto FATKS (PHP) •progetto FACET Schemi a faccette Esercizio: costruire uno schema a faccette per un dominio di proprio interesse, seguendo il metodo già illustrato: •si elencano i concetti che ricorrono nel dominio (es. parole-chiave associate a un campione di articoli) •si raggruppano i concetti omogenei •si dà un nome ad ogni gruppo •si organizzano in ogni gruppo i concetti secondo gerarchia e successione conveniente •si riconoscono le categorie fondamentali •si attribuisce la notazione di conseguenza •si sperimenta il sistema Faccette ovunque •folksonomie a faccette, es. Facetag •tesauri a faccette, es. AAT, Nuovo Soggettario •voci di soggetto a faccette (ruoli), es. PRECIS, GRIS •ontologie a faccette (slot), es. GFO Nonché in scienze sociali (faccette), musicologia, linguistica (casi profondi), filosofia (categorie), nomi di gatti... Faccette intra-dominio In biblioteca le faccette si riferiscono a una disciplina: chimica : composti : reazioni : metodi : condizioni mentre nei siti si trovano faccette di oggetti (fenomeni): auto : carrozzeria : cilindrata : colore : carburante Relazioni trans-dominio Spesso però occorre esprimere relazioni con altre discipline o con altre categorie di oggetti: chimica : economia auto : importazione : legislazione Queste relazioni di fase a loro volta possono appartenere a varie categorie: •influenza di •applicato a •confrontato con •dal punto di vista di •... Relazioni di fase “influenza dell’immigrazione di lavoratori sulla raccolta delle mele” mele : raccolta – lavoratori : immigrazione | | | faccetta | faccetta | (agronomia) | (economia) | | relazione di fase Dimensioni “Dal mondo al classificatore” [Vickery 2008]: realtà (noumeno) fenomeni percepiti dall’uomo prospettive con cui sono considerati i fenomeni (discipline, dominii, teorie, metodi, applicazioni...) supporti materiali dei documenti indici che rappresentano i documenti Dimensioni Quindi un documento ha: • una “mente” (fenomeni) • una “lingua” (prospettiva) • un “corpo” (supporto) [Ranganathan 1967] Il Manifesto di León raccomanda che nei KOS siano espressi separatamente uno dall’altro KOS per discipline Le classificazioni tradizionali si basano sulle discipline (prospettiva): 100 510 520 610 700 800 900 filosofia matematica fisica medicina arte letteratura storia es. BUBL, VRD Toscana Quindi siamo costretti a decidere se il nostro libro è “di filosofia” oppure “di letteratura”. KOS per fenomeni Un approccio alternativo è classificare i fenomeni stessi di cui trattano i documenti: k m mf mp mq s w rocce esseri viventi funghi piante animali società manufatti (non “geologia”) (non “biologia”) Di solito, nei siti web si classificano fenomeni, mentre nelle biblioteche si classificano discipline. Livelli della realtà Un modo di ordinare i fenomeni è secondo i livelli di realtà (livelli di integrazione, di organizzazione) a cui appartengono: d e f l m n s v w ... particelle atomi molecole cellule organismi popolazioni società culture manufatti organizzazione crescente teoria dei livelli di realtà: Nicolai Hartmann James K. Feibleman Roberto Poli e altri Analisi a livelli la città di Napoli appartiene ai manufatti: wXX la disoccupazione appartiene alle società: sYY wXX sYY Napoli : disoccupazione Classificazione libera: tutto è combinabile con tutto es. Dove comincia l’Appennino. Libri e articoli, Risorse Internet per la ricerca chimica Soluzione indicata per siti, blog ecc. [Gnoli 2005] es. Dove comincia l’Appennino (menù) Combinazione libera di parole / parole-chiave / tag / termini / classi Si può sfruttare le funzioni di trattamento di stringhe: $queryK = "select file,titolo,classi from pagine WHERE classi like '%K%' ORDER BY classi"; Faccette libere Se esprimiamo le une e le altre con le stesse categorie, possiamo combinare qualsiasi concetto con qualsiasi altro (freely faceted classification): mqvt5n mammiferi, con: sistema nervoso tp4m materie plastiche, contenenti: metalli (mq5n)65(tp4m) influenza delle materie plastiche contenenti metalli sul sistema nervoso dei mammiferi es. BARD (Gnoli 2007) Applicazioni alla collocazione “successione conveniente (helpful sequence)” [Ranganathan] importante per sale a scaffale aperto to browse LCC at University of Edinburgh. New College Library Modello APUPA Alien Penumbral Umbral Penumbral Alien Biblioteca semantica Kremsmünster (Austria) Biblioteca semantica ICTP (Trieste) Applicazioni alle acquisizioni e alla circolazione Statistiche per classi (ampie) Es. metodo CONSPECTUS, Ulrich’s, Blackwell... Un KOS funge da linguaggio standard per integrare i diversi servizi Feedback continuo per ottimizzare gli investimenti Applicazioni ai cataloghi OPAC: online public access catalogue Molti strati: catalogatore base-dati locale base-dati del catalogo collettivo software di information retrieval interfaccia utente Buoni esempi. 1 Browsing per classi Biblioteche scolastiche di Foggia Buoni esempi. 2 Nuove acquisizioni per classi SB Provincia di Prato Buoni esempi. 3 Rinvii “vedi anche” Goethe Institut Interfacce Web 2.0 SB Provincia di Verona Applicazioni digitali Molti KOS tradizionali non sono ancora disponibili in formato digitale (UDC, BC2) o lo sono a pagamento (DDC) Sul Web si usano molti KOS diversi: problema dell’interoperabilità SKOS: formato per scambiare KOS in XML (ancora da perfezionare per classificazione e faccette) es. LCSH in SKOS NKOS: Networked Knowledge Organization Systems Formati di scambio •(negli OPAC) MARC •UNIMARC, MARC21, ... 184 0#$addc$bDewey$c22$eeng 630 •(nei siti web) Dublin Core <meta type=“DC:subject” content=“apples”> •(KOS sul Web) SKOS <skos:prefLabel>Apple</skos:prefLabel> •(ontologie sul Web) OWL <owl:class rdf:Id=“Apple”> Linguaggi di rappresentazione della conoscenza (KR) KR ≠ KO ≠ KM •SGML: Standard Generalized Markup Language •HTML: Hyper Text Markup Language •XML: eXtensible Markup Language •RDF: Resource Description Framework • OWL: Web Ontology Language • SKOS: Simple KOS SKOS <skos:Concept rdf:about="http:/example.com/Concept/001"> <skos:prefLabel>English cuisine</skos:prefLabel> <skos:altLabel>English dishes</skos:altLabel> <skos:altLabel xml:lang="fr">Cuisine anglaise</skos:altLab <skos:inScheme rdf:resource="http:/example.com/thesaurus"/ <skos:broader rdf:resource="http:/example.com/Concept/002" <skos:related rdf:resource="http:/example.com/Concept/003" </skos:Concept> OWL OWL Linked data Dati pubblicati sul Web in formati standard XML-RDF accessibili direttamente via URL: http://www.ente.org/schema#classe 10 questioni per il futuro della KO [Gnoli, “Knowledge organization”, 2008] (1) Si possono estendere i principi della KO ad un àmbito più ampio, compresi ipertesti, multimedia, musei, monumenti...? (2) Si può conciliare i due approcci fondamentali: ontologico ed epistemologico? (3) Si può identificare qualche fondamento ontologico per la KO? (4) Le discipline devono continuare ad essere alla base della KO? (5) Come rispettare la garanzia del punto di vista (viewpoint warrant) ? (6) Come la KO può adattarsi alle collezioni locali? (7) Come la KO può gestire l’evoluzione della conoscenza? (8) Come i KOS possono rappresentare queste dimensioni? (9) Come migliorare software e formati per rispondere a questi bisogni? (10) Chi deve fare KO: bibliotecari, autori o lettori? [email protected] Twitter: @scritur