Cosa abbiamo noi internauti in comune con l’Orlando Furioso e la
raccolta delle bacche? E cosa hanno in comune prodotti come il pacchetto
iLife di Apple, il Mac OS X Tiger, il sistema operativo Vista di Microsoft, Mozilla Thunderbird? Molto più di quanto siamo in grado di cogliere con le nostre reminiscenze letterarie o esperienze da boy scout nelle cacce al tesoro, o grazie alla navigazione spietata sul Web. L’Orlando Furioso perde la ragione che viene ritrovata da Anfolso — l’uomo alato — sulla luna, fra oggetti e persone persi nel corso della vita; un po’ come tutti noi, spesso cerchiamo freneticamente informazioni nella Rete, perdendoci nei meandri dei motori di ricerca, in una sorta di
raccolta delle bacche, imbattendoci sovente in risultati non voluti e dando origine al fenomeno ormai noto come serendipità, finché qualcosa o qualcuno non ci viene in soccorso.
La ricerca di sistemi ottimali di organizzazione delle informazioni, che accomuna molti software come quelli succitati, è l’obiettivo degli autori di questo testo, che si impegnano a convertire dati sparsi in conoscenza, conferendo loro un valore aggiunto che concorra alla nostra soddisfazione di esploratori.
“Gli uomini potrebbero avere in mano i rimedi per molta parte dei loro mali, se si servissero insieme, nel modo dovuto, dei ricchissimi dati raccolti in questo secolo, delle osservazioni e della vera analisi. Attualmente la conoscenza umana della natura mi sembra simile ad un bazar, fornitissimo di ogni genere di merci, ma mancante di ordine e di inventario”. Questa fu l’intuizione di
Leibniz, uno dei più grandi filosofi del Seicento, che fra le altre attività fu anche bibliotecario. Se fosse ancora vivo, forse rimarrebbe stupito da quanti dati ha prodotto la civiltà della tecnologia, ma sarebbe anche sorpreso del fatto che ancora parte di quel disordine non è stata messa a posto.
Di norma e per mia pecca, salto a piè pari le prefazioni ai testi, ma per questa ho fatto un’eccezione, essendo firmata da una personalità di spicco nel settore del Web,
Maurizio Boscarol, psicologo ed esperto di usabilità, responsabile e curatore di
Usabile, nonché autore del libro
Ecologia dei siti Web. Ed infatti, quella che di norma è una presentazione del testo è diventata una sintetica, ma necessaria introduzione alla lettura del libro, anticipazione dei concetti fondamentali per la
knowledge organization.
Quest’opera,
Organizzare la conoscenza, è scritta a tre mani da
Claudio Gnoli,
Vittorio Marino,
Luca Rosati, che sembrano conoscere molto bene — al limite dell’ovvietà — vizi e virtù del popolo di Internet. Il testo dunque ha come obiettivo principale utilizzare gli studi di biblioteconomia e gli strumenti informatici oggi disponibili per contribuire effettivamente al Web 2.0, semantico ed organizzato, dove tutto ciò che vi è compreso è anche rintracciabile senza sforzo.
“La sistematizzazione è un valore aggiunto al sapere, poiché lo rende maggiormente comprensibile e consultabile, anche se con l’evolvere delle conoscenze uno specifico sistema è probabilmente destinato a modificarsi o addirittura essere smontato”. Così introduce l’argomento del testo,
Claudio Gnoli, bibliotecario presso la Facoltà di Matematica dell’Università di Pavia e autore di numerosi
studi sull’archiviazione dei dati e sui principali sistemi elaborati. E sono proprio questi ultimi, la loro storia e l’evoluzione subita, l’argomento dei primi quattro capitoli del testo, prettamente accademici, ma indispensabili per comprendere quale sia il contributo della biblioteconomia ai metodi di catalogazione delle informazioni sul Web.
Le personalità che hanno contribuito nei secoli ai cataloghi bibliografici e all’organizzazione dei database di recente concezione, sfilano in questi capitoli con i loro contributi:
Aristotele e la sua semanticità;
Bacon e la sua prefazione al moderno ipertesto;
R.R. Sokal e
P.H.A. Sneath con la
tassonomia numerica;
W. Hennig con la
tassonomia cladistica;
M. Dewey padre della Classificazione Decimale (DDC, in inglese) cui seguì la Classificazione Decimale Universale (UDC) degli avvocati belgi
P. Otlet e
H.M. Lafontaine. Uno spazio a sé occupano invece due sistemi importanti: quello della
Library of Congress Classification (LCC) e la
Bibliographic classification di
Bliss, nota come BC2. Entrambe le sistematizzazioni in questione hanno subito evoluzioni, ma sono ritenute attualmente ancora valide ed utilizzate: la LCC ha dato vita ai soggettari basati sui criteri di uniformità, univocità, esaustività, specificità e predittività (ovvero rispondenza alle aspettative degli utenti);
Bliss invece incentrò l’attenzione sulla sequenza della classificazione, ossia la
gradazione nella specificità, che si traduce nel fatto che gli argomenti generali devono precedere quelli specializzati.
Ma tutti questi schemi, benché siano il frutto di anni di studi e sperimentazioni, hanno incontrato nel tempo una considerevole difficoltà applicativa nella catalogazione di dati informatici, soprattutto legata al preconcetto che biblioteconomia e
Web searching o
Web browsing non possano vivere in osmosi. Un’eccezione è rappresentata dallo studio di
Ranganathan, che ideò l’
analisi a faccette, basandosi su un chiaro presupposto:
“L’acutezza nel pensiero, la chiarezza nell’espressione, l’esattezza nella comunicazione, la prontezza nella risposta e la precisione nel servizio dipendono in ultima analisi dalla successione conveniente, ovvero dalla Classificazione”. Il
Classification Research Group (CRG) ha ripreso questa classificazione applicandola a settori specialistici. I membri hanno poi condotto separatamente studi individuali, il più importante dei quale ha prodotto il PRECIS, un raffinato sistema di indicizzazione a faccette.
Tutta questa premessa teorica risulta forse un po’ pesante, ma prelude alla parte più importante del testo perché propedeutica all’analisi degli ipertesti. Da dove deriva il termine di Web semantico? Cosa sono gli indici, i tesauri, le
keyword e i classauri, che oggi pervadono il mondo informatico? Senza prendere il posto dei lessicografi, ma procedendo per utilità, il testo spende non poco spazio per le
keyword in context (KWIC) o
out of context (KWOC). Le prime sono lasciate all’interno del testo ed evidenziate graficamente, le seconde sono visualizzate separatamente dal testo. In entrambi i casi esse servono da suggerimento ai motori di ricerca e vengono utilizzate nei metadati associati alle pagine Web:
meta name=”keyword” content=”programmazione; visual basic; funzioni”
Ma se questo breve esempio ha distolto il pensiero dalla parola è bene che si ricordi un detto di
Hsun-tse:
“L’impiego dei termini appropriati è il requisito morale dell’organizzazione della conoscenza, dunque il suo pieno sfruttamento”. Banale osservazione, diremmo, se non ci trovassimo di fronte alla società del consumismo, che lancia campagne di marketing via Internet, assegnando nomi nuovi a prodotti vecchi per venderli come novità. Ma dove finiscono tutti i termini tecnici che servono per indicizzare un documento in Internet? Ovviamente nei blasonati
tesauri, ovvero vocabolari controllati, definiti sulla base dello standard internazionale per la costruzione dei tesauri monolingue e che distinguono
descrittori da
non descrittori, rendendo esplicite le relazioni fra i termini:
relazione sinonimica espressa normalmente dai simboli
USE e
UF (Use For);
relazione gerarchica, fra genere e specie o fra intero e parte, espressa dai simboli
BT (Broad Term) e
NT (Narrow Term);
relazione associativa espressa dal simbolo RT
(Related Term) per indicare una coordinazione, una esemplificazione o una causa-effetto.
Con i primi standard siamo dunque giunti al capitolo dedicato agli strumenti informatici e all’
information retrieval. Questo termine, assai utilizzato nel linguaggio informatico, mutua il suo significato dal verbo
to retrieve, ossia l’azione del cane da caccia che porta indietro la selvaggina catturata. La metafora dunque non potrebbe essere più adatta ad indicare la principale operazione svolta dai motori di ricerca:
si tratta di catturare, nella foresta delle informazioni, quelle rilevanti, e di portarle al cospetto dell’utente affinché possa esaminarle ed utilizzarle. Nel Web semantico, secondo la definizione di
Tim Berners-Lee, questa spiegazione ha un senso: le informazioni in Rete, ovunque siano fisicamente allocate, possono essere messe in relazione e produrre una selezione
intelligente di contenuti sulla base dei criteri di ricerca impostati. Tuttavia, affinché questa ricerca dia buoni frutti, è importante che le informazioni siano classificate, poggino cioè su un’architettura precisa e fondata sull’analisi dei testi, sul clustering dei dati, su assegnazione di classi, su idonei linguaggi di marcatura e sugli schemi di classificazione.
A questi ultimi è dedicato il
capito 5 del testo, uscito dalla penna e dagli
studi di
Vittorio Marino, che analizza i rapporti fra la biblioteconomia e lo schema
home-grown. Benché la prima abbia ormai raggiunto uno sviluppo ottimale nel settore della catalogazione del materiale cartaceo, come già accennato, il Web sembra non tenerne conto e preferire forme di catalogazione ibrida, anche quando esso fa ricorso alla classificazione a faccette di
Ranganathan. Questa sarebbe la scelta ottimale per indicizzare contenuti specializzati, difficilmente classificabili secondo un unico parametro, e quando si intenda fornire ad essi un accesso multiplo, riservandosi la possibilità di aggiunta o modifica o integrazione a posteriori dei criteri di classificazione (scalabilità).
”Le faccette risultano in generale utili per favorire un approccio all’informazione di tipo esplorativo (exploratory seeking), capace di garantire in ogni fase approfondimenti, aggiustamenti del tiro o veri e propri cambi di rotta (secondo il modello della raccolta delle bacche — berrypicking — elaborato da Marcia Bates.” Nel testo non mancano esempi di browser che utilizzano la classificazione a faccette e sono anche analizzati i più importanti progetti di classificazione come
FLAMENCO (FLexible information Access using MEtadata in Novel COmbinations) dell’Università di Barkeley e
SWED (Semantic Web Environment Directory), accanto a prodotti noti come l’
iLife di Apple, il Mac OS X Tiger, il sistema operativo Vista di Microsoft e Mozilla Thunderbird, tutti basati con varie soggettivazioni, sul modello della classificazione a faccette.
iTunes sovverte la logica gerarchica a favore di quella semantico-relazionale, delocalizzando le risorse e sfumando la distinzione fra searching e browsing, interfaccia Web e interfaccia software. Mac OS X Tiger utilizza due nuove funzionalità: il sistema di ricerca interno
Spotlight e le cartelle speciali
Smart Folder. Il primo consente, come
iTunes, di effettuare la ricerca dei documenti sia in maniera tradizionale che mediante metadati semantici. Le seconde contengono documenti raggruppati secondo criteri soggettivi di ricerca impostati dall’utente. Anche
WinFS di Vista rinuncia alla tradizionale ricerca per modificare sostanzialmente il concetto di file system; abbandona dunque l’annidamento gerarchico per il più versatile
approccio relazionale e sfaccettato ai documenti.
Dall’analisi dei diversi sistemi di classificazione nasce il
capitolo 8 di
Luca Rosati, studioso di architetture dell’informazione ed esperto di interazione uomo-macchina, incentrato sulle considerazioni epistemologiche. Premesso che ogni classificazione è sempre una commistione di razionale ed empirico, fortemente influenzata da fattori come l’età, differenze culturali e sociali, pensare di poter definire uno schema classificatorio unico ed universalmente valido è pura utopia.
”Non vi è quindi una demarcazione netta fra classificazioni popolari e classificazioni scientifiche” (
Bowker). Certamente noi occidentali non utilizzeremmo mai un’unica parola per identificare donna, fuoco, acqua, combattimento e animali pericolosi, eppure il termine
Balan racchiude tutti questi significati secondo il
Dyirball, una lingua aborigena australiana.
Alla luce di queste premesse e dei dibattiti che hanno visto fronteggiarsi concetti come gerarchie, alberi, non-alberi,
pile cabinet, grafi e relativi studiosi come
Merholz e
Hurst arroccati sui concetti di obiettivo dell’utente e navigabilità delle pagine, sembrerebbe che fra tutti i litiganti abbia ragione
Herasimchuk quando affermava che
la navigazione non esiste. Essa è un mito, una pura illusione creata dai clic da una pagina all’altra. Ma
Herasimchuk è un designer e la sua è solo una provocazione verso il colleghi del Web, ma questa ironica asserzione riconduce all’opportunità di scegliere di quando in quando fra navigazione all’interno di alberi e navigazione di non-alberi (grafi). L’autore propende per la seconda opzione e nel testo è ampiamente motivata tale scelta anche con esempi di siti che hanno adottato questa filosofia. Ciò che invece mi piace riportare di queste pagine finali del testo è il messaggio: il dibattito sull’organizzazione della conoscenza è ancora in corso, ma vale quanto detto in passato da
Kuhn, e cioè che la gran parte delle rivoluzioni non sono sempre il prodotto di nuove scoperte quanto il nuovo modo di guardare le cose.