Home » Focus del mese

Cambia anche il libro nell’era digitale.

8 Maggio 2003 Commenta

Lo sviluppo delle biblioteche digitali sono uno dei progetti approvati dal Comitato dei Ministri per la societa’ dell’Informazione: si fa riferimento in particolare al Progetto MBAC che si propone in primo luogo:
1. la realizzazione di un sistema multiutente (scuole ed universita’, industria turistica, comunita’ locali, ecc.) attraverso la rete del Servizio Bibliotecario Nazionale (SBN), in grado di fornire:
a) un sistema di accesso a pagamento (pay per use) ai periodici elettronici di area tecnico-scientifica;
b) un sistema di gestione e fruizione di documenti  di alto valore culturale (documenti storici musicali, fotografie, stampe, materiali grafici e cartografici);
c) un portale innovativo al mondo dell’informazione tradizionale e della conoscenza digitale basato su una strategia comunicativa articolata su molteplici chiavi di lettura per i differenti target di utenti;
2. l’ Integrazione nella struttura del Servizio Bibliotecario Nazionale degli sviluppi di importanti iniziative digitali quali: Mediateca 2000, Biblioteca Digitale Italiana.
Successivamente sara’ possibile creare autentici Internet point presso le biblioteche pubbliche nazionali per l’apprendimento delle tecnologie informatiche di base; curare la formazione dei bibliotecari e degli operatori delle sale multimediali operanti presso biblioteche, musei, etc.; elaborare e sviluppare materiali per la formazione a distanza con la realizzazione di nuovi corsi e-learning oltre a quelli attualmente sviluppati (16 corsi su tematiche varie), rivolti sia agli operatori che agli utenti delle biblioteche.
Il progetto si propone, inoltre, l’estensione della rete costituita attualmente da 12 nodi (1 in Piemonte, 2 in Lombardia, 2 in Emilia-Romagna, 1 in Toscana, 2 nel Lazio, 2 in Campania, 1 in Basilicata, 1 in Calabria) attraverso la creazione di 2-5 nodi per ogni regione.
Commento
La nascita delle biblioteche digitali richiede, al fine di una migliore gestione delle informazioni contenute in archivi di certe dimensioni, l’adozione di alcune fondamentali tecniche informatiche che sono:
• parole-chiave;
• riassunti o abstracts;
• thesaurus;
La valutazione della efficacia delle tecniche  si fonda su quattro elementi (LOSANO):
– l’efficienza  intesa come percentuale delle informazioni pertinenti ritrovate rispetto a quelle effettivamente memorizzate;
– l’utilizzabilita’ cioe’ il rapporto tra l’uso effettivo delle informazioni trovate e il massimo uso possibile del sistema informativo stesso;
– l’accessibilita’ cioe’ il grado di difficolta’ che l’utente incontra nel porre quesiti al sistema informativo;
– la velocita’ operativa cioe’ il tempo che intercorre tra il momento in cui l’utente pone la domanda e il momento in cui riceve la risposta.

La prima tecnica informatica da esaminare e’ quella delle parole-chiave che permette di ottenere, tramite l’elaboratore, indicazioni sull’esistenza di un documento agevolando la individuazione di dati relativi ad uno scritto su una materia determinata.

La tecnica delle parole-chiave, che e’ la piu’ semplice consiste nello sfruttare le informazioni contenute nel titolo del singolo documento chiamate parole-chiave o descrittori che costituiscono il mezzo attraverso cui l’utente raggiunge i documenti che gli interessano; quando l’utente chiede di conoscere tutti i documenti sull’argomento individuato da una certa parola-chiave, il programma la ricerca in tutti i documenti memorizzati mettendo a disposizione del richiedente quelli in cui e’ stata trovata; la tecnica in esame, essendo piuttosto approssimativa, puo’ essere fruttuosamente adoperata solo nelle discipline in cui si e’ gia’ affermata la pratica di dare titoli chiari e descrittivi a libri e a saggi.

Un sistema di ricerca fondato su parole-chiave mostra immediatamente un vizio centrale: interi settori di informazioni  possono risultare inaccessibili, perche’ codificati sotto una parola-chiave che, in un’epoca successiva, e’ stata sostituita da un’altra.
Di qui un gravoso compito supplementare  per  i responsabili di sistemi informativi di riclassificazione periodica del materiale memorizzato che si aggiunge al lungo lavoro di indicizzazione iniziale.

In settori circoscritti si puo’ raggiungere una maggiore precisione, procedendo a quella che si chiama “indicizzazione in profondita’”, cioe’ un  sistema piuttosto macchinoso con cui si cerca di inserire nel computer un maggior numero di notizie collegate alle parole-chiave.
In altri termini i programmatori, esaminando tutti gli scritti su un argomento determinato, annotano il maggior numero di dati significativi e li pongono in collegamento incrociato, cosi’ l’utente puo’ individuare un testo non solo dalle parole-chiave incluse nel titolo o nel contenuto del documento, ma anche attraverso i collegamenti logici adoperati tra particolari termini.

Tanto la tecnica delle parole-chiave normali quanto quella della indicizzazione in profondita’ presentano un problema comune: l’utente del sistema informativo deve formulare il quesito con grande precisione.

La seconda tecnica del riassunto  o abstract  richiede un grande lavoro preliminare, in quanto ogni articolo deve essere riassunto da esperti e dotato di parole-chiave; i riassunti memorizzati possono venire, pero’, stampati periodicamente riunendo in un’unica pubblicazione periodica tutti gli scritti riguardanti una certa materia. Questa tecnica, per molti aspetti notevolmente utile, esaspera tre difficolta’ tipiche dell’indicizzazione:
1. vi e’ arbitrarieta’ nella scelta di cio’ che si omette e di cio’ che si conserva;
2. richiede una smisurata quantita’ di lavoro umano;
3. non si riduce la discutibilita’ del risultato raggiunto, infatti un riassunto fedele non e’ migliore di un buon insieme di parole-chiave, perche’, tanto nel primo quanto nel secondo caso, lo studioso deve sempre risalire al testo originale (LOSANO).
Le difficolta’ di questa tecnica appaiono chiare: un riassunto troppo breve omette una parte delle informazioni contenute nel testo originale, ma un riassunto che non voglia perdere alcuna informazione rispetto al testo originale finisce per riprodurlo integralmente; una volta superate queste difficolta’, il riassunto non e’ ancora memorizzabile in quanto deve essere dotato di parole-chiave con tutti i problemi di questa tecnica visti in precedenza, che si aggiungono a quelli propri di quella del riassunto.
Malgrado i problemi evidenziati la tecnica degli abstracts puo’ essere utilizzata in quei settori dove il tenore letterale del documento non e’ vincolante (articoli dottrinari) consentendo, cosi’, una ampia possibilita’ di sintesi in funzione anche dell’individuazione per parole-chiave. Le difficolta’ messe in luce devono pero’ dissuadere dall’affidarsi abitualmente a questa tecnica: bisogna soprattutto essere consapevoli che essa richiede una grande quantita’ di lavoro preliminare (LOSANO).

La terza tecnica informatica che viene applicata ai testi giuridici e’ il thesaurus.
Quando si usano le parole-chiave, si genera automaticamente anche un thesaurus cioe’ un elenco alfabetico di parole-chiave utilizzate nei vari documenti memorizzati in una determinata banca-dati. Alla costruzione di un thesaurus si fa ricorso soprattutto per la documentazione giuridica automatizzata; essa comporta un approfondito esame di contenuti e di forme in rapporto alle esigenze dell’utenza specifica.
Il contenuto dipende dalle applicazioni per le quali il thesaurus viene creato; acquistano rilevanza i tipi di descrittori o di parole-chiave, le relazioni strutturali o gerarchiche, quelle semantiche, e tutti i codici previsti o prevedibili per individuare ciscuna unita’ informativa nel sistema documentario; le relazioni strutturali e semantiche vengono diversamente espresse e risolte a seconda del tipo di ricerca impostato, vi sono ipotesi in cui si opera con radicali linguistici; ipotesi in cui si opera con parole-chiave; ipotesi in cui si adottano sistemi misti (CARIDI).

Quando si fa uso di parole-chiave il tecnico puo’ intervenire sia creando legami fra sinonimi, ovvero distinguendo gli omonimi o gli omografi evitando contaminazioni fra insiemi di documenti eterogenei. Le distinzioni tra omofoni e tra omografi, nonche’ i legami fra sinonimi, vengono attuati nel thesaurus in modo tale che, ad esempio, al termine “pensione” puo’ essere collegato il sinonimo “trattamento pensionistico” quindi, cercando la parola-chiave “trattamento pensionistico”, per mezzo di questo legame fra sinonimi,  si otterranno anche i documenti in cui la parola-chiave  non e’ “trattamento pensionistico” ma “pensione”. In questa maniera, si ottiene una documentazione piu’ completa, non appesantendo la domanda da porre all’elaboratore (LOSANO).

Il thesaurus, fin qui esaminato, chiamato positivo, perche’ contiene tutte le parole-chiave scelte dal documentarista, costituisce una guida per l’utente del sistema informativo, che – prima di rivolgere un determinato quesito all’elaboratore – potra’ verificare, attraverso la stampa dell’elenco di parole che lo compongono,  l’esistenza della parola-chiave che desidera utilizzare per la richiesta: se questa non e’ contenuta nell’elenco la ricerca non produrra’ una risposta utile; l’utente dovra’ quindi riformularla in base alle parole-chiave effettivamente contenute nel thesaurus.
Il thesaurus positivo presenta pero’ un grosso incoveniente, costituito dalle sue dimensioni che potrebbero diventare proibitive nel momento in cui si dovesse decidere di memorizzare una legislazione piuttosto vasta; in tale ipotesi, infatti, bisognerebbe includere nel thesaurus non solo quasi l’intero vocabolario della lingua italiana ma, considerata l’esistenza in determinate materie di specifici termini tecnici, che non trovano riscontro in un comune vocabolario, sarebbe necessario costituire una vera e propria enciclopedia con ovvie difficolta’ di carattere pratico (LOSANO).
Per risolvere l’inconveniente di cui sopra si e’ pensato di contrapporre al thesaurus positivo il  thesaurus negativo che ha dimensioni molto limitate perche’ non contiene tutte le parole-chiave scelte dal documentarista, ma solo un elenco di “parole vuote” che non servono ad individuare l’argomento specifico del documento: in tal modo il programma confronta tutte le parole di ogni documento memorizzato con l’elenco delle parole vuote, mettendo in memoria tutte le parole che non coincidono con quelle vuote, attraverso quest’espediente diventano parole-chiave tutte le parole non contenute nel thesaurus negativo” (LOSANO).

Il vantaggio di questo sistema e’ rappresentato dal fatto che non si ha intervento manuale nell’attribuzione delle parole-chiave, in quanto automaticamente tutte le parole contenute nel testo e non elencate nel thesaurus negativo sono parole-chiave, diminuendo cosi’ il lavoro manuale di preparazione, nonche’ il costo dell’indicizzazione.
Ma con l’avvento di Internet e quindi di diverse tecniche e concezioni legate al mondo telematico al fine di una piu’ efficace gestione delle informazioni sono state sconvolte le tradizionali metodologie di trattamento documentario. Difatti con la rete e’ cambiato il concetto di sistema informativo, passato da una dimensione locale ad una globale, e si e’ anche allargato il significato di informazione, non piu’ intesa come equivalente al documento, ma, grazie agli ipertesti, comprensiva di una soggettiva concatenazione di concetti.
Con la rete la tecnologia dell’informazione si trova a fronteggiare problemi diversi; il punto cruciale non e’ piu’ la raccolta ed organizzazione delle fonti, quanto l’accesso mirato a quelle rilevanti; spesso l’informazione a disposizione e’ troppa, confusa, non attendibile, disordinata, non strutturata.

In tale contesto il contributo dell’intelligenza artificiale si colloca nella cd. estrazione di conoscenza che e’ una tecnica che consente di filtrare, navigando nella rete, solo le informazioni pertinenti ad un dato settore di interesse (ad esempio solo le informazioni finanziarie); gli strumenti si basano su due tipici paradigmi di I.A.: i nuclei concettuali (conceptual cluster) ed i parser del linguaggio naturale. Con i primi vengono descritti gli elementi della materia di interesse mediante tutte le possibili espressioni e forme linguistiche ( ad es. societa’, capitali, azioni, stock, interesse, ratei, profitto, ecc.), segnalando anche  quali caratteristiche ci si aspetta dai dati che si cercano, ad esempio, in notizie di carattere finanziario ricorreranno i nomi di societa’ quotate in borsa, di organismi finanziari, di quote azionarie, ecc. Con il secondo strumento si filtrano (parsing) le stringhe di parole in modo da rintracciare all’interno le ‘parole civetta’.
Una tecnica piu’ raffinata di I.A. da applicare sempre in tale settore e’ il data mining.
Letteralmente mining e’ l’attivita’ del minatore, cioe’ lo scavo, l’estrazione di materiali preziosi da materiali di scarto: nel data minig il materiale prezioso da rintracciare e’ la conoscenza, cioe’ informazioni nuove e originali su determinati fenomeni, estratte da grandi quantita’ di dati. La conoscenza scoperta con il data mining e’ qualcosa di piu’ del risultato di analisi statistiche, in quanto dovrebbe evidenziare non solo la frequenza di certi fenomeni, ma i modi in cui vengono a concatenarsi  circostanze o fattori (association rules). Data una grande quantita’ di dati, si tratta di individuare combinazioni di dati o attribuzioni di valori che si ripetono con continuita’, per stabilire dipendenze o connessioni (ad es., dai dati sulle vendite di un prodotto e’ possibile individuare le classi di consumatori ecc.).
In informatica il KDD (knowledge discovery in databases) viene utilizzato per l’acquisizione semi-automatica di conoscenza da grandi masse di dati esistenti.
Un perfezionamento dunque dei tipici processi induttivi di apprendimento automatico.

Scritto da

Commenta!

Aggiungi qui sotto il tuo commento. E' possibile iscriversi al feed rss dei commenti.

Sono permessi i seguenti tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>